Python数据清洗(一):类型转换和冗余数据删除
off999 2024-09-13 13:36 78 浏览 0 评论
作者 | 刘顺祥
来源 | 数据分析1480
数据分析过程中最头疼也是工作量最大的部分算是探索和清洗了——探索的目的是了解数据,了解数据背后隐藏的规律;洗的目的则是为了让干净的数据进入分析或建模的下一个环节。小编将通过三篇文章,详细讲解工作中常规的数据清洗方法,包括数据类型的转换,重复数据的处理,缺失值的处理以及异常数据的识别和处理。这是Python数据清洗系列的第一篇文章,主要分享的内容包括——数据类型的转换and冗余数据的识别和处理
数据类型的判断和转换
如下表所示,为某公司用户的个人信息和交易数据,涉及的字段为用户id、性别、年龄、受教育水平、交易金额和交易日期。从表面上看,似乎没有看出数据背后可能存在的问题,那接下来就将其读入到Python中,并通过探索的方式发现数据中的问题。
读取数据,以及查看数据规模、查看数据中各变量的数据类型的代码如下:
# 导入第三方包 import pandas as pd # 读入外部数据 data3 = pd.read_excel(io=r'C:\Users\Administrator\Desktop\datas\data3.xlsx') # 查看数据的规模 data3.shape out: (3000, 6) # 查看表中各变量的数据类型 # data3.dtypes out:
表中各变量的数据类型如表下表所示:
上述代码利用shape“方法”返回了数据集的规模,即该数据包含3000行6列;通过dtypes“方法”则返回了数据集中各变量的数据类型——除id变量和age变量为数值型,其余变量均为字符型。直观上能够感受到一点问题,即数据类型不对,例如用户id应该为字符型,消费金额custom_amt为数值型,订单日期为日期型。如果发现数据类型不对,如何借助于Python工具实现数据类型的转换呢?可参照如下代码的实现。
# 数值型转字符型 data3['id'] = data3['id'].astype(str) # 字符型转数值型 data3['custom_amt'] = data3['custom_amt'].str[1:].astype(float) # 字符型转日期型 data3['order_date'] = pd.to_datetime(data3['order_date'], format = '%Y年%m月%d日') # 重新查看数据集的各变量类型 data3.dtypes out:
这些数据经过处理后,各个字段的数据类型如下表所示:
如上结果所示,三个变量全都转换成了各自所期望的数据类型。astype“方法”用于数据类型的强制转换,可选择的常用转换类型包括str(表示字符型)、float(表示浮点型)和int(表示整型)。由于消费金额custom_amt变量中的值包含人民币符号“¥”,所以在数据类型转换之前必须将其删除(通过字符串的切片方法删除,[1:]表示从字符串的第二个元素开始截断)。对于字符转日期问题,推荐使用更加灵活的to_datetime函数,因为它在format参数的调节下,可以识别任意格式的字符型日期值。
需要注意的是,Python中的函数有两种表现形式,一种是常规理解下的函数(语法为func(parameters),如to_datetime函数),另一种则是“方法”(语法为obj.func(parameters),如dtypes和astype“方法”)。两者的区别在于 “方法”是针对特定对象的函数(即该“方法”只能用在某个固定类型的对象上),而函数并没有这方面的限制。
基于如上类型的转换结果,最后浏览一下数据的展现形式:
# 预览数据的前5行 data3.head()
冗余数据的判断和处理
如上过程是对数据中各变量类型的判断和转换,除此还需要监控表中是否存在“脏”数据,如冗余的重复观测和缺失值等。可以通过duplicated“方法”进行 “脏”数据的识别和处理。仍然对上边的data3数据为例进行操作,具体代码如下所示。
# 判断数据中是否存在重复观测 data3.duplicated().any() out: False
如上结果返回的是False,说明该数据集中并不存在重复观测。假如读者利用如上的代码在数据集中发现了重复观测,可以使用drop_duplicates“方法”将冗余信息删除。
需要说明的是,在使用duplicated“方法”对数据行作重复性判断时,会返回一个与原数据行数相同的序列(如果数据行没有重复,则对应False,否则对应True),为了得到最终的判断结果,需要再使用any“方法”(即序列中只要存在一个True,则返回True)。
duplicated“方法”和drop_duplicates“方法”都有一个非常重要的参数,就是subset。默认情况下不设置该参数时,表示对数据的所有列进行重复性判断;如果需要按指定的变量做数据的重复性判断时,就可以使用该参数指定具体的变量列表。举例如下:
# 构造数据 df = pd.DataFrame(dict(name = ['张三','李四','王二','张三','赵五','丁一','王二'], gender = ['男','男','女','男','女','女','男'], age = [29,25,27,29,21,22,27], income = [15600,14000,18500,15600,10500,18000,13000], edu = ['本科','本科','硕士','本科','大专','本科','硕士'])) # 查看数据 df
目测有两条数据完全一样,就是用户张三,如果直接使用drop_duplicates“方法”,而不做任何参数的修改时,将会删除第二次出现的用户张三。代码如下:
# 默认情况下,对数据的所有变量进行判断 df.drop_duplicates()
假设在数据清洗中,用户的姓名和年龄相同就认为是重复数据,那么该如何基于这两个变量进行重复值的删除呢?此时就需要使用subset参数了,代码如下:
df.drop_duplicates(subset=['name','age'])
需要注意的是,使用drop_duplicates“方法”删除重复数据,并不能直接影响到原始数据,即原始数据中还是存在重复观测的。如需使drop_duplicates“方法”的删除功能作用在原始数据中,必须将inplace参数设置为True。
本期的内容就介绍到这里,下一篇将分享缺失值的识别和处理技术。
相关推荐
- 系统盘制作u盘要多大(制作系统u盘要多少g)
-
u盘制作启动盘,8g空间足够了。随着WINDOWS系统的不断完善,操作系统本身文件也越来越大,因为操作系统集成了更多的设备驱动和补丁,但是就WINDOWS10系统来说,有8g的空间足够把U盘做成启动...
- 网吧电脑怎么关闭防火墙(网吧如何关掉防火墙)
-
1、首先,我们点击电脑桌面左下角的微软按钮,弹出的界面,我们找到windows系统,点击打开它,弹出的界面,我们点击控制面板;2、弹出的界面,我们点击WindowsDefender防火墙;3、之后我...
- win7安装需要标准nvm(安装win7要求)
-
1、把操作系统的安装镜像用WINRAR软件全部解压。2、找一个U盘,不小于8GB,格式化为FAT32格式,把上一步解压的文件复制到U盘中。3、重启电脑,按F12,选择电脑当前从U盘启动,进可以进入安装...
- win10不兼容32位软件(win10系统不兼容软件)
-
使用电脑管家更新下驱动就可以了。1、打开腾讯电脑管家,点击“工具箱”。2、在工具箱里找到“硬件检测”。3、在硬件检测里点击“驱动安装”。4、可以看到“安装状态”,如果是未安装可以直接点击安装。首先你...
- win7的屏保设置在哪里(win7 如何设置屏保)
-
要设置屏保,按照以下步骤进行操作:1.点击桌面上空白处右键,选择“个性化”。2.在个性化窗口中,点击左侧菜单栏中的“屏幕保护程序”选项。3.在“屏幕保护程序”窗口中,可以选择系统提供的屏保样式。...
- 电脑重新分区后如何恢复数据
-
如果电脑从新分区后没有进行数据覆盖,那么数据恢复的可能性是存在的。但是需要注意的是,分区操作本身就会对硬盘进行一定程度的数据覆盖,因此恢复成功的可能性会受到影响。如果您需要恢复分区后的数据,可以尝试使...
- 手机连接电脑没反应只能充电
-
手机连接到电脑上,只显示充电状态,可能有以下原因。1.使用的USB线只是充电线。可以更换USB数据线。2.手机的USB连接,设置为仅充电了。设置为数据传输就行了。3.电脑中缺少手机使用的USB驱动。可...
- 百度手机卫士官网(百度手机卫士官网个人中心)
-
百度卫士 百度卫士是百度公司全新出品的简单可信赖的系统工具软件,集合了电脑加速、系统清理、木马查杀和软件管理功能,竭力为用户提供轻巧、快速、智能、纯净的产品体验。百度卫士郑重承诺:永久免费、不骚扰...
- 怎么自己安装win10系统(怎么自己安装win10系统)
-
WindowS10安装系统教程方法很简单,建议使用U盘启动盘安装方法,找到一个8g的U盘,用老毛桃或大白菜启动程序制作成启动盘,将windowS10操作系统传入U盘内,插在电脑USB接...
- win7升级win10需要产品密钥(windows7升级10要激活码吗)
-
1、通过win+R打开“运行”窗口,输入“cmd”打开命令提示窗口,输入slmgr/upk,卸载当初前操作系统密钥; 2、打开当前操作系统“系统盘”找内到“ESD”(升级助手缓存的windows...
- 华硕声卡驱动下载官网(华硕官方声卡驱动)
-
如果华硕笔记本声卡驱动消失了,可以尝试以下方法进行修复。首先,进入设备管理器,检查是否存在声卡设备,并进行更新驱动。如果没有找到声卡设备,可以在华硕官方网站上搜索相应型号的声卡驱动程序,并下载安装最新...
- sd卡低级格式化(格式化 sd卡)
-
1.首先将装有内存卡的读卡器插到电脑主机USB接口中。2.接着点这里下载【内存卡低格工具llftool】工具。3.下载完成后,对其进行解压缩,然后双击运行其中的可执行程序。4.在打开的修复程序窗口中,...
- 怎么把一个u盘做成2个系统盘
-
1、U盘插入电脑,鼠标右键点击桌面的“此电脑”,选择管理。2、然后再选择“磁盘管理”。3、找到U盘的两个分区,选择一个不需要的分区,鼠标右键点击这个分区选择“删除卷”。4、删除完之后会出现一个未分配的...
-
- 华硕bios恢复出厂设置图解(华硕bios恢复出厂设置步骤)
-
可能有些人会不知道华硕笔记本怎么恢复出厂设置,现在给你们说说:华硕笔记本开机点击F2键即可进入BIOS界面,华硕主板可开机后点击DEL键进入BIOS界面。进入BIOS界面后,可通过以下两种方式恢复BIOS出厂设置:1、点击F9键后会出现以下...
-
2025-12-22 11:51 off999
- 平板电脑选择(平板电脑选择256还是512)
-
当选择平板电脑的存储容量时,以下是一些更具体的考虑因素:1.多媒体使用:如果你经常使用平板观看高清视频、存储大量照片或下载大型游戏,那么512GB的存储容量可能更适合你。这样你就可以存储更多的媒体文...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
