百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python数据清洗--类型转换和冗余数据删除

off999 2024-09-13 13:36 65 浏览 0 评论

私信我或关注猿来如此呀公众号,回复:数据学习,免费领取学习资源包

数据分析过程中最头疼也是工作量最大的部分算是探索和清洗了,探索的目的是了解数据,了解数据背后隐藏的规律,清洗的目的则是为了让干净的数据进入分析或建模的下一个环节。作者将通过三篇文章,详细讲解工作中常规的数据清洗方法,包括数据类型的转换,重复数据的处理,缺失值的处理以及异常数据的识别和处理。这是第一篇文章,主要分享的内容包括,文中涉及到的数据可以至文末查看下载链接:

数据类型的转换

冗余数据的识别和处理

数据类型的判断和转换

如下表所示,为某公司用户的个人信息和交易数据,涉及的字段为用户id、性别、年龄、受教育水平、交易金额和交易日期。从表面上看,似乎没有看出数据背后可能存在的问题,那接下来就将其读入到Python中,并通过探索的方式发现数据中的问题。



读取数据,以及查看数据规模、查看数据中各变量的数据类型的代码如下:

# 导入第三方包
import pandas as pd
# 读入外部数据
data3 = pd.read_excel(io=r'C:UsersAdministratorDesktopdatasdata3.xlsx')
# 查看数据的规模
data3.shape
out:
(3000, 6)
# 查看表中各变量的数据类型
# data3.dtypes
out:

表中各变量的数据类型如表下表所示:



上述代码利用shape“方法”返回了数据集的规模,即该数据包含3000行6列;通过dtypes“方法”则返回了数据集中各变量的数据类型——除id变量和age变量为数值型,其余变量均为字符型。直观上能够感受到一点问题,即数据类型不对,例如用户id应该为字符型,消费金额custom_amt为数值型,订单日期为日期型。如果发现数据类型不对,如何借助于Python工具实现数据类型的转换呢?可参照如下代码的实现。

# 数值型转字符型
data3['id'] = data3['id'].astype(str)
# 字符型转数值型
data3['custom_amt'] = data3['custom_amt'].str[1:].astype(float)
# 字符型转日期型
data3['order_date'] = pd.to_datetime(data3['order_date'], format = '%Y年%m月%d日')
# 重新查看数据集的各变量类型
data3.dtypes
out:

这些数据经过处理后,各个字段的数据类型如下表所示:



如上结果所示,三个变量全都转换成了各自所期望的数据类型。astype“方法”用于数据类型的强制转换,可选择的常用转换类型包括str(表示字符型)、float(表示浮点型)和int(表示整型)。由于消费金额custom_amt变量中的值包含人民币符号“¥”,所以在数据类型转换之前必须将其删除(通过字符串的切片方法删除,[1:]表示从字符串的第二个元素开始截断)。对于字符转日期问题,推荐使用更加灵活的to_datetime函数,因为它在format参数的调节下,可以识别任意格式的字符型日期值。

需要注意的是,Python中的函数有两种表现形式,一种是常规理解下的函数(语法为func(parameters),如to_datetime函数),另一种则是“方法”(语法为obj.func(parameters),如dtypes和astype“方法”)。两者的区别在于 “方法”是针对特定对象的函数(即该“方法”只能用在某个固定类型的对象上),而函数并没有这方面的限制。

基于如上类型的转换结果,最后浏览一下数据的展现形式:

# 预览数据的前5行
data3.head()



冗余数据的判断和处理

如上过程是对数据中各变量类型的判断和转换,除此还需要监控表中是否存在“脏”数据,如冗余的重复观测和缺失值等。可以通过duplicated“方法”进行 “脏”数据的识别和处理。仍然对上边的data3数据为例进行操作,具体代码如下所示。

# 判断数据中是否存在重复观测
data3.duplicated().any()
out:
False

如上结果返回的是False,说明该数据集中并不存在重复观测。假如读者利用如上的代码在数据集中发现了重复观测,可以使用drop_duplicates“方法”将冗余信息删除。

需要说明的是,在使用duplicated“方法”对数据行作重复性判断时,会返回一个与原数据行数相同的序列(如果数据行没有重复,则对应False,否则对应True),为了得到最终的判断结果,需要再使用any“方法”(即序列中只要存在一个True,则返回True)。

duplicated“方法”和drop_duplicates“方法”都有一个非常重要的参数,就是subset。默认情况下不设置该参数时,表示对数据的所有列进行重复性判断;如果需要按指定的变量做数据的重复性判断时,就可以使用该参数指定具体的变量列表。举例如下:

# 构造数据
df = pd.DataFrame(dict(name = ['张三','李四','王二','张三','赵五','丁一','王二'],
 gender = ['男','男','女','男','女','女','男'],
 age = [29,25,27,29,21,22,27],
 income = [15600,14000,18500,15600,10500,18000,13000],
 edu = ['本科','本科','硕士','本科','大专','本科','硕士']))
# 查看数据
df



目测有两条数据完全一样,就是用户张三,如果直接使用drop_duplicates“方法”,而不做任何参数的修改时,将会删除第二次出现的用户张三。代码如下:

# 默认情况下,对数据的所有变量进行判断
df.drop_duplicates()



假设在数据清洗中,用户的姓名和年龄相同就认为是重复数据,那么该如何基于这两个变量进行重复值的删除呢?此时就需要使用subset参数了,代码如下:

df.drop_duplicates(subset=['name','age'])



需要注意的是,使用drop_duplicates“方法”删除重复数据,并不能直接影响到原始数据,即原始数据中还是存在重复观测的。如需使drop_duplicates“方法”的删除功能作用在原始数据中,必须将inplace参数设置为True

来源网络,侵权删除

私信我或关注猿来如此呀公众号,回复:数据学习,免费领取学习资源包

相关推荐

电脑怎么安装虚拟机教程(电脑如何安装虚拟机的视频教程)

答:笔记本电脑允许安装虚拟机的方法:1.在“虚拟机”窗口的工具栏中单击“创建虚拟机”命令,弹出“创建虚拟机”对话框,指定该虚拟机的名称和位置;2.进入“指定内存和网络选项”对话框,建议在内存中设置大于...

手机桌面动态壁纸(手机桌面动态壁纸动漫)

打开手机来到手机桌面,长按手机桌面的空白处,会跳出对桌面的设置。2.在跳出的功能选项中选择第一个壁纸,对手机壁纸进行一系列的设置。3.选择壁纸之后再跳出来的设置中选择滚动,这样的话壁纸就能谁让你手划而...

xp装win7双系统怎么设置(xp系统怎么装双系统)

设置U盘为第一启动项并进入PE系统。开机按F2进入BOIS,在BOOT选项中将U盘设为第一启动盘,通过按F6(有的是Shift+)调整顺序。(或开机按ESC选择启动盘,即你的U盘)。按F10保存...

系统之家u盘装系统工具(系统之家u盘安装系统步骤win7)

系统之家下的系统用U盘安装的方法:1、首先,关闭所有的杀毒软件。?2、进入工具后,在最上方选择U盘启动,进入U盘启动盘制作界面。?3、保留默认格式和分区格式,无需手动更改。点击开始制作。?4、工具会自...

服务器系统有哪几种(服务器系统叫什么名字)
服务器系统有哪几种(服务器系统叫什么名字)

服务器系统主要分为四大流派:LINUX、WINDOWS、NETWARE、UNIX。服务器系统通常来讲是指安装在服务器上的操作系统。比如安装在Web服务器、应用服务器和数据库服务器等上的操作系统,是企业IT系统的基础架构平台,也是按应用领域划...

2025-12-22 04:03 off999

msdn重装系统(msdn重装win10)

笔记本一般都是家庭版正版,就下载第二个消费者版本然后选择《家庭版》,如果不对应安装就会提示需要激活!如果使用工具激活了,以后你机器自带的正版系统也就没有了。1.建议先安装驱动。2.因为安装驱动可以...

修复磁盘能不能中途取消(修复磁盘能不能中途取消掉)

修复磁盘可以原则上建议等待,一般情况下10分钟左右磁盘就会检测完毕。但如果超过10分钟,就不建议等待了,这种情况基本都是硬盘有逻辑坏道或者物理坏道,基本都是非正常关机造成的。所以,可以使用PE系统进行...

数据库系统工程师(数据库系统)

1相对来说比较难考2因为数据库系统工程师需要掌握大量的数据库理论知识、数据库设计和管理技能、数据分析和优化能力等多方面的技能,考试难度较大。3但是只要有足够的学习时间和精力,通过系统学习和练习,...

u盘安装win7系统到固态(u盘安装系统到固态硬盘)

1.进入bios设置,查看你的本本是否可以直接设置硬盘顺序。可以的话设置下,然后固态硬盘安装win7即可。2.接硬盘数据线注意顺序,固态硬盘接前面,数值小的端口。根据你的情况如果接口一样,可以交换2条...

优盘启动盘重装系统进入bios

原因分析:开机时直接进入BIOS的主要原因是主办BIOS的设置出现了问题。有些电脑的主板在设置的时候为了能够更加人性化所以加入了许多其他的功能。当BIOS的设置不正确时重启电脑就会自动进入BIOS。解...

台式电脑怎么调节亮度快捷键
  • 台式电脑怎么调节亮度快捷键
  • 台式电脑怎么调节亮度快捷键
  • 台式电脑怎么调节亮度快捷键
  • 台式电脑怎么调节亮度快捷键
usb系统盘下载(系统u盘之家)

手机不可以下载电脑系统到U盘里,这是跟系统文件的格式有直接关系。电脑的系统文件,它在下载安装的时候必须使用电脑版本的U盘才可以正确安装。手机的版本它和电脑的版本差别比较大,即使下载后也不可能正确安装。...

windows8模拟器(国内版)(win8模拟器安卓版下载)

雷电模拟器能在win8系统运行,1、官网下载雷电模拟器,双击安装包进入安装界面。2、点击“自定义安装”修改安装路径,点击“浏览”选择好要安装的路径,默认勾选“已同意”,最后点击“立即安装”。...

win10安装专业版还是家庭版(win10安装专业版还是家庭版好)

从Win10家庭版和专业版对比来看,Win10专业版要比家庭版功能更强大一些,不过价格更贵。另外Win10专业版的一系列Win10增强技术对于普通用户也基本用不到,多了也显得系统不那么精简,因此普通个...

win10系统保护不见了(win10系统保护打不开怎么办)

1、启动计算机,启动到Windows10开机LOGO时就按住电源键强制关机,重复强制关机3次!2、重复步骤3次左右启动后出现“自动修复”界面,我们点击高级选项进入;3、接下来会到选择一个选项界面...

取消回复欢迎 发表评论: