Python零基础玩转数据分析-缺失值处理#知识点总结
off999 2024-10-22 13:40 22 浏览 0 评论
关注二幺幺统计课堂公众号可以加入学术交流,付费获得各种数据资源。
同学们好我是陈阳,这节课我们来讲解第五章的内容,也就是统计分析能力强化数据的常见处理。
首先来看第一节也就是学生值的处理,数据缺失主要包括记录缺失和字段信息缺失等情况,那么它会对数据分析造成较大的影响,从而导致结果的不准确性更加显著。缺缺失值的处理就有大概有三种方法,今天就讲解这三种,也就是删除记录和数据插补和一个不处理的方法。
我们常见的常用的方法也就是数据的插补,也就是用一些平均值或者中位数或者奇数来填充一些。首先导入三个,就是三个常见的一个包,也就是我们数据分析的三剑客,上节课上一章也讲了当派panas和WEality。
然后来看判断是否有缺失的数据,怎么判断?要用到两个函数,一个是No和not,这两个函数常见的就是 is no,可以用其他的函数代替,主要用的就是 is no,那么它判断的就是缺失值为主,和非缺失值为force,判断就非常简单,我们来看一下具体的例子。
·首先创建两个数据结构,一个是 series和一个 data free,可以直接看了用列表就创建的 Siris对象,然后里面会有缺失值的一个填充填充,里面会元素有缺失值的充充当元素,这张 free就是两个两个两列,里面每一列也有缺失的填充元素。
·后面就是为了来看一下这个,怎么判断是否有缺失数据,所以我构造了这每一列都有缺失的情况。然后对 ser series对象直接调用,就是函数下面series下面这个函数来判断,就是它是否每一个元素是否是缺失值。
·那么它返回就是新的 series,这个 series是由一个布尔注册类型组成的。我们可以看一下,这个就是判断series是否有缺失值的情况。可以简单的来对比一下第五个元素或者缺失的,第五个元素对行就是一个缺失的情况。因为第五个元素就是用缺失指元素填充的,所以它缺失的数据部分会返回去,不缺失就是 Python,这里就可以简单的来判断出哪里是缺失的情况。
·包括如果筛选就是把这个把缺失数据筛选出去就调用,就是下面一个锁引锁引用布尔兹的锁引,就是如返回就是,所以是否为 false的所有的元素的值。
这条语句判断是因为返回的是series对象吗?再等于让它等于false 的选出来,可以直接看出print print zero之后可以看出筛选出来的非缺失的部分。可以看图形图形是不是趋势值的部分,可以直接判断是不是趋势值的部分,筛选出非缺失值的一部分。
·第二列是没有缺失值的,都是筛选过的,它的判断是用能量判断的,所以就会有缺失值对应的,糖就会自动过滤掉。筛选出非缺失值的部分,判断是否为缺失值。
·第三列是没有缺失值的,这个函数可以直接删除,比如再重新新建两个对象,一个是data frame,这里会直接利用对series利用这个对象,叫这调上这个函数,它里面的传入参数就是inplus等于处。这里的意思是为了过滤掉之后的结果是否替换为元素组。这里要注意,如果不把之前在讲plus的时候也讲过,如果不把inplus等于处添上就要重新命名给另一个对象,另一个series对象才能返回一个series,否则是不起作用的。
如果单独调用这个函数然后不插,不传入inplus等于数,不会对原来的series对象产生结果。同样的就是删除确实值,就直接对d w m下面一个serious对象,对应这个函数就会直接删除,这个确实值。而不用先筛选出是否为确实值,然后用布尔索引来筛选,这里就直接用这个函数筛选。
·可以看到这里这里的结果和上面筛选的结果是一模一样的。
·第四行第五行第八个index等于八,然后九都都会删除掉。这个函数可以直接掉,直接用于serious和alt freem。注意刚才也说了,如果是Python就要先把语句复制于另一个Python对象。如果不想复制直接就是 Python plus等于图,也就是直接在原来的Python 或者 Python 中操作。
然后来看一下填充和替补替换趋势是Excel函数,这个函数也是非常强大的,可以用各种方式来填充,比如说函数中位数或者重数来填充。
所接下来就正式来看一下。同样先新建两个结构,一个是 Python,一个是 Python。然后就是最 Python调下面它的平均数一个函数,然后中位数,纵数。这三个函数就要填充的对象,也就是计算Python中的平均数,中数平均数,中位数和重数来填充。可以看一下结果,均数、中位数和重数都表现都表达出来了。这个是中位数下面的一个,直接形成列表,把它计算出计算之后的重数,把它转化列表。
同样如果要用这些数来填充,那就用这个函数,对Python是用这个函数里面传入的第一个参数,要填充的一个Python数值。可以看到这个参数,费用大这个参数,第一个参数就是填充要填充的值,比如说中位数,小数或者或者就是均值都可以。
如果按,还要注意就是Python 函数,如果Python 对象等于图就直接对原来的函数对象操作。刚才上面也讲了一下,也讲了一下,可以直接print 出来把这个用,用季度填充的Excel对象print 出来。可以看到结果,可以看它的数值是四十七点四三。
看一下,第四第五行和第六行都是用四十七点四三来填充的。还有第八行,也是用四十七点四三来填充。也就三个位置是缺失的一个部分。同样的是如果用零填充,可以随意指定数,填充传入的第一个while值,可以随意指定数,零也可以均值也可以中位,中位数也可以都可以,只要是一个具体的数都可以。零填充的结果看一下,零填充。
因为如果用零填充,因为之前这里这条语句直接把确实值已经填充了,可以把直接是先把注视掉,然后再用零填充才能显示出来。看一下,可以看到,就是在第四、第五行、第六行和第九行,分别用零填充的确实值。因为传入的第一个参数是零,所以说很清楚的可以看到像是可以填充确实值的部分。如果我就是还要其他的一些方法,就是函数里的这个函数里面好,还有其他的参数也是非常非常智能的。
比如说master 的。这个方法参数,要传入的用哪一个填充的,如果不传入这个第一个值就要输入这一个值。这个值的参数有几个参数,一个是Python,还有一个是back,这三个是比较重要的。还有一个第一个就是用前面的数据填充,第二个参数就是be fail,一个是 for fail,第一个第二个是 be fail,是用之后的数据填充。什么意思?force you就是用确实值前面的一个数据填充,比如说二十三点零,这个第四位就是二十三点零。
那么第五行怎么办?第五行就是用第四第四行填充的数据来填充。意思就是这两行数据都是二十三点零,这一行第八行的意思是用前面的数据填充,就是五十四,因为前一位数据就是五十四,就填充的也就五十四。可以看具体来看一下。我可以看一下,就是对待df m,第一列的数据来填充,那第二就是攀的,用之前的数据来填充,然后inpised等数,然后就直接对原来的df m进行操作。可以看一下,三,四,五,也就是第四行和第五行,就是用第三行的数据来填充,二十三点,二十三点零都是用二十三点零填充的。而第八行是用第七行的数据来填充,前面的数据,同样的,如果这改成就是bfo的,就会后一个数据来填充。
而后一个数据怎么来看?比如说第五行是趋势值的,后一行就是六十六,以后这个会是六十六,同样的这一个也是六十六,因为是按照后一个来填充的,依次类推的。
这节课就讲到这里,下节课再见。
相关推荐
- python入门到脱坑经典案例—清空列表
-
在Python中,清空列表是一个基础但重要的操作。clear()方法是最直接的方式,但还有其他方法也可以实现相同效果。以下是详细说明:1.使用clear()方法(Python3.3+推荐)...
- python中元组,列表,字典,集合删除项目方式的归纳
-
九三,君子终日乾乾,夕惕若,厉无咎。在使用python过程中会经常遇到这四种集合数据类型,今天就对这四种集合数据类型中删除项目的操作做个总结性的归纳。列表(List)是一种有序和可更改的集合。允许重复...
- Linux 下海量文件删除方法效率对比,最慢的竟然是 rm
-
Linux下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、findwithdelete、rsync、Python、Perl.首先建立50万个文件$testfor...
- 数据结构与算法——链式存储(链表)的插入及删除,
-
持续分享嵌入式技术,操作系统,算法,c语言/python等,欢迎小友关注支持上篇文章我们讲述了链表的基本概念及一些查找遍历的方法,本篇我们主要将一下链表的插入删除操作,以及采用堆栈方式如何创建链表。链...
- Python自动化:openpyxl写入数据,插入删除行列等基础操作
-
importopenpyxlwb=openpyxl.load_workbook("example1.xlsx")sh=wb['Sheet1']写入数据#...
- 在Linux下软件的安装与卸载(linux里的程序的安装与卸载命令)
-
通过apt安装/协助软件apt是AdvancedPackagingTool,是Linux下的一款安装包管理工具可以在终端中方便的安装/卸载/更新软件包命令使用格式:安装软件:sudoapt...
- Python 批量卸载关联包 pip-autoremove
-
pip工具在安装扩展包的时候会自动安装依赖的关联包,但是卸载时只删除单个包,无法卸载关联的包。pip-autoremove就是为了解决卸载关联包的问题。安装方法通过下面的命令安装:pipinsta...
- 用Python在Word文档中插入和删除文本框
-
在当今自动化办公需求日益增长的背景下,通过编程手段动态管理Word文档中的文本框元素已成为提升工作效率的关键技术路径。文本框作为文档排版中灵活的内容容器,既能承载多模态信息(如文字、图像),又可实现独...
- Python 从列表中删除值的多种实用方法详解
-
#Python从列表中删除值的多种实用方法详解在Python编程中,列表(List)是一种常用的数据结构,具有动态可变的特性。当我们需要从列表中删除元素时,根据不同的场景(如按值删除、按索引删除、...
- Python 中的前缀删除操作全指南(python删除前导0)
-
1.字符串前缀删除1.1使用内置方法Python提供了几种内置方法来处理字符串前缀的删除:#1.使用removeprefix()方法(Python3.9+)text="...
- 每天学点Python知识:如何删除空白
-
在Python中,删除空白可以分为几种不同的情况,常见的是针对字符串或列表中空白字符的处理。一、删除字符串中的空白1.删除字符串两端的空白(空格、\t、\n等)使用.strip()方法:s...
- Linux系统自带Python2&yum的卸载及重装
-
写在前面事情的起因是我昨天在测试Linux安装Python3的shell脚本时,需要卸载Python3重新安装一遍。但是通过如下命令卸载python3时,少写了个3,不小心将系统自带的python2也...
- 如何使用Python将多个excel文件数据快速汇总?
-
在数据分析和处理的过程中,Excel文件是我们经常会遇到的数据格式之一。本文将通过一个具体的示例,展示如何使用Python和Pandas库来读取、合并和处理多个Excel文件的数据,并最终生成一个包含...
- 【第三弹】用Python实现Excel的vlookup功能
-
今天继续用pandas实现Excel的vlookup功能,假设我们的2个表长成这样:我们希望把Sheet2的部门匹在Sheet1的最后一列。话不多说,先上代码:importpandasaspd...
- python中pandas读取excel单列及连续多列数据
-
案例:想获取test.xls中C列、H列以后(当H列后列数未知时)的所有数据。importpandasaspdfile_name=r'D:\test.xls'#表格绝对...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python自定义函数 (53)
- python进度条 (67)
- python吧 (67)
- python字典遍历 (54)
- python的for循环 (65)
- python格式化字符串 (61)
- python串口编程 (60)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python人脸识别 (54)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)