如何使用python技术完成数据集缺失值多种应用场景的滤除或填充?
off999 2024-11-25 15:52 33 浏览 0 评论
前言
在数据处理的过程中,我们应该都有这样的体会,本质上数据处理与分析是相互协作,彼此成就的过程。比如,我们会用数据分析统计数据集中的缺失值、异常值,更直观的也会进阶到数据可视化的部分(到达该部分一般是成了文章类或汇报类的一部分),然后以统计结果为基础再对数据进行处理。这个过程往往不是一次性过程,是循环往复的。然后数据处理的结果是有质量的,对后期的数据挖掘、机器学习、深度学习以及其他更多的应用,提供了坚实的基础。接下来,我们就一起来梳理和总结一下,数据处理过程中,经常遇到的缺失值处理方法。
小编在本文中主要通过python技术来讲解不同数据需求背景下的数据缺失值处理方法。特别提示一下,我们在学习的过程中,需要有这样的思维,我们是为了处理数据而使用python,不是为了使用python而进行数据处理。我们需要从本质上掌握缺失值处理方法,然后才是python技术在这些场景上有什么样的函数或方法可以更便捷、更简单的解决问题。
缺失值的处理方法,通常分为两种,一是直接将其进行滤除;二是使用固定值或衍生值去填充缺失值,下面进行逐一介绍。
回顾滤除缺失值方法
滤除缺失值数据有两种场景,一种是对Series结构的数据进行滤除,另外则是对DataFrame数据进行滤除。
1.Series结构数据缺失值滤除
关于python技术滤除缺失值的方法,小编在过往的分享中已经进行了介绍。在本文中,我们一起来简单回顾,大家可以加深一下印象。
首先,从numpy中导入缺失值方法,具体代码如下:
#书写方式如下
from numpy import nan as NA
其次,dropna使用方法,具体写法如下:
data.dropna()
另外一种同样能够达到此目的的方式是通过布尔型索引,具体写法如下:
Data[data.notnull()]
2.DataFrame结构数据缺失值滤除
接下来,我们具体来回顾一下,dropna方法是如何DataFrame结构数据的行、列和时间序列数据进行滤除的,不同场景下使用的方法如下所示:
(1)dropna默认丢弃任何含有缺失值的行
书写方式:data.dropna()
(2)传入how=’all’将只丢弃全为NA的那些行
书写方式:data.dropna(how=’all’)
(3)传入axis=1丢弃列
书写方式:data.dropna(how=’all’,axis=1)
(4)thresh参数过滤时间序列数据
书写方式:df.dropna(thresh=3)
上述的不同场景下滤除缺失值的方法,相对比较完整,大家可以在亲自进行尝试和体会。
如何使用固定值或衍生值填充缺失值?
在回顾了缺失值滤除方法后,我们重点来介绍如何使用固定值或衍生值填充缺失值。
在有少量缺失值,但相对完整的数据中,直接滤除缺失值是一种相对粗暴的解决方法。而实际的数据处理过程中,我们经常进行的是使用固定值或衍生值填充缺失值,然后再进行下一步的其他动作。我们使用dropna方法进行缺失值滤除,而缺失值填充使用的则是fillna这个工具。
小编在本文中主要介绍4种填充缺失值的场景及相应的示例,具体如下:
1.用平均值填充NA值
2.对不同分组填充不同的值
假设需要对不同的分组填充不同的值。只需将数据分组,并使用apply和一个能够对各数据块调用fillna的函数即可。
3.用分组平均值去填充NA值
4.在代码中预定义各组的填充值
由于分组具有一个name属性,所以可以用一下:
总结
综上所述,dropna和fillna两种python技术工具,实现了缺失值的滤除和填充。除此之外,本文介绍了9种缺失值处理的应用场景与方法,分别为:Series结构的缺失值滤除、DataFrame结构数据缺失值滤除(4种)、4种使用固定值或衍生值填充缺失值的场景与方法,基本涵盖了数据处理中经常使用的缺失值处理应用场景与方法。
python好书推荐:
相关推荐
- wifi万能密码破解器(wifi万能密码破解版)
-
万能钥匙主要的作用是分享与被分享的关系,你所用万能钥匙一件查询和破解的都是别人分享的密码,不是万能钥匙破解的作用,真正能破解的只是那些密码简单的,比如12345678或者豹子数比如88888888和1...
- win8的稳定性(win8稳定还是win10稳定)
-
如果是玩游戏Win7相对win7稳定一些,能兼容大部分的游戏。其它的应该各有千秋,具体上可以从如下几点了解:1、Win8相对Win7开机更快,内存管理更高效,HTML5支持更好,兼容暂时落后。2、Wi...
- 怎么切任务管理器(任务管理)
-
任务管理器切换方法如下1.先按WIN+X,再按T,即可呼出任务管理器2.同时按Ctrl+Shift+Esc,即可呼出任务管理器。3.同时按Ctrl+Alt+Del,在跳转的界面里...
- windows激活无法连接到组织网络
-
1、在桌面新建一个文本文档,把代码复制进去2、点击文件选择“另存为”,在弹出的界面中,将保存位置选择在桌面,保存类型改为所有文件,文件名改为.bat格式的文件,然后点击“保存”按钮; 3、右...
-
- 企业邮箱注册申请流程(企业邮箱怎么注册申请)
-
点击进入官网,进入邮箱后,点击下方的企业邮箱,开通邮箱有两个版本,一个是免费版,一个是专业版,这边点击免费版的立即开通,弹出的界面,输入账号、密码以及手机号码,输入验证码。扩展知识:企业邮箱特点1、便于管理企业可以自行设定管理员来分配和管理...
-
2026-01-14 13:43 off999
-
- window截图快捷键(windows自带截屏的方法)
-
1、按Prtsc键截图这样获取的是整个电脑屏幕的内容,按Prtsc键后,可以直接打开画图工具,接粘贴使用。也可以粘贴在QQ聊天框或者Word文档中,之后再选择保存即可。2、按Ctrl+Prtsc键截图截屏获得的内容也是整个电脑屏幕,与上面的...
-
2026-01-14 13:15 off999
- win10一定要创建账户吗(win10需要创建microsoft账户吗)
-
win10系统安装不需要申请微软账号。如果是在安装win10的过程中,则使用本地账户登录,从安装主要步骤完成之后进入后续设置阶段开始,步骤如下:1、首先就是要输入产品密钥,或者点击左下角“以后再说”。...
- win10显示已禁用输入法(w10系统已禁用输入法)
-
在使用win10的过程中,有时候利用第三方软件过度优化开机启动项目就容易导致win10无法打开输入法问题,这个情况是由于ctfmon程序无法正常启动所致,一般表现在电脑桌面右下角显示已禁用ime的提示...
- windows pad(windowspad官方网站入口)
-
平板电脑安装windows方法如下1、首先,下载并安装U启动PE制作工具,这里要特别注意的是,要下载装机版的。2、点开PE制作工具的主界面,插入U盘,等待U盘被制作工具识别出来后。3、点击归还空间,然...
- 为什么电脑一开机就死机(为什么电脑一开机就死机重启)
-
一、软件问题: 1、导致死机的一个重要原因就是病毒程序的入侵。大家都知道,病毒程序是一种会破坏计算机软件系统,并占用极大的系统资源的一种恶意攻击程序,它会给计算机本身的软件造成很大的伤害。死机时的首...
- 0x0000007a蓝屏解救方法win7
-
0x0000007A说明是内存或虚拟内存(硬盘)的问题,你可以按顺序尝试如下操作:1、更改虚拟内存页面文件位置:我的电脑→右键→属性→高级→性能设置→高级→虚拟内存更改→取消原来选择的驱动器(默认在C...
- 系统小说排行榜完本经典之作
-
超级兑换系统超级修仙超级客栈系统貌似高手在异界重生之修仙系统超级修仙系统异界之兑换成圣(贱圣VS奸神)+超级兑换(火山飞狐)+穿越之无敌兑换(开心小帅)+兑换器修仙(轻舞流芒)+...
- 手机能修复u盘吗(手机修复u盘工具下载)
-
1.在手机上可以恢复u盘,当手机SD卡或U盘插入电脑中时,如果提示“文件或目录损坏且无法读取”的信息时,我们首先需要对手机SD卡或U盘进行目录修复操作。插入待修复的U盘,打开“我的电脑”,找到Sd卡...
- 怎么查电脑显卡的信息(电脑怎么查看显卡信息)
-
要查看电脑的显卡信息,可以按照以下步骤进行操作:1.使用快捷键Win+R打开“运行”对话框。2.在运行对话框中输入“dxdiag”并点击“确定”按钮,打开“DirectX诊断工具”。3....
- 电脑上找不到输入法怎么办(电脑中找不到输入法)
-
如果电脑上不显示输入法,您可以尝试以下解决方法:1.检查输入法设置:首先,您可以检查电脑的输入法设置。在Windows系统中,您可以点击任务栏右下角的输入法图标(一般为字母或语言标志),然后选择“显...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
