百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Excel数据清洗不用愁:Python自动化去重与缺失值处理实战生成

off999 2025-08-05 20:26 15 浏览 0 评论

清洗数据花 3 小时?你可能用错了方法!

上周财务小张发来一份 "客户订单表",要求清理重复数据并填充缺失的联系方式。我打开 Excel 一看 ——

  • 2000 行数据里藏着 178 条重复记录(同一订单号出现多次)
  • 联系方式列有 89 个空白单元格,导致 VLOOKUP 匹配时满屏 #N/A
  • 手动操作:条件格式标重复值→筛选→删除→定位空值→填充…… 整整花了 3 小时,还漏删了 12 条!

Excel 清洗 3 大痛点:

  1. 重复值判断难:部分字段重复(如 "张三" 和 "张三" 空格差异)无法识别
  2. 缺失值处理繁:定位空值后需逐个判断填充规则(均值 / 中位数 / 自定义)
  3. 批量操作卡:1 万行数据启用筛选就卡顿,更别说复杂条件判断

5 行 Python 代码搞定 3 小时工作量(代码复制就能用)

import pandas as pd

# 读取Excel文件(替换成你的文件名)
df = pd.read_excel("客户订单表.xlsx")

#  自动去重(按订单号+客户姓名判断重复)
df_clean = df.drop_duplicates(
    subset=["订单号", "客户姓名"],  # 哪些字段重复算重复记录
    keep="last",  # 保留最后一次出现的记录
    ignore_index=True  # 重置行号
)

#  智能填充缺失值
df_clean["联系方式"] = df_clean["联系方式"].fillna("未知")  # 文本列填"未知"
df_clean["金额"] = df_clean["金额"].fillna(df_clean["金额"].mean())  # 数值列填平均值

# 保存结果(不会覆盖原文件)
df_clean.to_excel("清洗后_客户订单表.xlsx", index=False)
print(" 清洗完成!重复数据:", len(df)-len(df_clean), "条")

实战技巧(这些坑我踩过)

  1. 部分重复处理:如果只是 "手机号" 重复算重复,改 subset 参数:subset=["手机号"]
  2. 顽固空格问题:先用这个代码去空格再去重df["客户姓名"] = df["客户姓名"].str.strip()
  3. 缺失值判断:查看哪些列有缺失
  4. print(df.isnull().sum()) # 会显示每列缺失数量
  5. 数据备份:养成好习惯,永远另存为新文件to_excel("清洗后_xxx.xlsx") # 文件名加前缀

小提醒:运行代码前,把 Excel 文件和 Python 脚本放在同一个文件夹,不然会提示 "找不到文件"!如果不会新建 Python 文件,新建 txt 文档,把代码复制进去,改后缀为.py就行。


现在打开你的 Excel 试试吧!下次老板再发带重复数据的表格,你就能 1 分钟甩回清洗好的版本~ 有任何报错记得看代码里的注释,90% 的问题都有提示!

欢迎评论区分享一下自己遇到的问题~~

相关推荐

飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx

前面分享了两期TVGate:Q大的转发代理工具TVGate升级了,操作更便捷,增加了新的功能跨平台内网转发神器TVGate部署与使用初体验现在项目已经开源,并支持Docker部署,本文介绍如何通...

Docker Compose 编排实战:一键部署多容器应用!

当项目变得越来越复杂,一个服务已经无法满足需求时,你可能需要同时部署数据库、后端服务、前端网页、缓存组件……这时,如果还一个一个手动dockerrun,简直是灾难这就是DockerCompo...

深度测评:Vue、React 一键部署的神器 PinMe

不知道大家有没有这种崩溃瞬间:领导突然要看项目Demo,客户临时要体验新功能,自己写的小案例想发朋友圈;找运维?排期?还要走工单;自己买服务器?域名、SSL、Nginx、防火墙;本地起服务?断电、关...

超简单!一键启动多容器,解锁 Docker Compose 极速编排秘籍

想要用最简单的方式在本地复刻一套完整的微服务环境?只需一个docker-compose.yml文件,你就能一键拉起N个容器,自动组网、挂载存储、环境隔离,全程无痛!下面这份终极指南,教你如何用...

日志文件转运工具Filebeat笔记_日志转发工具

一、概述与简介Filebeat是一个日志文件转运工具,在服务器上以轻量级代理的形式安装客户端后,Filebeat会监控日志目录或者指定的日志文件,追踪读取这些文件(追踪文件的变化,不停的读),并将来自...

K8s 日志高效查看神器,提升运维效率10倍!

通常情况下,在部署了K8S服务之后,为了更好地监控服务的运行情况,都会接入对应的日志系统来进行检测和分析,比如常见的Filebeat+ElasticSearch+Kibana这一套组合...

如何给网站添加 https_如何给网站添加证书

一、简介相信大家都知道https是更加安全的,特别是一些网站,有https的网站更能够让用户信任访问接下来以我的个人网站五岁小孩为例子,带大家一起从0到1配置网站https本次配置的...

10个Linux文件内容查看命令的实用示例

Linux文件内容查看命令30个实用示例详细介绍了10个Linux文件内容查看命令的30个实用示例,涵盖了从基本文本查看、分页浏览到二进制文件分析的各个方面。掌握这些命令帮助您:高效查看各种文本文件内...

第13章 工程化实践_第13章 工程化实践课

13.1ESLint+Prettier代码规范统一代码风格配置//.eslintrc.jsmodule.exports={root:true,env:{node...

龙建股份:工程项目中标_龙建股份有限公司招聘网

404NotFoundnginx/1.6.1【公告简述】2016年9月8日公告,公司于2016年9月6日收到苏丹共和国(简称“北苏丹”)喀土穆州基础设施与运输部公路、桥梁和排水公司出具的中标通知书...

福田汽车:获得政府补助_福田 补贴

404NotFoundnginx/1.6.1【公告简述】2016年9月1日公告,自2016年8月17日至今,公司共收到产业发展补助、支持资金等与收益相关的政府补助4笔,共计5429.08万元(不含...

翰宇药业:获得发明专利_翰宇药业创新产业

404NotFoundnginx/1.6.1【公告简述】2016年9月2日公告,申请的一项发明专利获得中华人民共和国国家知识产权局颁发的发明专利证书,公司于2016年9月1日取得了该专利证书,该专...

川金诺:取得发明专利证书_川金诺(300505)

404NotFoundnginx/1.6.1【公告简述】2016年9月1日公告,近日,公司申请的一项发明专利获得国家知识产权局颁发的发明专利证书:一种提高和稳定湿法磷酸中和脱氟浓度方法。本发明是稀...

使用WTM框架创建博客系统后台并在云服务器发布

阅读导航关于lqclass.com博客后台前后端部署2.1已部署访问链接2.2nginx部署2.2.1后台后端发布2.2.2后台前端发布2.2.3云服务器部署下次分享1.关于lqcl...

Nginx的location匹配规则,90%的人都没完全搞懂,一张图让你秒懂

为什么你的Nginx配置总是不生效?改了Nginx配置无数次,reload命令执行了几十遍,浏览器访问时却依然返回404?运维工程师小张上周就遇到了这个问题:明明配置了location/static...

取消回复欢迎 发表评论: