不允许你不知道的Python 14个数据处理的高效小技巧,
off999 2025-08-05 20:27 37 浏览 0 评论
以下是 Python 中 数据处理的高效小技巧,涵盖数据清洗、转换、分析和优化,助你提升数据处理效率:
一、数据清洗技巧
1.处理缺失值
import pandas as pd
df = pd.DataFrame({"A": [1, None, 3], "B": ["x", None, "z"]})
# 填充缺失值
df.fillna({"A": df["A"].mean(), "B": "UNKNOWN"}, inplace=True)
# 删除全为NA的列
df.dropna(axis=1, how="all", inplace=True)2.快速去重
# 基于某列去重
df.drop_duplicates(subset=["column"], keep="last")
# 统计重复行
df[df.duplicated()]二、数据转换技巧4.应用函数优化
3.列类型转换
# 批量转换类型
df = df.astype({"price": "float32", "quantity": "int8"})
# 智能转换(如字符串转日期)
df["date"] = pd.to_datetime(df["date"], errors="coerce")4.应用函数优化
# 避免低效的apply
df["new_col"] = df["col"].str.upper() # 向量化字符串操作
# 必须用apply时加速
df["score"] = df["data"].apply(
lambda x: x*2,
engine="numba" # 需安装numba
)三、数据分析技巧
5.分组聚合优化
# 标准写法
df.groupby("department")["sales"].sum()
# 多维度聚合(更高效)
df.groupby("department").agg(
total_sales=("sales", "sum"),
avg_price=("price", "mean")
)6.条件筛选技巧
# 替代低效的iterrows
mask = (df["age"] > 30) & (df["city"] == "Beijing")
result = df.loc[mask]
# 查询复杂条件
df.query("age > 30 & city == 'Beijing'")四、性能优化技巧
7.大数据分块处理
# 分块读取CSV
chunk_size = 10_000
for chunk in pd.read_csv("large.csv", chunksize=chunk_size):
process(chunk)
# 使用Dask处理超大数据
import dask.dataframe as dd
ddf = dd.read_csv("huge/*.csv")8.内存优化
# 减小数值类型内存
df["id"] = df["id"].astype("int32") # 默认int64
# 分类数据优化
df["category"] = df["category"].astype("category")五、实用工具函数
9.数据采样
# 随机抽样
sample = df.sample(n=1000, random_state=42)
# 分层抽样
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.2, stratify=df["label"])10.数据透视
# 快速透视表
pivot = pd.pivot_table(
df,
values="sales",
index="region",
columns="month",
aggfunc="sum",
fill_value=0
)六、高效I/O操作
11.文件读写优化
# 读取时指定列(减少内存)
cols = ["name", "price"]
df = pd.read_csv("data.csv", usecols=cols)
# 保存为parquet格式(比CSV快10倍)
df.to_parquet("data.parquet", engine="pyarrow")12.数据库交互
# 批量插入数据
from sqlalchemy import create_engine
engine = create_engine("postgresql://user:pass@localhost/db")
df.to_sql("table", engine, if_exists="append", index=False, chunksize=1000)七、可视化辅助
13.快速数据探查
# 生成统计报告
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Data Report")
profile.to_file("report.html")
# 缺失值可视化
import missingno as msno
msno.matrix(df)八、高级技巧
14.并行处理
from multiprocessing import Pool
def process_chunk(chunk):
return chunk * 2
with Pool(4) as p: # 4个进程
results = p.map(process_chunk, [df1, df2, df3])15.使用eval优化计算
# 比常规运算快3倍
df.eval("profit = revenue - cost", inplace=True)避坑指南
- 避免链式赋值
# 错误写法
df[df["age"] > 30]["score"] = 100 # 可能不生效
# 正确写法
df.loc[df["age"] > 30, "score"] = 100- 慎用iterrows()
- 比向量化操作慢 1000倍 以上
- 及时释放内存
del df # 删除大对象
import gc
gc.collect() # 手动触发垃圾回收性能对比(处理100万行数据)
操作 | 传统方法耗时 | 优化方法耗时 |
缺失值填充 | 1.2s | 0.3s |
分组聚合 | 4.5s | 0.8s |
文件保存(CSV→Parquet) | 12s | 1.1s |
掌握这些技巧后,你的数据处理效率将显著提升!关键原则:
向量化操作 > 循环
内存映射 > 全加载
批处理 > 单条处理
相关推荐
- 电脑uac是什么意思
-
UAC就是用户帐户控制,在对计算机进行更改之前,用户帐户控制(UAC)会通知您。比如安装软件驱动什么的,默认UAC设置会在程序尝试对计算机进行更改时通知您,但您可以通过调整设置来控制UAC...
- 笔记本找不到自己家的wifi怎么办
-
1.笔记本电脑缺少无线网卡驱动,需要下载驱动如果笔记本电脑开机之后,无法显示WiFi网络的图标,这个时候多半是因为电脑缺少无线网卡驱动造成的,有时候自己在清理电脑的时候,不小心清理了驱动程序,便会...
- 电信宽带办理电话是多少(电信宽带办理联系电话)
-
电信宽带不一定需要电信手机号码,可以根据自身需要选择,有单独的宽带业务,一般要求预存一定时间的使用费。不过一般包含了宽带、手机号码的融合套餐总体上更优惠,对客户来说更划算。如果有相应需求的话,建议同时...
- 开机进入ghost启动项(电脑启动进入ghost)
-
电脑启动的时候进入GHOST界面方法: 1、首先确认电脑装了GHOST软件。 2、重启电脑,注意仔细观察电脑屏幕,会有一个3s或者10s的选择界面。让选择是进入GHOST界面,或者正常启动进入系...
- 华硕bios修复蓝屏图解(华硕bios修复蓝屏视频教程)
-
先看下BIOS是否可以识别到硬盘设备,若看不到,硬盘故障的可能性很大。若可以看到硬盘,建议先尝试进行BIOS兼容性设置:1,在BIOS界面,通过方向键进【Secure】菜单,通过方向键选择【Sec...
- 老电脑怎么装win7系统(老电脑装win7系统可以吗)
-
6年前的电脑,如果是用的当时最新的CPU的话,应该是第7代或者第6代酷睿等级的。运行windows7和windows10都应该没有压力。从软件的兼容性来说,还是建议安装windows10,因为现在有好...
- 电脑怎么设置到点自动关机(电脑怎样设置到点关机)
-
1、首先我们点击电脑屏幕左下角的开始按钮,在所有程序里依次选择附件---系统工具,接着打开任务计划程序。2、我们打开任务计划程序后,在最右边的操作框里选择创建基本任务,然后在创建基本任务对话框的名称一...
- 2025年笔记本电脑排行榜(20201年笔记本电脑推荐)
-
2023华为笔记本电脑matebook16系列很好用的。因为这个系列她是有非常好的性价,比的是能够让你有非常轻薄的厚度,并且能够有11.6寸的屏幕,而且还有120赫兹的刷新率作为大学生,您可能需要经常...
- powerpoint激活密钥(ppt密钥 激活码2010)
-
1/4进入文件打开一个PPT文件进入到软件界面,在界面左上方找到文件选项,点击该选项进入到文件页面。2/4点击账户文件页面中,页面左侧找到账户选项,点击该选项,页面右侧会出现相应的操作选择。3/4点击...
-
- qq恢复删除好友官网(qq恢复已删好友)
-
qq恢复官方网站,http://huifu.qq.com/1、什么是QQ恢复系统?QQ恢复系统是腾讯公司提供的一项找回QQ联系人、QQ群的服务,向所有QQ用户免费开放。2、QQ恢复系统能恢复多长时间内删除的好友?普通用户可以申请恢复3个月内...
-
2025-12-28 16:03 off999
- 优启通u盘重装win7系统教程(优启通u盘装win7系统教程图解)
-
系统显示未找到万能驱动的解决方法是:1、重插下usb口1、造成“找不到驱动器设备驱动程序”的原因,可能是usb口出现问题。2、换个usb口可能是单独这个usb口出现问题,可以选择另外的usb口重试wi...
- wifi加密方式怎么设置(wifi网络加密怎么设置)
-
若你想将自己的无线网改成加密的,可以按照以下步骤操作:1.打开你的路由器管理界面。一般来说,在浏览器地址栏输入“192.168.1.1”或“192.168.0.1”,然后输入用户名和密码登录就可以打...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
