面对复杂数据，Pandas 如何助力数据清洗工作?

off999 2025-06-10 17:28 18 浏览 0 评论

在数据分析和机器学习领域，数据清洗是至关重要的前置环节。高质量的数据是得出准确分析结论和构建有效模型的基石，而原始数据往往包含缺失值、重复值、异常值以及错误的数据格式等问题。Pandas 作为 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据，是数据清洗的得力工具。

一、Pandas 基础入门

Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，简单直观地处理关系型、标记型数据。在使用 Pandas 进行数据清洗前，需先导入 Pandas 库，通常别名为pd：

import pandas as pd

（一）数据读取

Pandas 支持读取多种常见格式的数据，如 CSV、Excel、SQL 等。以读取 CSV 文件为例：

df = pd.read_csv('data.csv')

这里的data.csv是文件名，实际使用时需替换为真实的文件名及路径。读取后，可使用head()方法查看数据的前几行，默认前 5 行：

df.head()

（二）数据基本信息查看

查看数据的基本信息有助于了解数据的结构和特征，如列的数据类型、缺失值情况等。使用info()方法：

df.info()

使用describe()方法查看数值型列的统计信息，包括计数、均值、标准差、最小值、25% 分位数、50% 分位数、75% 分位数和最大值：

df.describe()

二、处理缺失值

缺失值是数据中常见的问题，可能影响分析结果的准确性。Pandas 提供了丰富的方法来处理缺失值。

（一）检测缺失值

使用isnull()或isna()方法检测数据中的缺失值，这两个方法功能相同，返回一个布尔类型的 DataFrame，其中缺失值对应的位置为True，非缺失值对应的位置为False。结合sum()方法可统计每列的缺失值数量：

import pandas as pd
# 创建示例数据
data = {
	'A': [1, None, 3],
	'B': [4, 5, None],
	'C': [7, 8, 9]
}
df = pd.DataFrame(data)
# 检测缺失值并统计数量
missing_values = df.isnull().sum()
print(missing_values)

运行结果：

A    1
B    1
C    0
dtype: int64

（二）删除缺失值

通过dropna()方法删除含有缺失值的行或列。axis=0（默认值）表示删除行，axis=1表示删除列。how='any'（默认值）表示只要有一个缺失值就删除，how='all'表示全部为缺失值才删除。

# 删除含有缺失值的行
df_dropped_rows = df.dropna(axis=0, how='any')
print(df_dropped_rows)
# 删除含有缺失值的列
df_dropped_columns = df.dropna(axis=1, how='any')
print(df_dropped_columns)

删除行的运行结果：

	  A  B  C
2  3  5  9

删除列的运行结果：

（三）填充缺失值

使用fillna()方法填充缺失值，可以填充固定值、均值、中位数、众数等，也可以使用前向填充（ffill）或后向填充（bfill）。

# 填充固定值0
df_filled_constant = df.fillna(0)
print(df_filled_constant)
# 用均值填充数值型列的缺失值
df['A'] = df['A'].fillna(df['A'].mean())
df['B'] = df['B'].fillna(df['B'].mean())
print(df)
# 前向填充
df_ffilled = df.fillna(method='ffill')
print(df_ffilled)
# 后向填充
df_bfilled = df.fillna(method='bfill')
print(df_bfilled)

填充固定值 0 的运行结果：

     A    B  C
0  1.0  4.0  7
1  0.0  5.0  8
2  3.0  0.0  9

用均值填充数值型列缺失值的运行结果（假设均值计算结果为：A 列均值 2.0，B 列均值 4.5）：

     A    B    C
0  1.0  4.0  7
1  2.0  5.0  8
2  3.0  4.5  9

前向填充的运行结果：

     A    B    C
0  1.0  4.0  7
1  1.0  5.0  8
2  3.0  5.0  9

后向填充的运行结果：

     A    B    C
0  1.0  4.0  7
1  3.0  5.0  8
2  3.0  9.0  9

三、处理重复值

重复值会占用额外的存储空间，影响数据分析的效率和准确性，需要进行处理。

（一）检测重复值

使用duplicated()方法检测数据中的重复行，返回一个布尔类型的 Series，其中重复行对应的位置为True，非重复行对应的位置为False。

import pandas as pd

# 创建示例数据
data = {
	'A': [1, 2, 2, 3],
	'B': [4, 5, 5, 6]
}
df = pd.DataFrame(data)
# 检测重复值
duplicate_rows = df.duplicated()
print(duplicate_rows)

运行结果：

0    False
1    False
2     True
3    False
dtype: bool

（二）删除重复值

通过drop_duplicates()方法删除重复行，默认保留首次出现的行，可通过keep='last'参数保留最后一次出现的行，还可通过subset参数指定基于某些列来判断重复。

# 删除重复行，保留首次出现的行
df_dropped_duplicates = df.drop_duplicates(keep='first')
print(df_dropped_duplicates)
# 删除重复行，保留最后一次出现的行
df_dropped_duplicates_last = df.drop_duplicates(keep='last')
print(df_dropped_duplicates_last)
# 基于'A'列判断重复并删除
df_dropped_duplicates_subset = df.drop_duplicates(subset=['A'], keep='first')
print(df\_dropped\_duplicates\_subset)

保留首次出现行的运行结果：

保留最后一次出现行的运行结果：

基于 'A' 列判断重复并删除的运行结果：

四、数据类型转换

在数据分析过程中，有时需要将数据转换为合适的数据类型，以满足分析需求或避免类型错误。Pandas 提供了astype()方法用于数据类型转换。

import pandas as pd
# 创建示例数据
data = {
	'A': ['1', '2', '3'],
	'B': [4.5, 5.6, 6.7]
}
df = pd.DataFrame(data)
# 将'A'列从字符串类型转换为整型
df['A'] = df['A'].astype(int)
print(df)
# 将'B'列从浮点型转换为整型（会截断小数部分）
df['B'] = df['B'].astype(int)
print(df)

将 'A' 列从字符串类型转换为整型的运行结果：

将 'B' 列从浮点型转换为整型的运行结果：

五、处理异常值

异常值是指与其他数据明显不同的数据点，可能是由于数据录入错误、测量误差或其他原因导致的。异常值可能会对数据分析和模型训练产生较大影响，需要进行处理。

（一）基于统计方法识别异常值

通过计算数据的统计指标，如均值、标准差、分位数等，来识别异常值。例如，使用 3σ 原则，数据的数值分布几乎全部集中在区间 (μ - 3σ, μ + 3σ) 内，超出这个范围的数据仅占不到 0.3%，可认为超出 3σ 的部分数据为异常数据。

import pandas as pd
import numpy as np

# 创建示例数据
data = {
	'A': [1, 2, 3, 4, 100]
}
df = pd.DataFrame(data)
# 计算均值和标准差
mean = df['A'].mean()
std = df['A'].std()
# 计算异常值的阈值
lower_bound = mean - 3 * std
upper_bound = mean + 3 * std
# 识别异常值
outliers = df[(df['A'] < lower_bound) | (df['A'] > upper_bound)]
print(outliers)

运行结果：

			A
4  100

（二）替换异常值

识别出异常值后，可以根据具体情况进行处理，如替换为指定的值、均值、中位数等。

# 将异常值替换为均值
df['A'] = df['A'].apply(lambda x: mean if (x < lower_bound) | (x > upper_bound) else x)
print(df)

运行结果：

六、数据格式化

数据格式化是指对数据的格式进行调整和规范，使其更易于分析和处理。常见的数据格式化操作包括重命名列和索引、字符串处理等。

（一）重命名列和索引

使用rename()方法重命名列和索引，使数据集的名称更直观，提升数据操作的便捷性和准确性。

import pandas as pd
# 创建示例数据
data = {
	'col1': [1, 2, 3],
	'col2': [4, 5, 6]
}

df = pd.DataFrame(data)
# 重命名列
df = df.rename(columns={'col1': 'new_col1', 'col2': 'new_col2'})
print(df)

# 重命名索引
df = df.rename(index={0: 'new_index0', 1: 'new_index1', 2: 'new_index2'})
print(df)

重命名列的运行结果：

    new_col1  new_col2
0         1         4
1         2         5
2         3         6

重命名索引的运行结果：

	                  new_col1  new_col2
new_index0         1         4
new_index1         2         5
new_index2         3         6

（二）字符串处理

对于字符串类型的列，可使用str方法进行各种字符串操作，如转换为小写、大写，去除两端空格，分割字符串等。

import pandas as pd
# 创建示例数据
data = {
	'name': ['  John Doe  ', 'Jane Smith']
}

df = pd.DataFrame(data)
# 去除字符串两端的空格
df['name'] = df['name'].str.strip()
print(df)

# 转换为小写
df['name'] = df['name'].str.lower()
print(df)

去除字符串两端空格的运行结果：

        name
0    John Doe
1  Jane Smith

转换为小写的运行结果：

       name
0    john doe
1  jane smith

七、总结

数据清洗是数据分析和机器学习的重要环节，Pandas 提供了丰富、强大的工具和方法来处理各种数据清洗任务。通过掌握 Pandas 的数据清洗技巧，能够有效地提高数据质量，为后续的数据分析和建模工作奠定坚实的基础。在实际应用中，需要根据数据的特点和分析需求，灵活选择合适的数据清洗方法和策略。同时，不断积累实践经验，提高数据清洗的效率和准确性。

python数据清洗

上一篇：Python 的 enumerate 函数:遍历中的索引神器
下一篇：数据分析——清洗数据（数据清洗思路）

面对复杂数据，Pandas 如何助力数据清洗工作?

一、Pandas 基础入门

（一）数据读取

（二）数据基本信息查看

二、处理缺失值

（一）检测缺失值

（二）删除缺失值

（三）填充缺失值

三、处理重复值

（一）检测重复值

（二）删除重复值

四、数据类型转换

五、处理异常值

（一）基于统计方法识别异常值

（二）替换异常值

六、数据格式化

（一）重命名列和索引

（二）字符串处理

七、总结

相关推荐

取消回复欢迎你发表评论:

大学生机械制图搜题软件?7个受欢迎的搜题分享了

腿身比计算公式，在线计算器，长短腿类型表

编写一个自动生成双色球号码的 Python 小脚本

免费男女身高在线计算器，身高计算公式

跑步消耗的热量计算器公式，在线计算器

折线图怎么设置横坐标和纵坐标（折线图怎么设置横坐标和纵坐标单位）

5分钟掌握Python(五)之匿名函数（python中的匿名函数）

推荐一款好用的国产桌面软件开发工具Aardio

Python基础编程——赋值语句的高级用法

怎么批量修改视频文件名?8个方法教你轻松应对

面对复杂数据，Pandas 如何助力数据清洗工作?

一、Pandas 基础入门

（一）数据读取

（二）数据基本信息查看

二、处理缺失值

（一）检测缺失值

（二）删除缺失值

（三）填充缺失值

三、处理重复值

（一）检测重复值

（二）删除重复值

四、数据类型转换

五、处理异常值

（一）基于统计方法识别异常值

（二）替换异常值

六、数据格式化

（一）重命名列和索引

（二）字符串处理

七、总结

相关推荐

取消回复欢迎 你 发表评论:

大学生机械制图搜题软件?7个受欢迎的搜题分享了

腿身比计算公式，在线计算器，长短腿类型表

编写一个自动生成双色球号码的 Python 小脚本

免费男女身高在线计算器，身高计算公式

跑步消耗的热量计算器公式，在线计算器

折线图怎么设置横坐标和纵坐标（折线图怎么设置横坐标和纵坐标单位）

5分钟掌握Python(五)之匿名函数（python中的匿名函数）

推荐一款好用的国产桌面软件开发工具Aardio

Python基础编程——赋值语句的高级用法

怎么批量修改视频文件名?8个方法教你轻松应对

取消回复欢迎你发表评论: