百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python Pandas 库:解锁 combine、update 和compare函数的强大功能

off999 2025-08-01 20:07 113 浏览 0 评论

在 Python 的数据处理领域,Pandas库提供了丰富且实用的函数,帮助我们高效地处理和分析数据。今天,咱们就来深入探索 Pandas 库中四个功能独特的函数:combine、combine_first、update和compare。掌握了它们,我们在数据处理的道路上将会如虎添翼!

一、combine 函数:灵活的数据合并与计算

combine函数使用func将一个 DataFrame 与另一个DataFrame 进行合并,默认按列进行合并,新生成的 DataFrame 的行索引和列索引将是这两个DataFrame 索引的并集,最后返回生成的新的DataFrame对象。

函数原型

DataFrame.combine(other, func, overwrite=True, fill_value=None)

2. 参数详解

  • other:这是要与调用者(即当前 DataFrame 或 Series)进行合并计算的另一个 DataFrame。
  • func:这是一个关键参数,它是一个自定义函数,用于指定如何对两个对应元素进行计算。这个函数接收两个参数,分别是调用者和other中的对应元素,返回值则是合并后的结果。
  • fill_value:指定在其中一个对象中存在缺失值时使用这个填充值,然后再做合并处理。
  • overwrite:如果 overwrite=True(默认值),则在组合操作中,如果新数据(来自 other 对象)中有值,将覆盖原始数据中的对应值。如果 overwrite=False,则只有在原始数据中为缺失值(NaN 或 None)的位置,才会用新数据中的值进行填充,不会覆盖原始数据中已有的非缺失值。

3. 示例

1)定义两个没有空值的DataFrame定义一个lamada函数,然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果:

  A B
0 0 4
1 0 4
   A B
0 1 3
1 1 3
#合并的df3显示如下
   A B
0 0 3
1 0 3

2)定义有空值的DataFrame,不传fill_value参数然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果:

    A B
0 0 NaN
1 0 4.0
   A B
0 1 3
1 1 3
#合并的df3显示如下,B列直接返回df1中有空值的列
    A B
0 0 NaN
1 0 4.0

3)定义有空值的DataFrame,传fill_value参数然后合并

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
#指定fill_value=-1
df3 = df1.combine(df2, take_smaller,fill_value=-1)
print(df3)

输出结果:

   A B
0 0 NaN
1 0 4.0
   A B
0 1 3
1 1 3
#合并的df3显示如下,df1中的B列填充值之后带入函数做计算
    A  B
0 0 -1.0
1 0 4.0

4)定义两个没有空值的DataFrame,索引和列名不一致,对比overwrite为True和False时的输出结果

import pandas as pd
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'B': [1, 1], 'C': [3, 3]}, index=[1, 2]
)
print(df1)
print(df2)
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2
df3 = df1.combine(df2, take_smaller)
print(df3)

输出结果:

   A B
0 0 4
1 0 4
   B C
1 3 -10
2 3 1
#合并的df3显示如下
     A     B       C
0 NaN NaN NaN
1 NaN 3.0 -10.0
2 NaN 3.0 1.0

df3的A列因为df2无A列,填充的都为NAN值,索引为0的B列和C列填充的为NAN值

当overwrite=False时:

df3 = df1.combine(df2, take_smaller,overwrite=False)
print(df3)

输出结果为:df3的A列索引为0和1的位置并没有填充为df2的NAN值,而是填充的df1的值。

      A   B      C
0 0.0 NaN NaN
1 0.0 3.0 -10.0
2 NaN 3.0 1.0

二、combine_first 函数:填充缺失值的利器

combine_first函数主要用于将两个 DataFrame 进行合并,用一个对象中的非缺失值去填充另一个对象中的缺失值,并返回这个新的DataFrame对象。

函数原型

参数other为另一个被合并的DataFrame对象。

使用方式类似:df.combine_first(other)

示例

设置两个 DataFrame,一个DataFrame有缺失值,进行合并

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)
# 使用 combine_first 函数
result = df1.combine_first(df2)
print(result)

输出结果:df1中的NAN值被df2中的值填充

      A B
0 1.0 4.0
1 NaN NaN
2 3.0 6.0
    A B
0 7 10
1 8 11
2 9 12
#合并后的结果
     A   B
0 1.0 4.0
1 8.0 11.0
2 3.0 6.0

三、update 函数:选择性的数据更新

update函数用于根据条件对 DataFrame 中的数据进行更新,它会用另一个 DataFrame 中的数据替换调用者中匹配索引和列的数据,不会返回新的DataFrame对象。

1. 函数原型

DataFrame.update(other, join='left', overwrite=True, filter_func=None,errors='ignore')

2. 参数详解

  • other用来更新当前 DataFrame 的另一个 DataFrame ,它的索引和列需要与调用者有一定的匹配关系。
  • join:指定连接方式,'left'(默认值)表示左连接,只更新调用者中存在的索引和列的数据;不支持其他连接方式。
  • overwrite:布尔值,默认为True,表示覆盖匹配到的原有的数据。如果为False,则只更新当前DataFrame的缺失值。
  • filter_func:一个可选的函数,用于过滤要更新的数据。它接收一个 DataFrame 作为参数,返回一个布尔类型的 DataFrame,只有对应为True的位置的数据才会被更新。
  • errors:指定如何处理错误。'ignore' (默认值)表示忽略错误并继续执行,'raise' 表示遇到错误时抛出异常。

3. 示例

1)有两个DataFrame,df1有缺失值,配置参数overwrite=False,只更新df1中的缺失值

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6],'C': [5, 8, 9]}, index=[1, 2, 3])
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)

# 使用 update 函数更新df1
df1.update(df2,overwrite=False)
print(df1)

输出结果:因为两个DataFrame索引和列数都不完全一致,只匹配到索引为1和2的A列和B列。

因此只有第2行的A列和B列原先为NAN值,被df2中的值更新,其他数据都不更新

      A B C
1 1.0 4.0 5
2 NaN NaN 8
3 3.0 6.0 9
    A B
0 7 10
1 8 11
2 9 12
#更新后的值
     A   B    C
1 1.0 4.0   5
2 9.0 12.0 8
3 3.0  6.0  9

如果overwrite=True,则输出结果如下:索引为1和2的A列和B列都被更新

#更新后的值
     A   B   C
1 8.0 11.0 5
2 9.0 12.0 8
3 3.0  6.0  9 

2)有两个DataFrame,df1有缺失值,添加一个lambda函数只更新偶数值

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, 6],'C': [5, 8, 9]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
print(df1)
print(df2)

# 使用 update 函数更新df1
df1.update(df2, filter_func=lambda x:x%2==0)
print(df1)

输出结果:更新了索引为0和2的B列中的偶数,替换为了df2中的值。

     A B C
0 1.0 4 5
1 NaN 3 8
2 3.0 6 9
   A B
0 7 10
1 8 11
2 9 12
#更新后的值
      A B C
0 1.0 10 5
1 NaN 3 8
2 3.0 12 9

四、compare 函数:数据差异的 “放大镜”

在实际的数据工作中,compare函数的作用就是直观地展示两个DataFrame之间的不同之处,将数据差异清晰地呈现出来,就像给数据差异加上了一个 “放大镜”,让我们一眼就能捕捉到关键信息。

函数原型

DataFrame.compare(other,align_axis=1,keep_shape=False,keep_equal=False,result_names=("self","other")

2. 参数详解

  • other:代表要与调用者(当前DataFrame)进行对比的另一个DataFrame,两个DataFrame需要有相同的索引和行列数,不一致会报错。
  • align_axis:指定对齐轴,默认值为1(按列比较)。当设置为0时,则按行比较。
  • keep_shape:布尔值,默认值为False。设置为True,则会保留原有的形状,即使某些列或行在对比中没有差异也会显示,只是填充为缺失值。
  • keep_equal:布尔值,默认值为False。设置为True,会保留两个DataFrame中相等的元素,在结果中用NaN来表示相等的部分。
  • result_names:表示对比差异显示的两个DataFrame的名称,默认显示为self和other。

示例

创建两个DataFrame,第一行的数据是相同的。

import pandas as pd
import numpy as np
# 创建示例 DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 4, 3], 'B': [4, 7, 8]})
print(df1)
print(df2)

输出结果:

  A B
0 1 4
1 2 5
2 3 6

  A B
0 1 4
1 4 7
2 3 8

示例 1:使用 compare 函数,设置 result_names=('df1','df2')

diff_df = df1.compare(df2,result_names=('df1','df2'))
print(diff_df)

输出结果:

          A          B
   df1 df2    df1 df2
1 2.0   4.0    5.0 7.0
2 NaN NaN 6.0 8.0


示例 2:使用 compare 函数,设置align_axis=0按行比较

diff_df_axis = df1.compare(df2,align_axis=0)
print(diff_df_axis)

输出结果:

               A    B
1 self     2.0 5.0
  other   4.0 7.0
2 self    NaN 6.0
   other NaN 8.0


示例 3:使用 compare 函数,设置 keep_shape=True

diff_df_keep_shape = df1.compare(df2, keep_shape=True)
print(diff_df_keep_shape)

输出结果:


        A                B
   self other self other
0 NaN NaN NaN NaN
1 2.0     4.0    5.0   7.0
2 NaN NaN  6.0   8.0


示例 4:使用 compare 函数,设置 keep_equal=True

diff_df_keep_equal = df1.compare(df2, keep_equal=True)
print(diff_df_keep_equal)


输出结果:

       A                B
   self other self other
1   2     4         5     7
2   3     3         6     8

共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”

-----指水滴不断地滴,可以滴穿石头;

-----比喻坚持不懈,集细微的力量也能成就难能的功劳。

----感谢读者的阅读和学习,谢谢大家。

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: