百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python数据分析:详解数据框的合并

off999 2024-12-17 15:42 41 浏览 0 评论

不知道大家有没有分析过Kaggle的数据或者参加过Kaggle的挑战,里面的数据都分布在几个不同的数据集中,合并数据在所难免。今天给大家详细总结一波pandas中数据框合并和连接的方法。建议收藏,哈哈。

生成练习用的数据框

首先我们先用如下代码生成3个数据框,作为演示讲解之用。

df1 =pd.DataFrame({
        'id': ['1', '2', '3', '4', '5'],
        'Feature1': ['A', 'C', 'E', 'G', 'I'],
        'Feature2': ['B', 'D', 'F', 'H', 'J']}) 
df2 =pd.DataFrame({
        'id': ['1', '2', '6', '7', '8'],
        'Feature1': ['K', 'M', 'O', 'Q', 'S'],
        'Feature2': ['L', 'N', 'P', 'R', 'T']})
df3 = pd.DataFrame({
        'id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'Feature3': [12, 13, 14, 15, 16, 17, 15, 12, 13, 23]})

得到3个数据框,如下:



连接数据框Concatenate DataFrames

如果只是简单的连接两个数据框的行的话,直接调用concat()方法即可

df_row = pd.concat([df1, df2])

df_row



可以看到,数据框df1和df2就以行连接在一起了,但是你注意到没,此时数据框的索引有问题,我们想要的索引应该自动给我们填好才对,这个时候我们需要将ignore_index参数设置为True。

df_row = pd.concat([df1, df2], ignore_index=True)

这个时候索引就正确了。

有时候,你虽然连接了2个数据框,但是你还是想知道新数据框的数据分别来自哪个数据框,这个时候调用keys参数就可以,例如,我们在上面的例子中将来自df1的数据和df2的数据分别加上标签x,y。

df_keys = pd.concat([df1,df2], keys=['x', 'y'])

df_keys


可以看到,新数据框中哪些数据来自于哪个数据框一目了然。

同时,给新的数据框加上标签也有助于我们在新数据中切片出旧的数据框,例如

df_keys.loc['y']


通过以上代码,很容易在新数据框中切片出了df2。

在连接数据框时还有一个技巧,就是将数据框以字典值的形式传递给 concat(),可以在连接的新数据框中自动加上标签,这个标签就是字典的键。看下例:

df_piece = pd.concat({'第一个框':df1,'第二个框':df2})

df_piece


有没有很好使?

concat()函数也可以横向连接数据框,只需要将axis设置为1即可

df_col = pd.concat([df1,df2], axis=1)

df_col


可以看到这个就是横向连接。

合并数据框Merge DataFrames

我们看一下如何将df_row(由df1和df2连接后得到,见之前的例子)和df3以共同的id为基础合并起来。

df_merge_col = pd.merge(df_row, df3, on='id')

df_merge_col


此时,我们注意到id等于1的行出现了2次,是因为在df_row中是有2个id等于1的,而在df3中id等于1只有一次,所以合并后的feature3都是12。

还有一种情况是你要合并的2个数据框没有一样名字的列,需要你指定,这个时候就要用到left_on,right_on参数了。

df_merge_difkey = pd.merge(df_row, df3, left_on='id', right_on='id')

df_merge_difkey


此例中我们左右数据框都指定以id为基础进行合并。

还有一种情况是,你想给原先的数据框加一行新数据,看下例:

add_row = pd.Series(['10', 'X1', 'X2', 'X3'],
                    index=['id','Feature1', 'Feature2', 'Feature3'])

df_add_row = df_merge_col.append(add_row, ignore_index=True)

df_add_row

可以看到,通过append可以给一个数据框加上一个新的series。

不同的合并逻辑Outer,Inner,Right,Left与index

Outer合并会将两个数据库的所有数据都合并,相当于取原来数据库的并集形成一个新的数据库

df_outer = pd.merge(df1, df2, on='id', how='outer')

df_outer


可以看到,这种合并方法,生成的新数据集中会有很多NaN的值,还有,需要注意的是这种方法会自动将相同列名加上后缀,而且这个后缀是可以改的,看下例:

df_suffix = pd.merge(df1, df2, left_on='id',right_on='id',how='outer',suffixes=('_left','_right'))

df_suffix


可以看到suffixes参数可以修改后缀。

Inner合并生成的新数据集中只会有原来2个数据集中都有的数据,相当于取了两个数据框的交集。

df_inner = pd.merge(df1, df2, on='id', how='inner')

df_inner


相应的,Right,和Left就是分别以第二个和第一个数据框中的变量为基准进行数据框的合并,大家也可以试试。有时候,我们会根据2个数据框的index来合并,此时,只需要将right_index,left_index两个参数设置为True即可。看下面例子:

df_index = pd.merge(df1, df2, right_index=True, left_index=True)

df_index


结论

好了,今天给大家介绍了concat() 和 merge()合并数据框的用法,希望对大家有帮助。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。

(站外链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据)

往期精彩:

python数据分析:缺失数据的处理

python数据分析:离群值的检测和处理

python应用:如何用python提取pdf文件中的文字

相关推荐

win7系统序列号怎么查(win7电脑的序列号怎么查)

你可以在cmd命令行窗口中输入以下相关命令,可以得到你要的信息查找主板厂商输入:wmicBaseBoardgetManufacturer查找主板型号输入:wmicBaseBoardgetP...

台式电脑怎么看配置好坏(台式机怎么看配置参数哪里看好坏)

如何分辨电脑配置好坏第一看CPU,CPU从上到下可分为i7,i5,i3等,数字越高越好。第二看显卡和内存,显卡内存现在至少4G或者8G起步,越高越好,第三看硬盘是否是固态,固态要比机械的运行速度快...

下载软件安装不了(为什么下载软件安装不了)

    一:检查手机内存是否充足,如果内存太小,需要更换大容量的SD卡。  二:检查手机是否设置允许安装除手机自带应用商店以外的应用。  方法一:需要从手机自带应用商店下载。  ①点击手机桌面上的应用...

现在建议更新win11吗(应该升级win11吗)

鲁大师更新11靠谱的,他只是给你提供一个方便的升级渠道而已。升级以后能否正常使用,还要看你原来的系统是否是正版。如果原来的系统是正版,升级完成后,可以正常使用。如果原来的系统是盗版,也是可以升级的,只...

windows7旗舰版好用吗(win7旗舰版好用么)

win7旗舰版挺好使的不过现在可以选择更win10。Windows7旗舰版属于微软公司开发的Windows7操作系统系统系列中的功能最高级的版本,也被叫做终结版本,是为了取代WindowsXP...

2025年最好用的手机浏览器(2021最好的手机浏览器)

可以使用uc浏览器或者是QQ浏览器,最新版本都是带有Flash插件的,火狐浏览器手机版也是一开始拥有Flash插件。以下是详细介绍:  1、uc浏览器是阿里旗下的浏览器,只需要下载最新版,然后进去就可...

电脑一键还原系统在哪里(电脑一键还原系统怎么用)
  • 电脑一键还原系统在哪里(电脑一键还原系统怎么用)
  • 电脑一键还原系统在哪里(电脑一键还原系统怎么用)
  • 电脑一键还原系统在哪里(电脑一键还原系统怎么用)
  • 电脑一键还原系统在哪里(电脑一键还原系统怎么用)
纯净版win11在哪下载(在哪下win10纯净版)

Win11纯净版中,有一些常用的应用软件,包括但不限于以下几款:MicrosoftEdge:微软推出的新一代浏览器,支持多种设备,具备更快的加载速度和丰富的扩展功能。MicrosoftOffice...

电脑软件最全的应用商店(电脑软件最全的应用商店下载)
  • 电脑软件最全的应用商店(电脑软件最全的应用商店下载)
  • 电脑软件最全的应用商店(电脑软件最全的应用商店下载)
  • 电脑软件最全的应用商店(电脑软件最全的应用商店下载)
  • 电脑软件最全的应用商店(电脑软件最全的应用商店下载)
win7自带激活工具在哪个位置

恩,其实这些就是激活系统的工具,朋友可以通过计算机属性看看你的系统是不是激活了。如果没有的话,建议你使用OEM7F7那个,使用方法是右键,以管理员身份运行,然后点击开始体验正版,等下,重新启动系统...

无法激活因为无法连接到组织

 解决方法: 首先我们右键点击“开始菜单”,选择“WindowsPowerShell(管理员)”。 在windowsPowershell窗口中逐一输入如下三行命令,并回车键执行命令。 slmgr...

一个2tb的u盘多少钱(2tb优盘)

假的就算你买回来插到电脑上显示是2TB也没用,你复制东西到U盘里就会显示U盘已满不能复制,就算复制进去了也会有一部分不能使用。或者你买回来用360的U盘鉴定软件鉴定一下就知道真假了。还有就是你看看...

软件商店下载官方网站(软件商店正版软件下载)

软件商店安装的方法步骤如下:1.第一步,需要注册一个微软账户,然后点击桌面左下角的开始图标,然后在开始菜单中找到微软商店图标,点击进入。2.第二步,点击进入应用商店主页。3.第三步,在商店中搜索...

系统应用架构(系统应用架构有哪些)

一、目的不同:系统架构是对已确定的需求的技术实现构架、作好规划,运用成套、完整的工具,在规划的步骤下去完成任务。应用构架是描述了IT系统功能和技术实现内容的构架。二、实现方式不同:系统架构通过规划程序...

雨林木风ghostxpsp3纯净版(雨林木风xp系统怎么样)

1.你下载的雨林木风GHOSTXPSP3纯净版Y8.0是一个克隆光盘映像文件,首先将其刻录成光盘,这个光盘是一个带有启动系统的系统克隆安装光盘;2.将电脑设置成光驱启动(在启动电脑时连续按DEL键...

取消回复欢迎 发表评论: