百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

使用pandas读取excel(使用pandas读取excel文件的代码示例)

off999 2024-10-11 13:59 35 浏览 0 评论

摘要:Excel是微软的经典之作,在日常工作中的数据整理、分析和可视化方面,有其独到的优势。但如果数据量超大,Excel的劣势也就随之而来,甚至因为内存溢出无法打开文件,后续的分析更是难上加难。那么,有什么更好的解决办法吗?工欲善其事,必先利其器,在这里我们介绍使用Python的pandas数据分析包的read_excel()方法来解决此问题。

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, **kwds)

pandas读取Excel后返回DataFrame,接下来我们就pd.read_excel()常用参数进行详细解析。


io,即Excel工作簿的存储路径,建议使用英文路径以及英文命名方式。

import pandas as pd
io = r'C:\Users\Administrator\Desktop\data.xlsx'

sheet_name,要读取的工作表名,可以是整型数字、列表名或SheetN,也可以是上述三种组成的列表。

  • 整型数字:目标sheet所在的位置,以0为起始,sheet_name = 1代表第2个工作表。
data = pd.read_excel(io, sheet_name = 1)
data.head()
  • 列表名:目标sheet的名称,中英文皆可。
data = pd.read_excel(io, sheet_name = '英超射手榜')
data.head()
  • SheetN:代表第N个sheet,S要大写,注意与整型数字的区别。
data = pd.read_excel(io, sheet_name = 'Sheet5')
data.head()
  • 组合列表: sheet_name = [0, '英超射手榜', 'Sheet4'],代表读取三个工作表,分别为第1个工作表、名为“英超射手榜”的工作表和第4个工作表,显然,Sheet4未经重命名。
  • sheet_name 默认为0,取Excel第一个工作表。如果读取多个工作表,则显示表格的字典。因此对于初学者而言,建议每次读取一个工作表,然后进行二次整合。
data = pd.read_excel(io, sheet_name = ['英超积分榜', '西甲积分榜'], nrows = 5)
# sheet_name = ['英超积分榜', '西甲积分榜'] ,返回两个工作表组成的字典
data

header, 哪一行用作列名,默认为0 ,如果设置为[0,1],则表示将前两行作为多重索引

data = pd.read_excel(io, sheet_name = '英超积分榜', header = [0,1]) 
# 前两行作为列名。
data.head()

names, 用自定义的列名作为最终的列名。一般适用于Excel缺少列名,或者需要重新定义列名的情况。注意:names的长度必须和Excel列长度一致,否则会报错。

data = pd.read_excel(io, sheet_name = '英超射手榜', 
 names = ['rank','player','club','goal','common_goal','penalty'])
data.head()

index_col, 用以作为索引的列,可以是工作表列名称(index_col = '排名'),也可以是整型或整型列表(index_col = 0 或 [0, 1]),如果选择多个列,则返回多重索引。

data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = '排名')
data.head()
data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = [0, 1])
data.head()

usecols,需要读取哪些列。可以使用整型(从0开始,如[0,2,3])或者“A”、“B”等字母(Excel常用),如“A:C, E” ="A, B, C, E",并且两边都包括。

data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = [0, 1, 3])
data.head()
data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = 'A:C, E')
data.head()

squeeze,如果数据仅包含一列,squeeze为True时,返回Series,反之返回DataFrame。

data = pd.read_excel(io, sheet_name = 'squeeze', squeeze = True)
data.head()
data = pd.read_excel(io, sheet_name = 'squeeze', squeeze = False)
data.head()

converters ,强制规定列的数据类型,converters = {'排名': str, '场次': int}, 将“排名”列数据类型强制规定为字符串,“场次”为整型,主要用途:保留以文本形式存储的数字。

data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})
data['排名'].dtype

skiprows = n, 表示跳过前n行数据; skiprows = [a, b, c],表示跳过第a,b,c行数据(索引从0开始)。使用skiprows 后,有可能首行(即列名)也会被跳过。

data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = [1,2,3]) 
# 跳过第2,3,4行数据(索引从0开始,包括列名)
data.head()
data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = 3)
data.head()

nrows ,需要读取的行数,如果数据量太过庞大,或者只想了解Excel的列名及概况,nrows会十分有用。

data = pd.read_excel(io, sheet_name = '英超射手榜', nrows = 10)
data

skipfooter = n, 跳过末尾n行(索引从0开始)。

data = pd.read_excel(r'C:\Users\Administrator\Desktop\data.xlsx' , 
 sheet_name = '英超射手榜', skipfooter = 43)
# skipfooter = 43, 跳过末尾43行(索引从0开始)
data

***新手自学,欢迎拍砖***

相关推荐

win10iso文件(win10iso文件怎么安装)

安装Win10ISO系统文件需要以下步骤:1.首先需要从Microsoft官网下载Win10ISO系统文件,打开网站后选择Win10的版本、语言和架构(32位或64位),点击下载即可。2.下载...

qq邮箱登录不上去怎么回事(qq邮箱怎么登陆不上去)
  • qq邮箱登录不上去怎么回事(qq邮箱怎么登陆不上去)
  • qq邮箱登录不上去怎么回事(qq邮箱怎么登陆不上去)
  • qq邮箱登录不上去怎么回事(qq邮箱怎么登陆不上去)
  • qq邮箱登录不上去怎么回事(qq邮箱怎么登陆不上去)
英特尔显卡性能排行(英特尔显卡性能排行天梯图)

IRIS(英特尔第四/五代集成显卡)英特尔第四代集成显卡,分为HD4200/4400/4600,HD5100/5200。代号为GT2/3/3e,中文名为锐炬。hd420044004600和台式...

电脑做系统u盘启动选项(做系统开机u盘怎么选择)

操作须知:1、设置U盘启动分很多种:传统legacy机型设置、uefi新机型设置、uefi机型改legacy启动设置2、由于电脑品牌以及机型非常多,这边仅列举一部分电脑的设置方法,3、如果是uefi机...

未安装nvidia控制面板(电脑未安装nvidia控制面板)

如果你使用的是Nvidia显卡,但未安装Nvidia控制面板,则可能会遇到以下问题:1.无法进行高级显卡设置:Nvidia控制面板提供了高级显卡设置选项,例如显卡超频、显示器分辨率和刷新率、视频调整...

u盘检测不到怎么修复(u盘检查不了是什么原因)

以下是可能的解决办法:1.更换不同的USB端口。有时候电脑某个USB端口可能出现问题,试试换一个不同的端口。2.重启电脑。有时候出现问题的USB端口可能需要重启才能正常。3.插拔几次U盘。有时候...

win7 共享设置(win7共享设置详细步骤)

1.进入控制面板家庭组页打开控制面板找到网络和Internet下面的家庭组和共享选项并打开?2.进入更改高级共享设置打开以后选择更改高级共享设置功能进入?3.开启文件和打印机共享开启文件和打印机共享,...

电脑硬盘怎么装步骤图(电脑硬盘怎么装步骤图片)

1、查看硬盘的各项信息。硬盘的背面会有硬盘的存储容量以及电压,功率,转速等基本信息。2、购买到的一整块硬盘里面包括硬盘、对接线跟螺丝钉。将对接线和螺丝钉摆在一旁。3、在硬盘的上方会有两个SATA接口,...

小马win10永久激活(小马win10永久激活工具使用方法)

很简单,重装系统win7,这个可以激活的,然后根据推送升级win10,如果有强迫症可以升级以后重新安装win10系统,以后都是自动联网激活的。安全。小马激活工具win10版是小马专门为windowns...

win10开机欢迎时间太长(开机欢迎界面时间长)

win10第一个就是你系统里的垃圾太多,如果系统垃圾太多,直接清理垃圾就可以解决这个问题,第二个就是你的开机启动项过多,如果开机启动项过多,直接关闭不必要的开机启动项就可以缩短开机时间,就可以解决你...

登录126邮箱入口(登录126邮箱入口官网)

126邮箱是网易的一个免费邮箱登录入口在浏览器输入:mail.126.com浏览器进入126邮箱网站之后,即可自行登录126邮箱账号。如何在手机上登录126邮箱1、打开手机,找到并打开网易邮箱软件。2...

如何让防火墙允许某个软件(如何允许防火墙阻止访问)

1.打开电脑的开始菜单,找到控制面板选项,并点击打开。2.在打开的控制面板中,找到防火墙选项,并点击打开。3.在打开的防火墙界面中,单击左侧的允许程序通过防火墙选项。4.在跳转的界面中,选择允许通过防...

智慧工厂管理系统(智慧工厂管理系统哪家好)
智慧工厂管理系统(智慧工厂管理系统哪家好)

智慧工厂智能化系统整体的解决方案分为三个主要部分,分别是现场控制系统(FDC)、生产数据管理系统(PDM)以及工厂数字化协同平台(LCT)。其中,现场控制系统(FDC)是智慧工厂系统非常重要的核心组成部分,它是一个支持大规模互联的集群控制系...

2025-11-13 22:03 off999

笔记本无法连接此网络(笔记本无法连接网络wifi)
  • 笔记本无法连接此网络(笔记本无法连接网络wifi)
  • 笔记本无法连接此网络(笔记本无法连接网络wifi)
  • 笔记本无法连接此网络(笔记本无法连接网络wifi)
  • 笔记本无法连接此网络(笔记本无法连接网络wifi)
电脑如何打开隐藏文件(电脑怎么打开隐藏文件夹)

要显示隐藏文件,首先需要打开文件资源管理器,然后点击菜单栏中的“查看”选项,选中“隐藏项目”复选框即可。此时,隐藏文件和文件夹将会显示在文件资源管理器中,可以进行正常操作。如果需要隐藏文件和文件夹,可...

取消回复欢迎 发表评论: