百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python读excel文件最佳实践?直接请教pandas比gpt还好用

off999 2024-10-07 12:09 17 浏览 0 评论

前言

说到 python 读取 excel 文件,网上使用 openpyxl 的文章一大堆。我自己很少直接使用 openpyxl,一般使用 pandas 间接使用。

但如果你不希望引入 pandas,该如何轻松使用 openpyxl?到底有没有最佳实践写法?

这好办,今天就带大家看看 pandas 里面,是如何使用 openpyxl 读取 excel 文件。

不要忘记一键三连。你的点赞、收藏、关注,是我创作的动力。


本文查看的是 pandas 2.1.4 版本的代码。

使用任何能导航代码的 ide,我使用的是 vscode ,输入 pandas 的 read_excel 方法,按住 ctrl 键,鼠标点击方法,即可进入源码文件。

通过查找,你会找到一个很重要的类定义 ExcelFile :

众所周知,pandas 能指定不同的第三方库读写 excel 文件。今天我们只看 openpyxl 。进去查看,基本上所有的读取逻辑都在这个类里面。

很明显,这是读取文件的代码。由于只需要读取,设置 read only 和 data only ,能以最优性能执行。

接着是工作表相关:

有了具体的某个工作表对象,下一步就是最重要的加载数据,现在才是我们最关注的地方。到底 pandas 是如何组织代码?代码中一些奇怪的操作,是为什么?我们一一拆解。


行 612 是什么鬼?通过查 openpyxl 的文档,可以知道,原来有些程序(wps?)或库,在保存文件的时候,会写入关于工作表数据的范围最大行和列的信息。但是他们有可能会写错,通过 reset_dimensions 可以重置

接着就开始遍历读取:

同时我们注意到,行 614 和 623,这就是读取出来的所有数据,是一个 嵌套 list 结构。

但是,里面竟然有一个 while 循环?

原来,如果用户设置了一个单元格的格式,即使没有内容,也算一个有效的单元格。

此时如果只是正常遍历读取,得到的结果是

所以 while 循环就是移除这些多余的空单元格

如果这种"假单元格"出现在数据行下方:

此时就多了许多空行

所以,pandas 在遍历过程中,记录了最后有记录的行索引,遍历后截取一下就可以搞定:

看起来好像结束了?对于 pandas 来说,还没完


对于 pandas 来说,最终它会把得到的嵌套 list 数据传给 pd.DataFrame 。这里有一个前提,嵌套的每一行的列表长度必需一致才行。

但是行的长度有可能不一致。所以你会看到 pandas 的处理中,最后有一段逻辑用于补齐这些"短列表"

可以注意到,其中有3处地方在遍历 data 数据。所以,如果记录越多,这里就比较耗时。你能想到优化的方法吗?

我已经把本期涉及的代码整理好。转发、关注我,私信"python",获得本期源码和数据。

相关推荐

python基础模块三剑客:sys、os、shutil(增加示例代码)

注:上个篇由于不熟悉头条号编辑器,导致示例代码丢失。现在全部以图片的形式加回。有同学问了个问题:在python里如何复制、删除、重命名文件?有个同学知道os.system(),就回答说:os.syst...

Python常用文件操作库使用详解(python 对文件操作)

Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能:文件...

你知道Python 如何进行高效的代码重构吗?

点赞、收藏、加关注,下次找我不迷路写出高质量的代码是每个程序员的追求。而代码重构作为提升代码质量的重要手段,却常常被新手忽视。很多新手在编写代码时,只关注功能是否实现,却不注重代码的结构和可维护性,...

Python常用内置模块介绍——文件与系统操作详解

Python提供了多个强大的内置模块用于文件和系统操作,下面我将详细介绍最常用的几个模块及其核心功能。1.os模块-操作系统交互os模块提供了与操作系统交互的接口,包括文件/目录操作、进程管理、环...

Python的tarfile模块解压缩.tar/.tar.gz等文件

python中的标准库tarfile模块可以帮助我们快速压缩或者解压后缀为.tar/.tar.gz/.tar.bz2/.tar.xz的文件。01、tarfile核心类与函数介绍使用方法因为tarfil...

批量重命名工具,Bulk Rename Utility软件体验

平常在电脑上处理电子文件,经常在得到文件本身时,没有空闲和精力去为文件重命名,像是一张图片,要作为下一个步骤的素材。而处理完事过后就不理它了,顺手直接丢回收站或者放在硬盘里。但是想把文件存档和提交给上...

照片怎样重命名?方法有四种(照片怎么可以重命名)

照片怎样重命名?照片在我们日常生活中扮演着越来越重要的角色,但是有时候,我们需要对照片进行重命名,以便更好地组织和查找它们,这样也可以大大提高我们的效率。在这篇文章中,我们将介绍四种简单的方法,让你轻...

你需要批量创建文件夹并命名吗,给你推荐几个方法

小李是一家设计公司的项目经理,最近接了一个大项目,需要整理大量的设计稿。每个设计稿都需要单独创建一个文件夹,以方便团队成员协作。手动创建文件夹效率太低,而且容易出错。小李在网上搜索了各种方法,尝试了P...

怎样批量重命名一个工作簿中的所有工作表

上篇文章,Python数据的选取和处理,阅读量93,收藏15,没有评论。目前正在复习Python+Excel实现办公自动化,有兴趣的可以一起讨论,共同提高。花了近4个小时终于把6个分部的统计工作表做好...

Windows如何批量修改文件后缀名(电脑如何批量修改文件后缀名)

在Windows系统中药批量修改文件后缀名的方式非常多,每个方法的优缺点各有不同,下面通过几个常见的方式给大家介绍下,Windows如何批量修改文件后缀名的。给有需要的朋友几个参考。方法一:使用文件资...

Python3+ 变量命名全攻略:PEP8 规范 + 官方禁忌 + 实战技巧,全搞懂!

Python3+变量命名规则与约定详解一、官方命名规则(必须遵守)1.合法字符集变量名只能包含:大小写字母(a-z,A-Z)数字(0-9)下划线(_)2.禁止数字开头合法:user_age,...

python代码实现读取文件并生成韦恩图

00、背景今天战略解码,有同学用韦恩图展示各个产品线的占比,效果不错。韦恩图(Venndiagram),是在集合论数学分支中,在不太严格的意义下用以表示集合的一种图解。它们用于展示在不同的事物群组之...

python学习第二天:用Pycharm新建的第一个程序

分享第一次使用Pycharm学到的内容第一次打开得到上面图片projects:项目customize:自定义plugins:插件learn:学习newproject新建项目聪明如我在插件那里找到了汉...

如何编写第一个Python程序(python第一个代码)

一、第一个python程序[掌握]python:python解释器,将python代码解释成计算机认识的语言pycharm:IDE(集成开发环境),写代码的一个软件,集成了写代码,...

Python文件读写操作详解:从基础到实战

Python文件的读写操作在Python中,文件操作非常常见,可以通过内建的open()函数进行文件的读取、写入、创建等操作。理解文件操作的模式和with语句对于确保代码的简洁性和效率至...

取消回复欢迎 发表评论: