python读excel文件最佳实践?直接请教pandas比gpt还好用
off999 2024-10-07 12:09 17 浏览 0 评论
前言
说到 python 读取 excel 文件,网上使用 openpyxl 的文章一大堆。我自己很少直接使用 openpyxl,一般使用 pandas 间接使用。
但如果你不希望引入 pandas,该如何轻松使用 openpyxl?到底有没有最佳实践写法?
这好办,今天就带大家看看 pandas 里面,是如何使用 openpyxl 读取 excel 文件。
不要忘记一键三连。你的点赞、收藏、关注,是我创作的动力。
本文查看的是 pandas 2.1.4 版本的代码。
使用任何能导航代码的 ide,我使用的是 vscode ,输入 pandas 的 read_excel 方法,按住 ctrl 键,鼠标点击方法,即可进入源码文件。
通过查找,你会找到一个很重要的类定义 ExcelFile :
众所周知,pandas 能指定不同的第三方库读写 excel 文件。今天我们只看 openpyxl 。进去查看,基本上所有的读取逻辑都在这个类里面。
很明显,这是读取文件的代码。由于只需要读取,设置 read only 和 data only ,能以最优性能执行。
接着是工作表相关:
有了具体的某个工作表对象,下一步就是最重要的加载数据,现在才是我们最关注的地方。到底 pandas 是如何组织代码?代码中一些奇怪的操作,是为什么?我们一一拆解。
行 612 是什么鬼?通过查 openpyxl 的文档,可以知道,原来有些程序(wps?)或库,在保存文件的时候,会写入关于工作表数据的范围最大行和列的信息。但是他们有可能会写错,通过 reset_dimensions 可以重置
接着就开始遍历读取:
同时我们注意到,行 614 和 623,这就是读取出来的所有数据,是一个 嵌套 list 结构。
但是,里面竟然有一个 while 循环?
原来,如果用户设置了一个单元格的格式,即使没有内容,也算一个有效的单元格。
此时如果只是正常遍历读取,得到的结果是
所以 while 循环就是移除这些多余的空单元格
如果这种"假单元格"出现在数据行下方:
此时就多了许多空行
所以,pandas 在遍历过程中,记录了最后有记录的行索引,遍历后截取一下就可以搞定:
看起来好像结束了?对于 pandas 来说,还没完
对于 pandas 来说,最终它会把得到的嵌套 list 数据传给 pd.DataFrame 。这里有一个前提,嵌套的每一行的列表长度必需一致才行。
但是行的长度有可能不一致。所以你会看到 pandas 的处理中,最后有一段逻辑用于补齐这些"短列表"
可以注意到,其中有3处地方在遍历 data 数据。所以,如果记录越多,这里就比较耗时。你能想到优化的方法吗?
我已经把本期涉及的代码整理好。转发、关注我,私信"python",获得本期源码和数据。
相关推荐
- python基础模块三剑客:sys、os、shutil(增加示例代码)
-
注:上个篇由于不熟悉头条号编辑器,导致示例代码丢失。现在全部以图片的形式加回。有同学问了个问题:在python里如何复制、删除、重命名文件?有个同学知道os.system(),就回答说:os.syst...
- Python常用文件操作库使用详解(python 对文件操作)
-
Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能:文件...
- 你知道Python 如何进行高效的代码重构吗?
-
点赞、收藏、加关注,下次找我不迷路写出高质量的代码是每个程序员的追求。而代码重构作为提升代码质量的重要手段,却常常被新手忽视。很多新手在编写代码时,只关注功能是否实现,却不注重代码的结构和可维护性,...
- Python常用内置模块介绍——文件与系统操作详解
-
Python提供了多个强大的内置模块用于文件和系统操作,下面我将详细介绍最常用的几个模块及其核心功能。1.os模块-操作系统交互os模块提供了与操作系统交互的接口,包括文件/目录操作、进程管理、环...
- Python的tarfile模块解压缩.tar/.tar.gz等文件
-
python中的标准库tarfile模块可以帮助我们快速压缩或者解压后缀为.tar/.tar.gz/.tar.bz2/.tar.xz的文件。01、tarfile核心类与函数介绍使用方法因为tarfil...
- 批量重命名工具,Bulk Rename Utility软件体验
-
平常在电脑上处理电子文件,经常在得到文件本身时,没有空闲和精力去为文件重命名,像是一张图片,要作为下一个步骤的素材。而处理完事过后就不理它了,顺手直接丢回收站或者放在硬盘里。但是想把文件存档和提交给上...
- 照片怎样重命名?方法有四种(照片怎么可以重命名)
-
照片怎样重命名?照片在我们日常生活中扮演着越来越重要的角色,但是有时候,我们需要对照片进行重命名,以便更好地组织和查找它们,这样也可以大大提高我们的效率。在这篇文章中,我们将介绍四种简单的方法,让你轻...
- 你需要批量创建文件夹并命名吗,给你推荐几个方法
-
小李是一家设计公司的项目经理,最近接了一个大项目,需要整理大量的设计稿。每个设计稿都需要单独创建一个文件夹,以方便团队成员协作。手动创建文件夹效率太低,而且容易出错。小李在网上搜索了各种方法,尝试了P...
- 怎样批量重命名一个工作簿中的所有工作表
-
上篇文章,Python数据的选取和处理,阅读量93,收藏15,没有评论。目前正在复习Python+Excel实现办公自动化,有兴趣的可以一起讨论,共同提高。花了近4个小时终于把6个分部的统计工作表做好...
- Windows如何批量修改文件后缀名(电脑如何批量修改文件后缀名)
-
在Windows系统中药批量修改文件后缀名的方式非常多,每个方法的优缺点各有不同,下面通过几个常见的方式给大家介绍下,Windows如何批量修改文件后缀名的。给有需要的朋友几个参考。方法一:使用文件资...
- Python3+ 变量命名全攻略:PEP8 规范 + 官方禁忌 + 实战技巧,全搞懂!
-
Python3+变量命名规则与约定详解一、官方命名规则(必须遵守)1.合法字符集变量名只能包含:大小写字母(a-z,A-Z)数字(0-9)下划线(_)2.禁止数字开头合法:user_age,...
- python代码实现读取文件并生成韦恩图
-
00、背景今天战略解码,有同学用韦恩图展示各个产品线的占比,效果不错。韦恩图(Venndiagram),是在集合论数学分支中,在不太严格的意义下用以表示集合的一种图解。它们用于展示在不同的事物群组之...
- python学习第二天:用Pycharm新建的第一个程序
-
分享第一次使用Pycharm学到的内容第一次打开得到上面图片projects:项目customize:自定义plugins:插件learn:学习newproject新建项目聪明如我在插件那里找到了汉...
- 如何编写第一个Python程序(python第一个代码)
-
一、第一个python程序[掌握]python:python解释器,将python代码解释成计算机认识的语言pycharm:IDE(集成开发环境),写代码的一个软件,集成了写代码,...
- Python文件读写操作详解:从基础到实战
-
Python文件的读写操作在Python中,文件操作非常常见,可以通过内建的open()函数进行文件的读取、写入、创建等操作。理解文件操作的模式和with语句对于确保代码的简洁性和效率至...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python字典遍历 (54)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python重命名文件 (54)
- python串口编程 (60)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python人脸识别 (54)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)