3分钟学会,用Python如何正确读取大文件?
off999 2024-10-10 07:52 57 浏览 0 评论
文件读写属于一种常见的IO操作,由于操作系统将底层操作磁盘的接口向上封装为一种通用接口,因此Python中读写文件的基本方法和JAVA、PHP等高级编程语言一样,先请求操作系统打开一个文件描述符,通过操作系统提供的接口从这个文件对象中读取数据,或者把数据写入这个文件中,最后当文件读写操作完成后关闭文件。
需要注意的是文件读写完成后必须及时关闭文件,一方面打开的文件会占用操作系统的资源,并且操作系统同一时间能打开的文件数量也是有限制的,比如Linux操作系统中我们可以使用ulimit -n命令查看最多可打开文件的数量。另一方面在写文件时,操作系统是把数据放到内存缓冲区异步写入磁盘中,并不会立刻把数据全部写入磁盘,而调用close()方法可以使操作系统把没有写入磁盘的数据全部写入磁盘中,防止数据丢失的情况。接下来我们先看下正确的文件打开方式。
文件打开的几种方式
Python内置了open()方法打开了一个文件,如下所示。文件打开模式有'r'、'w'、'a'、'r+'、'w+'、'a+'、'b'等,'r'只读模式打开文件,并将文件指针指向文件头,如果文件不存在会报错;'w'只写模式打开文件,并将文件指针指向文件头,如果文件存在则将其内容清空,不存在则创建;'a'以只追加可写模式打开文件,并将文件指针指向文件尾部,如果文件不存在则创建。对应于open()方法打开文件需要有close()方法关闭文件。
f = open('/mnt/media/log.txt', 'r')
f.read()
f.close()
由于读写文件时都有可能产生IOError,比如文件不存在的情况,此时open()方法会抛出一个IOError的异常,那么后面的f.close()就不会被调用。为了保证无论是否出错都能正确地关闭文件,我们可以使用try ... finally来实现。
try:
f = open('/mnt/media/log.txt', 'r')
f.read()
finally:
if f:
f.close()
由于try ... finally方式实现较为繁琐,Python引入了with语句会自动调用f.close()方法,使得代码更简洁。
with open('/mnt/media/log.txt', 'r') as f:
f.read()
大文件读取几种方式
对文件的读取操作是将文件中的数据加载到内存中,那么对于大文件的读取,如果一次把文件中全部的内容全部加载到内存中显然会耗尽系统的内容。我们看下Python中读取文件常用的方法read()、readline()、readlines()对于大文件读取的支持情况:read(size)方法是从文件当前位置起读取size个字节,若无参数size,则表示读取至文件结束为止,如果文件比较小,用read()一次读取文件较为方便,但如果不能确定文件大小,反复调用read(size)比较保险;readline()方法每次读出一行内容,所以读取时占用内存小,比较适合大文件。readlines()方法读取整个文件所有行,保存在一个列表list变量中,每行作为一个元素,读取大文件时比较占内存。
说到大文件的读取,有个linecache模块,这里要说明下的是这个模块的优势是通过缓存文件内容的方式来加快下次读取文件的速度,所以需要耗费更多的内存,那么以下是我在Linux发行版LEDE+MT7688的环境下对readlines、linecache.getlines以及遍历文件这三种方式在内存的使用情况下的对比:
count = len(open(filepath, 'r').readlines())
_________________________________________________________
count = = len(linecache.getline(filepath) )
_________________________________________________________
count = 0
for count, line in enumerate(open(filepath,'r')):
pass
count += 1
________________________________________________
count = len([ "" for line in open("filename","r")])
不打开文件:Mem: 37648K used, 88184K free, 116K shrd, 0K buff, 12540K cached readlines读取文件:Mem: 69560K used, 56272K free, 124K shrd, 0K buff, 27004K cached linecache.getlines读取文件:Mem: 70396K used, 55436K free, 116K shrd, 0K buff, 26996K cached 遍历方式读取文件:Mem: 53032K used, 72800K free, 116K shrd, 0K buff, 27668K cached
但是linecache.getlines在读取文件的速度上是有绝对优势的,因为文件内容已经缓存在内存中了,下次读取可以直接从内存中获取,可以使用linecache.checkcache检测文件在磁盘上是否发生了变化,如果变化了需要使用linecache.updatecache更新缓存。不过首次读取文件需要打开文件,对于一个15M左右20000行的日志文件三种方式差不多需要8、9秒的时间,但第二次读取文件linecache.getlines方式是微秒级的。
readlines读取文件:
time count 215794 type1 is 9.58759188652
time count 215794 type1 is 1.70862102509
time count 215794 type1 is 2.05462002754
time count 215794 type1 is 1.69754505157
time count 215813 type1 is 2.1633579731
time count 215813 type1 is 1.61879992485
遍历方式读取文件:
time count 215508 type2 is 8.8404238224
time count 215508 type3 is 2.22844409943
time count 215508 type2 is 2.19772100449
time count 215508 type3 is 2.57516384125
time count 215586 type2 is 2.12095785141
time count 215586 type3 is 2.55960321426
time count 215586 type2 is 2.1704659462
time count 215586 type3 is 2.11596107483
linecache.getlines读取文件:
time count 214811 type4 is 8.19337201118
time count 214811 type4 is 6.50882720947e-05
time count 214811 type4 is 9.41753387451e-05
time count 214811 type4 is 6.69956207275e-05
time count 214811 type4 is 9.41753387451e-05
time count 214811 type4 is 6.89029693604e-05
觉得文章还可以的话不妨收藏起来慢慢看,有任何意见或者看法欢迎大家评论!
我是一名python开发工程师,整理了一套python的学习资料,如果你想提升自己,对编程感兴趣,关注我并在后台私信小编:“08”即可免费领取资料!希望对你能有所帮助!
相关推荐
- 安全教育登录入口平台(安全教育登录入口平台官网)
-
122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...
- 大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)
-
大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...
-
- 哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
-
要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...
-
2026-02-04 09:03 off999
- 电信宽带测速官网入口(电信宽带测速官网入口app)
-
这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...
- 植物大战僵尸95版手机下载(植物大战僵尸95 版下载)
-
1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...
- 免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)
-
1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...
- 2025世界杯赛程表(2025世界杯在哪个国家)
-
2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...
- 下载搜狐视频电视剧(搜狐电视剧下载安装)
-
搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...
- 永久免费听歌网站(丫丫音乐网)
-
可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...
- 音乐格式转换mp3软件(音乐格式转换器免费版)
-
有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...
- 电子书txt下载(免费的最全的小说阅读器)
-
1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...
- 最好免费观看高清电影(播放免费的最好看的电影)
-
在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...
- 孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)
-
要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...
欢迎 你 发表评论:
- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
