百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

使用python来读取超大型文件数据(python如何读取大文件)

off999 2024-10-10 07:52 43 浏览 0 评论

在实际应用中,几乎所有的数据分析工作都是从数据读取开始的,如果数据量太大导致数据文件读取失败了,这样后续的工作就没有办法进行了,在机器自身硬件内存限制的情况下,当文件量过大的时候直接使用read等函数来进行操作的时候就会报错,这里就需要采取一定的策略来尽可能地避免这样的问题产生,今天的工作中就遇上了这样的问题,需要处理的数据文件一共是6.86GB,电脑内存是8GB的,读取的时候就报错了,用read或者readlines函数都是需要将整个文件都读进内存中去的,这样就不行了,查了一些资料,也简单总结了一下,把处理方法在这里介绍一下,具体如下:

#!usr/bin/env python
#encoding:utf-8
 
 
'''
__Author__:沂水寒城
功能: 使用python来读取超大型文件
 在机器自身硬件内存限制的情况下,当文件量过大的时候直接使用read等函数来进行操作的
 时候就会报错,这里就需要采取一定的策略来避免这样的问题产生
'''
 
import linecache
 
 
 
def readFunc1(data='test.txt'):
 '''
 通过指定单次读取的数据大小长度
 '''
 myfile=open(data)
 while True:
 block=myfile.read(1024)
 if not block:
 break
 else:
 print block
 myfile.close()
 
 
 
def readFunc2(data='test.txt'):
 '''
 设定每次只读取一行
 '''
 myfile=open(data)
 while True:
 line=myfile.readline()
 if not line:
 break
 else:
 print line
 myfile.close()
 
 
def readFunc3(data='test.txt'):
 '''
 利用可迭代对象file,这样会自动的使用buffered IO以及内存管理
 '''
 with open(data,'r') as myflie:
 for line in myflie:
 if not line:
 break
 else:
 print line
 
 
def readFunc4(data='test.txt'):
 '''
 借助于第三方模块 linecache
 '''
 #读取全部数据
 all_text=linecache.getlines(data)
 #读取第二行数据,要注意linecache的读取索引是从1开始的,而不是从0开始的
 text=linecache.getline(data, 2)
 print 'line 2: ',text
 
 
if __name__=='__main__':
 readFunc1(data='test.txt')
 readFunc2(data='test.txt')
 readFunc3(data='test.txt')
 readFunc4(data='test.txt')

部分结果如下:


{
	"11-06": {
		"temperate": {
			"day": {
				"today_temperate": "10\u2103",
				"now_temperate": "\u6c14\u6e29"
			},
			"three_hour": {
				"11-06-23:00": "17.4\u2103",
				"11-06-20:00": "18\u2103",
				"11-06-17:00": "18.4\u2103",
				"11-06-02:00": "20.4\u2103",
				"11-06-14:00": "18.7\u2103",
				"11-06-05:00": "17.9\u2103",
				"11-06-11:00": "19.8\u2103",
				"11-06-08:00": "17.5\u2103"
			}
		},
		"wind_speed": {
			"day": {
				"today_winds": "\u5fae\u98ce",
				"now_winds": "\u98ce\u5411\u98ce\u901f"
			},
			"three_hour": {
				"11-06-23:00": "0.9\u7c73/\u79d2",
				"11-06-20:00": "1.1\u7c73/\u79d2",
				"11-06-17:00": "2.3\u7c73/\u79d2",
				"11-06-02:00": "1.8\u7c73/\u79d2",
				"11-06-14:00": "2\u7c73/\u79d2",
				"11-06-05:00": "2.3\u7c73/\u79d2",
				"11-06-11:00": "2.2\u7c73/\u79d2",
				"11-06-08:00": "1\u7c73/\u79d2"
			}
		},
......

四种方法相比而言,前两种方法的核心就是化大为小,即将原始的大文件数据转化为小粒度的数据来进行读取,每次只处理单次读取的数据;第三种方法采用的是文件迭代器的方式,借助于python自带的迭代机制,自动地使用了buffered IO以及内存管理方法来解决大文件数据的读取;最后一种方法是借助于第三方的模块linecache来完成读取的,这是一个自带缓存机制的数据读取模块,最常用的方法就是上面提到的两个函数了,亲测非常好用,读取5GB的文件大概在十几秒左右的吧,直接使用pip安装的话灭有成功,我是在网上找了一个安装包完成安装的,这里放一下下载链接,如果需要的话就拿去测试使用吧,个人感觉还是很不错的。

相关推荐

你的电脑未正确启动自动修复

1、试试“禁止驱动强制签名”能不能进入桌面在“疑难解答”->“高级选项”->“启动模式”中选择“禁止驱动强制签名”,如果这样能正常开启,那么就说明是某个驱动的问题2、把错误驱动删掉如果你安...

电脑开机弹出系统恢复选项(电脑开机经常出现系统恢复界面)

  这种情况一般都是系统引导出现问题,可以【F8】选择【最后一次正确配置】,重启后一般都能恢复;如果不行可以选择进入【安全模式】【恢复我的计算机到一个较早的时间】。以下是详细介绍:  1、开机时多次点...

手机版电脑模拟器下载(手机电脑模拟器下载的文件在哪)
手机版电脑模拟器下载(手机电脑模拟器下载的文件在哪)

  玩家们想要在电脑上畅快地玩真实手机,首先就需要先下载它的电脑版模拟器啦。在这里推荐大家使用的是电脑安卓模拟器,这是一款十分流畅好用的真实手机安卓模拟器,性能强悍,功能完备。  1、下载完真实手机安卓模拟器。  2、在电脑上进行安装,双击...

2026-01-01 16:03 off999

下载计算机到手机(手机下载计算机怎么下载)
  • 下载计算机到手机(手机下载计算机怎么下载)
  • 下载计算机到手机(手机下载计算机怎么下载)
  • 下载计算机到手机(手机下载计算机怎么下载)
  • 下载计算机到手机(手机下载计算机怎么下载)
u盘启动不了怎么回事(u盘启动也启动不了)

原因三:USB传输性能不佳导致;解决三:换个USB插口试试,建议将u盘插入到电脑机箱后置的USB插口处。原因四:u盘自身的质量问题导致;解决四:换一个u盘制作试一试。原因五:电脑系统问题导致;解决五:...

联想笔记本电脑键盘输入没反应

1.首先在可以进行输入的位置,长按下某个按键1秒以上,看看有没有反应。有反应看第2,没反应看第3。2.控制面板~轻松使用~轻松使用设置中心~更改键盘的工作方式~取消筛选键并应用即可。3.打开设备管理器...

软件管家电脑版下载官网(软件管家电脑版下载官网安装)

要下载和安装应用程序,您可以按照以下步骤使用电脑管家:1.打开电脑管家应用程序。2.在主界面上,您可以找到一个名为“应用中心”的选项,点击它。3.在应用中心中,您可以浏览各种应用程序的列表。您可...

台式电脑怎么取消定时关机(台式电脑设置自动关机怎么取消)

电脑设置了每天定时关机,取消的方法有多种,以下提供三种方式:方法一:打开任务计划程序(TaskScheduler)。找到“任务计划程序库”(TaskSchedulerLibrary),找到设置的...

win7怎么截屏快捷键(win7怎样截屏快捷键)

在Win7系统中,自带的截图快捷键是“PrtScn”键,即PrintScreen键。按下这个键后,系统会将当前屏幕的内容复制到剪贴板中,然后用户可以将其粘贴到其他应用程序中进行编辑或保存。此外,Wi...

如何查看笔记本配置(如何查看笔记本配置高低)

两种方法一种你在笔记本背面有个ID号,也就是序列号,你把它抄下来,输到笔记本品牌的官网上,查看他的配置就可以,这是第1种方法,第2种方法,你开机后,我的电脑上单击右键,点属性,就会在出来你的CPU内存...

linux软件(linux软件图标)

Linux是一种自由和开放源代码的类UNIX操作系统。该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布。在加上用户空间的应用程序之后,成为Linux操作系统。Linux也是自由软件和开放...

hp laserjet p1108打印机驱动

惠普LaserJetProP1108打印机安装打印机驱动的方法,可以通过以下步骤操作来实现:1、运行驱动安装包,在“HPLaserJetProP1100打印机系列”下,点击“USB安装...

台式机最好的配置(台式机最强配置)

家用台式电脑cpu一般选择英特尔8-10代的i3就能满足正常的家用,内存方面选择16g,绝对够用,再选择一块512g的固态硬盘,保证电脑的速度2022年台式电脑建议你可以配16gb或32gb的内存。硬...

笔记本电脑home键在哪(笔记本的home键怎么用)

home键位置一般有三个:一、键就在键盘最右边一列的上方,也是右上角处。二、在数字键盘的“7”键上,如果想使用"home"键功能,需要先关闭数字键功能。一般笔记本开、关数字键功能是按F...

win7汉化包下载(win7系统汉化)

要下载犀牛7grasshopper汉化包,首先你需要从官方网站或可靠的第三方网站上找到可信赖的下载链接。然后,点击链接进行下载,并确保你的电脑设备有足够的存储空间来安装这个汉化包。安装完成后,打开犀牛...

取消回复欢迎 发表评论: