百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

给Python初学者的文件读写指南(含基础与进阶,建议收藏)

off999 2024-10-04 00:20 20 浏览 0 评论

对于初学者来说,一份详尽又清晰明白的指南很重要。今天,猫猫跟大家一起,好好学习Python文件读写的内容,这部分内容特别常用,掌握后对工作和实战都大有益处。学习是循序渐进的过程,欲速则不达。文章较长,建议大家收藏,以备复习查阅哦。

1、如何将列表数据写入文件?

2、如何从文件中读取内容?

3、多样需求的读写任务

4、从with语句到上下文管理器

如何将列表数据写入文件?

首先,我们来看看下面这段代码,并思考:这段代码有没有问题,如果有问题的话,要怎么改?

 li = ['python',' is',' a',' cat']
 with open('test.txt','w') as f:
 f.write(li)

现在公布答案,这段代码会报错:

 TypeError Traceback (most recent call last)
 <ipython-input-6-57e0c2f5a453> in <module>()
 1 with open('test.txt','w') as f:
 ----> 2 f.write(li)
 ?
 TypeError: write() argument must be str, not list

以上代码的想法是将list列表内容写入txt文件中,但是报错 TypeError: write() argument must be str。就是说,write()方法必须接受字符串(str)类型的参数。

Python中内置了str()方法,可以返回字符串版本的对象(Return a string version of object)。所以,上面的例子中,我们试试把 f.write(li) 改为 f.write(str(li)) ,先做一下字符串类型的转化看看。代码略。

这次没有报错了,但是打开文件就傻眼了吧,写入的内容是“['python',' is',' a',' cat']”。怎么才能写成“python is a cat”呢?

文件写操作还有一个writelines()方法,它接收的参数是由字符串组成的序列(sequence),实际写入的效果是将全部字符串拼接在一起。字符串本身也是一种序列,所以当参数是字符串的时候,writelines()方法等价于write()。

 
 # 以下3种写法等价,都是写入字符串“python is a cat”
 In [20]: with open('test.txt','w') as f:
 ...: f.writelines(['python',' is',' a',' cat'])
 ...: f.writelines('python is a cat')
 ...: f.write('python is a cat')
 ?
 # 以下2种写法等价,都是写入列表的字符串版本“['python',' is',' a',' cat']”
 In [21]: with open('test.txt','w') as f:
 ...: f.write(str(['python',' is',' a',' cat']))
 ...: f.writelines(str(['python',' is',' a',' cat']))
 
 # 作为反例,以下写法都是错误的:
 In [22]: with open('test.txt','w') as f:
 ...: f.writelines([2018,'is','a','cat']) # 含非字符串
 ...: f.write(['python','is','a','cat']) # 非字符串

由上可知,当多段分散的字符串存在于列表中的时候,要用writelines()方法,如果字符串是一整段,那直接使用write()方法。如果要以整个列表的形式写入文件,就使用str()方法做下转化。

这个问题还没结束,如果列表中就是有元素不是字符串,而且要把全部元素取出来,怎么办呢?

那就不能直接使用write()和writelines()了,需要先用for循环,把每个元素取出来,逐一str()处理。

 
 In [37]: content=[1,' is',' everything']
 In [38]: with open('test.txt','w') as f:
 ...: for i in content:
 ...: f.write(str(i))

需要注意的是,writelines()不会自动换行。如果要实现列表元素间的换行,一个办法是在每个元素后面加上换行符“\n”,如果不想改变元素,最好是用for循环,在写入的时候加在末尾:for i in content: f.writelines(str(i)+“\n”)

引申一下,经过实验,数字及元祖类型也可以作为write()的参数,不需转化。但是dict字典类型不可以,需要先用str()处理一下。字典类型比较特殊,最好是用json.dump()方法写到文件,具体操作方法以及注意事项,请看喵喵之前发的《假期玩得开心也不忘充电,学习Python操作JSON,网络数据交换不用愁》

总结一下,write()接收字符串参数,适用于一次性将全部内容写入文件;writelines()接收参数是由字符串组成的序列,适用于将列表内容逐行写入文件。str()返回Python对象的字符串版本,使用需注意。

如何从文件中读取内容?

从文件中读取内容有如下方法:

file.read([size])

从文件读取指定的字节数,如果未给定或为负则读取所有。

file.readline([size])

读取整行,包括 "\n" 字符。

file.readlines([sizeint])

读取所有行并返回列表,若给定sizeint>0,则是设置一次读多少字节,这是为了减轻读取压力。

简而言之,在不传参数的情况下,read()对应write(),读取全部内容;readlines()对应writelines(),读取全部内容(含换行符)并以列表形式返回,每个换行的内容作为列表的一个元素。

 
 In [47]: with open('test.txt','r') as f:
 ...: print(f.read())
 1 is everything.
 python is a cat.
 this is the end.
 ?
 In [48]: with open('test.txt','r') as f:
 ...: print(f.readlines())
 ['1 is everything.\n', 'python is a cat.\n', 'this is the end.']

但是,以上两个方法有个缺点,当文件过大的时候,一次性读取太多内容,会对内存造成极大压力。读操作还有一个readline()方法,可以逐行读取。

 
 In [49]: with open('test.txt','r') as f:
 ...: print(f.readline())
 1 is everything.

readline()读取第一行就返回,再次调用f.readline(),会读取下一行。

喵喵,是否感觉跟《超强汇总:学习Python列表,只需这篇文章就够了》学习过的生成器很像,需要不停调用next()获取下一行。

这么看来,readline()太笨拙了。那么,有什么办法可以优雅地读取文件内容呢?

回过头来看readlines()方法,它返回的是一个列表。这不奇怪么,好端端的内容为啥要返回成列表呢?

再想想writelines()方法,把字符串列表写入文件正是这家伙干的事,readlines()方法恰恰是它的逆操作!而writelines()方法要配合for循环,所以我们把readlines()与for循环结合,看看会怎样。

 
 In [61]: with open('test.txt','r') as f:
 ...: for line in f.readlines():
 ...: print(line)
 1 is everything.
 ?
 python is a cat.
 ?
 this is the end.
 ?
 # 读取内容包含换行符,所以要strip()去掉换行符
 In [62]: with open('test.txt','r') as f:
 ...: for line in f.readlines():
 ...: print(line.strip())
 1 is everything.
 python is a cat.
 this is the end.

总结一下,readline()比较鸡肋,不咋用;read()适合读取内容较少的情况,或者是需要一次性处理全部内容的情况;而readlines()用的较多,比较灵活,因为for循环是一种迭代器,每次加载部分内容,既减少内存压力,又方便逐行对数据处理。

多样需求的读写任务

前两部分讲了文件读写的几大核心方法,它们能够起作用的前提就是,需要先打开一个文件对象,因为只有在文件操作符的基础上才可以进行读或者写的操作。

打开文件用的是open()方法,所以我们再继续讲讲这个方法。open() 方法用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 OSError。

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

open()方法的参数里file(文件)是必需的,其它参数最常用的是mode(模式)和encoding(编码)。

先说说encoding,一般来说,打开文件的编码方式以操作系统的默认编码为准,中文可能会出现乱码,需要加encoding='utf-8'。

 
 In [63]: with open('test.txt','r') as f:
 ...: for line in f.readlines():
 ...: print(line.strip())
 -----------------------
 UnicodeDecodeError Traceback (most recent call last)
 <ipython-input-63-731a4f9cf707> in <module>()
 1 with open('test.txt','r') as f:
 ----> 2 for line in f.readlines():
 3 print(line.strip())
 UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 26: illegal multibyte sequence
 ?
 In [65]: with open('test.txt','r',encoding='utf-8') as f:
 ...: for line in f.readlines():
 ...: print(line.strip())
 爱猫猫
 python is a cat.

再说mode,它指定文件打开的模式。

'r': 以只读模式打开(缺省模式)(必须保证文件存在)

'w':以只写模式打开。若文件存在,则清空文件,然后重新创建;若不存在,则新建文件。

'a':以追加模式打开。若文件存在,则会追加到文件的末尾;若文件不存在,则新建文件。

常见的mode组合

'r'或'rt': 默认模式,文本读模式

'w'或'wt': 以文本写模式打开(打开前文件会被清空)

'rb': 以二进制读模式打开

'ab': 以二进制追加模式打开

'wb': 以二进制写模式打开(打开前文件会被清空)

'r+': 以文本读写模式打开,默认写的指针开始指在文件开头, 因此会覆写文件

'w+': 以文本读写模式打开(打开前文件会被清空)

'a+': 以文本读写模式打开(写只能写在文件末尾)

'rb+': 以二进制读写模式打开

'wb+': 以二进制读写模式打开(打开前文件会被清空)

'ab+': 以二进制读写模式打开

喵喵,初看起来,模式很多,但是,它们只是相互组合罢了。建议记住最基本的w、r、a,遇到特殊场景,再翻看一下就好了。

从with语句到上下文管理器

基础部分讲完了,下面是进阶部分。知其然,更要知其所以然。

1、with语句是初学者必会常识

首先,要解释一下为啥前文直接就用了with语句。with语句是读写文件时的优雅写法,这已经默认是Python初学者必会的常识了。如果你还不会,先看看用和不用with语句的对比:

 
 # 不用with语句的正确写法
 try:
 f = open('test.txt','w')
 f.writelines(['python',' is',' a',' cat'])
 finally:
 if f:
 f.close()
 ?
 # 使用with语句的正确写法
 with open('test.txt','w') as f:
 f.writelines(['python',' is',' a',' cat'])

因为文件对象会占用操作系统的资源,并且操作系统同一时间能打开的文件数量是有限的,所以open()方法之后一定要调用close()方法。另外,读写操作可能出现IO异常的情况,所以要加try...finally,保证无论如何,都会调用到close()方法。

这样写万无一失,但是实在繁琐,一不小心还可能漏写或者写错。而with语句会保证调用close(),只需一行代码,简直不要太优雅!所以,with语句是Python初学者必会技能。

2、什么是上下文管理器?

下面,重头戏来了,什么是上下文管理器(context manager)?

上下文管理器是这样一个对象:它定义程序运行时需要建立的上下文,处理程序的进入和退出,实现了上下文管理协议,即在对象中定义了 enter() 和 exit() 方法。

enter():进入运行时的上下文,返回运行时上下文相关的对象,with 语句中会将这个返回值绑定到目标对象。

exit(exception_type, exception_value, traceback):退出运行时的上下文,定义在块执行(或终止)之后上下文管理器应该做什么。它可以处理异常、清理现场或者处理 with 块中语句执行完成之后需要处理的动作。

注意enter和exit的前后有两个下划线,Python中自带了很多类似的方法,它们是很神秘又很强大的存在,江湖人常常称其为“黑魔法”。例如,迭代器协议就实现了iter方法。

在Python的内置类型中,很多类型都是支持上下文管理协议的,例如file,thread.LockType,threading.Lock等等。上下文管理器无法独立使用,它们要与with相结合,with语句可以在代码块运行前进入一个运行时上下文(执行enter方法),并在代码块结束后退出该上下文(执行exit方法)。

with 语句适用于对资源进行访问的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源,比如文件使用后自动关闭、线程中锁的自动获取和释放等。

3、自定义上下文管理器

除了Python的内置类型,任何人都可以定义自己的上下文管理器。下面是一个示例:

 
 class OpenFile(object):
 def __init__(self,filename,mode):
 self.filename=filename
 self.mode=mode
 def __enter__(self):
 self.f=open(self.filename,self.mode)
 self.f.write("enter now\n")
 return self.f #作为as说明符指定的变量的值
 def __exit__(self,type,value,tb):
 self.f.write("exit now")
 self.f.close()
 return False #异常会被传递出上下文
 with OpenFile('test.txt','w') as f:
 f.write('Hello World!\n')

最终写入文件的结果是:

enter now

Hello World!

exit now

上下文管理器必须同时提供 enter() 和 exit() 方法的定义,缺少任何一个都会导致 AttributeError。

上下文管理器在执行过程中可能会出现异常,exit() 的返回值会决定异常的处理方式:返回值等于 False,那么这个异常将被重新抛出到上层;返回值等于 True,那么这个异常就被忽略,继续执行后面的代码。exit() 有三个参数(exception_type, exception_value, traceback),即是异常的相关信息。

4、contextlib实现上下文管理器

上例中,自定义上下文管理器的写法还是挺繁琐的,而且只能用于类级别。为了更好地辅助上下文管理,Python 内置提供了 contextlib 模块,进而可以很方便地实现函数级别的上下文管理器。

该模块本质上是通过装饰器(decorators)和生成器(generators)来实现上下文管理器,可以直接作用于函数/对象,而不用去关心 enter() 和 exit() 方法的具体实现。

先把上面的例子改造一下,然后我们再对照着解释:

 
 from contextlib import contextmanager
 ?
 @contextmanager
 def open_file(name):
 ff = open(name, 'w')
 ff.write("enter now\n")
 try:
 yield ff
 except RuntimeError:
 pass
 ff.write("exit now")
 ff.close()
 ?
 with open_file('test.txt') as f:
 f.write('Hello World!\n')

contextmanager是要使用的装饰器,yield关键字将普通的函数变成了生成器。yield的返回值(ff)等于上例enter()的返回值,也就是as语句的值(f),而yield前后的内容,分别是__ enter() 和 exit() 方法里的内容。使用contextlib,可以避免类定义、enter() 和 exit__()方法,但是需要我们捕捉可能的异常(例如,yield只能返回一个值,否则会导致异常 RuntimeError),所以try...except语句不能忽略。

-----------------

本文原创并首发于微信公众号【Python猫】,后台回复“爱学习”,免费获得20本精选电子书。

相关推荐

python入门到脱坑经典案例—清空列表

在Python中,清空列表是一个基础但重要的操作。clear()方法是最直接的方式,但还有其他方法也可以实现相同效果。以下是详细说明:1.使用clear()方法(Python3.3+推荐)...

python中元组,列表,字典,集合删除项目方式的归纳

九三,君子终日乾乾,夕惕若,厉无咎。在使用python过程中会经常遇到这四种集合数据类型,今天就对这四种集合数据类型中删除项目的操作做个总结性的归纳。列表(List)是一种有序和可更改的集合。允许重复...

Linux 下海量文件删除方法效率对比,最慢的竟然是 rm

Linux下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、findwithdelete、rsync、Python、Perl.首先建立50万个文件$testfor...

数据结构与算法——链式存储(链表)的插入及删除,

持续分享嵌入式技术,操作系统,算法,c语言/python等,欢迎小友关注支持上篇文章我们讲述了链表的基本概念及一些查找遍历的方法,本篇我们主要将一下链表的插入删除操作,以及采用堆栈方式如何创建链表。链...

Python自动化:openpyxl写入数据,插入删除行列等基础操作

importopenpyxlwb=openpyxl.load_workbook("example1.xlsx")sh=wb['Sheet1']写入数据#...

在Linux下软件的安装与卸载(linux里的程序的安装与卸载命令)

通过apt安装/协助软件apt是AdvancedPackagingTool,是Linux下的一款安装包管理工具可以在终端中方便的安装/卸载/更新软件包命令使用格式:安装软件:sudoapt...

Python 批量卸载关联包 pip-autoremove

pip工具在安装扩展包的时候会自动安装依赖的关联包,但是卸载时只删除单个包,无法卸载关联的包。pip-autoremove就是为了解决卸载关联包的问题。安装方法通过下面的命令安装:pipinsta...

用Python在Word文档中插入和删除文本框

在当今自动化办公需求日益增长的背景下,通过编程手段动态管理Word文档中的文本框元素已成为提升工作效率的关键技术路径。文本框作为文档排版中灵活的内容容器,既能承载多模态信息(如文字、图像),又可实现独...

Python 从列表中删除值的多种实用方法详解

#Python从列表中删除值的多种实用方法详解在Python编程中,列表(List)是一种常用的数据结构,具有动态可变的特性。当我们需要从列表中删除元素时,根据不同的场景(如按值删除、按索引删除、...

Python 中的前缀删除操作全指南(python删除前导0)

1.字符串前缀删除1.1使用内置方法Python提供了几种内置方法来处理字符串前缀的删除:#1.使用removeprefix()方法(Python3.9+)text="...

每天学点Python知识:如何删除空白

在Python中,删除空白可以分为几种不同的情况,常见的是针对字符串或列表中空白字符的处理。一、删除字符串中的空白1.删除字符串两端的空白(空格、\t、\n等)使用.strip()方法:s...

Linux系统自带Python2&amp;yum的卸载及重装

写在前面事情的起因是我昨天在测试Linux安装Python3的shell脚本时,需要卸载Python3重新安装一遍。但是通过如下命令卸载python3时,少写了个3,不小心将系统自带的python2也...

如何使用Python将多个excel文件数据快速汇总?

在数据分析和处理的过程中,Excel文件是我们经常会遇到的数据格式之一。本文将通过一个具体的示例,展示如何使用Python和Pandas库来读取、合并和处理多个Excel文件的数据,并最终生成一个包含...

【第三弹】用Python实现Excel的vlookup功能

今天继续用pandas实现Excel的vlookup功能,假设我们的2个表长成这样:我们希望把Sheet2的部门匹在Sheet1的最后一列。话不多说,先上代码:importpandasaspd...

python中pandas读取excel单列及连续多列数据

案例:想获取test.xls中C列、H列以后(当H列后列数未知时)的所有数据。importpandasaspdfile_name=r'D:\test.xls'#表格绝对...

取消回复欢迎 发表评论: