Python文件读写技巧(python的文件读写)
off999 2024-10-02 18:47 18 浏览 0 评论
一、Python绝对路径和相对路径
明确一个文件所在的路径,有 2 种表示方式,分别是:
◆ 绝对路径:总是从根文件夹开始,Window 系统中以盘符(C:、D:)作为根文件夹,而 OS X 或者 Linux 系统中以 / 作为根文件夹。
◆ 相对路径:指的是文件相对于当前工作目录所在的位置。例如,当前工作目录为 "C:\Windows\System32",若文件demo.txt 就位于这个System32 文件夹下,则 demo.txt 的相对路径表示为 ".\demo.txt"(其中 .\ 就表示当前所在目录)
os 模块
Python中使用os模块来文件名称或文件路径:
import os
# 获取当前文件名称
print(os.path.basename(os.path.abspath(__file__)))
# 21_1_os_path.py
# 获取当前文件的绝对路径
print(__file__)
# C:/auto_test/common_auto_test_frame/demo/python_base/21_1_os_path.py
print(os.path.abspath(__file__))
# C:\auto_test\common_auto_test_frame\demo\python_base\21_1_os_path.py
# 获取当前文件所在目录,以下两个方法均可
print(os.path.abspath("."))
# C:\auto_test\common_auto_test_frame\demo\python_base
print(os.path.dirname(os.path.abspath(__file__)))
# C:\auto_test\common_auto_test_frame\demo\python_base
二、Python读取文件
Python 中,对文件的操作有很多种,常见的操作包括创建、删除、修改权限、读取、写入等,这些操作可大致分为以下 2 类:
? 删除、修改权限:作用于文件本身,属于系统级操作。
? 写入、读取:是文件最常用的操作,作用于文件的内容,属于应用级操作。
文件的应用级操作可以分为以下 3 步,每一步都需要借助对应的函数实现:
- 打开文件:使用 open() 函数,该函数会返回一个文件对象;
- 对已打开文件做读/写操作:读取文件内容可使用 read()、readline() 以及 readlines() 函数;向文件中写入内容,可以使用write() 函数。
- 关闭文件:完成对文件的读/写操作之后,最后需要关闭文件,可以使用 close() 函数。
1.open()函数详解
- r:只读模式
- b:以二进制格式
- w:只写模式
- a:追加模式
- +:写模式
模式 | 意义 | 注意事项 |
r | 只读模式打开文件,读文件内容的指针会放在文件的开头。 | |
rb | 以二进制格式、采用只读模式打开文件,读文件内容的指针位于文件的开头,一般用于非文本文件,如图片文件、音频文件等 | |
r+ | 打开文件后,既可以从头读取文件内容,也可以从开头向文件中写入新的内容,写入的新内容会覆盖文件中等长度的原有内容 | 操作的文件必须存在 |
rb+ | 以二进制格式、采用读写模式打开文件,读写文件的指针会放在文件的开头,通常针对非文本文件(如音频文件) | |
w | 以只写模式打开文件,若该文件存在,打开时会清空文件中原有的内容 | |
wb | 以二进制格式、只写模式打开文件,一般用于非文本文件(如音频文件) | 若文件存在,会清空其原有内容(覆 盖文件);反之,则创建新文件 |
w+ | 打开文件后,会对原有内容进行清空,并对该文件有读写权限 | |
wb+ | 以二进制格式、读写模式打开文件,一般用于非文本文件 | |
a | 以追加模式打开一个文件,对文件只有写入权限,如果文件已经存在,文件指针将放在文件的末尾(即新写入内容会位于已有内容之后);反之,则会创建新文件 | |
ab | 以二进制格式打开文件,并采用追加模式,对文件只有写权限。如果该文件已存在,文件指针位于文件末尾(新写入文件会位于已有内容之后);反之,则创建新文件 | |
a+ | 以读写模式打开文件;如果文件存在,文件指针放在文件的末尾(新写入文件会位于已有内容之后),反之,则创建新文件 | |
ab+ | 以二进制模式打开文件,并采用追加模式,对文件具有读写权限,如果文件存在,则文件指针位于文件的末尾(新写入文件会位于已有内容之后);反之,则创建新文件 |
open() 函数用于创建或打开指定文件,该函数的常用语法格式如下:
file = open(file_name [, mode='r' [ , buffering=-1 [ , encoding = None ]]])
此格式中,用 [] 括起来的部分为可选参数。其中,常用参数所代表的含义如下:
- file:表示要创建的文件对象。
- file_name:要创建或打开文件的文件名称,该名称要用引号(单引号或双引号都可以)括起来。
- mode:可选参数,用于指定文件的打开模式。如果不写,则默认以只读(r)模式打开文件。
- encoding:手动设定打开文件时所使用的编码格式,不同平台的 ecoding 参数值也不同,以 Windows 为例,其默认为 cp936(实际上就是 GBK 编码)。
open 函数支持的文件打开模式:
2.read()函数:按字节(字符)读取文件
Python 提供了如下 3 种函数,它们都可以帮我们实现读取文件中数据的操作:
◆ read() 函数:逐个字节或者字符读取文件中的内容;
◆ readline() 函数:逐行读取文件中的内容;
◆ readlines() 函数:一次性读取文件中多行内容。
1)Python read()函数
read() 函数的基本语法格式如下:
file.read([size])
其中,file 表示已打开的文件对象;size 作为一个可选参数,用于指定一次最多可读取的字符(字节)个数,如果省略,则默认一次性读取所有内容。
2)read()函数抛出UnicodeDecodeError异常的解决方法
在使用 read() 函数时,如果 Python 解释器提示UnicodeDecodeError异常或者显示为乱码,其原因在于,目标文件使用的编码格式和 open() 函数打开该文件时使用的编码格式不匹配。
file = "read.txt"
f1 = open(file, encoding='utf-8') # 解码方式必须与文件编码方式一直,否则会报UnicodeDecodeError异常
print(f1.read()) # 读取所有内容
f1.close()
f2 = open(file, encoding='utf-8')
print(f2.read(5)) # 读取前5个字符
f2.close()
3.readline()和readlines()函数:按行读取文件
和 read() 函数不同,这 2 个函数都以“行”作为读取单位,即每次都读取目标文件中的一行。对于读取以文本格式打开的文件,读取一行很好理解;对于读取以二进制格式打开的文件,它们会以“\n”作为读取一行的标志。
1)Python readline()函数
readline() 函数用于读取文件中的一行,包含最后的换行符“\n”。此函数的基本语法格式为:
file.readline([size])
其中,file 为打开的文件对象;size 为可选参数,用于指定读取每一行时,一次最多读取的字符(字节)数。
# python readline()逐行读取,返回str类型
f3 = open(file, encoding='utf-8')
print(f3.readline()) # 读取第一行
print(f3.readline()) # 读取第二行
f3.close()
2)Python readlines()函数
readlines() 函数用于读取文件中的所有行,它和调用不指定 size 参数的 read() 函数类似,只不过该函数返回是一个字符串列表,其中每个元素为文件中的一行内容。
readlines() 函数的基本语法格式如下:
file.readlines()
其中,file 为打开的文件对象。和 read()、readline() 函数一样,它要求打开文件的模式必须为可读模式(包括 r、rb、r+、rb+ 4 种)。
# python readlines()读取所有行,返回list类型
f4 = open(file, encoding='utf-8')
print(f4.readlines())
# ['hello python\n', 'hello java\n', 'hello django\n', 'hello go\n', 'hello ruby\n', '爱我中华\n']
f4.close()
f5 = open(file, encoding='utf-8')
for i in f5:
print(i) # readlines返回列表类型,使用for循环遍历列表内容
f5.close()
4.读取大文件(GB)
Python读取文件一般是利用open()函数以及read()函数来完成,但该方式仅适合读取小文件。因为调用read()会一次性读取文件的全部内容,调用readlines()一次读取所有内容并按行返回list。如果文件过大,如10G,会造成MemoryError 内存溢出,正确的做法:可以反复调用read(size)法,每次指定读取size个字节的内容。
处理大文件核心思路:通过参数指定每次读取的大小长度,这样就避免了因为文件太大读取出问题。
# 读取大文件
def read_in_chunks(file_path, chunk_size=1024 * 1024):
"""读取大文件,读取指定大小"""
file_object = open(file_path)
while True:
chunk_data = file_object.read(chunk_size)
if not chunk_data:
break
yield chunk_data
def read_in_chunk(file_path):
"""结合生成器、读取大文件"""
lines = (line for line in open(file_path))
while True:
for line in lines:
print(line)
if not line:
break
yield line
5.seek()和tell()函数详解
实现对文件指针的移动,文件对象提供了 tell() 函数和 seek() 函数。tell() 函数用于判断文件指针当前所处的位置,而seek() 函数用于移动文件指针到文件的指定位置。
1)tell() 函数-获取指针位置
tell() 函数的用法很简单,其基本语法格式如下:
file.tell()
# tell()函数获取文件指针位置
f = open(file='read.txt', encoding='utf-8')
f.read(5)
print(f.tell()) # 指针位置为5
f.read(5)
print(f.tell()) # 指针位置为10
f.close()
2)seek()函数-设置指针位置
seek() 函数用于将文件指针移动至指定位置,该函数的语法格式如下:
file.seek(offset[, whence])
参数释义:
- offset:偏移量
- whence:指针所在位置,默认为0-开头位置,1表示当前位置,2表示文件尾
# seek()函数设置文件指针位置
f1 = open(file='read.txt', encoding='utf-8')
f1.read(5)
print(f1.tell()) # 指针位置为5
f1.seek(9) # 设置指针位置为9
print(f1.tell()) # 指针位置为9
f1.close()
6.使用with...as...语法读写文件
在 Python 中,使用 with...as... 语句操作上下文管理器(context manager),它能够帮助我们自动分配并且释放资源。
with as 语句示例:
# with...as...上下文管理器
# with...as...能够自动释放资源,无需手动关闭
with open('read.txt', encoding='utf-8') as f:
print(f.read())
由于with...as...语句自带资源调度能力,所以上面的读取大文件也可以使用with...as...语句来实现:
def read_book(file_path):
"""读取大文件,逐行读取"""
with open(file_path, encoding='utf-8') as file_object:
while True:
chunk_data = file_object.readlines()
for chunk in chunk_data:
print(chunk)
if not chunk_data:
break
time.sleep(1)
7.fileinput模块:逐行读取多个文件
Python 提供了 fileinput 模块,通过该模块中的 input() 函数,我们能同时打开指定的多个文件,还可以逐个读取这些文件中的内容。
fileinput 模块中 input() 该函数的语法格式如下:
fileinput.input(files="filename1, filename2, ...", inplace=False, backup='', bufsize=0, mode='r', openhook=None)
其中,各个参数的含义如下:
- files:多个文件的路径列表;
- inplace:用于指定是否将标准输出的结果写回到文件,此参数默认值为 False;
- backup:用于指定备份文件的扩展名;
- bufsize:指定缓冲区的大小,默认为 0;
- mode:打开文件的格式,默认为 r(只读格式);
- openhook:控制文件的打开方式,例如编码格式等。
import fileinput
# 同时读取多个文件
for line in fileinput.input(files=('read.txt', 'write.txt'), openhook=fileinput.hook_encoded('utf-8')):
print(line, end="\n")
fileinput.close()
# 替换指定内容,并备份
# 注:openhook=fileinput.hook_encoded('utf-8')指定编码方式
# inplace=True不能和openhook参数同时使用,否则会报错
for content in fileinput.input(files='read.txt', backup='.bak', inplace=True):
print(content.replace('hello', 'HELLO'))
fileinput.close()
8.linecache模块:读取文件指定行
除了可以借助 fileinput 模块实现读取文件外,Python 还提供了 linecache 模块。和前者不同,linecache 模块擅长读取指定文件中的指定行。换句话说,如果我们想读取某个文件中指定行包含的数据,就可以使用 linecache 模块。 示例:
import linecache
import string
# linecache()读取指定行
print(linecache.getline(string.__file__, 3)) # 读取string文件的第三行
for line in linecache.getlines('read.txt'): # 读取文件的所有行,返回结果为一个列表
print(line)
三、Python写入文件
1.Python write()函数
Python 中的文件对象提供了 write() 函数,可以向文件中写入指定内容。该函数的语法格式:
file.write(string)
其中:
- file 表示已经打开的文件对象;
- string 表示要写入的字符串(或字节,仅适用写入二进制文件)。
# write()方法写入文件
f = open('write.txt', 'w')
f.write("hello world 1\n")
f.write("hello world 2\n")
f.write("hello world 3\n")
f.close()
2.Python writelines()函数
Python 的文件对象中,不仅提供了 write() 函数,还提供了 writelines() 函数,可以实现将字符串列表写入文件中。
# write()方法批量写入文件
f_w = open('write.txt', 'w+', encoding='utf-8')
f_r = open("E:/很纯很暧昧.txt", encoding='utf-8')
book = f_r.read(100)
f_w.writelines(book)
f_w.close()
总结
Python绝对路径和相对路径:
◆ 借助os模块获取文件名称、当前文件路径、当前目录的上一层目录
Python读取文件:
◆ read() 函数:逐个字节或者字符读取文件中的内容;
◆ readline() 函数:逐行读取文件中的内容;
◆ readlines() 函数:一次性读取文件中多行内容;
◆ fileinput模块:逐行读取多个文件;
◆ linecache模块:读取文件指定行;
◆ 读取大文件:可以借助with...as...上下文管理器;
Python写入文件:
◆ write()函数:写入指定字符串(或字节,仅适用写入二进制文件);
◆ writelines()函数:可以实现将字符串列表批量写入文件;
相关推荐
- SPC相关的计算用excel和python实现【源码下载】
-
做SPC分析涉及到很多计算,比如CPK、PPK、概率图、PPM等等,网上很多公式,但具体实现却不是那么容易的。我们整理了这些用excel和python实现的代码。包括但不限于以下的内容:SPC分析中的...
- Python学不会来打我(34)python函数爬取百度图片_附源码
-
随着人工智能和大数据的发展,图像数据的获取变得越来越重要。作为Python初学者,掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。本文将手把手教你使用Python函数编写一个简单的百度图片...
- django python数据中心、客户、机柜、设备资源管理平台源码分享
-
先转发后关注,私信“资源”即可免费获取源码下载链接!本项目一个开源的倾向于数据中心运营商而开发的,拥有数据中心、客户、机柜、设备、跳线、物品、测试、文档等一些列模块的资源管理平台,解决各类资源集中管理...
- 熬夜也值得学习练手的108个Python项目(附源码),太实用了!
-
现在学编程的人越来越多,Python因为简单好上手、功能又强大,成了很多人的首选。不管是做数据分析、人工智能,还是写网络程序、自动化脚本,Python都能派上用场。而且它诞生的时间比网页还早,作为...
- 这五个办公室常用自动化工具python源码,复制代码就能用
-
办公室自动化现在能看这文章的恐怕大部分都是办公室久坐工作者,很多都有腰肌劳损、肩周炎等职业病,难道就不能有个工具缓解一下工作量吗?那么恭喜你点进了这篇文章,这篇文章将使用python直接实现五个常...
- 将python源代码封装成window可执行程序教程
-
将python源代码封装成window可执行程序教程点击键盘win+r打开运行框在运行框中输入cmd,进入到命令行。在命令行中输入piplist去查看当前电脑中所有的库检查是否有pyinstall...
- Python 爬虫如何爬取网页源码?(爬虫获取网页源代码)
-
下面教大家用几行代码轻松爬取百度首页源码。什么是urllib?urllib库是Python内置的HTTP请求库,它可以看做是处理URL的组件集合。urllib库包含了四大模块,具体如下:urllib....
- Python RPC 之 Thrift(python是做什么的)
-
thrift-0.12.0python3.4.3Thrift简介:Thrift是一款高性能、开源的RPC框架,产自Facebook后贡献给了Apache,Thrift囊括了整个RP...
- 用Python编写FPGA以太网MAC(附源码下载方式)
-
来源:EETOP作者:ccpp123略作了解后发现,MyHDL不是高层次综合,它实际上是用Python的一些功能实现了一个Verilog仿真器,能对用Python写的仿Verilog语言进行仿...
- python爬虫常用工具库总结(python爬虫工具下载)
-
说起爬虫,大家可能第一时间想到的是python,今天就简单为大家介绍下pyhton常用的一些库。请求库:实现基础Http操作urllib:python内置基本库,实现了一系列用于操作url的功能。...
- 手把手教你使用scrapy框架来爬取北京新发地价格行情(理论篇)
-
来源:Python爬虫与数据挖掘作者:霖hero大家好!我是霖hero。上个月的时候,我写了一篇关于IP代理的文章,手把手教你使用XPath爬取免费代理IP,今天在这里分享我的第二篇文章,希望大家可以...
- 2025年Python爬虫学习路线:第1阶段 爬虫基础入门开始
-
这个阶段的目标是让你熟悉Python的基础知识、了解HTTP请求和HTML是如何工作的,并最终完成你的第一个爬虫小项目——抓取名言!按照计划,我们首先要打好Python基础。Python就像是我们要...
- 如何入门 Python 爬虫?(python零基础爬虫)
-
1.很多人一上来就要爬虫,其实没有弄明白要用爬虫做什么,最后学完了却用不上。大多数人其实是不需要去学习爬虫的,因为工作所在的公司里有自己的数据库,里面就有数据来帮助你完成业务分析。什么时候要用到爬虫呢...
- 突破爬虫瓶颈:Python爬虫核心能力提升与案例实操
-
技术控必看!Python爬虫高手进阶全攻略,解锁数据处理高阶玩法在数字化时代,Python爬虫早已成为数据探索者手中的得力工具。从基础的网页抓取到复杂的数据处理,每一次技术升级都能带来新的突破。本文将...
- 网络爬虫开源框架(网络爬虫的框架)
-
目前开源爬虫下载框架是百花齐放,各个编程语言都有,以下主要介绍其中重要的几个:1)python:scrapy,pyspider,gcrawler2)Java:webmagic,WebCollector...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- SPC相关的计算用excel和python实现【源码下载】
- Python学不会来打我(34)python函数爬取百度图片_附源码
- django python数据中心、客户、机柜、设备资源管理平台源码分享
- 熬夜也值得学习练手的108个Python项目(附源码),太实用了!
- 这五个办公室常用自动化工具python源码,复制代码就能用
- 将python源代码封装成window可执行程序教程
- Python 爬虫如何爬取网页源码?(爬虫获取网页源代码)
- Python RPC 之 Thrift(python是做什么的)
- 用Python编写FPGA以太网MAC(附源码下载方式)
- python爬虫常用工具库总结(python爬虫工具下载)
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python自定义函数 (53)
- python进度条 (67)
- python吧 (67)
- python字典遍历 (54)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python串口编程 (60)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python人脸识别 (54)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)