如何用Python轻松分割大型文本文件:一个有效的文件处理脚本解析
off999 2024-10-13 04:13 32 浏览 0 评论
这段代码的核心功能是将一个大型文本文件(例如 .txt 格式)分割成多个较小的文件,每个文件包含指定数量的字符。这对于处理大型文本文件非常有用,特别是当文件太大以至于难以一次性处理或打开时。
import os
def split_txt_file(file_path, max_chars, encoding='utf-8'):
# 检查文件是否存在
if not os.path.exists(file_path):
print("文件不存在,请检查路径")
return
try:
with open(file_path, 'r', encoding=encoding) as file:
content = file.read()
except UnicodeDecodeError:
return split_txt_file(file_path, max_chars, encoding='gbk') # 尝试使用GBK编码
# 获取文件的目录、文件名和扩展名
file_dir, file_name = os.path.split(file_path)
file_base, file_ext = os.path.splitext(file_name)
# 创建与原文件同名的新文件夹
new_folder_path = os.path.join(file_dir, file_base)
if not os.path.exists(new_folder_path):
os.makedirs(new_folder_path)
parts = []
while content:
part, content = content[:max_chars], content[max_chars:]
parts.append(part)
# 将分割后的内容保存到新文件夹中
for i, part in enumerate(parts):
new_file_path = os.path.join(new_folder_path, f"{file_base}_{i+1}{file_ext}")
with open(new_file_path, 'w', encoding=encoding) as file:
file.write(part)
# 使用示例
split_txt_file(r"D:\wenjian\临时\斗破苍穹.txt", 190000) # 这里90000是每个分割文件的字数
代码解析
- 函数定义: split_txt_file(file_path, max_chars, encoding='utf-8'): 这个函数用于分割文本文件。它接受三个参数:文件的路径(file_path),每个分割文件中的最大字符数(max_chars),以及文件的编码(默认为UTF-8)。
- 检查文件存在与否: 使用os.path.exists()判断指定路径的文件是否存在。
- 尝试读取文件内容: 使用open()函数打开文件,并尝试以指定的编码读取内容。如果读取时出现UnicodeDecodeError错误,则尝试用GBK编码重新读取。
- 获取文件信息并创建新文件夹: 提取文件的目录、基本名称和扩展名。 在文件所在目录创建一个新的文件夹,用于存放分割后的文件。
- 分割文本内容: 将文本内容分割成多个部分,每部分包含不超过max_chars指定的字符数。
- 保存分割后的文件: 遍历分割后的文本部分,将每部分保存为新文件。文件名包含原文件名和一个顺序编号。
代码的实际应用
这个脚本在多种场景下都非常有用,尤其是在需要处理大型文本文件的时候。例如:
- 数据处理和分析:当处理大型日志文件或数据集时,可以将其分割成更小的部分,以便于分析和处理。
- 电子书处理:将长篇电子书分割成章节或卷,以便于电子阅读器逐个加载和显示。
- 文档管理:将大型文档分割成小部分,方便阅读、编辑或分享。
应用场景
- 分割长文本文件:将长篇幅的文本文档、日志文件或书籍分割成更易于管理的小部分。
- 创建文档集:将大型文本文件分割成多个部分,用于创建系列文档或章节。
相关推荐
- windows7x86是32位吗(windows7 x86)
-
X86不是代表操作系统,是代表的CPU的类型,如果你知道CPU的发展史就知道,个人用计算机的CPU很早的版本是从286、386、486、586、奔腾等等类型发展起来的,所以X86的代表PC的CPU的类...
- 固态硬盘删除后又自动恢复了
-
进入BIOS查看,第一启动项是不是UEFI引导,改掉它可以下载个pe,下载安装在本地磁盘里,重启进入pe工具,先给固态格式化分区,在ghost机械盘上的系统,还原到固态上。遇到这种情况一定不要在此...
- win10版本回退(win10回退到以前版本)
-
如果你想在Windows10系统中回退到上一个版本,可以按照以下步骤进行操作:1.打开设置:点击Windows开始按钮,然后点击屏幕左侧的“设置”图标,或者使用键盘快捷键Win+I打开设置。2...
- 营业厅一个路由器多少钱(上门更换路由器收费吗)
-
移动免费装宽带活动全国都在搞,不过免费是有“门槛”的。以我所在的地区为例,只有月费在78元及以上的大流量套餐用户,才可以享受免费安装移动的宽带。月费越高,宽带的速率也越高,148元档可以安装200M的...
- win10从u盘启动怎么设置(win10怎么从u盘启动电脑)
-
1.回到桌面。点击开始徽标,点击开始菜单左侧的设置。2.设置界面点击更新和安全。3.进入更新和安全界面,点击左侧的恢复选项。4.进入恢复界面,点击高级启动下面的立即重新启动。5.插入自己的U盘,等待...
- 系统大全网站(系统大全网站推荐)
-
下载时发生错误可能是以下原因:1.你的网速过慢,网页代码没有完全下载就运行了,导致不完整,当然就错误了。请刷新。2.网页设计错误,导致部分代码不能执行。请下载最新的遨游浏览器。3.你的浏览器不兼容导致...
- win10官方启动盘(win10官方启动盘怎么用)
-
1、在开始菜单搜索“设置”,打开“设置”;2、点击“更新与安全”,在左侧菜单栏点击“恢复”;3、点击“启动项”,在弹出的窗口中会显示当前可以启动的项目,点击“编辑”;4、在打开的“编辑启动项”窗口中,...
- win10系统安装不了(win10 安装不了)
-
电脑装不上win10系统可能是因为以下几个原因导致的原因一:win10安装文件不对我们在安装win10之前,要确保下载到安装包真实可用的,否则安装肯定会有问题,建议下载安全可靠的安装包!原因二:系统文...
- 国内dns哪个最快(dns开启好还是关闭好)
-
移动dns设置首选114.114.114.114,它又好又快。首选DNS和备用DNS都是一种域名系统,这两种域名系统有着先后之分,如果在首选DNS正常的情况下,就用首选DNS地址。当首选DNS服务器出...
- winxp安装盘(winxp系统安装)
-
xp系统安装步骤如下1、将下载的xp系统iso压缩包文件下载到C盘之外的分区,比如下载到D盘,右键使用WinRAR等工具解压到当前文件夹或指定文件夹,不能解压到C盘和桌面,否则无法安装;?2、解压之后...
- 现在的win11稳定了吗(win11稳定嘛)
-
windows10更稳定,由于win11刚刚推出没多久,稳定差不够好,兼容性也有待提升,无论是应用还是游戏都会遇到不明程度的问题,因此,在日常的使用过程中,我们还是应当以稳定性为优先,选择win10是...
- xp安装包下载到手机(xp系统安装包)
-
手机是基于ARM架构的处理器,而WindowsXP是基于x86架构的操作系统,因此无法直接在手机上安装WindowsXP。除非您的手机是使用Intel处理器,但这种情况非常罕见。如果您需要在手机上...
- 如何查看硬盘序列号(windows如何查看硬盘序列号)
-
1.打开开始菜单栏,输入【cmd】点击【确定】;2.在命令窗口依次输入【diskpart】-【listdisk】-【selectdisk0】;3.选好要查看的硬盘后,接着输入【detaildi...
- 虚拟机安装win7教程(虚拟机安装win7教程图解)
-
1.首先,下载并安装虚拟机软件,如VMwareWorkstation、VirtualBox等。2.打开虚拟机软件,创建一个新的虚拟机。3.在创建虚拟机的过程中,选择安装Windows7专业版的IS...
- 系统脱敏法的操作程序如何
-
系统脱敏疗法(systematicdesensitization)又称交互抑制法,是由美国学者沃尔普创立和发展的。这种方法主要是诱导求治者缓慢地暴露出导致神经症焦虑、恐惧的情境,并通过心理的放松状态...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
