如何用Python轻松分割大型文本文件:一个有效的文件处理脚本解析

off999 2024-10-13 04:13 32 浏览 0 评论

这段代码的核心功能是将一个大型文本文件（例如 .txt 格式）分割成多个较小的文件，每个文件包含指定数量的字符。这对于处理大型文本文件非常有用，特别是当文件太大以至于难以一次性处理或打开时。

import os

def split_txt_file(file_path, max_chars, encoding='utf-8'):
    # 检查文件是否存在
    if not os.path.exists(file_path):
        print("文件不存在，请检查路径")
        return

    try:
        with open(file_path, 'r', encoding=encoding) as file:
            content = file.read()
    except UnicodeDecodeError:
        return split_txt_file(file_path, max_chars, encoding='gbk')  # 尝试使用GBK编码

    # 获取文件的目录、文件名和扩展名
    file_dir, file_name = os.path.split(file_path)
    file_base, file_ext = os.path.splitext(file_name)

    # 创建与原文件同名的新文件夹
    new_folder_path = os.path.join(file_dir, file_base)
    if not os.path.exists(new_folder_path):
        os.makedirs(new_folder_path)

    parts = []
    while content:
        part, content = content[:max_chars], content[max_chars:]
        parts.append(part)

    # 将分割后的内容保存到新文件夹中
    for i, part in enumerate(parts):
        new_file_path = os.path.join(new_folder_path, f"{file_base}_{i+1}{file_ext}")
        with open(new_file_path, 'w', encoding=encoding) as file:
            file.write(part)

# 使用示例
split_txt_file(r"D:\wenjian\临时\斗破苍穹.txt", 190000)  # 这里90000是每个分割文件的字数

代码解析

函数定义: split_txt_file(file_path, max_chars, encoding='utf-8'): 这个函数用于分割文本文件。它接受三个参数：文件的路径（file_path），每个分割文件中的最大字符数（max_chars），以及文件的编码（默认为UTF-8）。
检查文件存在与否: 使用os.path.exists()判断指定路径的文件是否存在。
尝试读取文件内容: 使用open()函数打开文件，并尝试以指定的编码读取内容。如果读取时出现UnicodeDecodeError错误，则尝试用GBK编码重新读取。
获取文件信息并创建新文件夹: 提取文件的目录、基本名称和扩展名。在文件所在目录创建一个新的文件夹，用于存放分割后的文件。
分割文本内容: 将文本内容分割成多个部分，每部分包含不超过max_chars指定的字符数。
保存分割后的文件: 遍历分割后的文本部分，将每部分保存为新文件。文件名包含原文件名和一个顺序编号。

代码的实际应用

这个脚本在多种场景下都非常有用，尤其是在需要处理大型文本文件的时候。例如：

数据处理和分析：当处理大型日志文件或数据集时，可以将其分割成更小的部分，以便于分析和处理。
电子书处理：将长篇电子书分割成章节或卷，以便于电子阅读器逐个加载和显示。
文档管理：将大型文档分割成小部分，方便阅读、编辑或分享。

应用场景

分割长文本文件：将长篇幅的文本文档、日志文件或书籍分割成更易于管理的小部分。
创建文档集：将大型文本文件分割成多个部分，用于创建系列文档或章节。

python中split的用法

上一篇：python中join、pop、strip、split、lambda函数案例分析
下一篇：二胎妈妈学习Python的第25天:实现excel数据分列

如何用Python轻松分割大型文本文件:一个有效的文件处理脚本解析

代码解析

代码的实际应用

应用场景

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

python入门到脱坑输入与输出—str()函数

宝塔面板如何添加免费waf防火墙?（宝塔面板开启https）

Python三目运算基础与进阶_python三目运算符判断三个变量

(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享

失业程序员复习python笔记——条件与循环

系统u盘安装（win11系统u盘安装）

如何用Python轻松分割大型文本文件:一个有效的文件处理脚本解析

代码解析

代码的实际应用

应用场景

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

python入门到脱坑 输入与输出—str()函数

宝塔面板如何添加免费waf防火墙?（宝塔面板开启https）

Python三目运算基础与进阶_python三目运算符判断三个变量

(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享

失业程序员复习python笔记——条件与循环

系统u盘安装（win11系统u盘安装）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数