Python 实现从文本文件提取数据并分析保存
off999 2025-05-11 00:13 2 浏览 0 评论
一、引言
在日常的数据处理工作中,我们经常会遇到从文本文件中提取特定信息并进行分析的需求。本文将详细介绍如何使用 Python 编写代码,从一个包含用户网络使用信息的文本文件中提取用户姓名、入站流量和出站流量信息,计算流量速率,并筛选出符合条件的数据保存到 Excel 文件中。
二、需求分析
我们有一个文本文件,其中包含了多个用户的网络使用信息,格式如下:
User name : 15282814551
Ipv4 Realtime speed inbound : 0 kbyte/min
Ipv4 Realtime speed outbound : 0 kbyte/min
Circuit ID :10.6.37.4/1/7/8/23 HWTC698dcd9c
我们的目标是提取出每个用户的用户名、入站流量和出站流量信息,计算入站和出站流量的速率(单位:M/S),筛选出入站速率大于 20 M/S 的数据,并将结果保存到 Excel 文件中。
三、代码实现
1. 导入必要的库
import re
import pandas as pd
- re 模块是 Python 的正则表达式模块,用于从文本中提取特定格式的信息。正则表达式是一种强大的文本匹配工具,可以根据特定的模式来查找和提取文本。
- pandas 是一个强大的数据处理和分析库,它提供了 DataFrame 数据结构,方便我们对数据进行操作和处理。
2. 定义正则表达式匹配函数re_val
def re_val(con, ex):
try:
size_re = re.compile(ex, re.MULTILINE)
size_res = size_re.findall(str(con))
if len(size_res) >= 1:
return size_res
else:
return None
except:
return None
- 该函数接受两个参数:con 是要匹配的文本内容,ex 是正则表达式模式。
- re.compile(ex, re.MULTILINE):使用 re.compile 方法编译正则表达式,re.MULTILINE 标志表示多行模式,允许正则表达式匹配跨越多行的文本。
- size_re.findall(str(con)):使用编译后的正则表达式对象 size_re 的 findall 方法查找文本中所有匹配的内容,并返回一个列表。
- 如果匹配结果的长度大于等于 1,则返回匹配结果列表;否则返回 None。如果在匹配过程中出现异常,也返回 None。
3. 定义读取文本文件并处理数据的函数open_txt
def open_txt(f1):
with open(f1, mode='r') as f:
data = f.read()
data_list = []
username = re_val(data, r'User name +: (\d+)')
inbound = re_val(data, r'Ipv4 Realtime speed inbound +: (\d+)')
outbound = re_val(data, r'Ipv4 Realtime speed outbound +: (\d+)')
for i, j, z in zip(username, inbound, outbound):
data_list.append([i, int(j), int(z)])
df = pd.DataFrame(data_list, columns=['user_name', 'inbound(kbyte/min)', 'outbound(kbyte/min)'])
df['inbound(M/S)'] = df['inbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
df['outbound(M/S)'] = df['outbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
df_res = df[df['inbound(M/S)'] > 20]
df_res.to_excel(r'./result.xlsx', index=False)
3.1 读取文本文件
with open(f1, mode='r') as f:
data = f.read()
使用 open 函数以只读模式打开文件,并使用 read 方法将文件内容读取到变量 data 中。
3.2 提取信息
username = re_val(data, r'User name +: (\d+)')
inbound = re_val(data, r'Ipv4 Realtime speed inbound +: (\d+)')
outbound = re_val(data, r'Ipv4 Realtime speed outbound +: (\d+)')
使用 re_val 函数分别提取用户名、入站流量和出站流量信息。正则表达式 r'User name +: (\d+)' 表示匹配以 User name 开头,后面跟着一个或多个空格,然后是冒号,再后面是一个或多个数字的内容,并提取出数字部分。同理,另外两个正则表达式分别用于提取入站流量和出站流量的数字部分。
3.3 创建数据列表
for i, j, z in zip(username, inbound, outbound):
data_list.append([i, int(j), int(z)])
使用 zip 函数将提取的用户名、入站流量和出站流量信息组合成一个列表,每个元素是一个包含用户名、入站流量和出站流量的子列表。
3.4 创建数据框
df = pd.DataFrame(data_list, columns=['user_name', 'inbound(kbyte/min)', 'outbound(kbyte/min)'])
使用 pandas 的 DataFrame 函数将数据列表转换为数据框,并指定列名。
3.5 计算速率
df['inbound(M/S)'] = df['inbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
df['outbound(M/S)'] = df['outbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
使用 apply 方法和 lambda 函数计算入站和出站流量的速率(单位:M/S)。将入站和出站流量从 kbyte/min 转换为 M/S,需要先将 kbyte 转换为 bit(乘以 8),再将 min 转换为 s(除以 60),最后将结果转换为 M(除以 1000)。
3.6 筛选数据
df_res = df[df['inbound(M/S)'] > 20]
筛选出入站速率大于 20 M/S 的数据。
3.7 保存结果
df_res.to_excel(r'./result.xlsx', index=False)
将筛选后的数据保存到 Excel 文件中,index=False 表示不保存行索引。
4. 主程序
if __name__ == '__main__':
open_txt(r'SCDEY-MC-CMNET-BRAS03-MZ')
五、总结
通过使用 Python 的正则表达式和 pandas 库,我们可以方便地从文本文件中提取所需信息,并进行数据处理和分析。最后,将筛选后的结果保存到 Excel 文件中,方便后续查看和使用。这种方法可以应用于各种类似的数据提取和分析场景,具有很强的通用性和灵活性。
相关推荐
- 咱村里有个老爷子,居然自学起了Python编程
-
咱村里有个老爷子,没什么文化,居然自学起了Python编程,还搞出个“智能喂鸡系统”,这事儿可把整个村子都惊到了。要说这老爷子,平时就爱琢磨些新鲜玩意儿。一开始,大家还以为他是瞎折腾,毕竟都一把年纪了...
- 真上头!清华打造的最全Python教程,通俗易懂,学不会我退出IT圈
-
前言随着人工智能的发展,Python近两年也是大火,越来越多的人加入到Python学习大军,对于毫无基础的人该如何入门Python呢?小编这里整理了一套python编程零基础自学教程,清华大佬196小...
- 如何学好Python技术(怎么才能学会python)
-
现在python发展势头很猛,都想快速学好它,其实学任何一个语言没有太多好的秘诀,一般情况下,还是少不了你努力刻苦的样子。学好一门技术并不容易,很多人推荐学习python,在于比其他语言的约束,或者...
- 如何高效且系统地自学Python?(自己学python怎么学)
-
关于这个问题,我也算有些话语权吧!5年多经验的我,今天和大家分享一套系统性学习Python的方法,几周内系统性地学会Python并不是啥难事!首先,学习Python确立明确的学习目标至关重要。要系统性...
- 使用 Python 监控文件系统(基于python的监控系统)
-
前言在我们使用服务器的时候,有时候需要监控文件或文件夹的变化。例如,定期扫描文件夹下是否有某一类型的文件生成。今天,我们介绍如何使用Python来监控文件系统。在Python中,主要有两个监控...
- Python文件读写最佳实践:关键操作的异常处理
-
在Python中进行文件操作时,合理的异常处理是保证程序健壮性的关键。以下是针对文件操作异常处理的全面指南。一、为什么需要异常处理?文件操作可能失败的常见原因:文件不存在(FileNotFoundEr...
- Python编程笔记(python编程入门与案例详解)
-
1.Python简介Python是一种解释型、高级和通用的编程语言。它通过显著的缩进使用来强调代码的可读性。#HelloWorldprogramprint("Hello,World...
- Python目录与文件操作教程(python word目录)
-
大家好,我是ICodeWR。今天要记录的是如何使用Python进行常见的目录和文件操作。Python提供了强大的内置模块来处理文件和目录操作。1.基本模块介绍Python中主要使用以下模块进行文件...
- 自动创建 Python 的 requirements.txt 文件
-
技术背景在Python开发中,requirements.txt文件用于记录项目所依赖的第三方库及其版本,方便在不同环境中部署项目。然而,当从GitHub下载Python源代码时,有时会缺...
- Python文件操作指南(python 操作文件)
-
一、核心函数open()精解基本语法open(file,mode='r',encoding=None,errors=None,newline=None)关键参数解析1.f...
- Python 实现从文本文件提取数据并分析保存
-
一、引言在日常的数据处理工作中,我们经常会遇到从文本文件中提取特定信息并进行分析的需求。本文将详细介绍如何使用Python编写代码,从一个包含用户网络使用信息的文本文件中提取用户姓名、入站流量和出...
- 22-3-Python高级特性-上下文管理器
-
4-上下文管理器4-1-概念上下文管理器是一种实现了`__enter__()`和`__exit__()`方法的对象;用于管理资源的生命周期,如文件的打开和关闭、数据库连接的建立和断开等。使用...
- python:最简单爬虫之使用Scrapy框架爬取小说
-
python爬虫框架中,最简单的就是Scrapy框架。执行几个命令就能生成爬虫所需的项目文件,我们只需要在对应文件中调整代码,就能实现整套的爬虫功能。以下在开发工具PyCharm中用简单的Demo项目...
- Python爬取小说技术指南(python爬取文章)
-
在Python中爬取小说需要遵循法律法规和网站的服务条款,请确保你有权获取目标内容。以下是使用Python爬取小说的通用技术流程安装依赖库pipinstallrequestsbeauti...
- python原始套接字socket下载http网页文件到txt
-
python原始套接字socket下载http网页文件到txtimportsocketdefdownload_webpage(url,output_file):try:...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)