百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python 实现从文本文件提取数据并分析保存

off999 2025-05-11 00:13 42 浏览 0 评论

一、引言

在日常的数据处理工作中,我们经常会遇到从文本文件中提取特定信息并进行分析的需求。本文将详细介绍如何使用 Python 编写代码,从一个包含用户网络使用信息的文本文件中提取用户姓名、入站流量和出站流量信息,计算流量速率,并筛选出符合条件的数据保存到 Excel 文件中。

二、需求分析

我们有一个文本文件,其中包含了多个用户的网络使用信息,格式如下:

  User name                     : 15282814551
  Ipv4 Realtime speed inbound   : 0 kbyte/min
  Ipv4 Realtime speed outbound  : 0 kbyte/min
  Circuit ID                       :10.6.37.4/1/7/8/23 HWTC698dcd9c

我们的目标是提取出每个用户的用户名、入站流量和出站流量信息,计算入站和出站流量的速率(单位:M/S),筛选出入站速率大于 20 M/S 的数据,并将结果保存到 Excel 文件中。

三、代码实现

1. 导入必要的库

import re
import pandas as pd
  • re 模块是 Python 的正则表达式模块,用于从文本中提取特定格式的信息。正则表达式是一种强大的文本匹配工具,可以根据特定的模式来查找和提取文本。
  • pandas 是一个强大的数据处理和分析库,它提供了 DataFrame 数据结构,方便我们对数据进行操作和处理。

2. 定义正则表达式匹配函数re_val

def re_val(con, ex):
    try:
        size_re = re.compile(ex, re.MULTILINE)
        size_res = size_re.findall(str(con))
        if len(size_res) >= 1:
            return size_res
        else:
            return None
    except:
        return None
  • 该函数接受两个参数:con 是要匹配的文本内容,ex 是正则表达式模式。
  • re.compile(ex, re.MULTILINE):使用 re.compile 方法编译正则表达式,re.MULTILINE 标志表示多行模式,允许正则表达式匹配跨越多行的文本。
  • size_re.findall(str(con)):使用编译后的正则表达式对象 size_re 的 findall 方法查找文本中所有匹配的内容,并返回一个列表。
  • 如果匹配结果的长度大于等于 1,则返回匹配结果列表;否则返回 None。如果在匹配过程中出现异常,也返回 None。

3. 定义读取文本文件并处理数据的函数open_txt

def open_txt(f1):
    with open(f1, mode='r') as f:
        data = f.read()
    data_list = []
    username = re_val(data, r'User name +: (\d+)')
    inbound = re_val(data, r'Ipv4 Realtime speed inbound +: (\d+)')
    outbound = re_val(data, r'Ipv4 Realtime speed outbound +: (\d+)')
    for i, j, z in zip(username, inbound, outbound):
        data_list.append([i, int(j), int(z)])
    df = pd.DataFrame(data_list, columns=['user_name', 'inbound(kbyte/min)', 'outbound(kbyte/min)'])
    df['inbound(M/S)'] = df['inbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
    df['outbound(M/S)'] = df['outbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
    df_res = df[df['inbound(M/S)'] > 20]
    df_res.to_excel(r'./result.xlsx', index=False)

3.1 读取文本文件

with open(f1, mode='r') as f:
    data = f.read()

使用 open 函数以只读模式打开文件,并使用 read 方法将文件内容读取到变量 data 中。

3.2 提取信息

username = re_val(data, r'User name +: (\d+)')
inbound = re_val(data, r'Ipv4 Realtime speed inbound +: (\d+)')
outbound = re_val(data, r'Ipv4 Realtime speed outbound +: (\d+)')

使用 re_val 函数分别提取用户名、入站流量和出站流量信息。正则表达式 r'User name +: (\d+)' 表示匹配以 User name 开头,后面跟着一个或多个空格,然后是冒号,再后面是一个或多个数字的内容,并提取出数字部分。同理,另外两个正则表达式分别用于提取入站流量和出站流量的数字部分。

3.3 创建数据列表

for i, j, z in zip(username, inbound, outbound):
    data_list.append([i, int(j), int(z)])

使用 zip 函数将提取的用户名、入站流量和出站流量信息组合成一个列表,每个元素是一个包含用户名、入站流量和出站流量的子列表。

3.4 创建数据框

df = pd.DataFrame(data_list, columns=['user_name', 'inbound(kbyte/min)', 'outbound(kbyte/min)'])

使用 pandas 的 DataFrame 函数将数据列表转换为数据框,并指定列名。

3.5 计算速率

df['inbound(M/S)'] = df['inbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
df['outbound(M/S)'] = df['outbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)

使用 apply 方法和 lambda 函数计算入站和出站流量的速率(单位:M/S)。将入站和出站流量从 kbyte/min 转换为 M/S,需要先将 kbyte 转换为 bit(乘以 8),再将 min 转换为 s(除以 60),最后将结果转换为 M(除以 1000)。

3.6 筛选数据

df_res = df[df['inbound(M/S)'] > 20]

筛选出入站速率大于 20 M/S 的数据。

3.7 保存结果

df_res.to_excel(r'./result.xlsx', index=False)

将筛选后的数据保存到 Excel 文件中,index=False 表示不保存行索引。

4. 主程序

if __name__ == '__main__':
    open_txt(r'SCDEY-MC-CMNET-BRAS03-MZ')

五、总结

通过使用 Python 的正则表达式和 pandas 库,我们可以方便地从文本文件中提取所需信息,并进行数据处理和分析。最后,将筛选后的结果保存到 Excel 文件中,方便后续查看和使用。这种方法可以应用于各种类似的数据提取和分析场景,具有很强的通用性和灵活性。

相关推荐

Kubernetes 核心概念全景图:Pod、Node、Cluster、Control Plane 等

想真正读懂Kubernetes的底层运作,你必须理解它的“权力架构”。Pod是什么?Node是什么?ControlPlane又是做什么的?它们之间有什么关系?怎么协同工作?本篇带你构建一个...

Helm 实战:用 Helm 部署一个 Nginx 应用

这一篇,我们将动手实战:用Helm从零部署一个Nginx应用,并掌握HelmChart的结构和参数化技巧。一、准备环境在开始之前,你需要确保环境中具备以下工具:已部署的Kubernet...

从零开始:如何在 Linux 上搭建 Nginx + Node.js 高性能 Web 服务

在现代互联网服务架构中,Nginx+Node.js已成为轻量级、高性能网站的首选组合。本文将带你从零开始,一步步搭建一个高并发、高可用的Web服务平台,让新手也能轻松掌握生产级部署思路。一、...

NetBox 最新版 4.4.1 完整安装指南

NetBox最新版4.4.1完整安装指南(修正版)by大牛蛙1.系统准备#关闭SELinux和防火墙(仅测试环境)systemctldisable--nowfirewalldse...

Termux 安装 linux 宝塔面板,搭建 Nginx+PHP+Mysql web 网站环境

Termux安装linux宝塔面板,搭建Nginx+PHP+Mysqlweb服务环境,解决启动故障奶妈级教程1.到宝塔面板官网:https://www.bt.cn/new/download...

OpenEuler系统安装Nginx安装配置_openwrt安装nginx

NginxWEB安装时可以指定很多的模块,默认需要安装Rewrite模块,也即是需要系统有PCRE库,安装Pcre支持Rewrite功能。如下为安装NginxWEB服务器方法:源码的路径,而不是编...

多级缓存架构实战:从OpenResty到Redis,打造毫秒级响应系统

在传统的Web架构中,当用户发起请求时,应用通常会直接查询数据库。这种模式在低并发场景下尚可工作,但当流量激增时,数据库很容易成为性能瓶颈。多级缓存通过在数据路径的不同层级设置缓存,可以显著降低数据库...

如何使用 Nginx 缓存提高网站性能 ?

快速加载的站点提供了更好的用户体验并且可以拥有更高的搜索引擎排名。通过Nginx缓存提高你的网站性能是一个有效的方法。Nginx是一个流行的开源web服务器,也可以作为web服务器反向代...

如何构建企业级Docker Registry Server

很多人问我,虚拟机镜像和docker镜像的区别是什么?其实区别非常明显,我们可以通过阅读Dockerfile文件就可以知道这个镜像都做了哪些操作,能提供什么服务;但通过虚拟机镜像,你能一眼看出来虚拟机...

如何解决局域网SSL证书问题?使用mkcert证书生成工具轻松搞定

“局域网里弹出‘不安全’红锁,老板就在身后盯着演示,那一刻只想原地消失。”别笑,九成前端都经历过。自签证书被Chrome标红,客户以为网站被黑,其实只是缺一张被信任的证。mkcert把这事从半小时缩到...

Docker 安全与权限控制:别让你的容器变成“漏洞盒子”

在享受容器带来的轻量与灵活的同时,我们也必须面对一个现实问题:安全隐患。容器并不是天然安全,错误配置甚至可能让攻击者“越狱”入侵主机!本篇将带你从多个层面强化Docker的安全防护,构建真正可放心...

Kubernetes生产级管理指南(2025版)

在云原生技术持续演进的2025年,Kubernetes已成为企业数字化转型的核心引擎。然而,生产环境中的集群管理仍面临基础设施配置、安全漏洞、运维复杂度攀升等挑战。本文将结合最新行业实践,从基础设施即...

云原生工程师日常使用最多的工具和100条高频命令

在云原生时代,工程师不仅要熟悉容器化、编排和服务网格,还要掌握大量工具和命令来进行日常运维与开发。本文将从工具篇和命令篇两个角度,详细介绍云原生工程师每天都会用到的核心技能。一、云原生工程师常...

用 Jenkins 实现自动化 CI/CD_jenkins api自动执行

场景设定(可替换为你的技术栈)语言:Node.js(示例简单,任何语言思路一致)制品:Docker镜像(推送到DockerHub/Harbor)运行环境:Kubernetes(staging...

5款好用开源云笔记虚拟主机部署项目推荐

在个人数据管理与协同办公场景中,开源云笔记项目凭借可自主部署、数据可控的优势,成为众多用户的首选。以下推荐5款适配虚拟主机部署、功能完善的开源项目,附核心特性与部署要点,助力快速搭建专属云笔记系统。...

取消回复欢迎 发表评论: