使用python把csv汇总成excel(python csv导出)
off999 2025-04-30 18:49 36 浏览 0 评论
最近领导安排让我每周定时把grafana导出的csv文件进行统计汇总工作,需要处理的csv文件还是蛮多的,况且还要每周重复汇总处理。干脆写个脚本,每周执行一遍脚本,既方便还不会出错。
一、需求分析
1. 原始文件分析
原始文件是多个csv表格,第一列为时间戳,每10分钟统计生成一行,其余列为ip地址在该时间段内的访问次数
2. 处理结果分析
根据要求,统计每个ip地址在当天访问次数求和,汇总生成新表格,结果如下,并将所有csv文件按照文件名,分别汇总到不同的sheet下
二、代码逻辑
1. 流程分析
- 首先遍历指定目录下的.csv文件,提取文件名生成数组
- 然后使用pandas库读取csv文件,提取日期和ip,然后统计每个ip当天访问次数,生成新的DataFrame
- 最后使用xlwings库将pandas处理后的DataFrame数据写入excel文件,指定文件名作为sheet名
2. 遍历指定目录下.csv文件
主要用到了os模块中的walk()函数,可以遍历文件夹下所有的文件名。
def find_csv(path):
"""
查找目录下csv文件
:param path: 查找csv的目录路径
:return: csv文件名list
"""
csv_file = []
for root, dirs, files in os.walk(path):
for file in files:
if os.path.splitext(file)[1] == '.csv':
csv_file.append(os.path.join(root, file))
return csv_file
3. pandas处理csv文件
pandas是python环境下最有名的数据统计包,对于数据挖掘和数据分析,以及数据清洗等工作,用pandas再合适不过了,官方地址:https://www.pypandas.cn/
def summary_data(file):
"""
grafana导出的csv文件处理汇总
:param file: csv文件路径
:return: 处理完成后的pandas对象
"""
# 读取整个csv文件
csv_data = pd.read_csv(file, ';')
# 提取日期
csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
date = csv_data["Time"].drop_duplicates()
# 提取IP
ip_list = csv_data.columns.values[1:]
# 生成新列表
result_data = []
for day in list(date):
ip_data = []
for ip in ip_list:
# 统计指定ip地址在指定日期的数据之和
ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
ip_data.append(ip_sum)
# print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))
result_data.append(ip_data)
# 生成新的DataFrame
result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
# 添加行列统计
result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
print(file, "处理完毕!")
return result_df
4. excel数据写入
pandas的to_excel方法也可以写入到excel文件,但是如果需要写入到指定的sheet,就无法满足需求了,此时就需要用的xlwings或者openpyxl库,此处使用xlwings,参考文档:
https://www.xlwings.org/pro
def save_excel(data_df, file_name, excel_name):
"""
生成并写入新excel文件
:param data_df: pandas数据对象
:param file_name: 传入文件名,作为生成的sheet名称
:param excel_name: 生成excel文件名
:return: null
"""
sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
wb = xlwings.Book(excel_name)
sheet = wb.sheets.add(name=sheet_name)
sheet.range("A1").value = data_df
wb.save()
wb.close()
print(sheet_name, "Sheet写入完毕!")
5. 完整代码
import os
import pandas as pd
import xlwings
def find_csv(path):
"""
查找目录下csv文件
:param path: 查找csv的目录路径
:return: csv文件名list
"""
csv_file = []
for root, dirs, files in os.walk(path):
for file in files:
if os.path.splitext(file)[1] == '.csv':
csv_file.append(os.path.join(root, file))
return csv_file
def summary_data(file):
"""
grafana导出的csv文件处理汇总
:param file: csv文件路径
:return: 处理完成后的pandas对象
"""
# 读取整个csv文件
csv_data = pd.read_csv(file, ';')
# 提取日期
csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
date = csv_data["Time"].drop_duplicates()
# 提取IP
ip_list = csv_data.columns.values[1:]
# 生成新列表
result_data = []
for day in list(date):
ip_data = []
for ip in ip_list:
ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
ip_data.append(ip_sum)
# print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))
result_data.append(ip_data)
result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
# 添加行列统计
result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
print(file, "处理完毕!")
return result_df
def save_excel(data_df, file_name, excel_name):
"""
生成并写入新excel文件
:param data_df: pandas数据对象
:param file_name: 传入文件名,作为生成的sheet名称
:param excel_name: 生成excel文件名
:return: null
"""
sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
wb = xlwings.Book(excel_name)
sheet = wb.sheets.add(name=sheet_name)
sheet.range("A1").value = data_df
wb.save()
wb.close()
print(sheet_name, "Sheet写入完毕!")
if __name__ == '__main__':
# 原始csv文件存放路径
path = './csv'
# 生成excel文件名
excel_name = 'cm.xlsx'
csv_file = find_csv(path)
# 创建excel文件
new_excel = pd.DataFrame()
new_excel.to_excel(excel_name)
# 处理并写入excel文件
for file in csv_file:
data_df = summary_data(file)
save_excel(data_df, file, excel_name)
# 删除默认Sheet1
wb = xlwings.Book(excel_name)
wb.sheets['Sheet1'].delete()
wb.save()
wb.close()
print("数据汇总完毕,生成文件路径 %s/%s" % (os.getcwd(), excel_name))https://www.linuxprobe.com/python-csv-excel.html
相关推荐
- 安全教育登录入口平台(安全教育登录入口平台官网)
-
122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...
- 大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)
-
大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...
-
- 哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
-
要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...
-
2026-02-04 09:03 off999
- 电信宽带测速官网入口(电信宽带测速官网入口app)
-
这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...
- 植物大战僵尸95版手机下载(植物大战僵尸95 版下载)
-
1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...
- 免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)
-
1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...
- 2025世界杯赛程表(2025世界杯在哪个国家)
-
2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...
- 下载搜狐视频电视剧(搜狐电视剧下载安装)
-
搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...
- 永久免费听歌网站(丫丫音乐网)
-
可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...
- 音乐格式转换mp3软件(音乐格式转换器免费版)
-
有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...
- 电子书txt下载(免费的最全的小说阅读器)
-
1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...
- 最好免费观看高清电影(播放免费的最好看的电影)
-
在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...
- 孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)
-
要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...
欢迎 你 发表评论:
- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
