百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

ClickHouse日志平台这样建,分分钟秒掉ELK

off999 2025-02-16 22:26 37 浏览 0 评论

目前业界的日志生态,最常用的是 ELK,其次就是 ClickHouse,本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗,最终写入 ClickHouse。至于日志的可视化,后面再单独介绍,本文先把前半段完成,即日志的收集 + 传输 + 清洗 + 存储。存储显然是 ClickHouse,前面三个环节,使用 Vector 来完成。


配置 Nginx log


我们可以直接采集默认的 Nginx access log,不过我们可以走得更远一点,使用我们自定义的日志格式:


log_format track '$remote_addr - $time_iso8601 "$request_uri" '
                 '$status $body_bytes_sent "$http_user_agent"';
server {
  location / {
    access_log /var/log/track.log track;
    return 200 'ok';
  }
}


这个配置会把所有请求记录到 /var/log/track.log 文件中,样例如下:


127.0.0.1 - 2022-08-01T17:19:38+03:00 "/?test=1" 200 2 "curl/7.81.0"


这个日志是因为使用 curl 发起了一个如下请求:


curl "http://127.0.0.1/?test=1"


ClickHouse 表结构


下面我们创建一个 ClickHouse 表结构,用于存储 Nginx 日志,一般生产环境下,都是每个应用单独一个表,这样可以让不同的应用使用不同的日志字段,同时做了纵向切分,避免所有的日志存在一个表中导致表过大,影响查询性能。


CREATE TABLE log
(
    `ip` String,
    `time` Datetime,
    `url` String,
    `status` UInt8,
    `size` UInt32,
    `agent` String
)
ENGINE = MergeTree
ORDER BY date(time)


这个表基本够演示所用了。


安装 Vector


Vector 是一个用于构建数据传输 pipeline 的工具。它开箱即用支持 ClickHouse。使用 Vector Remap Language (VRL) 可以对日志进行清洗,把非结构化的数据清洗成结构化数据。


安装 Vector 较为简单,在 Ubuntu 上,可以使用如下命令:


curl -1sLf 'https://repositories.timber.io/public/vector/cfg/setup/bash.deb.sh' | sudo -E bash
sudo apt install vector


完事使用如下命令检查版本,如果正常输出,表示安装成功:


root@desktop:~# vector --version
vector 0.23.0 (x86_64-unknown-linux-gnu 38c2435 2022-07-11)


配置 pipeline


使用 Vector 配置日志流水线非常容易。整体上就是三步:采集 -> 处理 -> 输出,每个阶段都对应 Vector 配置中的 section,当然,采集可以有很多来源,处理也可以分多个环节,输出也可以有很多目的地。


配置文件:/etc/vector/vector.toml,基础步骤包括:


1.[sources.***] 配置数据从哪里采集


2.[transforms.***] 配置数据如何清洗处理


3.[sinks.***] 配置数据输出到哪里


*** 的位置,是一个自定义的名字,可以随便取,但是要保证唯一。无论是 sources、transforms 还是 sinks,都可以有多个。


采集数据


我们故意修改了 Nginx 的日志格式,需要手工配置 pipeline。/var/log/track.log 日志文件内容现在是非结构化的,首先我们要用 Vector 读取它。


[sources.track]
type = "file"
include = ["/var/log/track.log"]
read_from = "end"


这里我们让 Vector 读取指定的日志文件,从文件末尾读取,只要 Nginx 有新的日志写入,Vector 就会读取到。


清洗数据


为了得到结构化的数据,我们在 VRL 中使用带有捕获组的正则表达式来处理每一行日志,这部分配置到 transforms 中。


[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P\d+\.\d+\.\d+\.\d+) \- (?P\d+\-\d+\-\d+)T(?P


Transform 部分的代码在 source 字段中,这段代码会解析日志并且把正则捕获组得到的信息放到对应的字段中。这些字段最终会被发给 ClickHouse。transform 有多种不同的类型,这里我们使用了 remap 类型,inputs 字段指定了输入源,这里是 track,即我们之前定义的源,inputs 是个数组,所以 transform 可以同时对接到多个 source 上。


存储数据


在把数据存到 ClickHouse 之前,让我们来检查一下数据是否正确。我们可以使用 console sink 来输出到控制台,这样我们可以看到 Vector 处理后的数据。


[sinks.print]
type = "console"
inputs = ["process"]
encoding.codec = "json"


这里定义了一个 sink:print,它的输入是 process,即我们之前定义的 transform。console sink 会把数据输出到控制台,encoding.codec 字段指定了输出的格式,这里是 json。如上配置都保存在 /etc/vector/vector.toml,然后使用交互模式运行 vector:


root@desktop:~# vector


使用 url 发起一个请求:127.0.0.1/?test=3,然后查看控制台输出:


root@desktop:~# vector
...
2022-08-01T14:52:54.545197Z  INFO source{component_kind="source" component_id=track component_type=file component_name=track}:file_server: vector::internal_events::file::source: Resuming to watch file. file=/var/log/track.log file_position=497
{"agent":"curl/7.81.0","date":"2022-08-01","file":"/var/log/track.log","host":"desktop","ip":"127.0.0.1","message":"127.0.0.1 - 2022-08-01T17:52:58+03:00 \"/?test=3\" 200 2 \"curl/7.81.0\"","size":"2","source_type":"file","status":"200","time":"17:52:58","timestamp":"2022-08-01T14:53:04.803689692Z","url":"/?test=3"}


我们可以看到,除了解析出的字段之外,还有一些额外的字段,比如 timestamp、host、message 等,这些字段是 Vector 自动添加的。在数据最终发给 ClickHouse 之前,我们还需要在 transform 过程做一些额外的处理:


  • 基于解析出的 date 和 time 字段创建一个单独的 datetime 字段
  • 把 status 和 size 字段转换成整型


这两个改动都可以在 transforms 部分完成。


[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P\d+\.\d+\.\d+\.\d+) \- (?P\d+\-\d+\-\d+)T(?P


. 就相当于当前这条日志记录,.status 就是当前这条日志记录的 status 字段,to_int! 就是把 status 字符串转换成整型,+ 就是字符串拼接,最终把 date 和 time 字段拼接成 datetime 字段。这样我们就完成了数据的清洗。再次发起请求,查看控制台输出:


{"agent":"curl/7.81.0","date":"2022-08-01","file":"/var/log/track.log","host":"desktop","ip":"127.0.0.1","message":"127.0.0.1 - 2022-08-01T18:05:44+03:00 \"/?test=3\" 200 2 \"curl/7.81.0\"","size":2,"source_type":"file","status":200,"time":"2022-08-01 18:05:44","timestamp":"2022-08-01T15:05:45.314800884Z","url":"/?test=3"}


一切如预想。最终,我们可以配置数据存储到 ClickHouse,增加一个 sink 配置段,之前那个输出到 console 的 sink 可以删除了。


[sinks.clickhouse]
type = "clickhouse"
inputs = ["process"]
endpoint = "http://127.0.0.1:8123"
database = "default"
table = "log"
skip_unknown_fields = true


这里我们让 Vector 读取 process 这个 transform 环节产生的数据,然后发给 ClickHouse 中的 default 数据库中的 log 表。另外,我们增加了 skip_unknown_fields 配置项来跳过未知字段,这样即使我们的日志格式发生了变化,也不会影响数据的写入。


OK,保存配置文件,重启 Vector,向 Nginx 发一些测试数据,然后,我们就可以在 ClickHouse 中看到相关日志数据了。


推到生产环境


vector 要在生产环境运行,就不要使用交互模式启动前台进程了,使用 systemd 或者 supervisord 之类的做进程托管。


性能考虑


我的电脑是 16C32G,可以轻松处理 2 万个请求每秒。需要几秒钟数据才能进入 ClickHouse,或许我们需要考虑使用 ClickHouse Buffer 表来优化插入性能。


小结


Vector 是一个很不错的工具,很方便地把 Nginx 日志采集、清洗、传输到 ClickHouse,Vector 提供强大的数据清洗能力,可以处理任何类型的非结构化数据。Cool。


下面是整个 vector.toml 的内容:


[sources.track]
type = "file"
include = ["/var/log/track.log"]
read_from = "end"
[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P\d+\.\d+\.\d+\.\d+) \- (?P\d+\-\d+\-\d+)T(?P


本文翻译自:
medium.com/datadenys/using-vector-to-feed-nginx-logs-to-clickhouse-in-real-time-197745d9e88b


作者丨Deny, Ulric

来源丨公众号:SRETalk(ID:SRETalk)

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn

活动推荐

2024 XCOPS智能运维管理人年会·广州站将于5月24日举办,深究大模型、AI Agent等新兴技术如何落地于运维领域,赋能企业智能运维水平提升,构建全面运维自治能力!

会议详情:2024 XCOPS智能运维管理人年会-广州站

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: