百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

KubeDoor 微服务容量管理平台全新架构,灵活部署方案

off999 2025-03-29 20:39 26 浏览 0 评论

花折 - KubeDoor 1.0发布!全新架构,多K8S管控支持,多K8S统一监控、告警、展示最佳实践

VictoriaMetrics全套方案:多K8S统一监控远程写,统一告警规则管理。

目录

  • 0. KubeDoor 1.0组件说明
  • 1. 全新部署(您的K8S没有部署监控系统)
  • 2. 独立部署ClickHouse与VictoriaMetrics
  • 3. 接入部署(已经有完整的多K8S监控系统)
  • 4. 仅Master部署(已经有完整的多K8S监控系统)

组件说明

master端(安装在kubedoor命名空间)

  • kubedoor-master: 对接agent,提供api接口
  • kubedoor-web: 前端界面,整合nginx
  • kubedoor-dash: Grafana
  • kubedoor-alarm: 接收alertmanager的告警,执行通知与入库
  • kubedoor-collect: 定时任务,调用api采集高峰期资源

基础设施(默认和master端部署在一起)

  • alertmanager: 告警路由服务
  • vmalert: 告警规则计算与管理,触发告警后通知到alertmanager
  • VictoriaMetrics: 时序数据库
  • ClickHouse:列式数据库

agent端(安装在kubedoor命名空间)

  • kubedoor-agent: 对接master,调用K8S API
  • vmagent: 替代Prometheus,采集监控指标
  • KubeStateMetrics: 获取K8S的指标
  • NodeExporter: 获取主机的指标

部署方案

0. 下载并进入目录

### 【下载helm包】
wget https://StarsL.cn/kubedoor/kubedoor-1.1.0.tgz
tar -zxvf kubedoor-1.1.0.tgz
cd kubedoor

1. 全新部署(您的K8S没有部署监控系统)

全新部署不会影响您已有的监控服务,如果您原监控没有使用vm远程存储,建议使用全新部署,体验多K8S统一监控最佳实践

  • master部署:
  1. 配置文件修改: values-master.yaml

变量名

描述

storageClass

【特别注意】默认的部署方案会把ClickHouse

(单机版)和VictoriaMetrics

(单机版)都部署在K8S(kubedoor命名空间)内,这2个服务需要存储,注意要填写正确您K8S的storageClass

(注意有2处storageClass

)。

CK_PASSWORD

【可保持默认】自动部署ClickHouse

时会将这个密码设置为default用户的密码。

external_labels_key

【可保持默认】这是用于多K8S监控数据,通过远程写方式,写入到同一个时序数据库的场景。使用远程存储时,这个key/value会作为标签增加到每一个指标中,这样通过这个标签就可以区分出指标属于哪个K8S了。注意agent端的external_labels_key

要和master端的external_labels_key

保持一致。如果是新安装VictoriaMetrics

可以使用默认配置的origin_prometheus

不变。

vm_single

【可保持默认】自动部署Victoria-Metrics-Single

时需要配置的账号密码,存储时长等信息。

nginx_auth

【可保持默认】这个是web登录的账号密码信息,是使用的nginx basic认证,默认设置了2个用户,一个用于web登录,一个用于agent与master通讯使用,可以根据需要修改。

MSG_TYPE/MSG_TOKEN

【需要修改】master端的通知IM类型和机器人token,主要用于告警的默认通知的群机器人,你也可以在alertmanager配置更详细的通知路由。

  1. 完成配置修改后执行检查与安装:
# try
helm install kubedoor . --namespace kubedoor --create-namespace --values values-master.yaml --dry-run --debug
# install
helm install kubedoor . --namespace kubedoor --create-namespace --values values-master.yaml
  1. 访问WebUI:使用K8S节点IP + kubedoor-web的NodePort访问,默认账号密码都是 kubedoor
  2. 告警逻辑说明:vmalertVictoriaMetrics读取数据,并进行规则比较后,如果触发了告警就会通知到alertmanager,alertmanager收到告警后会路由到kubedoor-alarm进行告警通知和入库。即使您的K8S内已经有alertmanager也不用担心,KubeDoor的alertmanager会安装在kubedoor命名空间,不会冲突。
  • agent部署:
  1. 配置文件修改: values-agent.yaml

变量名

描述

ws

agent和master是同一个K8S:配置为
ws://kubedoor-master.kubedoor

即可,免认证。如果是跨K8S的情况,请配置为您的kubedoor-web外部可访问的地址端口,并按照例子配置认证信息。

MSG_TYPE/MSG_TOKEN

大部分对该K8S的操作会通过该机器人进行通知。(不同的K8S可以配置不同的群机器人)

OSS_URL

java服务执行dump、jfr、jstack时会把数据存放到OSS,请填写您的OSS地址。(注意设置允许内网免认证上传)

external_labels_key

注意部署到多套K8S时,请保持external_labels_key都相同,并且与kubedoor-master的也相同。

external_labels_value

设置为您的K8S的名称。

remoteWriteUrl

这是vmagent远程写时序数据库的完整URL。agent和master是同一个K8S:配置为http://monit:dduF1E3sj@
victoria-metrics.kubedoor:8428/api/v1/write

,如果是跨K8S的情况,注意修改
victoria-metrics.kubedoor:8428

为您的Victoria-Metrics外部可访问的地址端口。注意账号密码是mater配置中的vm_single

的账号密码。

kube_state_metrics

如果您开启了vmagent

安装,请确保kube_state_metrics

也是开启的,vmagent

需要采集kubedoor的kube_state_metrics

的指标,kube_state_metrics

会部署在kubedoor命名空间内,不会与您已有的kube_state_metrics

冲突。

node_exporter

如果您的K8S节点已部署node-exporter,请设置为false,否则会冲突。

  1. 完成配置修改后执行检查与安装:
# try
helm install kubedoor-agent . --namespace kubedoor --create-namespace --values values-agent.yaml --dry-run --debug
# install
helm install kubedoor-agent . --namespace kubedoor --create-namespace --values values-agent.yaml
  1. 访问KubeDoor-Web,点击agent管理,找到您部署agent的K8S名称,状态应该是在线,先开启自动采集,设置好高峰期时段,再执行采集:输入需要采集的历史数据时长,点击采集,即可采集历史数据并更新高峰时段数据到管控表。

开启自动采集后,每天凌晨1点会采集前一天的高峰期数据,并将10天内最大资源消耗日的数据写入到更新管控表。

重复执行采集不会导致重复写入数据,请放心使用;每次采集后都会自动将10天内最大资源消耗日的数据写入到管控表。如果耗时较长,请等待采集完成或缩短采集时长。

如果您是新安装的监控系统,并且已过了当天的高峰期时段,将会无法采集到数据;需要等第二天高峰期时段之后才能采集到数据。

  1. 在其它的K8S部署agent。
helm install kubedoor-agent . --namespace kubedoor --create-namespace --values values-agent.yaml --set tsdb.external_labels_value=xxxxxx

2. 独立部署ClickHouse与VictoriaMetrics

  • ClickHouse可以使用docker compose在主机上部署。
# 默认使用docker compose运行,部署在/opt/clickhouse目录下。
curl -s https://StarsL.cn/kubedoor/install-clickhouse.sh|sudo bash
# 启动ClickHouse(启动后会自动初始化表结构)
cd /opt/clickhouse && docker compose up -d
  • VictoriaMetrics可以使用docker compose在主机上部署。
mkdir -p /opt/victoriametrics/data
wget https://StarsL.cn/kubedoor/victoriametrics-docker-compose.yaml -O /opt/victoriametrics/docker-compose.yaml
# 请编辑下载的yaml文件修改账号密码和数据存储时长
cd /opt/victoriametrics/
docker compose up -d

3. 接入部署(已经有完整的多K8S监控系统)

前提1:每个K8S内已经部署Prometheus/vmagent,采集的数据统一远程写到已有的 VictoriaMetrics

前提2:已经部署好的ClickHouse

前提3:如果使用已有的ClickHouse,需要逐条运行建库建表sql。初始化数据库SQL

  • master部署:
  1. 配置文件修改: values-master.yaml

变量名

描述

clickhouse.enable

设置为false

CK_PASSWORD/CK_HOST/CK_PORT/CK_HTTP_PORT/CK_USER

根据您已有的ClickHouse信息填写

tsdb.type

根据您已有的时序数据库填写Victoria-Metrics-Single

Victoria-Metrics-Cluster

external_labels_key

注意填写您已经在Prometheus/vmagent

中配置的external_labels

的key,如果您没有配置过请在您的Prometheus/vmagent

中新增一个。

url/remoteRead/remoteWrite

单机版配置url即可,集群版需要配置remoteRead/remoteWrite,请按照示例规范填写。

MSG_TYPE/MSG_TOKEN

master端的通知IM类型和机器人token,主要用于告警的默认通知的群机器人,你也可以在alertmanager配置更详细的通知路由。

  1. 完成配置修改后执行检查与安装:
# try
helm install kubedoor . --namespace kubedoor --create-namespace --values values-master.yaml --dry-run --debug
# install
helm install kubedoor . --namespace kubedoor --create-namespace --values values-master.yaml
  1. 访问WebUI:使用K8S节点IP + kubedoor-web的NodePort访问,默认账号密码都是 kubedoor
  2. 告警逻辑说明:vmalertVictoriaMetrics读取数据,并进行规则比较后,如果触发了告警就会通知到alertmanager,alertmanager收到告警后会路由到kubedoor-alarm进行告警通知和入库。即使您的K8S内已经有alertmanager也不用担心,KubeDoor的alertmanager会安装在kubedoor命名空间,不会冲突。
  • agent部署:
  1. 配置文件修改: values-agent.yaml

变量名

描述

ws

agent和master是同一个K8S:配置为
ws://kubedoor-master.kubedoor

即可,免认证。如果是跨K8S的情况,请配置为您的kubedoor-web外部可访问的地址端口,并按照例子配置认证信息。

MSG_TYPE/MSG_TOKEN

大部分对该K8S的操作会通过该机器人进行通知。(不同的K8S可以配置不同的群机器人)

OSS_URL

java服务执行dump、jfr、jstack时会把数据存放到OSS,请填写您的OSS地址。(注意设置允许内网免认证上传)

external_labels_key

注意部署到多套K8S时,请保持external_labels_key都相同,并且与kubedoor-master的也相同。

external_labels_value

注意填写您当前K8S已经在Prometheus/vmagent

中配置的external_labels

的value,如果您没有配置过请在您的Prometheus/vmagent

中新增一个。

remoteWriteUrl

如果你的是新K8S没有安装Prometheus/vmagent

,但你已有VictoriaMetrics

,这里填写的你VictoriaMetrics

远程写的地址就行了。如果你的K8S已经安装好了Prometheus/vmagent

,那就不用管这个变量,并且下面monit

的所有enable

都配置成false

monit

如果你需要安装vmagent,保持下面的所有enable

true

即可,如果你已经有Prometheus/vmagent

了,monit下面的所有enable

都配置成false

  1. 调整你已有的Prometheus/vmagentJOB配置(因为您的JOB配置可能与KubeDoor需求的会有不一样,请参考以下配置调整。)配置完成后确保您的有以下指标:

vmagent-job-config.yaml

    • container_cpu_usage_seconds_total
    • container_memory_working_set_bytes
    • container_spec_cpu_quota
    • kube_pod_container_info
    • kube_pod_container_resource_limits
    • kube_pod_container_resource_requests
  1. 完成配置修改后执行检查与安装:
# try
helm install kubedoor-agent . --namespace kubedoor --create-namespace --values values-agent.yaml --dry-run --debug
# install
helm install kubedoor-agent . namespace kubedoor --create-namespace --values values-agent.yaml
  1. 访问KubeDoor-Web,点击agent管理,找到您部署agent的K8S名称,状态应该是在线,先开启自动采集,设置好高峰期时段,再执行采集:输入需要采集的历史数据时长,点击采集,即可采集历史数据并更新高峰时段数据到管控表。

开启自动采集后,每天凌晨1点会采集前一天的高峰期数据,并将10天内最大资源消耗日的数据写入到更新管控表。

重复执行采集不会导致重复写入数据,请放心使用;每次采集后都会自动将10天内最大资源消耗日的数据写入到管控表。如果耗时较长,请等待采集完成或缩短采集时长。

如果您是新安装的监控系统,并且已过了当天的高峰期时段,将会无法采集到数据;需要等第二天高峰期时段之后才能采集到数据。

  1. 在其它的K8S部署agent。
helm install kubedoor-agent . --namespace kubedoor --create-namespace --values values-agent.yaml --set tsdb.external_labels_value=xxxxxx

4. 仅Master部署(已经有完整的多K8S监控系统)

如果你已经有完整的K8S监控系统(满足3个前提),并且你也不需要KubeDoor去操作你的K8S(KubeDoor-Web上对K8S执行扩缩容、重启、Pod隔离/Dump等等操作),那么你也可以完全不安装KubeDoor-agent,仅安装KubeDoor-Master即可。(监控、告警、高峰期数据的展示分析能力Master从ClickHouse与VictoriaMetrics中获取数据即可。)

欢迎大家一键三连,有问题可以提issue和pr

github地址:
https://github.com/CassInfra/KubeDoor/tree/main



相关推荐

每天一个 Python 库:datetime 模块全攻略,时间操作太丝滑!

在日常开发中,时间处理是绕不开的一块,比如:生成时间戳比较两个时间差转换为可读格式接口传参/前端展示/日志记录今天我们就用一个案例+代码+思维导图,带你完全搞定datetime模块的用法!...

字节跳动!2023全套Python入门笔记合集

学完python出来,已经工作3年啦,最近有很多小伙伴问我,学习python有什么用其实能做的有很多可以提高工作效率增强逻辑思维还能做爬虫网站数据分析等等!!最近也是整理了很多适合零基...

为什么你觉得Matplotlib用起来困难?因为你还没看过这个思维导图

前言Matplotlib是一个流行的Python库,可以很容易地用于创建数据可视化。然而,设置数据、参数、图形和绘图在每次执行新项目时都可能变得非常混乱和繁琐。而且由于应用不同,我们不知道选择哪一个图...

Python新手必看!30分钟搞懂break/continue(附5个实战案例)

一、跳转语句的使命当程序需要提前结束循环或跳过特定迭代时,break和continue就是你的代码急刹按钮和跳步指令。就像在迷宫探险中:break=发现出口立即离开continue=跳过陷阱继续前进二...

刘心向学(24)Python中的数据类(python中5种简单的数据类型)

分享兴趣,传播快乐,增长见闻,留下美好!亲爱的您,这里是LearningYard新学苑。今天小编为大家带来文章“刘心向学(24)Python中的数据类”欢迎您的访问。Shareinterest,...

刘心向学(25)Python中的虚拟环境(python虚拟环境安装和配置)

分享兴趣,传播快乐,增长见闻,留下美好!亲爱的您,这里是LearningYard新学苑。今天小编为大家带来文章“刘心向学(25)Python中的虚拟环境”欢迎您的访问。Shareinte...

栋察宇宙(八):Python 中的 wordcloud 库学习介绍

分享乐趣,传播快乐,增长见识,留下美好。亲爱的您,这里是LearingYard学苑!今天小编为大家带来“Python中的wordcloud库学习介绍”欢迎您的访问!Sharethefun,...

AI在用|ChatGPT、Claude 3助攻,1分钟GET高颜值思维导图

机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人...

使用DeepSeek + Python开发AI思维导图应用,非常强!

最近基于Deepseek+PythonWeb技术开发了一个AI对话自动生成思维导图的应用,用来展示下如何基于低门槛的Python相关技术栈,高效结合deepseek实现从应用场景到实际应用的快速落地...

10幅思维导图告诉你 - Python 核心知识体系

首先,按顺序依次展示了以下内容的一系列思维导图:基础知识,数据类型(数字,字符串,列表,元组,字典,集合),条件&循环,文件对象,错误&异常,函数,模块,面向对象编程;接着,结合这些思维导图主要参考的...

Python基础核心思维导图,让你轻松入门

Python基础核心思维导图【高清图文末获取】学习路线图就给大家看到这里了,需要的小伙伴下方获取获取方式看下方图片...

Python基础核心思维导图,学会事半功倍

Python基础核心思维导图【高清图文末获取】学习路线图就给大家看到这里了,需要的小伙伴下方获取获取方式看下方图片...

硬核!288页Python核心知识笔记(附思维导图,建议收藏)

今天就给大家分享一份288页Python核心知识笔记,相较于部分朋友乱糟糟的笔记,这份笔记更够系统地总结相关知识,巩固Python知识体系。文末获取完整版PDF该笔记学习思维导图:目录内容展示【领取方...

Python学习知识思维导图(高效学习)

Python学习知识思维导图python基础知识python数据类型条件循环列表元组字典集合字符串序列函数面向对象编程模块错误异常文件对象#python##python自学##编程#...

别找了!288页Python核心知识笔记(附思维导图,建议收藏)

今天就给大家分享一份288页Python核心知识笔记,相较于部分朋友乱糟糟的笔记,这份笔记更够系统地总结相关知识,巩固Python知识体系。文末获取完整版PDF该笔记学习思维导图:目录内容展示【领取方...

取消回复欢迎 发表评论: