对高可用集群构建的思考
off999 2025-03-06 18:33 21 浏览 0 评论
今天谈下集群和高可用方面的内容。在前面我谈过IT基础架构的高可用性设计,其核心的一个特点就是在运行期间没有任何的单点故障。因此在基础部署架构设计的时候,往往就有两个思路,其一就是实现简单的HA高可用,一种就是实现集群,同时在集群基础上同时实现高可用。因此今天对这方面的内容做下简单整理。
HA高可用架构
HA高可用是最基础的一种高可用架构,一般应用在数据库,管理节点,负载均衡节点等。一主一备,只有一个节点提供能力,但是在主节点宕机后能够自动切换到备用节点。对于任何类型的中间件或应用服务器都可以搭建高可用架构,但是前提是共享存储,因为高可用架构只会做浮动IP切换,而不会去做底层数据的同步。
HA高可用架构搭建过程中,一般又存在手工切换和自动切换两种情况。
如果要做到自动切换,那么必须配合心跳检查,即通过脚本进行心跳检查,在心跳检查出现异常的时候进行IP地址的切换操作。
对于操作系统级别的HA高可用性软件当前大部分都属于商用和收费软件,包括类似红帽的RedHat Cluster Suite,虽然是可以免费下载安装,但是也需要购买相应的技术服务,否则后续无法得到相应的技术支持和版本升级服务等。
心跳检查
心跳检查HeartBeart在搭建高可用架构的时候经常会使用。核心目的就是发现节点故障或问题,同时进行自动切换操作。
比如可以通过HaProxy+KeepAlived来搭建一个高可用架构。在数据库中采用MySql Dual Master架构的时候,我们也会使用HaProxy+KeepAlived来搭建一个提供VIP的数据库高可用架构。
心跳检查一般包括了心跳监测部分和资源接管部分,心跳监测可以通过网络链路,发送ping或连接请求,如果失败或超时达到一个阈值,就认为对方失效,这时需启动资源接管模块来接管运 行在对方主机上的资源或者服务。
集群和负载均衡
如果当前有6个Tomcat应用服务器节点,我们统一接入到Ngnix或F5硬件负载均衡设备。那么6个节点是否就构成了一个完整的Tomcat集群?
上面这种情况实际只实现了负载均衡能力,而没有实现集群管理能力。
一个完整的集群必须具备集群管理能力,其核心包括了节点的心跳检查,配置文件信息的分发,高可用保障,请求负载均衡,统一的集群节点监控和管理等。
比如一个应用要部署,我们可以在管理节点进行统一处理,部署包会自动部署到所有集群节点,或者说我们可以在管理端对单个或整体集群节点进行重启等操作。
也就是说集群一般会存在管理节点,管理节点对集群提供上面说的管理能力。负载均衡能力你可以不用集群本身的负载均衡,比如请求分发和均衡仍然通过接入F5硬件设备完成等。
当前中间件或软件一般存在两种情况,一种就是自己实现Admin集群管理能力,一种是基于开源的Zookeeper或Etcd来实现集群管理能力。比如在dubbo中会采用Zookeeper来作为注册中心,kurbernetes中则采用Etcd进行集群管理。
在分布式任务协调场景下,两者实际提供能力基本一致,对比如下:
其中Zookeeper 使用 java 开发的,被 Apache 很多项目采用。而Etcd 使用 go 语言开发的,主要是被 Kubernetes 采用。Zookeeper 非常稳定,是一个著名的分布式协调系统,Etcd 是后起之秀,前景广阔。
基于Zookeeper或Etcd来实现集群管理节点
如果你自己实现一个集群,完全可以基于Zookeeper或Etcd来实现集群管理节点。在集群管理节点的管理中本身包括如下核心内容。
心跳检查:对于心跳检查如下异常的节点能够自动剔除或者触发该节点自动进行重启,重启后正常才能够重新加入集群。
部署或配置分发:具备进行统一部署或配置分发能力,只需要在管理节点更新部署或配置信息,该信息能够自动分发到所有的集群节点确保一致性。
软负载均衡:具备基本的路由分发和负载均衡能力。
分布式锁:当存在多节点同时触发抢占某一个任务的时候,具备分布式锁能力,确保该任务只能够被一个节点处理,如果该节点处理异常又能够快速释放锁。其它监听节点可以快速获取锁并进一步处理该任务。
集群和分布式
很多时候这两个概念是在混用,但是本身还是有一点区别。简单来说对于集群即所有的节点全部都是相同的,包括部署的内容,具备的能力,然后构成一个整体对外服务;但是对于分布式来说则可能各个节点本身具备分工,共同处理最终完成一个任务。
比如常见的负载均衡,多个节点本身完全相同,则是典型的集群架构;而对于一个大矩阵的计算,可能要分解为多个部分,拆分到不同的机器进行计算则类似于分布式架构。简单来说类似Master-Slave架构下,Master对任务进行分解到Slave进行计算,完成后再到Master进行汇总即可理解为典型的分布式架构。
集群节点假死问题
对于中间件集群,往往存在一种情况即节点处理任务的时候被Hang住或者叫假死。在这种情况下节点心跳检查正常,但是无法处理正常分发过来的请求,或者请求处理全部超时。
因此心跳检查还有一个重点就是需要去判断集群节点是否出现假死。
如果仅仅是类似tomcat应用服务器,你可以直接去curl http访问tomcat首页看是否正常返回。但是如果是判断应用功能是否正常,那么还涉及到数据库,在这种情况下一般需要单独写一个用于心跳检查的接口进行心跳检查,看这个接口在心跳检查过程中能否正常返回。
动态扩容或动态分区
简单来说即集群节点不论是新增加,还是因为故障异常等原因下线减少的时候,对于新的请求路由分发,或者新任务的获取都能够再次基于当前可用节点数进行重新分配。
集群能够动态扩容,但是当新增加节点的时候并不会对已经在集群其它节点运行的经常进行重新分配,而是仅仅对新增加的需求进行重新分配计算。在分布式数据库集群的实现中可以看到,这类集群涉及到底层持久化数据,因此当增加节点的时候往往涉及到数据本身的ReSharding重新计算,这个动作本身是相对复杂的,一般不建议自动处理。
集群管理节点至少3个节点以上奇数部署
在进行集群架构部署的时候,可以看到管理或Master节点一般都要求3个节点或以上的奇数个节点进行部署。在这里进行简单说明如下。
在前面已经谈到Master节点肯定不能单节点部署,否则就存在单点故障,那么我们容易想到就是2个节点冗余架构部署。
注意如果Admin或Master节点往往并不是简单的保证自己的高可用性,而且还需要承担对管理的Slave节点的管理和心跳监控职责。那么2个节点部署的时候,如果2个节点进行心跳监控返回的状态不一致,那么应该听谁的?因此为了避免这种情况必须要有一个奇数的投票机制来决策,因此至少需要3个节点来进行管理节点的部署。
分布式任务调度
当构建一个分布式集群的时候,实际上又存在两种情况。
一种情况是本身集群节点被动等待信息分发,等待经过集群路由过来的访问请求;另外一种情况是集群节点主动去获取或抢占任务并进行处理。
如果是第二种情况则涉及到分布式任务调度。
分布式任务调度简单来说就是有多个任务处理节点也组成集群,但是这些节点主动去抢占和处理管理或调度阶段的任务列表信息,并进行加锁,如果处理失败或者处理节点宕机又能够快速的释放锁方便其它任务处理节点处理。
当然对于这种情况,你也可以采用Zookeeper具备的分布式锁功能来实现。但是对于分布式任务调度本身又是一个细分方向,有专门的分布式任务调度开源解决方案。
如开源的xxl-job分布式调度框架
从图上也可以看到分布式调度框架本身也具备节点注册管理,分布式锁,心跳检查等关键能力。因此如果是一个任务处理类分布式集群构建,那么采用开源的分布式调度框架进行扩展往往是一种更好的处理方案。
即在分布式任务调度框架中,我们将任务的产生和任务的处理两个事件解耦,一个进程独立运行产生待处理的任务,而另外进程运行则是通过并发和锁机制抢占和处理任务,如果处理任务过程中出现异常又能够自动释放任务。
相关推荐
- 阿里云国际站ECS:阿里云ECS如何提高网站的访问速度?
-
TG:@yunlaoda360引言:速度即体验,速度即业务在当今数字化的世界中,网站的访问速度已成为决定用户体验、用户留存乃至业务转化率的关键因素。页面加载每延迟一秒,都可能导致用户流失和收入损失。对...
- 高流量大并发Linux TCP性能调优_linux 高并发网络编程
-
其实主要是手里面的跑openvpn服务器。因为并没有明文禁p2p(哎……想想那么多流量好像不跑点p2p也跑不完),所以造成有的时候如果有比较多人跑BT的话,会造成VPN速度急剧下降。本文所面对的情况为...
- 性能测试100集(12)性能指标资源使用率
-
在性能测试中,资源使用率是评估系统硬件效率的关键指标,主要包括以下四类:#性能测试##性能压测策略##软件测试#1.CPU使用率定义:CPU处理任务的时间占比,计算公式为1-空闲时间/总...
- Linux 服务器常见的性能调优_linux高性能服务端编程
-
一、Linux服务器性能调优第一步——先搞懂“看什么”很多人刚接触Linux性能调优时,总想着直接改配置,其实第一步该是“看清楚问题”。就像医生看病要先听诊,调优前得先知道服务器“哪里...
- Nginx性能优化实战:手把手教你提升10倍性能!
-
关注△mikechen△,十余年BAT架构经验倾囊相授!Nginx是大型架构而核心,下面我重点详解Nginx性能@mikechen文章来源:mikechen.cc1.worker_processe...
- 高并发场景下,Spring Cloud Gateway如何抗住百万QPS?
-
关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen。高并发场景下网关作为流量的入口非常重要,下面我重点详解SpringCloudGateway如何抗住百万性能@m...
- Kubernetes 高并发处理实战(可落地案例 + 源码)
-
目标场景:对外提供HTTPAPI的微服务在短时间内收到大量请求(例如每秒数千至数万RPS),要求系统可弹性扩容、限流降级、缓存减压、稳定运行并能自动恢复。总体思路(多层防护):边缘层:云LB...
- 高并发场景下,Nginx如何扛住千万级请求?
-
Nginx是大型架构的必备中间件,下面我重点详解Nginx如何实现高并发@mikechen文章来源:mikechen.cc事件驱动模型Nginx采用事件驱动模型,这是Nginx高并发性能的基石。传统...
- Spring Boot+Vue全栈开发实战,中文版高清PDF资源
-
SpringBoot+Vue全栈开发实战,中文高清PDF资源,需要的可以私我:)SpringBoot致力于简化开发配置并为企业级开发提供一系列非业务性功能,而Vue则采用数据驱动视图的方式将程序...
- Docker-基础操作_docker基础实战教程二
-
一、镜像1、从仓库获取镜像搜索镜像:dockersearchimage_name搜索结果过滤:是否官方:dockersearch--filter="is-offical=true...
- 你有空吗?跟我一起搭个服务器好不好?
-
来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。昨天闲的没事的时候,随手翻了翻写过的文章,发现一个很严重的问题。就是大多数时间我都在滔滔不绝的讲理论,却很少有涉及动手...
- 部署你自己的 SaaS_saas如何部署
-
部署你自己的VPNOpenVPN——功能齐全的开源VPN解决方案。(DigitalOcean教程)dockovpn.io—无状态OpenVPNdockerized服务器,不需要持久存储。...
- Docker Compose_dockercompose安装
-
DockerCompose概述DockerCompose是一个用来定义和管理多容器应用的工具,通过一个docker-compose.yml文件,用YAML格式描述服务、网络、卷等内容,...
- 京东T7架构师推出的电子版SpringBoot,从构建小系统到架构大系统
-
前言:Java的各种开发框架发展了很多年,影响了一代又一代的程序员,现在无论是程序员,还是架构师,使用这些开发框架都面临着两方面的挑战。一方面是要快速开发出系统,这就要求使用的开发框架尽量简单,无论...
- Kubernetes (k8s) 入门学习指南_k8s kubeproxy
-
Kubernetes(k8s)入门学习指南一、什么是Kubernetes?为什么需要它?Kubernetes(k8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。它...
欢迎 你 发表评论:
- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
