百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

对高可用集群构建的思考

off999 2025-03-06 18:33 28 浏览 0 评论

今天谈下集群和高可用方面的内容。在前面我谈过IT基础架构的高可用性设计,其核心的一个特点就是在运行期间没有任何的单点故障。因此在基础部署架构设计的时候,往往就有两个思路,其一就是实现简单的HA高可用,一种就是实现集群,同时在集群基础上同时实现高可用。因此今天对这方面的内容做下简单整理。

HA高可用架构

HA高可用是最基础的一种高可用架构,一般应用在数据库,管理节点,负载均衡节点等。一主一备,只有一个节点提供能力,但是在主节点宕机后能够自动切换到备用节点。对于任何类型的中间件或应用服务器都可以搭建高可用架构,但是前提是共享存储,因为高可用架构只会做浮动IP切换,而不会去做底层数据的同步。

HA高可用架构搭建过程中,一般又存在手工切换和自动切换两种情况。

如果要做到自动切换,那么必须配合心跳检查,即通过脚本进行心跳检查,在心跳检查出现异常的时候进行IP地址的切换操作。

对于操作系统级别的HA高可用性软件当前大部分都属于商用和收费软件,包括类似红帽的RedHat Cluster Suite,虽然是可以免费下载安装,但是也需要购买相应的技术服务,否则后续无法得到相应的技术支持和版本升级服务等。

心跳检查

心跳检查HeartBeart在搭建高可用架构的时候经常会使用。核心目的就是发现节点故障或问题,同时进行自动切换操作。

比如可以通过HaProxy+KeepAlived来搭建一个高可用架构。在数据库中采用MySql Dual Master架构的时候,我们也会使用HaProxy+KeepAlived来搭建一个提供VIP的数据库高可用架构。

心跳检查一般包括了心跳监测部分和资源接管部分,心跳监测可以通过网络链路,发送ping或连接请求,如果失败或超时达到一个阈值,就认为对方失效,这时需启动资源接管模块来接管运 行在对方主机上的资源或者服务。

集群和负载均衡

如果当前有6个Tomcat应用服务器节点,我们统一接入到Ngnix或F5硬件负载均衡设备。那么6个节点是否就构成了一个完整的Tomcat集群?

上面这种情况实际只实现了负载均衡能力,而没有实现集群管理能力。

一个完整的集群必须具备集群管理能力,其核心包括了节点的心跳检查,配置文件信息的分发,高可用保障,请求负载均衡,统一的集群节点监控和管理等。

比如一个应用要部署,我们可以在管理节点进行统一处理,部署包会自动部署到所有集群节点,或者说我们可以在管理端对单个或整体集群节点进行重启等操作。

也就是说集群一般会存在管理节点,管理节点对集群提供上面说的管理能力。负载均衡能力你可以不用集群本身的负载均衡,比如请求分发和均衡仍然通过接入F5硬件设备完成等。

当前中间件或软件一般存在两种情况,一种就是自己实现Admin集群管理能力,一种是基于开源的Zookeeper或Etcd来实现集群管理能力。比如在dubbo中会采用Zookeeper来作为注册中心,kurbernetes中则采用Etcd进行集群管理。

在分布式任务协调场景下,两者实际提供能力基本一致,对比如下:

其中Zookeeper 使用 java 开发的,被 Apache 很多项目采用。而Etcd 使用 go 语言开发的,主要是被 Kubernetes 采用。Zookeeper 非常稳定,是一个著名的分布式协调系统,Etcd 是后起之秀,前景广阔。

基于Zookeeper或Etcd来实现集群管理节点

如果你自己实现一个集群,完全可以基于Zookeeper或Etcd来实现集群管理节点。在集群管理节点的管理中本身包括如下核心内容。

心跳检查:对于心跳检查如下异常的节点能够自动剔除或者触发该节点自动进行重启,重启后正常才能够重新加入集群。

部署或配置分发:具备进行统一部署或配置分发能力,只需要在管理节点更新部署或配置信息,该信息能够自动分发到所有的集群节点确保一致性。

软负载均衡:具备基本的路由分发和负载均衡能力。

分布式锁:当存在多节点同时触发抢占某一个任务的时候,具备分布式锁能力,确保该任务只能够被一个节点处理,如果该节点处理异常又能够快速释放锁。其它监听节点可以快速获取锁并进一步处理该任务。

集群和分布式

很多时候这两个概念是在混用,但是本身还是有一点区别。简单来说对于集群即所有的节点全部都是相同的,包括部署的内容,具备的能力,然后构成一个整体对外服务;但是对于分布式来说则可能各个节点本身具备分工,共同处理最终完成一个任务。

比如常见的负载均衡,多个节点本身完全相同,则是典型的集群架构;而对于一个大矩阵的计算,可能要分解为多个部分,拆分到不同的机器进行计算则类似于分布式架构。简单来说类似Master-Slave架构下,Master对任务进行分解到Slave进行计算,完成后再到Master进行汇总即可理解为典型的分布式架构。

集群节点假死问题

对于中间件集群,往往存在一种情况即节点处理任务的时候被Hang住或者叫假死。在这种情况下节点心跳检查正常,但是无法处理正常分发过来的请求,或者请求处理全部超时。

因此心跳检查还有一个重点就是需要去判断集群节点是否出现假死。

如果仅仅是类似tomcat应用服务器,你可以直接去curl http访问tomcat首页看是否正常返回。但是如果是判断应用功能是否正常,那么还涉及到数据库,在这种情况下一般需要单独写一个用于心跳检查的接口进行心跳检查,看这个接口在心跳检查过程中能否正常返回。

动态扩容或动态分区

简单来说即集群节点不论是新增加,还是因为故障异常等原因下线减少的时候,对于新的请求路由分发,或者新任务的获取都能够再次基于当前可用节点数进行重新分配。

集群能够动态扩容,但是当新增加节点的时候并不会对已经在集群其它节点运行的经常进行重新分配,而是仅仅对新增加的需求进行重新分配计算。在分布式数据库集群的实现中可以看到,这类集群涉及到底层持久化数据,因此当增加节点的时候往往涉及到数据本身的ReSharding重新计算,这个动作本身是相对复杂的,一般不建议自动处理。

集群管理节点至少3个节点以上奇数部署

在进行集群架构部署的时候,可以看到管理或Master节点一般都要求3个节点或以上的奇数个节点进行部署。在这里进行简单说明如下。

在前面已经谈到Master节点肯定不能单节点部署,否则就存在单点故障,那么我们容易想到就是2个节点冗余架构部署。

注意如果Admin或Master节点往往并不是简单的保证自己的高可用性,而且还需要承担对管理的Slave节点的管理和心跳监控职责。那么2个节点部署的时候,如果2个节点进行心跳监控返回的状态不一致,那么应该听谁的?因此为了避免这种情况必须要有一个奇数的投票机制来决策,因此至少需要3个节点来进行管理节点的部署。

分布式任务调度

当构建一个分布式集群的时候,实际上又存在两种情况。

一种情况是本身集群节点被动等待信息分发,等待经过集群路由过来的访问请求;另外一种情况是集群节点主动去获取或抢占任务并进行处理。

如果是第二种情况则涉及到分布式任务调度。

分布式任务调度简单来说就是有多个任务处理节点也组成集群,但是这些节点主动去抢占和处理管理或调度阶段的任务列表信息,并进行加锁,如果处理失败或者处理节点宕机又能够快速的释放锁方便其它任务处理节点处理。

当然对于这种情况,你也可以采用Zookeeper具备的分布式锁功能来实现。但是对于分布式任务调度本身又是一个细分方向,有专门的分布式任务调度开源解决方案。

如开源的xxl-job分布式调度框架

从图上也可以看到分布式调度框架本身也具备节点注册管理,分布式锁,心跳检查等关键能力。因此如果是一个任务处理类分布式集群构建,那么采用开源的分布式调度框架进行扩展往往是一种更好的处理方案。

即在分布式任务调度框架中,我们将任务的产生和任务的处理两个事件解耦,一个进程独立运行产生待处理的任务,而另外进程运行则是通过并发和锁机制抢占和处理任务,如果处理任务过程中出现异常又能够自动释放任务。

相关推荐

bios硬盘启动项是哪个(电脑bios硬盘启动)

1、开机按F2(具体按键看开机屏幕提示)进入BIOS系统,打开Boot选项卡;2、在Boot页面下找到IDE1,一般这个表示的就是电脑硬盘,按键盘上的F6将该启动项向上移至第一位,也就是将硬盘设为第一...

虚拟机ubuntu安装教程(ubuntu 虚拟机安装)

在虚拟机Ubuntu下安装MATLAB的步骤如下:1.下载MATLAB安装包:访问MATLAB官网,选择适合你的Ubuntu版本的MATLAB安装包,并下载到本地计算机。2.安装虚拟机软件:在Ub...

bootmgrismissing开机不了怎么办

你是不是没打全?大概意思就是启动的东西缺失!重装系统或者是补充装修复系统引导bootmgr丢失无法开机的解决方法:1、重新启动计算机,如果遇到“BOOTMGRismissing”错误,可以尝试的第...

手机上怎么改路由器密码(手机上怎么改路由器密码wifi密码)

输入地址打开手机浏览器后在地址栏输入路由器地址,打开路由器登录界面。2/4点击常用设置输入路由器管理员密码后进入路由器主界面,点击上方的常用设置。3/4找到密码在窗口中分别找到2.4G和5Gwifi...

windowsserver2016(windowsserver2016激活密钥)

WindowsServer2016代表着微软发布的一款服务器操作系统。它是2016年推出的,为企业提供了强大的功能和稳定性,支持大规模的数据中心和云计算环境。WindowsServer2016...

联想手机官网查询真伪入口(联想手机正品查询)

官方查询页面http://support1.lenovo.com.cn/lenovo/wsi/我认为联想本本一旦出厂就自然就可以查询号码了。因为我们单位订购的一批联想本本,直接从上海生产基地把本本...

中国电信官方测网速(网络测速 中国电信)

你好,你可以下载一个第三方软件进行测速,如果你手机自带测速软件直接可以测速的,也可以下载电信测速软件。1.进入中国电信官方测速网站。  说明:中国电信宽带测速是根据网络行业网速标准制定的专业测速工具,...

sony官网中国官方网站(索尼官方app下载安装)

网址是https://www.sony.com.cn/索尼的中文官网不仅可以有售后服务等信息,也会有新品发布消息。对于索尼的粉丝来说,官网是必不可少的。您可以按照以下步骤在索尼官网上查找产品的序列号:...

路由器登陆账号密码(路由器登陆账号密码忘了)

1、一般路由器的账号为admin,密码也是admin;还有路由器产品出厂时默认登录密码是guest,有点路由器产品的出厂时初始登录密码为【空】,也就是没有登录密码,直接就可以进入设置界面的;  2、您...

新风系统安装步骤(新风系统安装方案图)

1.设计与规划:在安装新风系统之前,首先需要进行设计和规划。根据建筑物的空间布局、通风需求、使用人数等因素,确定新风系统的类型(如全热交换新风系统、单向流新风系统等)和安装位置。2.现场勘查:在设...

系统win8下载(win8下载软件)

可以按照以下步骤在Win8上下载和安装Word:1.通过微软官网下载购买,或者通过MicrosoftStore应用商店进行购买和下载。2.下载完成后,打开文件夹,双击setup进行安装。3.安...

电脑的详细参数在哪里看(电脑详细参数怎么看)

要查看电脑参数,可以通过以下几种方式:1.使用操作系统提供的系统信息工具:大多数操作系统都会提供一个系统信息工具,可以显示电脑的基本参数。在Windows操作系统中,可以打开"控制面板...

windows无法连接打印机拒绝访问
  • windows无法连接打印机拒绝访问
  • windows无法连接打印机拒绝访问
  • windows无法连接打印机拒绝访问
  • windows无法连接打印机拒绝访问
oppo解除安全模式(oppp取消安全模式)

一般来说,关机重启手机即可退出安全模式。如果重启手机安全模式还没有解除的话,可以使用手机杀毒软件对手机进行全盘查杀,杀完毒再进行重启试试。如果还是不行的话,那就只能备份手机里的重要数据,刷机或者恢复出...

电脑更新后无法正常启动(电脑更新后无法正常使用)

电脑更新无法开机可能有多种原因。首先,可能是由于更新过程中出现了错误或中断,导致系统文件损坏或丢失,从而无法正常启动。其次,可能是更新过程中出现了兼容性问题,导致某些硬件或驱动程序无法与新的系统版本兼...

取消回复欢迎 发表评论: