对高可用集群构建的思考
off999 2025-03-06 18:33 8 浏览 0 评论
今天谈下集群和高可用方面的内容。在前面我谈过IT基础架构的高可用性设计,其核心的一个特点就是在运行期间没有任何的单点故障。因此在基础部署架构设计的时候,往往就有两个思路,其一就是实现简单的HA高可用,一种就是实现集群,同时在集群基础上同时实现高可用。因此今天对这方面的内容做下简单整理。
HA高可用架构
HA高可用是最基础的一种高可用架构,一般应用在数据库,管理节点,负载均衡节点等。一主一备,只有一个节点提供能力,但是在主节点宕机后能够自动切换到备用节点。对于任何类型的中间件或应用服务器都可以搭建高可用架构,但是前提是共享存储,因为高可用架构只会做浮动IP切换,而不会去做底层数据的同步。
HA高可用架构搭建过程中,一般又存在手工切换和自动切换两种情况。
如果要做到自动切换,那么必须配合心跳检查,即通过脚本进行心跳检查,在心跳检查出现异常的时候进行IP地址的切换操作。
对于操作系统级别的HA高可用性软件当前大部分都属于商用和收费软件,包括类似红帽的RedHat Cluster Suite,虽然是可以免费下载安装,但是也需要购买相应的技术服务,否则后续无法得到相应的技术支持和版本升级服务等。
心跳检查
心跳检查HeartBeart在搭建高可用架构的时候经常会使用。核心目的就是发现节点故障或问题,同时进行自动切换操作。
比如可以通过HaProxy+KeepAlived来搭建一个高可用架构。在数据库中采用MySql Dual Master架构的时候,我们也会使用HaProxy+KeepAlived来搭建一个提供VIP的数据库高可用架构。
心跳检查一般包括了心跳监测部分和资源接管部分,心跳监测可以通过网络链路,发送ping或连接请求,如果失败或超时达到一个阈值,就认为对方失效,这时需启动资源接管模块来接管运 行在对方主机上的资源或者服务。
集群和负载均衡
如果当前有6个Tomcat应用服务器节点,我们统一接入到Ngnix或F5硬件负载均衡设备。那么6个节点是否就构成了一个完整的Tomcat集群?
上面这种情况实际只实现了负载均衡能力,而没有实现集群管理能力。
一个完整的集群必须具备集群管理能力,其核心包括了节点的心跳检查,配置文件信息的分发,高可用保障,请求负载均衡,统一的集群节点监控和管理等。
比如一个应用要部署,我们可以在管理节点进行统一处理,部署包会自动部署到所有集群节点,或者说我们可以在管理端对单个或整体集群节点进行重启等操作。
也就是说集群一般会存在管理节点,管理节点对集群提供上面说的管理能力。负载均衡能力你可以不用集群本身的负载均衡,比如请求分发和均衡仍然通过接入F5硬件设备完成等。
当前中间件或软件一般存在两种情况,一种就是自己实现Admin集群管理能力,一种是基于开源的Zookeeper或Etcd来实现集群管理能力。比如在dubbo中会采用Zookeeper来作为注册中心,kurbernetes中则采用Etcd进行集群管理。
在分布式任务协调场景下,两者实际提供能力基本一致,对比如下:
其中Zookeeper 使用 java 开发的,被 Apache 很多项目采用。而Etcd 使用 go 语言开发的,主要是被 Kubernetes 采用。Zookeeper 非常稳定,是一个著名的分布式协调系统,Etcd 是后起之秀,前景广阔。
基于Zookeeper或Etcd来实现集群管理节点
如果你自己实现一个集群,完全可以基于Zookeeper或Etcd来实现集群管理节点。在集群管理节点的管理中本身包括如下核心内容。
心跳检查:对于心跳检查如下异常的节点能够自动剔除或者触发该节点自动进行重启,重启后正常才能够重新加入集群。
部署或配置分发:具备进行统一部署或配置分发能力,只需要在管理节点更新部署或配置信息,该信息能够自动分发到所有的集群节点确保一致性。
软负载均衡:具备基本的路由分发和负载均衡能力。
分布式锁:当存在多节点同时触发抢占某一个任务的时候,具备分布式锁能力,确保该任务只能够被一个节点处理,如果该节点处理异常又能够快速释放锁。其它监听节点可以快速获取锁并进一步处理该任务。
集群和分布式
很多时候这两个概念是在混用,但是本身还是有一点区别。简单来说对于集群即所有的节点全部都是相同的,包括部署的内容,具备的能力,然后构成一个整体对外服务;但是对于分布式来说则可能各个节点本身具备分工,共同处理最终完成一个任务。
比如常见的负载均衡,多个节点本身完全相同,则是典型的集群架构;而对于一个大矩阵的计算,可能要分解为多个部分,拆分到不同的机器进行计算则类似于分布式架构。简单来说类似Master-Slave架构下,Master对任务进行分解到Slave进行计算,完成后再到Master进行汇总即可理解为典型的分布式架构。
集群节点假死问题
对于中间件集群,往往存在一种情况即节点处理任务的时候被Hang住或者叫假死。在这种情况下节点心跳检查正常,但是无法处理正常分发过来的请求,或者请求处理全部超时。
因此心跳检查还有一个重点就是需要去判断集群节点是否出现假死。
如果仅仅是类似tomcat应用服务器,你可以直接去curl http访问tomcat首页看是否正常返回。但是如果是判断应用功能是否正常,那么还涉及到数据库,在这种情况下一般需要单独写一个用于心跳检查的接口进行心跳检查,看这个接口在心跳检查过程中能否正常返回。
动态扩容或动态分区
简单来说即集群节点不论是新增加,还是因为故障异常等原因下线减少的时候,对于新的请求路由分发,或者新任务的获取都能够再次基于当前可用节点数进行重新分配。
集群能够动态扩容,但是当新增加节点的时候并不会对已经在集群其它节点运行的经常进行重新分配,而是仅仅对新增加的需求进行重新分配计算。在分布式数据库集群的实现中可以看到,这类集群涉及到底层持久化数据,因此当增加节点的时候往往涉及到数据本身的ReSharding重新计算,这个动作本身是相对复杂的,一般不建议自动处理。
集群管理节点至少3个节点以上奇数部署
在进行集群架构部署的时候,可以看到管理或Master节点一般都要求3个节点或以上的奇数个节点进行部署。在这里进行简单说明如下。
在前面已经谈到Master节点肯定不能单节点部署,否则就存在单点故障,那么我们容易想到就是2个节点冗余架构部署。
注意如果Admin或Master节点往往并不是简单的保证自己的高可用性,而且还需要承担对管理的Slave节点的管理和心跳监控职责。那么2个节点部署的时候,如果2个节点进行心跳监控返回的状态不一致,那么应该听谁的?因此为了避免这种情况必须要有一个奇数的投票机制来决策,因此至少需要3个节点来进行管理节点的部署。
分布式任务调度
当构建一个分布式集群的时候,实际上又存在两种情况。
一种情况是本身集群节点被动等待信息分发,等待经过集群路由过来的访问请求;另外一种情况是集群节点主动去获取或抢占任务并进行处理。
如果是第二种情况则涉及到分布式任务调度。
分布式任务调度简单来说就是有多个任务处理节点也组成集群,但是这些节点主动去抢占和处理管理或调度阶段的任务列表信息,并进行加锁,如果处理失败或者处理节点宕机又能够快速的释放锁方便其它任务处理节点处理。
当然对于这种情况,你也可以采用Zookeeper具备的分布式锁功能来实现。但是对于分布式任务调度本身又是一个细分方向,有专门的分布式任务调度开源解决方案。
如开源的xxl-job分布式调度框架
从图上也可以看到分布式调度框架本身也具备节点注册管理,分布式锁,心跳检查等关键能力。因此如果是一个任务处理类分布式集群构建,那么采用开源的分布式调度框架进行扩展往往是一种更好的处理方案。
即在分布式任务调度框架中,我们将任务的产生和任务的处理两个事件解耦,一个进程独立运行产生待处理的任务,而另外进程运行则是通过并发和锁机制抢占和处理任务,如果处理任务过程中出现异常又能够自动释放任务。
相关推荐
- Python自动化脚本应用与示例(python自动化脚本教程)
-
Python是编写自动化脚本的绝佳选择,因其语法简洁、库丰富且跨平台兼容性强。以下是Python自动化脚本的常见应用场景及示例,帮助你快速上手:一、常见自动化场景文件与目录操作O批量重命名文件...
- 如何使用Python实现一个APP(如何用python做一个程序)
-
要使用Python实现一个APP,你可以选择使用一些流行的移动应用开发框架,如Kivy、PyQt或Tkinter。这里以Kivy为例,它是一个跨平台的Python框架,可以用于创建漂亮的图形用户界面(...
- 免费定时运行Python程序并存储输出文档的服务推荐
-
免费定时运行Python程序并存储输出文档的服务推荐以下是几种可以免费定时运行Python程序并存储输出结果的云服务方案:1.PythonAnywhere特点:提供免费的Python托管环境支持定时...
- 【Python程序开发系列】如何让python脚本一直在后台保持运行
-
这是我的第385篇原创文章。一、引言让Python脚本在后台持续运行,有几种常见的方式,具体方式可以根据你的系统环境和需求选择。二、Linux或macOS系统2.1使用nohup命令no...
- 运行和执行Python程序(运行python的程序)
-
一、Python是一种解释型的脚本编程语言,这样的编程语言一般支持两种代码运行方式:交互式编程在命令行窗口中直接输入代码,按下回车键就可以运行代码,并立即看到输出结果;执行完一行代码,你还可以继续...
- Python 初学者指南:计算程序的运行时长
-
在编写Python程序时,了解程序的运行时长是一项很有用的技能。这不仅能帮助你评估代码的效率,还能在优化程序性能时提供关键的数据支持。对于初学者来说,计算程序运行时长其实并不复杂,接下来就让我们看...
- pyest+appium实现APP自动化测试,思路全总结在这里
-
每天进步一点点,关注我们哦,每天分享测试技术文章本文章出自【码同学软件测试】码同学公众号:自动化软件测试码同学抖音号:小码哥聊软件测试01appium环境搭建安装nodejshttp://nodej...
- 血脉觉醒后,编程小白我是如何通过Deepseek和Trae轻松开发软件的
-
以下就是作为一个编程小白的我,是如何一步步开发软件的保姆级教程,请点赞收藏:第一步:打开#deepseek#(首先关闭深度思考和联网搜索)输入或复制你要让它做一个什么样软件的要求和提示词(你可以先用...
- 我用Deepseek+Trae写的python小软件,小白也能轻松用上模型啦!
-
利用AI大模型deepseek,搭配TraeCN,用半个小时做了一个本地Ollama安装部署和一键卸载的小工具,哈哈哈!感觉还不错#deepseek#一直想做一个本地Ollama安装部署和一键卸载...
- 在安卓设备上运行Python的方法(安卓能运行python吗)
-
技术背景在安卓设备上运行Python可以为开发者提供更多的开发选择和灵活性,能够利用Python丰富的库和简洁的语法来开发各种应用,如游戏、脚本工具等。然而,由于安卓系统原生不支持Python,需要借...
- 零基础小白,DeepSeek全自动编程,超详细提示词,一键生成软件!
-
我前面发表了文章,详细说了编程零基础小白,如何利用DeepSeek进行编程的全过程,感兴趣的可以去看看:DeepSeek全自动编程很多人不会写提示词,不知道怎么开始对话。话不多说,请先看下图中的对话,...
- 小白用DeepSeek+Python编写软件(用python制作软件)
-
周末无事,用DeepSeek生成全部代码,写了一个mp3音乐播放器,几分钟搞定,DeepSeek确实太强大了。我的提示语是这么写的:“请用Python语言写一个音乐播放器,支持常见音乐格式,我是Pyt...
- 零基础使用DeepSeek开发Windows应用程序,超简单超实用!
-
你敢相信,我居然用DeepSeek开发了一个能用的Windows软件!整个过程就像和学霸同桌组队做作业,我负责提需求,DeepSeek负责写代码改bug,全程碰到任何问题直接丢给DeepSeek即可。...
- 第二篇:如何安装Python并运行你的第一个程序
-
欢迎回到我的Python入门教程系列!在上一篇中,我们讨论了为什么Python是一门值得学习的编程语言。今天,我们将迈出第一步:安装Python并运行你的第一个程序。无论你是Windows、macOS...
- Python 运行,带你找入口,快速读懂程序
-
有C或Java编程开发经验的软件开发者,初次接触python程序,当你想快速读懂python项目工程时,是否觉得python程序有些太过随意,让你看有些无所适从,进而有些茫然。这是...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- Python自动化脚本应用与示例(python自动化脚本教程)
- 如何使用Python实现一个APP(如何用python做一个程序)
- 免费定时运行Python程序并存储输出文档的服务推荐
- 【Python程序开发系列】如何让python脚本一直在后台保持运行
- 运行和执行Python程序(运行python的程序)
- Python 初学者指南:计算程序的运行时长
- pyest+appium实现APP自动化测试,思路全总结在这里
- 血脉觉醒后,编程小白我是如何通过Deepseek和Trae轻松开发软件的
- 我用Deepseek+Trae写的python小软件,小白也能轻松用上模型啦!
- 在安卓设备上运行Python的方法(安卓能运行python吗)
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)