百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

从Nginx迁移APISIX中的API网关TLS问题排查实录

off999 2025-03-01 15:06 10 浏览 0 评论

作者介绍

卞弘智,研发工程师,具有10多年SRE经验,工作经历涵盖DevOps、WAF和网关、监控和告警系统研发、日志处理系统等基础架构领域,致力于通过优秀的开源软件推动自动化和智能化基础架构平台的演进。


一、TLS问题背景


Nginx作为我们团队主要的反向代理工具,已经使用了十多年,可靠和高效的特性极大的减少了运维的工作量。但是,随着部署系统数量增加,以及分流、流控等场景的需求,nginx的配置越来越复杂,可读性越来越低。并且高可用、大流量意味着副本数成倍增加,nginx的配置变更工作量越来越大,人工操作的风险也越来越高。经过筛选,最终选定用apisix替换nginx。


APISIX是一款国产开源的顶级Apache网关项目,底层基于Nginx和Openresty,它兼具动态、实时、高性能等特点,提供了负载均衡、动态上游、灰度发布、服务熔断、身份认证、可观测性等丰富的流量管理功能。APISIX的上游、路由、插件全都是动态,修改也不用重启,而且APISIX插件也是热加载,可以随时插拔、修改。


我们从Nginx向Apisix的迁移过程中,主要遇到的问题都集中在SSL方面,以其中一个困扰我们最久的问题为例,记录一下问题的排查过程。该问题从现象来看,在我们迁移了测试环境的网关从Nginx到Apisix后,部分的内部和外部的用户向我们反馈java应用客户端在请求https链接的时候,出现握手失败,客户端的报错如下:


javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failure


该问题不太好排查,仅有部分应用存在这个问题,而且应用都部署在K8S中,不方便进行调试。简单的使用CURL进行调用没办法重现问题,找java后端的同事一起进行了联合调试,即使开启debug,也并没有发现任何有用的信息。


二、TLS基本概念


在更进一步深入排查这个问题之前,我们先去了解下TLS协议,首先它在协议栈中处于HTTP之下:



这次排查问题的重点在于TLS客户端和服务端的握手流程:



简单来说握手的过程就是client和server端互say hello,确定TLS版本,加密套件等信息后,然后交换证书,秘钥等信息,最后生成了后面应用层会使用到的秘钥。这个图实际上是一个最完整的握手流程,实际生产环境中比这个流程要简单的多,比如说大多数情况下,服务端并不会去验证客户端证书,有些java 客户端的默认配置甚至都不会去验证服务端的证书。下图将可选的步骤标记了*。



三、HTTPS的请求链路


进一步动手排查问题之前,我们还需要先梳理清楚这次出问题的Https的请求链路,请求从客户端经过网关再到服务端后台的过程, 可以看做2段链路, client -> apisix(nginx), apisix(nginx) -> upstream servers。



如上图所示,我们在之前使用Nginx的时候采用nginx做的SSL/TLS Offloading, 也就是说HTTPS请求到达了Nginx这里由Nginx完成TLS握手,加解密等相关操作,Nginx发送给后台服务器是解码后的http请求。在迁移到Apisix之后,为了避免影响到后台应用端,我们采用了同样的逻辑,在apisix这里做了tls offload。出问题就是这一段client -> apisix的请求,apisix网关和客户端的握手请求失败了,那么我们排查问题的重点就放在Apisix这里,包括后文提到的基于wireshark进行抓包,都是在Apisix网关这里进行的。


四、SNI 问题初步排查


经过初步排查,我们和开发的怀疑可能和这篇文章描述的问题相似:

https://blog.csdn.net/xiao__jia__jia/article/details/123752327


是因为在客户端没有传递SNI信息导致的,开发那边同事采用了强制关闭SNI的方式配合我们调试来模拟生产环境遇到的问题。


System.setProperty("jsse.enableSNIExtension", "false");


我们在Apisix服务端抓包来看看。



果然是在Client Hello的请求中没有SNI字段,在APISIX服务端直接返回了Fatal Internal error


五、SNI基础知识


SNI(Server Name Indication)是TLS协议的扩展,允许客户端在发起SSL握手请求时, 具体说来,是客户端发出SSL请求中的ClientHello阶段, 提交请求的Host信息,使得服务器能够切换到正确的域并返回相应的证书。这样网关服务器就可以在相同的IP地址和TCP端口号上支持不同的HTTPS域名和证书了。


SNI需要客户端和服务端都进行支持,在服务端我们可以很容易的基于Openresty指令进行确认:


[root@38163 ~]# /usr/bin/openresty -V|grep SNI
nginx version: openresty/1.21.4.1
built by gcc 9.3.1 20200408 (Red Hat 9.3.1-2) (GCC) 
built with OpenSSL 1.1.1s  1 Nov 2022
TLS SNI support enabled


这里还需要注意的是,有的同学问到我们在https 请求的URL中已经有了需要请求的服务器名在请求的Header中也有设置,为什么这里还需要设置, 这里需要理解2个点:


  • TLS协议是在HTTPS层下面的是没办法获取到https层面的相关信息的。
  • 我们看看client和server建立Https连接的过程: 先建立tcp连接 -->经过TLS握手-->实现https通信-->进而发送HTTP请求 , 从请求过程来看在TLS握手阶段, server端'也没有办法获取七层HTTP报文的信息。


六、Apisix SNI缺失的问题解决方案


针对SNI缺失的问题,最简单的解决方案就是修改客户端,升级JDK版本,httpclient的版本等,但我们希望是在网关层面解决这个问题,客户端不需要修改代码。我们找到了一篇雪球写的相关文章


https://blog.csdn.net/singgel/article/details/122701839


通过配置fallback_sni的域名,在客户端没有传递SNI的情况下使用这个作为默认SNI:


fallback_sni: "my.default.domain"      # If set this, when the client doesn't send SNI during handshake, the fallback SNI will be used instead


设置之后,经测试, 在TLS1.2的情况下,客户端不设置SNI也是可以完成握手的。


这里顺便研究一下,我们的Nginx之前并没有单独设置过fallback sni, 为什么没有问题呢?因为对于Nginx,如果客户端在ssl握手阶段未携带server_name Nginx就会去找默认server,然后使用默认server的ssl证书来响应, 因为我们使用的泛域名证书,默认server的ssl证书也是可以匹配上的。


七、SSLV2 未解决的问题


SNI的问题解决之后,我们仍有部分客户端调用有问题,通过抓包发现:


客户端在进行client hello握手的时候使用的是SSLV2,通过和开发同事一起调试发现代码中是这样设置的协议


 supportedProtocols = {"SSLv2Hello", "SSLv3", "TLSv1", "TLSv1.1", "TLSv1.2"};


SSLv2 hello仅仅是用来发送hello 信息的,也就是我们截图中的这个包,我们在Apisix中协议层面配置了相应的协议


ssl_protocols: SSLv2 SSLv3 TLSv1 TLSv1.1 TLSv1.2 TLSv1.3


测试以后,结果仍然一样。


这个问题暂时没有在Apisix端找到解决方案,和开发同学联调确定的解决方案是在代码中移除过于老的协议的支持,仅保留TLSv1.1, TLS v1.2。


supportedProtocols = {"TLSv1.1", "TLSv1.2"};


小结


网关作为我们整个系统的入口,承担着越来越多的作用,其主要目的还是将一些业务应用通用功能提取出来放在一起进行统一处理,比如TLS、跨域、限流、分流等,让后端专注于业务逻辑的处理。


网关的很多问题,既涉及前端又涉及到后端,这次TLS问题的就比较曲折,TLS问题本身涉及到安全、网络协议,在后端能够提供信息有限的情况下,还需要我们自己去抓包去定位问题。


更多干货内容及开源工具下载获取方式:添加群秘dbayuqing,备注开源工具

相关推荐

Python自动化脚本应用与示例(python自动化脚本教程)

Python是编写自动化脚本的绝佳选择,因其语法简洁、库丰富且跨平台兼容性强。以下是Python自动化脚本的常见应用场景及示例,帮助你快速上手:一、常见自动化场景文件与目录操作O批量重命名文件...

如何使用Python实现一个APP(如何用python做一个程序)

要使用Python实现一个APP,你可以选择使用一些流行的移动应用开发框架,如Kivy、PyQt或Tkinter。这里以Kivy为例,它是一个跨平台的Python框架,可以用于创建漂亮的图形用户界面(...

免费定时运行Python程序并存储输出文档的服务推荐

免费定时运行Python程序并存储输出文档的服务推荐以下是几种可以免费定时运行Python程序并存储输出结果的云服务方案:1.PythonAnywhere特点:提供免费的Python托管环境支持定时...

【Python程序开发系列】如何让python脚本一直在后台保持运行

这是我的第385篇原创文章。一、引言让Python脚本在后台持续运行,有几种常见的方式,具体方式可以根据你的系统环境和需求选择。二、Linux或macOS系统2.1使用nohup命令no...

运行和执行Python程序(运行python的程序)

一、Python是一种解释型的脚本编程语言,这样的编程语言一般支持两种代码运行方式:交互式编程在命令行窗口中直接输入代码,按下回车键就可以运行代码,并立即看到输出结果;执行完一行代码,你还可以继续...

Python 初学者指南:计算程序的运行时长

在编写Python程序时,了解程序的运行时长是一项很有用的技能。这不仅能帮助你评估代码的效率,还能在优化程序性能时提供关键的数据支持。对于初学者来说,计算程序运行时长其实并不复杂,接下来就让我们看...

pyest+appium实现APP自动化测试,思路全总结在这里

每天进步一点点,关注我们哦,每天分享测试技术文章本文章出自【码同学软件测试】码同学公众号:自动化软件测试码同学抖音号:小码哥聊软件测试01appium环境搭建安装nodejshttp://nodej...

血脉觉醒后,编程小白我是如何通过Deepseek和Trae轻松开发软件的

以下就是作为一个编程小白的我,是如何一步步开发软件的保姆级教程,请点赞收藏:第一步:打开#deepseek#(首先关闭深度思考和联网搜索)输入或复制你要让它做一个什么样软件的要求和提示词(你可以先用...

我用Deepseek+Trae写的python小软件,小白也能轻松用上模型啦!

利用AI大模型deepseek,搭配TraeCN,用半个小时做了一个本地Ollama安装部署和一键卸载的小工具,哈哈哈!感觉还不错#deepseek#一直想做一个本地Ollama安装部署和一键卸载...

在安卓设备上运行Python的方法(安卓能运行python吗)

技术背景在安卓设备上运行Python可以为开发者提供更多的开发选择和灵活性,能够利用Python丰富的库和简洁的语法来开发各种应用,如游戏、脚本工具等。然而,由于安卓系统原生不支持Python,需要借...

零基础小白,DeepSeek全自动编程,超详细提示词,一键生成软件!

我前面发表了文章,详细说了编程零基础小白,如何利用DeepSeek进行编程的全过程,感兴趣的可以去看看:DeepSeek全自动编程很多人不会写提示词,不知道怎么开始对话。话不多说,请先看下图中的对话,...

小白用DeepSeek+Python编写软件(用python制作软件)

周末无事,用DeepSeek生成全部代码,写了一个mp3音乐播放器,几分钟搞定,DeepSeek确实太强大了。我的提示语是这么写的:“请用Python语言写一个音乐播放器,支持常见音乐格式,我是Pyt...

零基础使用DeepSeek开发Windows应用程序,超简单超实用!

你敢相信,我居然用DeepSeek开发了一个能用的Windows软件!整个过程就像和学霸同桌组队做作业,我负责提需求,DeepSeek负责写代码改bug,全程碰到任何问题直接丢给DeepSeek即可。...

第二篇:如何安装Python并运行你的第一个程序

欢迎回到我的Python入门教程系列!在上一篇中,我们讨论了为什么Python是一门值得学习的编程语言。今天,我们将迈出第一步:安装Python并运行你的第一个程序。无论你是Windows、macOS...

Python 运行,带你找入口,快速读懂程序

有C或Java编程开发经验的软件开发者,初次接触python程序,当你想快速读懂python项目工程时,是否觉得python程序有些太过随意,让你看有些无所适从,进而有些茫然。这是...

取消回复欢迎 发表评论: