百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

从Nginx迁移APISIX中的API网关TLS问题排查实录

off999 2025-03-01 15:06 14 浏览 0 评论

作者介绍

卞弘智,研发工程师,具有10多年SRE经验,工作经历涵盖DevOps、WAF和网关、监控和告警系统研发、日志处理系统等基础架构领域,致力于通过优秀的开源软件推动自动化和智能化基础架构平台的演进。


一、TLS问题背景


Nginx作为我们团队主要的反向代理工具,已经使用了十多年,可靠和高效的特性极大的减少了运维的工作量。但是,随着部署系统数量增加,以及分流、流控等场景的需求,nginx的配置越来越复杂,可读性越来越低。并且高可用、大流量意味着副本数成倍增加,nginx的配置变更工作量越来越大,人工操作的风险也越来越高。经过筛选,最终选定用apisix替换nginx。


APISIX是一款国产开源的顶级Apache网关项目,底层基于Nginx和Openresty,它兼具动态、实时、高性能等特点,提供了负载均衡、动态上游、灰度发布、服务熔断、身份认证、可观测性等丰富的流量管理功能。APISIX的上游、路由、插件全都是动态,修改也不用重启,而且APISIX插件也是热加载,可以随时插拔、修改。


我们从Nginx向Apisix的迁移过程中,主要遇到的问题都集中在SSL方面,以其中一个困扰我们最久的问题为例,记录一下问题的排查过程。该问题从现象来看,在我们迁移了测试环境的网关从Nginx到Apisix后,部分的内部和外部的用户向我们反馈java应用客户端在请求https链接的时候,出现握手失败,客户端的报错如下:


javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failure


该问题不太好排查,仅有部分应用存在这个问题,而且应用都部署在K8S中,不方便进行调试。简单的使用CURL进行调用没办法重现问题,找java后端的同事一起进行了联合调试,即使开启debug,也并没有发现任何有用的信息。


二、TLS基本概念


在更进一步深入排查这个问题之前,我们先去了解下TLS协议,首先它在协议栈中处于HTTP之下:



这次排查问题的重点在于TLS客户端和服务端的握手流程:



简单来说握手的过程就是client和server端互say hello,确定TLS版本,加密套件等信息后,然后交换证书,秘钥等信息,最后生成了后面应用层会使用到的秘钥。这个图实际上是一个最完整的握手流程,实际生产环境中比这个流程要简单的多,比如说大多数情况下,服务端并不会去验证客户端证书,有些java 客户端的默认配置甚至都不会去验证服务端的证书。下图将可选的步骤标记了*。



三、HTTPS的请求链路


进一步动手排查问题之前,我们还需要先梳理清楚这次出问题的Https的请求链路,请求从客户端经过网关再到服务端后台的过程, 可以看做2段链路, client -> apisix(nginx), apisix(nginx) -> upstream servers。



如上图所示,我们在之前使用Nginx的时候采用nginx做的SSL/TLS Offloading, 也就是说HTTPS请求到达了Nginx这里由Nginx完成TLS握手,加解密等相关操作,Nginx发送给后台服务器是解码后的http请求。在迁移到Apisix之后,为了避免影响到后台应用端,我们采用了同样的逻辑,在apisix这里做了tls offload。出问题就是这一段client -> apisix的请求,apisix网关和客户端的握手请求失败了,那么我们排查问题的重点就放在Apisix这里,包括后文提到的基于wireshark进行抓包,都是在Apisix网关这里进行的。


四、SNI 问题初步排查


经过初步排查,我们和开发的怀疑可能和这篇文章描述的问题相似:

https://blog.csdn.net/xiao__jia__jia/article/details/123752327


是因为在客户端没有传递SNI信息导致的,开发那边同事采用了强制关闭SNI的方式配合我们调试来模拟生产环境遇到的问题。


System.setProperty("jsse.enableSNIExtension", "false");


我们在Apisix服务端抓包来看看。



果然是在Client Hello的请求中没有SNI字段,在APISIX服务端直接返回了Fatal Internal error


五、SNI基础知识


SNI(Server Name Indication)是TLS协议的扩展,允许客户端在发起SSL握手请求时, 具体说来,是客户端发出SSL请求中的ClientHello阶段, 提交请求的Host信息,使得服务器能够切换到正确的域并返回相应的证书。这样网关服务器就可以在相同的IP地址和TCP端口号上支持不同的HTTPS域名和证书了。


SNI需要客户端和服务端都进行支持,在服务端我们可以很容易的基于Openresty指令进行确认:


[root@38163 ~]# /usr/bin/openresty -V|grep SNI
nginx version: openresty/1.21.4.1
built by gcc 9.3.1 20200408 (Red Hat 9.3.1-2) (GCC) 
built with OpenSSL 1.1.1s  1 Nov 2022
TLS SNI support enabled


这里还需要注意的是,有的同学问到我们在https 请求的URL中已经有了需要请求的服务器名在请求的Header中也有设置,为什么这里还需要设置, 这里需要理解2个点:


  • TLS协议是在HTTPS层下面的是没办法获取到https层面的相关信息的。
  • 我们看看client和server建立Https连接的过程: 先建立tcp连接 -->经过TLS握手-->实现https通信-->进而发送HTTP请求 , 从请求过程来看在TLS握手阶段, server端'也没有办法获取七层HTTP报文的信息。


六、Apisix SNI缺失的问题解决方案


针对SNI缺失的问题,最简单的解决方案就是修改客户端,升级JDK版本,httpclient的版本等,但我们希望是在网关层面解决这个问题,客户端不需要修改代码。我们找到了一篇雪球写的相关文章


https://blog.csdn.net/singgel/article/details/122701839


通过配置fallback_sni的域名,在客户端没有传递SNI的情况下使用这个作为默认SNI:


fallback_sni: "my.default.domain"      # If set this, when the client doesn't send SNI during handshake, the fallback SNI will be used instead


设置之后,经测试, 在TLS1.2的情况下,客户端不设置SNI也是可以完成握手的。


这里顺便研究一下,我们的Nginx之前并没有单独设置过fallback sni, 为什么没有问题呢?因为对于Nginx,如果客户端在ssl握手阶段未携带server_name Nginx就会去找默认server,然后使用默认server的ssl证书来响应, 因为我们使用的泛域名证书,默认server的ssl证书也是可以匹配上的。


七、SSLV2 未解决的问题


SNI的问题解决之后,我们仍有部分客户端调用有问题,通过抓包发现:


客户端在进行client hello握手的时候使用的是SSLV2,通过和开发同事一起调试发现代码中是这样设置的协议


 supportedProtocols = {"SSLv2Hello", "SSLv3", "TLSv1", "TLSv1.1", "TLSv1.2"};


SSLv2 hello仅仅是用来发送hello 信息的,也就是我们截图中的这个包,我们在Apisix中协议层面配置了相应的协议


ssl_protocols: SSLv2 SSLv3 TLSv1 TLSv1.1 TLSv1.2 TLSv1.3


测试以后,结果仍然一样。


这个问题暂时没有在Apisix端找到解决方案,和开发同学联调确定的解决方案是在代码中移除过于老的协议的支持,仅保留TLSv1.1, TLS v1.2。


supportedProtocols = {"TLSv1.1", "TLSv1.2"};


小结


网关作为我们整个系统的入口,承担着越来越多的作用,其主要目的还是将一些业务应用通用功能提取出来放在一起进行统一处理,比如TLS、跨域、限流、分流等,让后端专注于业务逻辑的处理。


网关的很多问题,既涉及前端又涉及到后端,这次TLS问题的就比较曲折,TLS问题本身涉及到安全、网络协议,在后端能够提供信息有限的情况下,还需要我们自己去抓包去定位问题。


更多干货内容及开源工具下载获取方式:添加群秘dbayuqing,备注开源工具

相关推荐

Python钩子函数实现事件驱动系统(created钩子函数)

钩子函数(HookFunction)是现代软件开发中一个重要的设计模式,它允许开发者在特定事件发生时自动执行预定义的代码。在Python生态系统中,钩子函数广泛应用于框架开发、插件系统、事件处理和中...

Python函数(python函数题库及答案)

定义和基本内容def函数名(传入参数):函数体return返回值注意:参数、返回值如果不需要,可以省略。函数必须先定义后使用。参数之间使用逗号进行分割,传入的时候,按照顺序传入...

Python技能:Pathlib面向对象操作路径,比os.path更现代!

在Python编程中,文件和目录的操作是日常中不可或缺的一部分。虽然,这么久以来,钢铁老豆也还是习惯性地使用os、shutil模块的函数式API,这两个模块虽然功能强大,但在某些情况下还是显得笨重,不...

使用Python实现智能物流系统优化与路径规划

阅读文章前辛苦您点下“关注”,方便讨论和分享,为了回馈您的支持,我将每日更新优质内容。在现代物流系统中,优化运输路径和提高配送效率是至关重要的。本文将介绍如何使用Python实现智能物流系统的优化与路...

Python if 语句的系统化学习路径(python里的if语句案例)

以下是针对Pythonif语句的系统化学习路径,从零基础到灵活应用分为4个阶段,包含具体练习项目和避坑指南:一、基础认知阶段(1-2天)目标:理解条件判断的逻辑本质核心语法结构if条件:...

[Python] FastAPI基础:Path路径参数用法解析与实例

查询query参数(上一篇)路径path参数(本篇)请求体body参数(下一篇)请求头header参数本篇项目目录结构:1.路径参数路径参数是URL地址的一部分,是必填的。路径参...

Python小案例55- os模块执行文件路径

在Python中,我们可以使用os模块来执行文件路径操作。os模块提供了许多函数,用于处理文件和目录路径。获取当前工作目录(CurrentWorkingDirectory,CWD):使用os....

python:os.path - 常用路径操作模块

应该是所有程序都需要用到的路径操作,不废话,直接开始以下是常用总结,当你想做路径相关时,首先应该想到的是这个模块,并知道这个模块有哪些主要功能,获取、分割、拼接、判断、获取文件属性。1、路径获取2、路...

原来如此:Python居然有6种模块路径搜索方式

点赞、收藏、加关注,下次找我不迷路当我们使用import语句导入模块时,Python是怎么找到这些模块的呢?今天我就带大家深入了解Python的6种模块路径搜索方式。一、Python模块...

每天10分钟,python进阶(25)(python进阶视频)

首先明确学习目标,今天的目标是继续python中实例开发项目--飞机大战今天任务进行面向对象版的飞机大战开发--游戏代码整编目标:完善整串代码,提供完整游戏代码历时25天,首先要看成品,坚持才有收获i...

python 打地鼠小游戏(打地鼠python程序设计说明)

给大家分享一段AI自动生成的代码(在这个游戏中,玩家需要在有限时间内打中尽可能多的出现在地图上的地鼠),由于我现在用的这个电脑没有安装sublime或pycharm等工具,所以还没有测试,有兴趣的朋友...

python线程之十:线程 threading 最终总结

小伙伴们,到今天threading模块彻底讲完。现在全面总结threading模块1、threading模块有自己的方法详细点击【threading模块的方法】threading模块:较低级...

Python信号处理实战:使用signal模块响应系统事件

信号是操作系统用来通知进程发生了某个事件的一种异步通信方式。在Python中,标准库的signal模块提供了处理这些系统信号的机制。信号通常由外部事件触发,例如用户按下Ctrl+C、子进程终止或系统资...

Python多线程:让程序 “多线作战” 的秘密武器

一、什么是多线程?在日常生活中,我们可以一边听音乐一边浏览新闻,这就是“多任务处理”。在Python编程里,多线程同样允许程序同时执行多个任务,从而提升程序的执行效率和响应速度。不过,Python...

用python写游戏之200行代码写个数字华容道

今天来分析一个益智游戏,数字华容道。当初对这个游戏颇有印象还是在最强大脑节目上面,何猷君以几十秒就完成了这个游戏。前几天写2048的时候,又想起了这个游戏,想着来研究一下。游戏玩法用尽量少的步数,尽量...

取消回复欢迎 发表评论: