亚马逊AWS服务遭遇重大中断!云服务巨头故障频出,原因竟在DNS?

2025-10-21

继2025年6月6日,中国最大云厂商阿里云因域名被“关停”而引发全球业务中断之后,10月20日,全球最大云厂商亚马逊AWS又因域名解析故障造成长达十几个小时的全球业务中断。


北京时间10月20日下午15点,AWS发出通告:判断由于DNS解析问题导致美国东部1区(us-east-1)内重要应用系统DynamoDB、EC2、Lambda等核心服务严重受阻,超过上百家全球性企业的核心应用无法正常提供服务;即使在一个半小时内恢复了DNS,但截至北京时间10月21日凌晨3点,事件发生12个小时后仍有绝大部分业务处于中断状态(107 services停止异常,26 services恢复)。


微信图片_2025-10-22_181013_172.png

24小时内关于AWS云服务中断的用户报告

图源“华尔街见闻”


事件回顾:从DNS开始的服务雪崩



美东时间10月20日凌晨2:01,AWS首次确认DynamoDB API端点DNS解析异常。


随后的一个半小时内,故障开始蔓延——EC2实例无法启动、CloudTrail日志积压、Lambda函数执行失败,甚至IAM权限管理也受到影响。


凌晨3:35,AWS宣布DNS问题基本缓解,但是大部分核心服务仍在持续受到影响。


微信图片_2025-10-22_181118_988.png


故障探因:DNS架构的“阿喀琉斯之踵”


如果把 AWS 想象成一个超大的“数据园区”,里面有各种服务(比如存数据的 DynamoDB、跑程序的 EC2)。而 DNS 就像园区里的导航系统,帮你的请求找到对应的服务地址。


这次故障的核心,不是外层的 “公共导航牌”(由公共DNS 提供,负责全球 AWS 服务的基础定位)坏了,而是美国东部 1 区里专门给AWS核心服务指路的 “内部导航”(AWS 自建的智能 DNS 集群)出了问题。


1.为什么不是外层公共DNS引起的问题?

查询us-east-1.amazonaws.com的NS记录可知,该域解析由公共DNS服务商承载(与亚太孟买地区的域名NS相同)。如果这一层出现问题,受影响的将是所有AWS服务,而不仅仅是美东1区。


微信图片_2025-10-22_181156_338.png


2.异常DNS集群具体定位

AWS美国东部1区的DNS架构采用了分层设计:公共DNS层和内部智能DNS层。结合AWS故障公告初步判断为是这第二层内部DNS集群的异常,触发了此次服务中断。


微信图片_2025-10-22_181216_635.png


us-east-1.amazonaws.com. 区域的DNS服务品牌为公共DNS服务商(Neustar UltraDNS),如下图所示:


微信图片_2025-10-22_181238_334.png


3.故障点定位

当解析深入到特定服务(如dynamodb.us-east-1.amazonaws.com)时,请求会被引导至AWS自建的智能DNS集群。这些集群负责将用户请求导向最优的数据中心。如下图所示:


微信图片_2025-10-22_181258_158.png


云+自建DNS是目前行业中使用较多的一种架构,一般自建DNS会使用智能DNS来搭建,利用数据中心智能DNS实现更为灵活的流量调度。


AWS将其几乎所有服务组件都进行了深度域名化,但域名系统架构设计韧性能力考虑不足:AWS虽设计了业务系统域名化后的域名体系分层、域名系统隔离等方面。但从故障表现来看,仍存在某些重点业务在域名系统设计层面不具备冗余、应急逃生能力等问题。


微信图片_2025-10-22_181317_798.png


启示:构建体系化的韧性DNS系统


从今年6月阿里云的核心域名被境外域名注册管理机构“停服”,核心服务受到波及,大量企业级应用异常;再到今年8月国内公共DNS出现大规模的解析结果异常,及至本次AWS发生的大规模核心服务异常。全球性DNS安全事件频发,以其影响范围之广、破坏力之强,为各行业拉响警报。全球性DNS事件,已超越传统的DDoS攻击或技术漏洞范畴,演变成为系统性、架构级风险。


域名管理涵盖了从注册商、公共DNS服务商到自建DNS集群的完整链条,任一环节的疏忽都可能导致全线瘫痪。从域名注册到域名解析,互联网域名系统国家工程研究中心(ZDNS)CEO邢志杰提出,全面构建体系化的韧性DNS系统,是把控潜在风险、支撑业务发展的重要保障。


第一,掌握基础资源,实现域名注册管理自主可控。关键核心业务需要减少对国外管辖的域名资源依赖,应优先注册和使用由国家主导管理的顶级域名(如.CN)下的二级域名,能从根本上降低因国际司法管辖冲突而被境外注册局单方面“停服”的风险。同时,建议有条件的机构可以关注2026年4月开放的新通用顶级域名申请,基于自有顶级域名资源建立完全可控的韧性域名注册管理能力。


第二,升级技术架构,打造高可用、抗打击的解析体系,提升服务连续性和风险控制能力。ZDNS互联网基础资源服务专家提出,在互联网侧,不仅要构建高可靠、自主可控的解析系统,更要前瞻性地应对域名篡改、劫持等外部安全风险,确保即使遭遇攻击也能快速恢复,保障在线业务的绝对连续;在内网侧,持续优化DNS运行体系与韧性DNS管理体系。包括DNS整体架构规划、服务连续性的设计、流量调度的设计、安全防护的设计,以及完善满足业务需求的域名规范制度、提升面向业务的运维能力、健全完善的DNS应急方案、确保审计合规等。


第三,体系化构建域名系统的可观测能力。企业需要能够快速识别DNS解析异常,并将其与一般的网络问题区分开来,从而缩短故障定位时间。


经过十余年的实践应用,ZDNS从网络空间、基础资源以及技术系统三个层面、注册和解析两个环节,帮助用户构建起了多层次、纵深化的防护体系。ZDNS提出,在日益复杂严峻的网络空间中,用户构建韧性DNS,要从资源、技术、管理三个维度协同发力,将自主可控的基础资源、分布式高可用的技术架构、以及体系化的观测能力融为一体,助力用户真正赢得面向未来的数字韧性。



阅读65
分享