AWS到底是怎么搞砸的，以至于整个美东1区都瘫痪了，6个可用区全完蛋了。

在10月20日，AWS美东云上发生了重大事件故障，导致大量客户服务收到波及，造成数亿美刀的顺势。为什么云服务应该是承诺了高可用，为什么还会造成如此大范围的故障呢？
DynamoDB无法解析 dynamodb.us-east-1.amazonaws.com。时间：2025 年 10 月 20 日凌晨，美国东部时间还未破晓，AWS 的 US-EAST-1（北弗吉尼亚）区域出现大面积故障。
影响：DynamoDB 打喷嚏，EC2 感冒，整个 AWS 都开始发烧。
原文：Service health - Oct 23, 2025 | AWS Health Dashboard | Global^[1]

AWS 自身的内部控制平面构建在 DynamoDB 之上。这是一个隐藏的依赖项。当 AWS 的内部服务无法找到 DynamoDB 的 IP 时，整个管理层就崩溃了。

阶段1：DNS故障。dynamodb.us-east-1.amazonaws.com的内部DNS服务器停止工作。

第二阶段：控制平面故障。依赖DynamoDB的AWS自身服务立即中断。这包括：

1. IAM（用于身份验证和会话状态）
2. EC2实例启动子系统（其使用DynamoDB存储元数据）
3. 网络负载均衡器（NLB）健康检查（事实证明，它们会将自身的健康状态写入DynamoDB表）

第三阶段：循环依赖。这是最棘手的部分。当网络负载均衡器（NLB）的健康检查失败时（因为它们无法写入DynamoDB），这引发了更多的网络连接问题，进而影响到（本就运行困难的）DynamoDB服务本身。这形成了一个恶性循环。
数百万请求不断冲击DNS服务器和缓存，即便在初步修复完成后，也阻碍了它们的恢复。

US-EAST-1是 AWS 最早投入运营、资源最多、客户最多的区域之一。许多企业将其作为主区域或关键区域。

将单一节点作为核心节点，并作为基础设施提供给更上层的应用使用，就像是建在沙滩上的房子，海浪轻轻冲击，大厦就顷刻间倒塌。
记住：永远不要相信单一节点、单一可用区、单一云服务

云计算在带来便利的同时，创造了前所未有的系统性隐藏风险，对客户而言多可用区和多云厂商是必要的。多数据和应用程序建立多可用区，并且在多云厂商里部署服务。这是一项成本和风险的综合考虑。
对任何依赖云上资源的用户而言：

1. 永远不要放心单一云厂商的承诺，永远不要把服务和数据部署在单一可用区；
2. 世界是巨大的草台班子，即使是在云厂商内部，组织架构和技术架构也不能100%保障高可用；
3. 多云混合部署，第一优先级是保障数据安全，第二优先级才是综合成本的考虑；

引用链接

[1] Service health - Oct 23, 2025 | AWS Health Dashboard | Global: https://health.aws.amazon.com/health/status?eventID=arn:aws:health:us-east-1::event/MULTIPLE_SERVICES/AWS_MULTIPLE_SERVICES_OPERATIONAL_ISSUE/AWS_MULTIPLE_SERVICES_OPERATIONAL_ISSUE_BA540_514A652BE1A

目录CONTENT

AWS到底是怎么搞砸的，以至于整个美东1区都瘫痪了，6个可用区全完蛋了。

AWS到底是怎么搞砸的，以至于整个美东1区都瘫痪了，6个可用区全完蛋了。

引用链接

评论区