目 录CONTENT

文章目录

AWS到底是怎么搞砸的,以至于整个美东1区都瘫痪了,6个可用区全完蛋了。

Administrator
2025-10-23 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

 

字数 768,阅读大约需 4 分钟

AWS到底是怎么搞砸的,以至于整个美东1区都瘫痪了,6个可用区全完蛋了。

在10月20日,AWS美东云上发生了重大事件故障,导致大量客户服务收到波及,造成数亿美刀的顺势。为什么云服务应该是承诺了高可用,为什么还会造成如此大范围的故障呢?
DynamoDB无法解析 dynamodb.us-east-1.amazonaws.com时间:2025 年 10 月 20 日凌晨,美国东部时间还未破晓,AWS 的 US-EAST-1(北弗吉尼亚)区域出现大面积故障。
影响:DynamoDB 打喷嚏,EC2 感冒,整个 AWS 都开始发烧。
原文Service health - Oct 23, 2025 | AWS Health Dashboard | Global[1]


AWS 自身的内部控制平面构建在 DynamoDB 之上。这是一个隐藏的依赖项。当 AWS 的内部服务无法找到 DynamoDB 的 IP 时,整个管理层就崩溃了。

阶段1:DNS故障。dynamodb.us-east-1.amazonaws.com的内部DNS服务器停止工作。

第二阶段:控制平面故障。依赖DynamoDB的AWS自身服务立即中断。这包括:

  1. 1. IAM(用于身份验证和会话状态)

  2. 2. EC2实例启动子系统(其使用DynamoDB存储元数据)

  3. 3. 网络负载均衡器(NLB)健康检查(事实证明,它们会将自身的健康状态写入DynamoDB表)

第三阶段:循环依赖。这是最棘手的部分。当网络负载均衡器(NLB)的健康检查失败时(因为它们无法写入DynamoDB),这引发了更多的网络连接问题,进而影响到(本就运行困难的)DynamoDB服务本身。这形成了一个恶性循环。
数百万请求不断冲击DNS服务器和缓存,即便在初步修复完成后,也阻碍了它们的恢复。

US-EAST-1是 AWS 最早投入运营、资源最多、客户最多的区域之一。许多企业将其作为主区域或关键区域

将单一节点作为核心节点,并作为基础设施提供给更上层的应用使用,就像是建在沙滩上的房子,海浪轻轻冲击,大厦就顷刻间倒塌。
记住:永远不要相信单一节点、单一可用区、单一云服务

云计算在带来便利的同时,创造了前所未有的系统性隐藏风险,对客户而言多可用区和多云厂商是必要的。多数据和应用程序建立多可用区,并且在多云厂商里部署服务。这是一项成本和风险的综合考虑。
对任何依赖云上资源的用户而言

  1. 1. 永远不要放心单一云厂商的承诺,永远不要把服务和数据部署在单一可用区;

  2. 2. 世界是巨大的草台班子,即使是在云厂商内部,组织架构和技术架构也不能100%保障高可用;

  3. 3. 多云混合部署,第一优先级是保障数据安全,第二优先级才是综合成本的考虑;

引用链接

[1] Service health - Oct 23, 2025 | AWS Health Dashboard | Global: https://health.aws.amazon.com/health/status?eventID=arn:aws:health:us-east-1::event/MULTIPLE_SERVICES/AWS_MULTIPLE_SERVICES_OPERATIONAL_ISSUE/AWS_MULTIPLE_SERVICES_OPERATIONAL_ISSUE_BA540_514A652BE1A

 

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区