Memos: AWS 美东可用区 P0 故障(us-east-1)

因 AWS DynamoDB 故障引发众多基础服务不可用,波及众多互联网应用,目前仍未恢复,状态页面:health/status

还有三天霜降,AWS 北美工程师今夜注定要汗流浃背了

01.webp

影响时间

开始: 2025 年 10 月 20 日 14:49(北京时间)
恢复: 2025 年 10 月 21 日 06:01(北京时间)
持续时间: 约 15 小时

事件摘要

时间(北京时间) 事件摘要
10月20日 14:11 AWS 发现 US-EAST-1 区多服务错误率、延迟上升。
10月20日 16:26 DynamoDB 请求错误显著增加。
10月20日 17:01 确认与 DynamoDB API 的 DNS 解析问题有关。
10月20日 17:27 部分服务开始恢复。
10月20日 18:35 DNS 故障缓解,但 EC2 实例仍无法启动。
10月20日 19:08–21:42 EC2 启动持续失败,影响 RDS、ECS、Glue;Lambda 出现 SQS 事件延迟。
10月20日 22:14 出现新一轮网络连通性问题,影响多个服务。
10月20日 23:43 确认问题源于网络负载均衡(NLB)健康监控子系统。
10月21日 00:13–02:22 逐步恢复网络与 EC2 启动;Lambda 调用错误减少。
10月21日 03:15 大部分服务恢复正常。
10月21日 04:52 EC2 启动限流解除,依赖服务(ECS、Glue)恢复。
10月21日 05:48 EC2、Lambda、Connect 等全面恢复。
10月21日 06:53 官方确认:所有 AWS 服务恢复正常运行。