因 AWS DynamoDB 故障引发众多基础服务不可用,波及众多互联网应用,目前仍未恢复,状态页面:health/status
还有三天霜降,AWS 北美工程师今夜注定要汗流浃背了

影响时间
开始: 2025 年 10 月 20 日 14:49(北京时间)
恢复: 2025 年 10 月 21 日 06:01(北京时间)
持续时间: 约 15 小时
事件摘要
| 时间(北京时间) | 事件摘要 |
|---|---|
| 10月20日 14:11 | AWS 发现 US-EAST-1 区多服务错误率、延迟上升。 |
| 10月20日 16:26 | DynamoDB 请求错误显著增加。 |
| 10月20日 17:01 | 确认与 DynamoDB API 的 DNS 解析问题有关。 |
| 10月20日 17:27 | 部分服务开始恢复。 |
| 10月20日 18:35 | DNS 故障缓解,但 EC2 实例仍无法启动。 |
| 10月20日 19:08–21:42 | EC2 启动持续失败,影响 RDS、ECS、Glue;Lambda 出现 SQS 事件延迟。 |
| 10月20日 22:14 | 出现新一轮网络连通性问题,影响多个服务。 |
| 10月20日 23:43 | 确认问题源于网络负载均衡(NLB)健康监控子系统。 |
| 10月21日 00:13–02:22 | 逐步恢复网络与 EC2 启动;Lambda 调用错误减少。 |
| 10月21日 03:15 | 大部分服务恢复正常。 |
| 10月21日 04:52 | EC2 启动限流解除,依赖服务(ECS、Glue)恢复。 |
| 10月21日 05:48 | EC2、Lambda、Connect 等全面恢复。 |
| 10月21日 06:53 | 官方确认:所有 AWS 服务恢复正常运行。 |