亚马逊大脑流失的“清算日”：AWS被拖进深渊的一天

“问题总是出在 DNS 上。”这句老掉牙的系统管理员口头禅在今天再次应验——就在 AWS 正忙于修复仍处于瘫痪状态的云服务时，真正的罪魁祸首再次被定位为 DNS 故障。

但 AWS 不会不知道这一点。你我都明白的事情，全球最大云服务提供商又怎会陌生？于是，一个更深的疑问开始在业内悄然流传：那些经历过类似场景、拥有深度系统知识的资深工程师——如今都去了哪里？

答案令人不安：他们已经离开了。

发生了什么？

AWS 报告称：2025年10月20日凌晨12:11（PDT），公司开始调查 美东一区（US-EAST-1）多个服务出现的错误率上升与延迟加剧问题。一个多小时后，凌晨1:26，公司确认该区域内对 DynamoDB 接口的请求出现“严重错误率”。到凌晨2:01，工程团队确定问题根源很可能是 DynamoDB API 的 DNS 解析失败，进而引发区域内大多数服务的级联崩溃。

DynamoDB 是 AWS 基础服务之一，依赖它的服务数量庞大。其失效，等同于整个区域陷入瘫痪。结果是，银行、游戏、社交媒体、政府服务、甚至 Amazon.com 自己的商城也随之瘫痪。

AWS 如往常一样，在事故发生后逐步发布技术细节，但令人咂舌的是——从问题出现到定位到具体服务端点，竟花了75分钟。

为什么75分钟令人震惊？

对于一家以基础设施能力自豪、运营几十个区域的顶级云服务商来说，75分钟才找到方向，意味着严重的“能力空洞”。

更令人挠头的是，在那75分钟里，AWS 的状态页上仍显示“服务一切正常”，令人误以为问题出在自己系统上——这早已是 AWS 遭用户诟病的老问题，却至今未有改进。

“这不是技术问题，而是人才问题”

AWS 的技术实力毋庸置疑。从某种意义上讲，仅仅是一个区域的故障就引发全球关注，本身就说明 AWS 的可靠性是行业标杆。但这次事件暴露的，不是技术系统的脆弱性，而是人员结构的坍塌。

一群最了解系统“历史问题”的工程师已经离开，留下的团队正试图重走他们早已解决过的老路。

“大脑流失”早有预兆

如果这场灾难像是从天而降的闪电，那么“积云”其实早就写在天上。

从2022年至2024年，亚马逊裁员波及超 27,000名员工，2025年仍在继续。
据内部报告，Amazon 的“遗憾离职率”（即公司希望保留却仍离职的员工比例）高达69%-81%。
许多资深工程师对 Amazon 的强制返岗政策（RTO）及无休止的裁员轮盘表达强烈不满。
像 Justin Garrison 这样的前 AWS 员工，早在2023年离职时便公开预测：“2024年将出现大规模服务中断（LSE）。”

如今看来，这些警告一语成谶。

失去的，不只是技术能力

你可以招聘懂 DNS 的人，可以找到能背诵 BGP 协议的技术专家，但你无法招聘那些在凌晨三点从历史经验中回忆出“那个隐藏服务在关键路径上也可能造成问题”的老工程师。

那些经历了无数系统升级、错误重现和历史故障的人，正是AWS的“免疫系统”——他们知道哪些看似无关的组件，可能触发连锁反应。

而现在，这些人很多都选择了离开。

“节俭”正在变质为“削弱”

Amazon 引以为傲的“Frugality”领导原则原本意味着“用更少做更多”，如今却越来越像“用几乎没有的资源，撑起全球业务”。当你将组织“瘦身”至骨感，再削掉肌肉，最后只剩骨架，一些原本最基础的事情，也会开始崩塌。

未来的预言？

AWS 可能会公开声明：“这只是一个孤立事件。” 但当资深人才流失、团队经验被重置，每一次小故障都可能演变成大灾难。

下一个事故，已经在某个边角案例中悄然酝酿。只是我们还不知道，是哪一个团队，在缺人、缺经验的状态下，会踩到下一颗地雷。

结语

这不是“系统太旧”，也不是“技术不过关”，而是维护这些系统的人已不在岗。

今天，AWS 的DNS故障只是一颗炸弹爆炸的声音。而更大的问题，是那片曾支撑 AWS 奇迹的“人才防线”，正被不计后果的管理策略与企业短视慢慢侵蚀殆尽。

今天是一场事故，
但从今天开始，或许也是 AWS 可靠性神话开始动摇的第一天。

Subscribe 订阅