“问题总是出在 DNS 上。”这句老掉牙的系统管理员口头禅在今天再次应验——就在 AWS 正忙于修复仍处于瘫痪状态的云服务时,真正的罪魁祸首再次被定位为 DNS 故障。
但 AWS 不会不知道这一点。你我都明白的事情,全球最大云服务提供商又怎会陌生?于是,一个更深的疑问开始在业内悄然流传:那些经历过类似场景、拥有深度系统知识的资深工程师——如今都去了哪里?
答案令人不安:他们已经离开了。
发生了什么?
AWS 报告称:2025年10月20日凌晨12:11(PDT),公司开始调查 美东一区(US-EAST-1)多个服务出现的错误率上升与延迟加剧问题。一个多小时后,凌晨1:26,公司确认该区域内对 DynamoDB 接口的请求出现“严重错误率”。到凌晨2:01,工程团队确定问题根源很可能是 DynamoDB API 的 DNS 解析失败,进而引发区域内大多数服务的级联崩溃。
DynamoDB 是 AWS 基础服务之一,依赖它的服务数量庞大。其失效,等同于整个区域陷入瘫痪。结果是,银行、游戏、社交媒体、政府服务、甚至 Amazon.com 自己的商城也随之瘫痪。
AWS 如往常一样,在事故发生后逐步发布技术细节,但令人咂舌的是——从问题出现到定位到具体服务端点,竟花了75分钟。
为什么75分钟令人震惊?
对于一家以基础设施能力自豪、运营几十个区域的顶级云服务商来说,75分钟才找到方向,意味着严重的“能力空洞”。
更令人挠头的是,在那75分钟里,AWS 的状态页上仍显示“服务一切正常”,令人误以为问题出在自己系统上——这早已是 AWS 遭用户诟病的老问题,却至今未有改进。
“这不是技术问题,而是人才问题”
AWS 的技术实力毋庸置疑。从某种意义上讲,仅仅是一个区域的故障就引发全球关注,本身就说明 AWS 的可靠性是行业标杆。但这次事件暴露的,不是技术系统的脆弱性,而是人员结构的坍塌。
一群最了解系统“历史问题”的工程师已经离开,留下的团队正试图重走他们早已解决过的老路。
“大脑流失”早有预兆
如果这场灾难像是从天而降的闪电,那么“积云”其实早就写在天上。
- 从2022年至2024年,亚马逊裁员波及超 27,000名员工,2025年仍在继续。
- 据内部报告,Amazon 的“遗憾离职率”(即公司希望保留却仍离职的员工比例)高达69%-81%。
- 许多资深工程师对 Amazon 的强制返岗政策(RTO)及无休止的裁员轮盘表达强烈不满。
- 像 Justin Garrison 这样的前 AWS 员工,早在2023年离职时便公开预测:“2024年将出现大规模服务中断(LSE)。”
如今看来,这些警告一语成谶。
失去的,不只是技术能力
你可以招聘懂 DNS 的人,可以找到能背诵 BGP 协议的技术专家,但你无法招聘那些在凌晨三点从历史经验中回忆出“那个隐藏服务在关键路径上也可能造成问题”的老工程师。
那些经历了无数系统升级、错误重现和历史故障的人,正是AWS的“免疫系统”——他们知道哪些看似无关的组件,可能触发连锁反应。
而现在,这些人很多都选择了离开。
“节俭”正在变质为“削弱”
Amazon 引以为傲的“Frugality”领导原则原本意味着“用更少做更多”,如今却越来越像“用几乎没有的资源,撑起全球业务”。当你将组织“瘦身”至骨感,再削掉肌肉,最后只剩骨架,一些原本最基础的事情,也会开始崩塌。
未来的预言?
AWS 可能会公开声明:“这只是一个孤立事件。” 但当资深人才流失、团队经验被重置,每一次小故障都可能演变成大灾难。
下一个事故,已经在某个边角案例中悄然酝酿。只是我们还不知道,是哪一个团队,在缺人、缺经验的状态下,会踩到下一颗地雷。
结语
这不是“系统太旧”,也不是“技术不过关”,而是维护这些系统的人已不在岗。
今天,AWS 的DNS故障只是一颗炸弹爆炸的声音。而更大的问题,是那片曾支撑 AWS 奇迹的“人才防线”,正被不计后果的管理策略与企业短视慢慢侵蚀殆尽。
今天是一场事故,
但从今天开始,或许也是 AWS 可靠性神话开始动摇的第一天。