关于 GenAI 与软件工程，那些流行观点究竟有多少经得起研究检验？

过去一年里，几乎所有工程负责人都被问过类似的问题：“你们的 AI 生产力提升了多少？”

提问者期待的往往是一个醒目而简单的数字，但现实远比这种叙事复杂得多。关于 GenAI 在软件工程中的影响，研究证据远没有新闻标题和厂商宣传所呈现得那样一致。因此，本周的问题是：关于 AI 与开发者生产力的那些流行观点，到底有哪些得到了研究支持？

背景

围绕 GenAI 的行业讨论，发展速度已经远远超过了相关研究的积累速度。

今天，许多企业的采购决策、人员规划以及季度 OKR，都在受到产品演示、个别案例以及少量受控实验的影响，而这些实验往往是在高度简化的任务环境中完成的。随后，工程负责人又被要求把这些零散信息转化成适用于自己团队的判断。

问题在于，许多最流行的论断实际上建立在并不成立的假设之上。

如果开发者一天的大部分时间根本不是在写代码，那么编程助手究竟能带来多大改变？如果仪表盘上显示的是“AI 生成代码行数”，那么这个指标究竟衡量了什么？随着越来越多研究者开始观察真实团队的工作方式，一些广为流传的叙事正在受到挑战。

研究发现

在最近发表于 ACM Queue 的一篇文章中，多位知名生产力研究者（其中包括 SPACE 框架的共同作者）系统梳理了软件工程领域关于 GenAI 最顽固的八个神话。

他们综合分析了近年来的大规模研究成果，其中包括微软于 2025 年开展的一项覆盖 450 多名工程师的研究、开发者访谈，以及大量现场研究（field research）的综合结果。

神话一：开发者大部分时间都在写代码

事实并非如此。

微软 2025 年的研究显示，开发者平均只有大约 14% 的工作时间真正用于编写代码。更早的研究结果也与此相符：状态较好的一天里，这个比例约为 18%；状态较差的一天里，则只有 11%。

换句话说，开发者一天的大部分时间实际上消耗在会议、设计讨论、代码审查、沟通协作以及各种非编码活动上。

神话二：写代码才是开发流程的主要瓶颈

如果编码本身只占工作时间的大约 15%，那么即使 AI 能把编码速度提升一倍，总体生产力提升也很难超过 15%。

更重要的是，加快代码生成速度往往只是把压力转移到了后续环节。代码审查、测试、集成和上线等流程仍然需要同样的时间，因此开发中的“外循环（outer loop）”并没有发生本质变化。

很多团队看到代码生成速度变快，却误以为整个交付流程都变快了，而实际情况往往并非如此。

神话三：代码行数是衡量 AI 价值的最佳指标

这是目前最流行、也最值得警惕的误区之一。

早在 2014 年，就有研究指出代码行数（Lines of Code，LoC）无法通过必要的有效性检验，因此作为生产力指标的价值十分有限。然而时至今日，包括微软在内的不少企业仍然公开追踪 AI 生成代码行数。

问题在于，这类指标天然鼓励错误行为。

当组织开始关注代码数量时，人们会倾向于写出更多代码，而不是更好的软件；与此同时，这类指标也很容易被人为操纵，并逐渐侵蚀团队对度量体系的信任。

从管理角度来看，更多代码从来不等于更多价值。

神话四：AI 对所有任务和所有工程师都同样有效

研究结果表明，事实恰恰相反。

微软 2024 年关于生产力的研究发现，对于开发者已经熟悉的任务，Copilot 带来的收益明显更高；而面对陌生领域时，提升幅度则显著下降。

更值得注意的是，一项针对资深开源开发者的 2025 年研究甚至发现，AI 工具使实际实现时间增加了 18%。

与此同时，研究人员还观察到一个令人意外的现象：即便只是把提示词改写成语义完全相同的另一种表达，生成代码也会有 46% 的概率发生变化，而正确性则有 28% 的概率发生变化。

这意味着 AI 输出的稳定性远低于许多人想象。

神话五：AI 会让普通开发者变成“10 倍工程师”

这一说法很大程度上源于那个被广泛引用的“55% 生产力提升”数字。

然而，这类研究大多是在受控环境下完成的，任务范围有限，而且通常聚焦于单个开发者完成的孤立工作。一旦进入真实团队环境，这种提升往往很难完整复现。

研究者指出，开发者表现差异中的很大一部分实际上来自任务本身，而非个人能力。

换句话说，一个困难任务不会因为配备了 AI 就自动变成简单任务，而一个简单任务也不会因为没有 AI 就变得异常困难。

因此，“10x Developer”这样的叙事很容易高估工具作用，同时低估工作内容本身的重要性。

神话六：让 AI 发挥价值是开发者个人的责任

论文在这里引用了 Cal Newport 的观点。

历史上真正改变生产力曲线的创新，往往来自系统性的工作流程重构，而不是给个人发放更好的工具。流水线如此，现代制造业如此，大规模企业软件同样如此。

然而，GenAI 的推广方式却几乎完全相反。

许多企业花费数百万美元购买许可证，却没有同步设计新的协作流程、管理机制或组织实践，结果每位工程师都只能自行摸索如何把 AI 融入工作流程。

研究者认为，这种做法实际上是在把组织层面的问题下放给个人解决，而历史经验表明，这通常不会产生最好的结果。

神话七：只要 AI 工具足够优秀，人们自然会采用

现实情况远比这复杂。

虽然约有 80% 的开发者已经开始使用 AI 工具，但真正信任其输出准确性的比例只有 29%。

大量开发者表示，他们经常需要花费比自己写代码更多的时间去调试和验证 AI 生成的结果。

研究还发现了一种被称为“能力惩罚（competence penalty）”的现象：即使两份工作成果完全相同，只要其中一份被标注为使用了 AI 辅助，人们往往会给予更低评价。

这种偏见在女性开发者和年长工程师群体中尤为明显。

因此，工具性能本身并不足以保证广泛采用，信任、组织文化以及评价机制同样会深刻影响最终效果。

神话八：有了 GenAI，企业也能像创业公司一样高速创新

这也是许多高管最容易产生误解的地方。

大多数创业公司使用的是流行的开源框架，而这些框架恰恰是 LLM 训练数据中覆盖最充分的内容。因此模型能够很好地理解相关代码，并提供有效帮助。

企业环境则完全不同。

企业系统往往建立在大量专有工具、历史遗留代码以及复杂兼容性要求之上，而这些内容通常从未出现在模型训练数据中。

除此之外，企业还必须面对合规要求、安全约束以及客户期望等问题，而这些负担很多创业公司根本无需承担。

因此，即使使用相同的 AI 工具，企业获得的收益也未必能够复制创业公司的体验。

对管理者意味着什么

贯穿这八个神话的共同线索在于：

GenAI 的价值更多取决于它如何被部署、衡量和支持，而不是组织是否购买了这项工具。

如果管理者把 AI 推广仅仅看作一次采购决策，那么最终得到的往往也只是采购决策层面的收益。

研究者据此提出了几条值得参考的实践建议。

在优化那 14% 之前，先审视剩下的 86%

如果开发者只有约 14% 的时间用于编码，那么继续增加 AI 使用率指标或者购买更多许可证，未必是最值得优先解决的问题。

更有效的做法，是先花一周时间认真分析团队时间究竟消耗在哪里。

在大多数组织里，真正影响交付效率的往往是代码审查排队、设计讨论、环境配置以及各种会议，而不是编辑器里节省下来的几个按键。

把 AI 用在一个明确的外循环瓶颈上

不要先衡量工具，而要先衡量业务结果。

选择一个具体瓶颈，例如：

代码审查周转时间；
新员工上手周期；
不稳定测试（flaky tests）的排查效率；

先建立基线数据，再有针对性地引入 AI，并持续观察真正重要的结果指标，例如：

Cycle Time；
Change Failure Rate；
首个 PR 的完成时间。

只有这样，才能判断 AI 是否真的改善了交付能力。

在追求生产力提升之前，先解决信任问题

研究建议团队主动调查以下问题：

哪些 AI 输出曾经浪费过时间？
哪些内容工程师必须手工重新验证？
哪些场景大家完全不愿意使用 AI？

基于这些反馈，团队应当建立明确规则，例如：

哪些任务适合使用 AI；
AI 辅助代码需要达到什么审查标准；
管理者如何在绩效评估中公平看待 AI 辅助工作；

只有缩小信任鸿沟，AI 的潜在价值才有机会真正转化为实际收益。

归根结底，研究并没有否认 GenAI 的价值，但它揭示了一个经常被忽略的事实：影响软件工程效率的，从来都不只是写代码的速度。对于大多数团队而言，决定交付能力的瓶颈仍然存在于协作、设计、审查和组织流程之中。因此，与其执着于寻找一个能够概括一切的“AI 生产力提升百分比”，不如认真理解团队真正的工作方式，以及 AI 究竟改变了其中哪些环节。

Subscribe 订阅

背景