测量软件工程效率 - AI TrendTrackers

在测量软件工程效率时为何应关注系统层面而非个体表现，并引用最新研究指出开发周期时间（cycle time）背后存在极大的变异性和误解。

文章开篇指出了软件工程的三个不变现实：

不可预测性：除非开发者此前已经完成类似任务，否则几乎无法准确估算时间；但若任务已完成，又无需再次估算。
需求不断变化：客户意见不断更新，往往不完全清楚其实际需要什么。
突发事件频发：库出现安全漏洞、核心算法出现缺陷，甚至是操作系统更新都可能带来意外影响。软件系统始终处于变动中。

然而，在这些动态变化之下，管理层仍然期望看到“运行正常”的指标图表——即绩效不断上升。尽管行业已经超越了早期用代码行数评估效率的粗放阶段，转向诸如DORA与DX Core等更为成熟的工程指标体系，但这并不意味着软件开发过程本身变得清晰有序。软件开发本质上依然混乱复杂，没有所谓的“银弹”可以让其加速。

在此背景下，作者引用了一篇新论文——《No silver bullets: Why understanding software cycle time is messy, not magic》，该研究分析了“周期时间”这一广受青睐的工程生产力指标，并指出：提升软件交付速度更可能依赖系统层面思维，而非专注于个体干预。

周期时间的误导性

周期时间指的是从任务开启到关闭所经历的时长。该指标广受一些工程领导者欢迎，理由是：更短的周期时间意味着尝试更多、验证更快、反馈更及时，从而提高整体业务效率。

研究分析了超过200家组织中约1.2万名开发者的数据，从个体与团队层面探索哪些因素影响了周期时间，并评估这些因素造成的变异幅度。

有哪些变量影响周期时间？

以下变量被纳入分析，并通过实际数据进行建模：

编码天数：每周至少提交一次代码的天数（作者认为这一指标略显薄弱，或许“流动时间”会更有意义）。
任务拆解能力：以每周合并的PR数量衡量，PR越多，可能意味着任务划分越合理。
协作程度：通过PR评论数量和评论深度来度量。
缺陷比例：以任务中被标记为缺陷的工单比例衡量。

分析结果显示：

PR合并数量越多，周期时间略有下降；
PR中评论越多，周期时间略有上升；
编码天数越多，周期时间越短；
缺陷比例越高，周期时间越长；
协作越多，周期时间越短。

虽然这些趋势与预期相符，但研究也指出：所有变量的影响都极小，远低于数据中天然存在的波动性。

个体差异 vs. 系统性波动

一个重要发现是：即使是同一名开发者，在不同月份中的周期时间波动也极大，远超不同开发者之间的差异。这意味着，通过这些周期性度量指标判断某个开发者的“真实效率”几乎是不可能的。

“10倍工程师”的流行概念建立在“个体表现具有稳定差异”的假设上，而这一研究则明确驳斥了这一点——开发者的工作节奏受太多变量影响，任何单点快照都难以捕捉其长远表现。

此外，研究也承认未被追踪的工作同样影响巨大。例如某些开发者在完成分配任务后，可能会去修复构建系统、优化测试流程、或进行小范围重构，而这些“系统性维护”往往并未体现在PR记录中。

系统性思维的重要性

研究结论强调，若要提高软件交付速度，应聚焦系统层面的改进，而非在个体层面进行奖惩或微观干预：

不要仅依赖个体平均指标，而应关注团队在多个周期内的趋势；
将波动视为常态，而非异常；
避免将指标的变化归因于个体波动，而应理解背后隐藏的系统信号。

正如作者所言：“个体的月度平均周期时间无法预测未来的表现，其噪声远大于信号。”开发过程就像天气：短期内难以预测，但长期来看可观测趋势。

结论：系统优先，个体次之

周期时间的吸引力在于其表面上的易测量性，但也正是这种简化思维，可能导致管理层产生错误的理解。个体的周期时间如同一个快照，而软件开发是一个不断演变的系统。版本审核、合并、测试、上下文切换等流程本身就是为了引导和控制系统的可预测性。

因此，组织在测量与优化工程效率时，应：

重视 月度或季度维度的团队周期时间变化；
分析 分布区间而非平均值；
搭配 定性信号 如开发者反馈、阻力识别等，共同构建对系统运行状况的真实感知。

这一研究为工程管理提供了一个清晰信号：不要将周期时间变成评估个体的工具，而应作为理解系统表现的窗口。

Subscribe 订阅

周期时间的误导性

有哪些变量影响周期时间？

个体差异 vs. 系统性波动

系统性思维的重要性

结论：系统优先，个体次之