AI agent应该更“有主见”

在优秀的智能体（Agent）产品中，最成功的往往不是“最灵活”的，而是“最有主见”的。本文探讨了原因与设计原则。简而言之，建议如下：

构建有主见的智能体。
在工具设计与提示词（Prompt）上果断做出决策。目标是让智能体在特定任务上成功，而不是在所有任务上平均发挥。可定制化可以稍后再考虑。

“灵活性陷阱”：智能体需要的是更少的旋钮，而非更多

优秀的产品设计不在于提供无穷选项，而在于让一切自然顺畅地工作。智能体也应如此。

历史上所有令人愉悦的产品体验，本质上都是创作者将自己的理念高度提炼成“无需调试、即刻可用”的界面。对智能体而言，这意味着：

减少设置选项（knobs），用户会感谢你。
替用户做更多决策与工作。
在提示词与工具设计上下苦功——这是把团队知识与观点注入产品的最直接方式。
通过内测（dogfooding）与评估（evals）循环改进，用真实使用来验证产品的“主见”是否有效。

“主见—反馈—评估”三者形成了智能体设计的飞轮：团队在实践中形成观点，用户反馈帮助修正观点，评估数据则让迭代有依据。

原则落地：用户不想调温度，他们只想结果

没有用户愿意调整“temperature”或“chunking strategy”。这正是所谓的“灵活性陷阱”——误以为用户想要选择，实际上他们只想要成果。

史蒂夫·乔布斯设计 iPhone 的“一键界面”就是经典案例：表面上限制了交互方式，实则极大提升了体验的确定性。产品依旧功能丰富，但交互路径变得直观可靠。

Cursor 团队的设计哲学很好地诠释了这种思维：

“这个设置真的需要吗？”
“能更少点点击完成吗？”
“能砍掉哪些没人用的功能？”

这正是智能体产品应有的思考方式。

做好“有主见”的工作

具体而言，团队应当：

测试所有模型，帮用户筛选出最合适的版本。别迷信通用基准测试（benchmarks），你的用户不会关心“Terminal Bench 2.0”。
写出极其详细的提示词（prompts），告诉模型何为“成功”以及如何达成。提示工程从未过时。
验证配置选项。每一个需要用户手动决定的选项，其实都是团队“没替用户下决策”的失败。如果确定 Claude Opus 4.5 最适合你的任务，就让它成为默认值。
内部反复使用自己的产品（dogfooding）。让团队成为目标用户的真实写照，才能快速发现痛点与机会。

“通用智能体”的神话

一个智能体 = 有主见的外壳（Harness） + 模型（Model）

所谓“外壳”，是指包裹模型的一层设计：包括提示词、工具、上下文管理、文档、子智能体（Subagents）等。所有“主见”都体现在这一层。

当人们说他们想要“通用智能体”时，其实是在做一种权衡：

“我愿意接受较低的任务表现，以换取更少的定制工程投入。”

这在原型验证阶段或许合理，但很多团队选择“通用”，并非出于设计策略，而是尚未明确自己的立场与偏好。

模型与外壳是不可分割的

一个重要观点：模型与外壳是共生的，不能单独评估。

每个模型的“智能”都有明显的尖刺（spiky intelligence）——擅长某些任务、在另一些任务上表现糟糕。
因此，当更换模型时，原本调校好的外壳往往会“崩坏”：提示词行为变化、工具调用失败、新的错误模式出现……

真正关键的问题是：

“这个模型 + 外壳组合，能否稳定完成我的任务？”

而不是：

“这款模型在最新基准测试中是否得分更高？”

这就是为什么团队必须依靠真实任务、真实用户和自我试用来验证效果。

起点应“深而窄”

如果“通用”是妥协，那么最佳策略是从深而窄的任务入手：

聚焦一个具体任务。
减少交互面。
让少数关键行为做到极致稳定。

常见两种错误倾向：

面太广（wide agent）：试图处理太多任务，导致漏洞与混乱激增，演示漂亮、生产灾难。
太浅（shallow agent）：逻辑过于简单，不值得独立成为智能体。若无判断与多步推理，可能只是一个工作流，而非 Agent。

最优点是“窄到可以精细打磨，深到足以产生价值”。先找到那 10% 的高价值任务，集中精力攻克它。

连模型实验室也在变得“有主见”

如今，各大模型公司（如 Anthropic）也在为特定领域打造专门团队。
并非要训练新的金融或生命科学专用模型，而是要为这些任务优化外壳与工具体系。

这种“任务导向的主见性设计”比堆参数更能带来稳定表现。Claude Code、Codex 等产品正是如此：在外壳层面内置上下文管理、文件系统、子智能体，让用户无需从零配置。

类似地，LangGraph、LangChain 提供了通用抽象，而后来的 DeepAgents 则在其上进一步加入了“有主见的预设”：文件系统支持、内置规划工具、默认提示等。
好的默认值（opinionated defaults） 本身就是竞争力。

Amp Code 也是如此。它专注单一任务——代码开发。团队通过高强度的自测，将经验直接写入产品中，包括默认模型、辅助智能体（如 Librarian）等。用户无需选择繁多选项，只需专注于成功写出代码。

如何让智能体“更有主见”

今天，大多数智能体产品的问题在于：选项太多，观点太少。
要改变这一点，可以从以下几步做起：

审视所有配置项。 对每一个用户选项，问自己：“我们是否已经知道正确答案？” 如果知道，就固定下来；如果不知道，那是团队需要研究的问题。
聚焦单一任务。 “帮助用户做 X” 太模糊。应当定义为“完成具体流程 Y”，并对该流程优化到极致。
用任务评估模型，而非基准测试。 问题不是“Opus 4.5 比 Gemini 3 Pro 强吗？” 而是“哪个模型与哪种外壳组合在我的任务上更可靠？”

“通用”工具的讽刺在于——它让用户承担了复杂性。
而“有主见”的设计更困难，因为这要求开发者做艰难抉择、承担风险、面对外界批评。
但也正因如此，它往往产出更好的产品。

结语
真正优秀的智能体并不追求“面面俱到”，而是敢于在设计中“有立场、有取舍”。
它们通过主见、反馈与验证不断进化，最终让用户几乎感觉不到背后的复杂性，只感受到：它真的好用。

愿未来的智能体产品，都能更有主见。

Subscribe 订阅