Anthropic所秉持的使命聚焦于安全性与责任感,而这一使命必须在人工智能市场的严酷现实中求得生存。公司联合创始人兼首席执行官达里奥·阿莫代伊(Dario Amodei)详细阐述了Anthropic采取的一种不同寻常的商业战略,这种策略很可能也适用于整个AI行业。在被问及盈利问题时,阿莫代伊解释称,公司之所以刻意维持不盈利状态,是因为每一个新模型都被视为对未来的一次巨大再投资。他用一个思想实验进行了说明:一个在2023年花费1亿美元训练的模型,可能在2024年创造2亿美元的收入。但如果公司在同年投入10亿美元来训练其继任模型,最终将出现8亿美元的亏损。阿莫代伊指出:“每个模型都是盈利的,但公司每年都是亏损的。” 阿莫代伊认为,将重点放在企业客户而非普通消费者上,能更有效地推动更智能的AI模型发展。例如,让模型在生物化学领域从本科生水平提升至研究生水平,这对99%的消费者而言毫无吸引力,但对辉瑞这类公司来说,则可能是“全世界最重要的事”,其价值“可能是原来的十倍”。这类激励机制使模型更有可能用于解决现实世界中的问题,从而更符合实现AI积极用途的目标。 在AI开发过程中,最大的成本并非模型运行本身,而是对下一代模型训练的持续投资。阿莫代伊对此进行了成本拆解:推理过程,也就是模型的实际运行,“已经相当盈利”;人员与建设成本在整体开支中也并非决定性因素。这种不追求盈利的状态,是一种有意识的战略选择,背后基于一种信念:即规模法则仍将持续发挥作用,公司必须始终站在技术发展的前沿。 对竞争对手及AI行业的批评 对于英伟达首席执行官黄仁勋所提出的指控,即阿莫代伊“认为只有他能安全地构建AI,因此想要控制整个行业”,阿莫代伊给予了强烈反驳。他回应称:“我从没说过那种话。这完全是无稽之谈。” 阿莫代伊阐明了Anthropic的理念——推动一场“向上竞赛”,即通过设定积极的行业标准,引导整个行业共同前行。他举例称,Anthropic发布的《负责任扩展政策》(Responsible Scaling Policy)曾为其他公司内部推动类似标准的人员“提供了发声的许可”。这种机制促成了一种“无论谁最终领先,大家都会受益”的行业动态。 阿莫代伊还尖锐批评了Meta首席执行官马克·扎克伯格的人才招募策略。他认为Meta“试图购买一种无法购买的东西,那就是对使命的认同”。据阿莫代伊透露,Anthropic的许多员工在面对Meta提供的高薪时选择了拒绝,有些甚至“连和马克·扎克伯格谈话的兴趣都没有”。Anthropic有意不对这些跳槽行为进行加价挽留,以避免打破公司内部以公平为核心的文化氛围并引发恐慌。他坦言,对Meta这种做法的成功前景“持相当悲观的看法”。 对于当前业界广泛讨论的开源AI议题,阿莫代伊认为这是一个“伪命题”。他指出,过去技术周期中常用的词汇,比如“商品化”,并不适用于AI。在所谓的“开放权重”模型中,人们虽然可以看到模型的权重参数,但并不能真正理解其内部运作原理。而此前那种许多人协同开发软件带来增量收益的模式,在AI模型中也“并不适用”。阿莫代伊强调,在AI领域,唯一重要的就是质量:每当一个新模型发布,他关注的并不是它的开源许可,而是“这是不是一个好模型?它是否优于我们现有的模型?” 对AI技术发展的见解 阿莫代伊指出,从OpenAI的GPT-2和GPT-3的发展历程可以看出,AI的进步与安全问题始终密切交织。这些模型最初其实是安全研究的副产品。阿莫代伊与其未来的联合创始人共同开发了“基于人类反馈的强化学习”(RLHF)技术,以更好地控制AI模型。然而这一技术在较小规模的GPT-1模型上无法奏效,因此必须扩大规模至GPT-2和GPT-3,以便在更复杂的系统上进行测试与完善。 在此背景下,阿莫代伊提醒人们切勿低估AI发展的速度。他认为,大多数人“都被指数式增长的趋势所蒙蔽”。他将这一趋势比作上世纪90年代的互联网技术:当一种技术每六个月就翻倍时,它在实现重大突破前两年仍可能看似发展平缓,但实际上重大变革已近在眼前。Anthropic公司自身的高速增长——在不到三年内年化营收从零跃升至超过40亿美元——就是这种发展动态的直接印证。 尽管整体持乐观态度,阿莫代伊依然保持现实主义视角。他承认,在未来两年内,AI模型的进展存在“20%到25%”的可能性会因尚未明确的技术障碍或在数据与算力方面的瓶颈而陷入停滞。如果真的如此,他对于自己此前的警示被证明是错误的“完全不会介意被人取笑”。
Category: Uncategorized
Mark zuckerberg 《Personal Superintelligence》的公开信
2025年,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在一篇题为《Personal Superintelligence》的公开信中,表达了对“个人超级智能”(Personal Superintelligence)愿景的坚定信念与战略承诺。他指出,尽管当前AI系统自我改进的能力仍较为初步,但其发展势头已无法忽视,而超级智能(Superintelligence)的实现已经“近在眼前”。 扎克伯格表示,人工智能将在未来几年内全面提升现有系统,并催生出今天尚无法想象的新技术与新发现。但关键问题是:人类将如何引导超级智能的方向? 他认为,这场技术飞跃虽划时代,却也符合人类发展的一贯路径。回顾历史,不到两百年前,全球约九成劳动力仍从事农业生产,仅为求温饱。而技术的持续进步已逐步释放人类,从生存本能走向创造力、科学、艺术、人际关系乃至生活的享受。超级智能将进一步加速这一进程。 不过,扎克伯格强调,相较于AI所带来的“物质丰裕”,更深远的影响将来自“个人能力的解锁”。每个人将拥有一个“了解自己、致力于帮助实现个人目标”的超级智能助手。它不仅能协助用户实现愿景、创造新内容、体验奇幻冒险,还能增进与亲友的关系,并引导人成为理想中的自己。 在此背景下,Meta提出自己的独特战略定位:为所有人带来“个人超级智能”,并使其成为“人类意愿延伸的工具”,而非单纯集中调度的产业替代系统。这一理念与其他科技公司的中心化方案形成鲜明对比。后者试图将超级智能用于“替代所有有价值的劳动”,进而令社会依赖其所产出,再分配收益。 Meta认为,推动科技与生活融合的核心在于将技术赋能于个体,正是个体选择与追求所推动了科学、健康、文化与繁荣的发展。扎克伯格表示,这一历史规律在未来将更加重要。 随着技术进步,Meta预期用户将减少在传统“生产力软件”中的时间,而更多投入于创作与联结。他设想,未来最有价值的AI将是“真正了解用户的个人超级智能”——它能感知用户所见所闻、在全天候互动中把握环境上下文,从而成为个人的主计算设备。例如智能眼镜等设备,将成为这一交互新纪元的关键载体。 尽管Meta致力于普及超级智能,公司亦承认这类系统将引发前所未有的安全挑战。未来在开放源代码等问题上需谨慎对待,且必须严谨设计风险缓解机制。然而,Meta依然相信,一个自由社会的建立,必须基于“尽可能赋能每一个人”。 扎克伯格称,本十年余下的时间,将是决定超级智能发展路径的关键时期——是成为人类的“赋能伙伴”,还是沦为社会结构的替代力量,将取决于今天所做的选择。 最终,他代表Meta郑重表态:公司拥有构建所需的基础设施与技术实力,并将集中力量,为全球数十亿用户构建“面向个人赋能的超级智能”。这一愿景,已成为Meta未来的核心方向。
谷歌正在美国测试一项基于机器学习的年龄识别技术
2025年7月,据报道,谷歌正在美国测试一项基于机器学习的年龄识别技术,旨在在旗下所有产品中根据用户年龄进行内容筛选与功能调整。这项名为“年龄保障(Age Assurance)”的系统将通过分析用户在Google账户中的行为数据——包括搜索内容类型及在YouTube上观看的视频类别——来判断用户的年龄。 一旦系统判定某位用户年龄低于18岁,谷歌将向其发送电子邮件,说明在各类产品中的使用体验将发生哪些变化。对于这类未成年用户,谷歌将采取以下限制与保护措施: 若用户认为自己的账户被误判为未成年人账户,可通过提交政府颁发的身份证明照片或自拍照进行申诉,以证明真实年龄。 谷歌表示,此前已在某些市场测试过类似的年龄估算技术,并取得良好效果,但未具体说明测试市场。公司方面称:“年龄保障可以帮助我们确保成年人能够获得他们所需的信息与服务,同时为年轻用户提供适当保护。我们的方法结合了年龄估算与必要时的年龄验证。” 目前,不止谷歌在推动年龄识别系统,Instagram与Roblox等平台也已开始采用AI工具来识别用户年龄。与此同时,美国多个州已经出台或提出相关立法,规范未成年人内容接触的范围与形式。英国方面,在《在线安全法》通过后,也已要求平台开始实施年龄验证机制。 此次谷歌的行动,是其对未成年人在线保护承诺的延伸。公司本周早些时候已在YouTube平台推行了类似举措,而现在这套年龄识别与内容筛选系统正在扩展至整个Google账户生态体系。
测量软件工程效率
在测量软件工程效率时为何应关注系统层面而非个体表现,并引用最新研究指出开发周期时间(cycle time)背后存在极大的变异性和误解。 文章开篇指出了软件工程的三个不变现实: 然而,在这些动态变化之下,管理层仍然期望看到“运行正常”的指标图表——即绩效不断上升。尽管行业已经超越了早期用代码行数评估效率的粗放阶段,转向诸如DORA与DX Core等更为成熟的工程指标体系,但这并不意味着软件开发过程本身变得清晰有序。软件开发本质上依然混乱复杂,没有所谓的“银弹”可以让其加速。 在此背景下,作者引用了一篇新论文——《No silver bullets: Why understanding software cycle time is messy, not magic》,该研究分析了“周期时间”这一广受青睐的工程生产力指标,并指出:提升软件交付速度更可能依赖系统层面思维,而非专注于个体干预。 周期时间的误导性 周期时间指的是从任务开启到关闭所经历的时长。该指标广受一些工程领导者欢迎,理由是:更短的周期时间意味着尝试更多、验证更快、反馈更及时,从而提高整体业务效率。 研究分析了超过200家组织中约1.2万名开发者的数据,从个体与团队层面探索哪些因素影响了周期时间,并评估这些因素造成的变异幅度。 有哪些变量影响周期时间? 以下变量被纳入分析,并通过实际数据进行建模: 分析结果显示: 虽然这些趋势与预期相符,但研究也指出:所有变量的影响都极小,远低于数据中天然存在的波动性。 个体差异 vs. 系统性波动 一个重要发现是:即使是同一名开发者,在不同月份中的周期时间波动也极大,远超不同开发者之间的差异。这意味着,通过这些周期性度量指标判断某个开发者的“真实效率”几乎是不可能的。 “10倍工程师”的流行概念建立在“个体表现具有稳定差异”的假设上,而这一研究则明确驳斥了这一点——开发者的工作节奏受太多变量影响,任何单点快照都难以捕捉其长远表现。 此外,研究也承认未被追踪的工作同样影响巨大。例如某些开发者在完成分配任务后,可能会去修复构建系统、优化测试流程、或进行小范围重构,而这些“系统性维护”往往并未体现在PR记录中。 系统性思维的重要性 研究结论强调,若要提高软件交付速度,应聚焦系统层面的改进,而非在个体层面进行奖惩或微观干预: 正如作者所言:“个体的月度平均周期时间无法预测未来的表现,其噪声远大于信号。”开发过程就像天气:短期内难以预测,但长期来看可观测趋势。 结论:系统优先,个体次之 周期时间的吸引力在于其表面上的易测量性,但也正是这种简化思维,可能导致管理层产生错误的理解。个体的周期时间如同一个快照,而软件开发是一个不断演变的系统。版本审核、合并、测试、上下文切换等流程本身就是为了引导和控制系统的可预测性。 因此,组织在测量与优化工程效率时,应: 这一研究为工程管理提供了一个清晰信号:不要将周期时间变成评估个体的工具,而应作为理解系统表现的窗口。
微软OpenAI展开深入谈判
微软公司(Microsoft Corp.)正与人工智能公司OpenAI展开深入谈判,寻求达成一项新的协议,以在未来持续获取OpenAI的核心技术资源。这项协议旨在解决双方合作中最具挑战性的问题之一:如何在OpenAI实现通用人工智能(AGI)之后,继续保障微软的技术访问权限。 据多位知情人士透露,谈判已进行多轮,双方可能在未来数周内敲定最终协议。新协议预计将修改现有条款,确保即使OpenAI宣布其已实现AGI,微软仍可继续使用其最新模型与技术。根据当前合约,一旦OpenAI实现AGI,微软的部分使用权将自动终止。 据了解,OpenAI首席执行官山姆·奥特曼(Sam Altman)与微软首席执行官萨蒂亚·纳德拉(Satya Nadella)本月早些时候曾在爱达荷州太阳谷举行的Allen & Co.大会上就此进行了讨论。尽管谈判氛围整体积极,但消息人士也警告称,协议尚未最终敲定,仍可能面临新的障碍。 微软自2019年以来已向OpenAI投资超过137.5亿美元,是该初创公司最大的外部资助者之一。此前的协议规定,一旦OpenAI达成其设定的“通用人工智能”目标,微软将失去部分对其技术的访问权。当前谈判的目标之一,就是避免这种“技术断供”在协议期满前(即2030年)发生。 此次谈判还伴随着OpenAI内部结构的重组,OpenAI正试图由一个非营利组织向以盈利为导向的结构过渡。该过程复杂多变,还受到监管审查以及特斯拉首席执行官埃隆·马斯克的诉讼挑战。马斯克曾是OpenAI早期的支持者,后因理念不合退出,并指控该公司背离其非营利使命、欺骗投资者。OpenAI方面否认相关指控,称马斯克是在试图阻挠公司的发展。 除了调整技术访问权,OpenAI也希望在收入分配与知识产权上获得更大自主权。据知情人士透露,该公司希望能调整微软目前持有的股份比例,并争取更大份额的技术营收分成,同时希望在不依赖微软Azure平台的前提下拓展客户,尤其是向政府机构提供服务。 微软则希望确保在当前合约到期后仍可继续使用OpenAI的技术,尤其是新一代模型和关键工具。据悉,双方正在讨论微软在重组后新OpenAI中的持股比例,或在30%至35%之间。若微软认为该比例及其它条件不具吸引力,其也有可能选择维持现有协议。 在AGI方面,双方仍存在较大分歧。OpenAI官方定义AGI为“能在多数具经济价值的工作中超越人类的高度自主系统”。当前合约中有关AGI的条款较为复杂,设有技术与商业两个触发条件——一旦达到相关门槛,微软可能失去OpenAI全部技术的访问权,包括AGI之前所开发的成果。 OpenAI董事会拥有认定是否实现AGI的最终决定权;在商业方面,若公司累计利润达到1000亿美元、足以偿还微软投资回报,也将触发相关条款。虽然微软有权对此类认定提出质疑,但若双方无法达成共识,可能最终诉诸法律途径解决。此外,合约中还设有限制微软自主开发AGI技术的条款。 在此过程中,微软对合约条款的部分修改表现出一定灵活性。例如,在OpenAI以65亿美元收购由iPhone设计师Jony Ive联合创立的初创公司io时,微软放弃了部分相关知识产权权利。但在另一项收购中,微软的立场则较为强硬。据悉,OpenAI曾尝试收购AI代码工具开发商Windsurf,但由于微软拒绝放弃其知识产权访问权限,该交易最终告吹。Windsurf与微软旗下产品存在直接竞争,最终,其创始人团队及部分员工选择加入谷歌,成交金额达24亿美元。 业内分析人士认为,若此次协议能够达成,将消除OpenAI重组过程中的一项重大障碍。高盛分析师Kash Rangan在接受彭博电视采访时指出,双方合作的深度令其都有显著的利益要素需要保障,这项协议的达成对两家公司而言都将是一个积极信号。
ChatGPT正式推出了名为“学习模式(Study Mode)”
据《卫报》2025年7月29日报道,为了鼓励学术领域对人工智能工具的“负责任”使用,ChatGPT正式推出了名为“学习模式(Study Mode)”的新功能。该功能旨在遏制大学中日益严重的AI滥用问题,并引导学生以更负责任的方式使用这一技术。 根据开发商OpenAI发布的信息,“学习模式”可通过ChatGPT界面中的工具按钮进入,其核心在于通过类似逐步展开的学术课程的形式,带领用户理解复杂主题。例如,在OpenAI展示的一个案例中,当用户请求帮助理解贝叶斯定理(Bayes’ Theorem)时,ChatGPT会首先询问用户掌握的数学水平和学习目标,然后再逐步引导其理解该数学公式,而不是直接提供完整答案。 OpenAI此举正值高校学术诚信遭遇AI挑战之际。据《卫报》针对英国高校学术违规行为的调查显示,2023至2024学年,共记录近7000起与AI工具相关的作弊案例,相当于每千名学生中约有5.1人涉案;而2022至2023学年,这一数字为每千人1.6起。 OpenAI方面指出,美国大学生中有超过三分之一正在使用ChatGPT,其中大约四分之一的对话与学习、辅导及学校作业相关。“学习模式”的设计目的在于避免学生直接获取完整的文章或考试答案,而是推动他们理解知识背后的原理。OpenAI在说明中表示,该模式“不会在未引导学生理解的前提下直接提供解决方案”。 不过,OpenAI也坦言,即使推出了“学习模式”,学生依然可以选择绕过该功能,利用ChatGPT获得学术捷径。 OpenAI的国际教育负责人Jayna Devani表示,公司希望ChatGPT被用于正向的学习过程,而非助长学术不端。“如何让学生认识到,与ChatGPT建立负责任的互动关系,是推动学习的一部分?这项功能就是我们迈出的第一步,”她说。 Devani进一步指出,要解决AI在教育中的滥用问题,仅靠技术公司是不够的,整个教育行业需要就评估方式和“什么是负责任的AI使用”达成明确共识,并出台清晰的指导方针。 据介绍,新推出的“学习与学习(Study and Learn)”模式,尤其适用于课后作业辅导、考试备考以及新知识的学习过程。此外,该模式还支持图片互动,用户可以上传过去的试题图片,由ChatGPT协助解析。 OpenAI还透露,在开发过程中,公司与教师、科学家和教育专家合作,确保新工具符合教学实际。但同时也提醒用户,目前在多轮对话中可能仍存在不一致行为和错误情况。
构建高性能系统的“vibe coding”实践回顾
近年来关于“vibe coding”的文章层出不穷。Indragie Karunaratne、Edward Yang 与 Cloudflare 的一些案例引发了广泛关注。这些项目往往有三个共通点:创作者本身已是该领域专家、应用为只读型因而容错度高,或者是在一个标准明确、设计空间有限的领域中展开。 然而,作者最近使用代理型编码方式构建了一个系统,目标是在24小时内抓取十亿个网页。这个项目的不同之处在于: 这篇文章详细说明了 AI 编码方式的助益与局限,并配有代码片段与对话日志链接。 结论预告:整体而言,AI 赋能效果显著。 作者主张,这些经验在构建其他高性能系统时也具有参考价值,尽管有一定前提条件。 一、工具与设置 作者使用了 Cursor(一个支持 AI 助理的 IDE),主要搭配 Claude 模型进行开发。没有使用后台 Agent(当时仍处于预览阶段)。尽管一些工程师如 Steve Yegge 早已将此类“聊天编码”模式称为“即将成为历史的古董”,作者仍选择坚持使用 Cursor,理由包括: 在整个项目中,总共有 32,169 行代码变动,仅有 1253 行是手写,约占 3.75%。 项目于 5 月底开始,当时仍是业余时间进行(最初使用 Gemini 2.5 Pro,后转为 Claude 4 Opus)。经历了 8 套完全不同的系统设计与无数实验后,作者利用 7 月 4 日所在的假期专心推进,最终实现目标。回顾整个过程,若能使用后台代理或并行机制,或许能节省大约一周的开发时间。 二、问题本质 AI 能带来多大帮助,取决于问题本身的形状——包括: 本项目涉及一个陌生领域。虽然作者在实时 C++、网页应用、开发者工具和 GPU 内核方面经验丰富,但数据密集型系统与所用的数据库技术对他而言皆属全新。…
回顾 Palantir:八年之旅的反思
Palantir 近期可谓炙手可热。该公司刚刚加入标准普尔500指数,股价一路飙升,市值接近1000亿美元。风投纷纷追逐前 Palantir 员工,希望能参与投资。 然而,对于那些长期在 Palantir 工作或已经离职的员工而言,这种热度显得颇为陌生。尤其是在2016至2020年间,声称自己在 Palantir 工作并不讨喜。该公司常被贴上“间谍技术”、“NSA监控工具”等标签,甚至更糟。公司外时常有抗议活动。即便是那些在道德层面上对公司没有疑虑的人,也往往将其视作一个伪装成软件公司的咨询机构,或是更高端的人才套利平台。 尽管作者本人于去年离职,但他此前从未公开分享过在 Palantir 的经历与反思。也正是因为外界对公司的理解存在诸多误区,他希望能以一个在公司工作八年的人的视角,尽可能还原真相。 一、加入的原因 作者于2015年夏天加入 Palantir,最初在伦敦的新办公室工作,之后转至硅谷,最后派驻华盛顿特区,担任“前线部署工程师”(FDE)。当时公司约有1500人,办公室分布于帕洛阿尔托总部、纽约、伦敦等地。如今公司人数已增长至约4000,总部迁至丹佛。 加入 Palantir 的动机有两个: 首先,作者希望能在“困难行业”中解决真正有意义的问题。个人兴趣所在的医疗与生物领域,正是 Palantir 当时正在初步涉足的方向。彼时,大多数科技公司热衷于社交网络(如Facebook、LinkedIn、Quora)或消费类应用(如Dropbox、Uber、Airbnb),而很少有人聚焦于航空航天、制造业、网络安全等“棘手”的实体经济板块。Palantir 是少数愿意投入这些领域的硅谷公司之一。 其次,出于移民和创业计划的考量,作者希望能在这些行业中深入了解,积累经验,并通过美国公司申请绿卡。Palantir 满足了这两点要求,因此成了不二之选。 此外,公司的“人才密度”令人印象深刻。在加入前,他曾与医疗板块的早期成员交流(如 Nick Perry、Lekan Wang 和 Andrew Girvin),并在后续与早期业务运营与战略团队面试中更加确信,这是一群极具竞争力、充满理想主义与哲学兴趣的人。他们会在业余时间阅读哲学,尝试各种极端饮食法,还把100英里骑行当作消遣。这种气质显然与 PayPal 早期文化一脉相承。 正如早期 PayPal 成员 Yishan Wong 所言,PayPal 的与众不同之处并非天赋,而是来自领导层的极端投入与强烈竞争精神。Palantir 也继承了这一特点。 作者还回忆起初次与联合创始人 Stephen Cohen 的对话:办公室空调设为摄氏15度,一堆奇怪的设备用于降低二氧化碳含量,还有一杯装满冰块的水。整个交谈过程中,他不断咀嚼冰块——据说这对认知有益。 他也面试了首席执行官 Alex Karp,一位充满哲学思考的人物,其面试风格极具个性:无简历、无岗位描述,仅靠几分钟的抽象对话观察候选人如何拆解问题。与 Karp 的对话甚至不涉及技术,而是花一小时讨论维特根斯坦。 Palantir 的创始团队多为哲学出身(Karp 与 Peter Thiel…
OpenAI宣称在享有盛誉的国际数学竞赛中斩获金牌,引发Google激烈争议。
OpenAI声称其未发布的推理模型在享有盛誉的国际数学奥林匹克竞赛(IMO)中获得金牌,引发了激烈的争议,在全球数学竞赛界掀起一场风波。 正值多数高中生享受假期之际,全球最优秀的数学学子齐聚IMO这一被视为世界上最具权威的数学竞赛。与此同时,人工智能实验室也派出自家大型语言模型(LLM)参与角逐。据研究人员Alexander Wei在社交平台X上透露,OpenAI的一款尚未发布的模型表现出色,得分足以斩获一枚金牌。 据介绍,该模型在六道试题中解对了五题,获得了42分中的35分,达到了金牌标准。Wei指出,每道题的评分均由三位曾获IMO奖牌的前选手独立完成,最终评分在三人一致达成共识后敲定。这些题目涵盖代数与初等微积分,要求参赛者具备高度的创造性思维。因此,AI模型能够推理出复杂、冗长的数学证明,被视为一项令人惊艳的技术成就。 然而,OpenAI公布这一结果的时机却引发了争议。据称,IMO方面曾要求与其有正式合作的AI实验室,在比赛结果揭晓后等待一周再发布公告,以免抢去学生参赛者的风头。这一说法来自AI治理与安全研究所(AI Governance and Safety Institute)负责人Mikhail Samin,他在X平台发文指出,OpenAI并未与IMO就成绩验证进行官方合作,而是与个别数学家合作、独立验证模型得分,因此不受此类协议约束。Mashable已就此联系Samin,寻求进一步评论。 不过,有关人士传出,这一举动令IMO组织方感到不悦,甚至有人形容OpenAI的行为“无礼”且“不合时宜”。相关传闻还包括Samin发布的一张截图,其中有人名为Joseph Myers、据称是两届IMO金牌得主,对此表达不满。Mashable已联系Myers,但对方尚未公开确认截图内容的真实性。 对此,OpenAI研究人员Noam Brown回应称,该团队是在IMO闭幕式结束后才公布结果,以此尊重一位IMO组织者提出的请求。Brown还指出,OpenAI并未与IMO建立任何联系,也没有参与任何有关发布时间的协定。 与此同时,谷歌DeepMind方面则被曝已与IMO正式合作,并于当天下午宣布,旗下“升级版Gemini模型Deep Think”在IMO中正式达成金牌标准。根据官方声明,该模型“由IMO协调员按照与学生相同的评分标准进行正式评审和认证”。这一声明的措辞与发布时间,引发外界对其背后意图的种种猜测。 虽然不少人热衷于追剧《真实主妇》,但在精英数学竞赛这一圈层中,遵守比赛礼仪和时间安排的细节,才是真正让圈内人士津津乐道的“高端戏剧”。
没人真的知道该怎么用AI开发软件
上周,一个名为 Protocollie 的项目上线。整个开发过程用了4天,使用了作者并不熟悉的编程语言,也没有真正“写”代码——全是靠AI完成的。尽管许多人追问“这是怎么做到的”,但作者坦言:可能下次再做一遍也不会一样。 整个过程,就是在边走边编。 没人照着剧本走的“伟大实验” 每当一项新技术诞生时,总有个阶段是大家假装自己很懂。AI开发,现在可能已经过了那个阶段,也可能还没到。但无论如何,当下正处于一个有趣的“中间地带”——变化太快,没人能装作专家。 关于“专家”这个词,作者也有反思:成为专家需要多久?Malcolm Gladwell说是1万小时,但那是讲小提琴和国际象棋——那些规则不会每两周就变一遍的技能。而AI开发不一样,它的规则会在一夜之间彻底改写。 放眼当前,即便是世界上最有经验的AI协作程序员,也不过干了两年。这意味着所有人都是初学者。并且,随着技术飞速进化,这种“永远初学”的状态可能会成为常态。 正在运行的实验(随时可能变) 作者口中所谓的“系统”,其实并不是精心规划的,而是慢慢积累出来的。就像办公桌上堆满了文件,有一天突然发现“咦,这像是个归档系统”。 一开始,是一个文档——记录AI Claude对架构的理解,以免重复讲解。接着第二个文档出现了——因为同样的问题反复出现,需要集中解决。然后是第三个——因为流程也在重复,于是干脆整理下来。再之后是第四个——因为项目里嵌套着许多“小故事”,它们需要一个容器。 这四个文档的出现,并不是因为“四”是最优解,只是碰巧在第四个的时候停下了。 有时候,作者也怀疑:是不是只是在“扮演程序员”?就像小朋友玩“过家家”,假装“这个文档是架构”、“这个过程是正式流程”、“我们好像知道自己在干什么”。 但结果是真实的——软件能编译、能运行、有人在用。或许,这种“假装”本身就是关键?也许,所谓的方法论,本质上就是一种“大家共同相信的虚构”,恰好能产出结果。 四份文档的简要介绍: 在AI时代中的“时间扭曲” Protocollie开发的第一个星期天,作者体验到了一种全新的工作方式。他一边喝咖啡、一边随手测试Claude生成的代码,确认能运行就提交,再说一句“现在帮我写服务器UI”,然后离开。 吃早饭的时候,Claude在写代码。陪孩子玩的时候,Claude在写代码。看电视的时候,Claude还在写代码。 每隔一小时回来检查五分钟,提一句反馈,“记住上次连接的服务器”,再继续日常生活。 这就像是拥有了一个勤奋、专注、永不走神的初级程序员,对方每分钟能输出上万字,永远不会分心刷推特。 整个星期天,作者真正“工作的时间”可能不到90分钟,其余时间都是Claude在工作,而自己只是偶尔出现做决策,或者测试一下。 这种“时间扭曲”打破了作者对工作的所有认知模型: 有时候,这甚至让人感到内疚。好像在“作弊”。仿佛某位Hacker News上的老手随时会跳出来说:“请停止边做煎饼边开发软件,这不合规,请回到你应有的挣扎中去。” 关于“扔意大利面” 作者最近向一位朋友比喻说,AI开发现在还处于“往墙上扔意大利面”的阶段。对方纠正说:“你是说看哪根粘住吧?”“不,”作者说,“重点根本不是粘住与否,重点是‘扔’的动作。” 每个怪异的流程、每次失败的尝试、每个“不该成功但它成功了”的时刻,都是我们这个时代共同实验的“数据点”。作者的“四文档系统”只是那些恰好组成一个可以辨认图案的面条组合。明天它也许就会滑下墙面——没关系,到时候再扔。 “编程”到底意味着什么? 作者从HTML手工排表的时代一路走来,亲历了每一波技术抽象的演进:从汇编到C,从C到Java,从Java到Ruby,再到如今的“我说出想法,它就实现”。 但这次的变化,不只是又一层抽象,它是完全不同的东西。 Protocollie的构建过程中,作者既不是在“编程”,也不是“非编程”。他甚至不知道该怎么定义这个行为。 今天的核心技能,已经不是语法、算法,甚至不是系统设计了。而是类似于:“具象的渴望”、“精确的想象”、“结构化的愿望”。 四份文档,变成了哲学反思 回头看,作者意识到这些文档本质上不是技术文档,而是关于记忆与遗忘的哲学产物: 也许所有的文档,本质上都是写给未来那个迷茫的自己的留言。 不确定的高原期 所有人又变成了“初级程序员”。但不是传统意义上“终有一天会变资深”的那种,而是一种永久性的初级状态——技术的演化速度,远快于经验的积累速度。 就像在一片物理法则不断变化的海洋上冲浪。刚学会了浪怎么起,它就开始横着来、倒着走,甚至变成了飞鸟。 对于某些人来说,这是恐惧;而对另一些人,则是解放。 接下来会怎样? 没人知道。作者也不确定下周会做什么、怎么做、还会不会用文档,甚至怀疑现在的这些系统是否还有意义。 但这种不确定性,作者已经学会接受——甚至喜欢上了。 在这个时代,每个开发者同时都是专家(对自己那套怪流程)也是新手(对下一波变化)。四天能完成原本需要数月的工作。最重要的能力,变成了**“清晰表达自己的想法给一个比你还快的打字手”**。 作者的四份文档,不是标准,不是模板,只是过去某个星期的化石。已经过时,已经开始令人怀念。 正是这种感觉,让此刻变得如此充满电流:人们在退潮的海滩上建起一座座沙堡,知道海水终将归来。但此时此刻,他们正兴高采烈地创造着属于这一刻的软件。 明天,也许有人会发明“三文档系统”。或“五文档系统”。甚至完全不写文档,只靠愿望。 而这些可能……也会起作用。 那四份文档?现在已公开在GitHub上了。不是范式,也不是手册,更像是考古学材料:“2025年的某个星期,有人曾这样干过一次。” 读一读也好。看着困惑也好。然后丢开,走自己的路。 它们不是指南,只是一个佐证:某种做法,曾经奏效过。 就像远足时看到的别人的路标——知道有人走过这条路很有帮助,但以为这就是自己的路,可能就错了。