回顾过去短短六周的经历,Claude Code已显著改变了开发人员与大规模代码编写和维护之间的关系。尽管输出代码的质量仍保持不变,但Claude Code带来了前所未有的表达自由,使编程从逐字逐句的构建过程变成了“场景塑造”的能力。这种转变堪比“摄影技术的诞生”对传统绘画的影响 —— 手工绘画的魅力已难以与之相提并论。 在Claude Code的加持下,开发者已不再需要亲手书写每一行代码,但依然对所交付成果负有完全责任。这种能力所代表的不仅是技术的演进,更是对“什么是编程”的重新定义。 虽然这让部分人感到不安,但这种剧烈的变化已成为2020年代中期的常态。尽管LLM的社会影响已开始显现,甚至可能带来更严重的后果,但Claude Code代表的变革已无法逆转,将彻底改变人们对软件开发的认知。 六周成果回顾 这篇文章是对早前撰写的《与Claude共写代码》一文的延伸。在Puzzmo的工程实践中,过去六周发生了令人难以置信的变化。 维护成本大幅下降 在传统模式下,团队通常需要数周时间才能完成诸如“将JS代码库迁移到TypeScript”、“更新到最新的Swift版本”或“切换到monorepo”的工程项目。这些项目本质上是技术债务或基础架构优化,过程繁琐、回退频繁。 但自从引入Claude Code后,仅凭一人之力,即可完成以下全部任务: 这些工程均由一人在“主任务之外”的时间独立完成,并未延长工作时长。这些本属多年“技术债务积压”的项目,在短短六周内得以完成,令内部震惊。 Claude Code的出现,已将“抽出时间做基础设施优化”变成了一件代价极低的事情,甚至可以在会议前5分钟开始尝试,并在会后决定是否继续深入。 先尝试,再决策 面对前端测试策略的难题,以往或许会等待专职工程师上任后再处理,但现如今,可以借助Claude Code快速开展试验。例如,连续两周为每一个前端PR自动生成测试代码,然后再删除。虽然每次仅增加5分钟工作量,但却让开发人员获得了大量关于测试结构的洞察。这一习惯在数周后演变为系统性测试解决方案的基础。 类似的实验还包括CMS中为CRUD资源创建抽象层,虽然未完全成功,但探索本身即有价值。 “双仓库工作流”的开发实践 相比复杂的worktree机制,有开发者采用更简单的“双仓库+不同VS Code配置”的方法来同时处理多个Pull Request,每个仓库代表一个独立的任务。开发服务器自动关闭冲突端口,便于在Claude生成代码期间并行操作其他任务。 Claude对游戏设计协作的影响 在传统流程下,一个新游戏需要: 这一过程往往耗时数周。Claude Code的加入使原型开发变得简单高效。团队专门为此新建一个“prototypes” monorepo,模仿“games”仓库结构,但要求更灵活。游戏设计师可在数小时内完成原型并通过CMS上线管理员预览。 该流程已成功用于“Missing Link”游戏的上线,成效显著,也带来了新的问题:非正式代码可能被误认为正式发布。因此团队需权衡: Claude Code的高效使这些原本遥不可及的任务成为日常,因此也需要更严谨的上线策略。 借助Claude处理Issue分流 在每周GitHub triage会议上,开发者会尝试让Claude Code直接生成PR草案。对于上下文充足的问题,Claude Code通常可以一次性完成小型任务的初稿,提高处理效率。 内部使用Claude Code成功的成员特征 那些同时具备产品、技术能力与探索精神的成员,往往能最早感受到Claude Code的威力。一位成员表示,它帮他摆脱了“迈出第一步”的焦虑。 Justin Searls提出的“从小提琴手到指挥家”的开发者演变论,在Puzzmo得到了充分印证。拥有自主性、能跨越职能边界的成员,正借助Claude Code实现更大规模的协作。 Claude Code为何在代码库中运作良好 Puzzmo采用monorepo架构,将所有项目分为两个主环境,使从数据库schema到前端组件的完整流程可在一个PR中完成。这种架构为Claude Code提供了充足的上下文,使其能理解诸如“在user模型中添加xyz字段并显示在某页面”这类模糊指令。 使用的技术栈包括React、Relay、GraphQL、TypeScript、StyleX和Bootstrap。这些显式且普遍使用的技术已深度嵌入Claude Code的训练语料中。Claude甚至能自行运行Relay编译器并据此增量校验改动。 这些代码大多属于普通CRUD应用,代码库不大也不老,最旧的项目也不早于2021年。Puzzmo的日常任务已成为多个模型(如GLM-4.5)测试标准的基准,占整体测试任务的39/52。 变化难以量化但切实可感…
Author: aitrendtrackers@rengongzhineng.io
Anthropic的商业模式与战略
Anthropic所秉持的使命聚焦于安全性与责任感,而这一使命必须在人工智能市场的严酷现实中求得生存。公司联合创始人兼首席执行官达里奥·阿莫代伊(Dario Amodei)详细阐述了Anthropic采取的一种不同寻常的商业战略,这种策略很可能也适用于整个AI行业。在被问及盈利问题时,阿莫代伊解释称,公司之所以刻意维持不盈利状态,是因为每一个新模型都被视为对未来的一次巨大再投资。他用一个思想实验进行了说明:一个在2023年花费1亿美元训练的模型,可能在2024年创造2亿美元的收入。但如果公司在同年投入10亿美元来训练其继任模型,最终将出现8亿美元的亏损。阿莫代伊指出:“每个模型都是盈利的,但公司每年都是亏损的。” 阿莫代伊认为,将重点放在企业客户而非普通消费者上,能更有效地推动更智能的AI模型发展。例如,让模型在生物化学领域从本科生水平提升至研究生水平,这对99%的消费者而言毫无吸引力,但对辉瑞这类公司来说,则可能是“全世界最重要的事”,其价值“可能是原来的十倍”。这类激励机制使模型更有可能用于解决现实世界中的问题,从而更符合实现AI积极用途的目标。 在AI开发过程中,最大的成本并非模型运行本身,而是对下一代模型训练的持续投资。阿莫代伊对此进行了成本拆解:推理过程,也就是模型的实际运行,“已经相当盈利”;人员与建设成本在整体开支中也并非决定性因素。这种不追求盈利的状态,是一种有意识的战略选择,背后基于一种信念:即规模法则仍将持续发挥作用,公司必须始终站在技术发展的前沿。 对竞争对手及AI行业的批评 对于英伟达首席执行官黄仁勋所提出的指控,即阿莫代伊“认为只有他能安全地构建AI,因此想要控制整个行业”,阿莫代伊给予了强烈反驳。他回应称:“我从没说过那种话。这完全是无稽之谈。” 阿莫代伊阐明了Anthropic的理念——推动一场“向上竞赛”,即通过设定积极的行业标准,引导整个行业共同前行。他举例称,Anthropic发布的《负责任扩展政策》(Responsible Scaling Policy)曾为其他公司内部推动类似标准的人员“提供了发声的许可”。这种机制促成了一种“无论谁最终领先,大家都会受益”的行业动态。 阿莫代伊还尖锐批评了Meta首席执行官马克·扎克伯格的人才招募策略。他认为Meta“试图购买一种无法购买的东西,那就是对使命的认同”。据阿莫代伊透露,Anthropic的许多员工在面对Meta提供的高薪时选择了拒绝,有些甚至“连和马克·扎克伯格谈话的兴趣都没有”。Anthropic有意不对这些跳槽行为进行加价挽留,以避免打破公司内部以公平为核心的文化氛围并引发恐慌。他坦言,对Meta这种做法的成功前景“持相当悲观的看法”。 对于当前业界广泛讨论的开源AI议题,阿莫代伊认为这是一个“伪命题”。他指出,过去技术周期中常用的词汇,比如“商品化”,并不适用于AI。在所谓的“开放权重”模型中,人们虽然可以看到模型的权重参数,但并不能真正理解其内部运作原理。而此前那种许多人协同开发软件带来增量收益的模式,在AI模型中也“并不适用”。阿莫代伊强调,在AI领域,唯一重要的就是质量:每当一个新模型发布,他关注的并不是它的开源许可,而是“这是不是一个好模型?它是否优于我们现有的模型?” 对AI技术发展的见解 阿莫代伊指出,从OpenAI的GPT-2和GPT-3的发展历程可以看出,AI的进步与安全问题始终密切交织。这些模型最初其实是安全研究的副产品。阿莫代伊与其未来的联合创始人共同开发了“基于人类反馈的强化学习”(RLHF)技术,以更好地控制AI模型。然而这一技术在较小规模的GPT-1模型上无法奏效,因此必须扩大规模至GPT-2和GPT-3,以便在更复杂的系统上进行测试与完善。 在此背景下,阿莫代伊提醒人们切勿低估AI发展的速度。他认为,大多数人“都被指数式增长的趋势所蒙蔽”。他将这一趋势比作上世纪90年代的互联网技术:当一种技术每六个月就翻倍时,它在实现重大突破前两年仍可能看似发展平缓,但实际上重大变革已近在眼前。Anthropic公司自身的高速增长——在不到三年内年化营收从零跃升至超过40亿美元——就是这种发展动态的直接印证。 尽管整体持乐观态度,阿莫代伊依然保持现实主义视角。他承认,在未来两年内,AI模型的进展存在“20%到25%”的可能性会因尚未明确的技术障碍或在数据与算力方面的瓶颈而陷入停滞。如果真的如此,他对于自己此前的警示被证明是错误的“完全不会介意被人取笑”。
Mark zuckerberg 《Personal Superintelligence》的公开信
2025年,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在一篇题为《Personal Superintelligence》的公开信中,表达了对“个人超级智能”(Personal Superintelligence)愿景的坚定信念与战略承诺。他指出,尽管当前AI系统自我改进的能力仍较为初步,但其发展势头已无法忽视,而超级智能(Superintelligence)的实现已经“近在眼前”。 扎克伯格表示,人工智能将在未来几年内全面提升现有系统,并催生出今天尚无法想象的新技术与新发现。但关键问题是:人类将如何引导超级智能的方向? 他认为,这场技术飞跃虽划时代,却也符合人类发展的一贯路径。回顾历史,不到两百年前,全球约九成劳动力仍从事农业生产,仅为求温饱。而技术的持续进步已逐步释放人类,从生存本能走向创造力、科学、艺术、人际关系乃至生活的享受。超级智能将进一步加速这一进程。 不过,扎克伯格强调,相较于AI所带来的“物质丰裕”,更深远的影响将来自“个人能力的解锁”。每个人将拥有一个“了解自己、致力于帮助实现个人目标”的超级智能助手。它不仅能协助用户实现愿景、创造新内容、体验奇幻冒险,还能增进与亲友的关系,并引导人成为理想中的自己。 在此背景下,Meta提出自己的独特战略定位:为所有人带来“个人超级智能”,并使其成为“人类意愿延伸的工具”,而非单纯集中调度的产业替代系统。这一理念与其他科技公司的中心化方案形成鲜明对比。后者试图将超级智能用于“替代所有有价值的劳动”,进而令社会依赖其所产出,再分配收益。 Meta认为,推动科技与生活融合的核心在于将技术赋能于个体,正是个体选择与追求所推动了科学、健康、文化与繁荣的发展。扎克伯格表示,这一历史规律在未来将更加重要。 随着技术进步,Meta预期用户将减少在传统“生产力软件”中的时间,而更多投入于创作与联结。他设想,未来最有价值的AI将是“真正了解用户的个人超级智能”——它能感知用户所见所闻、在全天候互动中把握环境上下文,从而成为个人的主计算设备。例如智能眼镜等设备,将成为这一交互新纪元的关键载体。 尽管Meta致力于普及超级智能,公司亦承认这类系统将引发前所未有的安全挑战。未来在开放源代码等问题上需谨慎对待,且必须严谨设计风险缓解机制。然而,Meta依然相信,一个自由社会的建立,必须基于“尽可能赋能每一个人”。 扎克伯格称,本十年余下的时间,将是决定超级智能发展路径的关键时期——是成为人类的“赋能伙伴”,还是沦为社会结构的替代力量,将取决于今天所做的选择。 最终,他代表Meta郑重表态:公司拥有构建所需的基础设施与技术实力,并将集中力量,为全球数十亿用户构建“面向个人赋能的超级智能”。这一愿景,已成为Meta未来的核心方向。
谷歌正在美国测试一项基于机器学习的年龄识别技术
2025年7月,据报道,谷歌正在美国测试一项基于机器学习的年龄识别技术,旨在在旗下所有产品中根据用户年龄进行内容筛选与功能调整。这项名为“年龄保障(Age Assurance)”的系统将通过分析用户在Google账户中的行为数据——包括搜索内容类型及在YouTube上观看的视频类别——来判断用户的年龄。 一旦系统判定某位用户年龄低于18岁,谷歌将向其发送电子邮件,说明在各类产品中的使用体验将发生哪些变化。对于这类未成年用户,谷歌将采取以下限制与保护措施: 若用户认为自己的账户被误判为未成年人账户,可通过提交政府颁发的身份证明照片或自拍照进行申诉,以证明真实年龄。 谷歌表示,此前已在某些市场测试过类似的年龄估算技术,并取得良好效果,但未具体说明测试市场。公司方面称:“年龄保障可以帮助我们确保成年人能够获得他们所需的信息与服务,同时为年轻用户提供适当保护。我们的方法结合了年龄估算与必要时的年龄验证。” 目前,不止谷歌在推动年龄识别系统,Instagram与Roblox等平台也已开始采用AI工具来识别用户年龄。与此同时,美国多个州已经出台或提出相关立法,规范未成年人内容接触的范围与形式。英国方面,在《在线安全法》通过后,也已要求平台开始实施年龄验证机制。 此次谷歌的行动,是其对未成年人在线保护承诺的延伸。公司本周早些时候已在YouTube平台推行了类似举措,而现在这套年龄识别与内容筛选系统正在扩展至整个Google账户生态体系。
测量软件工程效率
在测量软件工程效率时为何应关注系统层面而非个体表现,并引用最新研究指出开发周期时间(cycle time)背后存在极大的变异性和误解。 文章开篇指出了软件工程的三个不变现实: 然而,在这些动态变化之下,管理层仍然期望看到“运行正常”的指标图表——即绩效不断上升。尽管行业已经超越了早期用代码行数评估效率的粗放阶段,转向诸如DORA与DX Core等更为成熟的工程指标体系,但这并不意味着软件开发过程本身变得清晰有序。软件开发本质上依然混乱复杂,没有所谓的“银弹”可以让其加速。 在此背景下,作者引用了一篇新论文——《No silver bullets: Why understanding software cycle time is messy, not magic》,该研究分析了“周期时间”这一广受青睐的工程生产力指标,并指出:提升软件交付速度更可能依赖系统层面思维,而非专注于个体干预。 周期时间的误导性 周期时间指的是从任务开启到关闭所经历的时长。该指标广受一些工程领导者欢迎,理由是:更短的周期时间意味着尝试更多、验证更快、反馈更及时,从而提高整体业务效率。 研究分析了超过200家组织中约1.2万名开发者的数据,从个体与团队层面探索哪些因素影响了周期时间,并评估这些因素造成的变异幅度。 有哪些变量影响周期时间? 以下变量被纳入分析,并通过实际数据进行建模: 分析结果显示: 虽然这些趋势与预期相符,但研究也指出:所有变量的影响都极小,远低于数据中天然存在的波动性。 个体差异 vs. 系统性波动 一个重要发现是:即使是同一名开发者,在不同月份中的周期时间波动也极大,远超不同开发者之间的差异。这意味着,通过这些周期性度量指标判断某个开发者的“真实效率”几乎是不可能的。 “10倍工程师”的流行概念建立在“个体表现具有稳定差异”的假设上,而这一研究则明确驳斥了这一点——开发者的工作节奏受太多变量影响,任何单点快照都难以捕捉其长远表现。 此外,研究也承认未被追踪的工作同样影响巨大。例如某些开发者在完成分配任务后,可能会去修复构建系统、优化测试流程、或进行小范围重构,而这些“系统性维护”往往并未体现在PR记录中。 系统性思维的重要性 研究结论强调,若要提高软件交付速度,应聚焦系统层面的改进,而非在个体层面进行奖惩或微观干预: 正如作者所言:“个体的月度平均周期时间无法预测未来的表现,其噪声远大于信号。”开发过程就像天气:短期内难以预测,但长期来看可观测趋势。 结论:系统优先,个体次之 周期时间的吸引力在于其表面上的易测量性,但也正是这种简化思维,可能导致管理层产生错误的理解。个体的周期时间如同一个快照,而软件开发是一个不断演变的系统。版本审核、合并、测试、上下文切换等流程本身就是为了引导和控制系统的可预测性。 因此,组织在测量与优化工程效率时,应: 这一研究为工程管理提供了一个清晰信号:不要将周期时间变成评估个体的工具,而应作为理解系统表现的窗口。
微软OpenAI展开深入谈判
微软公司(Microsoft Corp.)正与人工智能公司OpenAI展开深入谈判,寻求达成一项新的协议,以在未来持续获取OpenAI的核心技术资源。这项协议旨在解决双方合作中最具挑战性的问题之一:如何在OpenAI实现通用人工智能(AGI)之后,继续保障微软的技术访问权限。 据多位知情人士透露,谈判已进行多轮,双方可能在未来数周内敲定最终协议。新协议预计将修改现有条款,确保即使OpenAI宣布其已实现AGI,微软仍可继续使用其最新模型与技术。根据当前合约,一旦OpenAI实现AGI,微软的部分使用权将自动终止。 据了解,OpenAI首席执行官山姆·奥特曼(Sam Altman)与微软首席执行官萨蒂亚·纳德拉(Satya Nadella)本月早些时候曾在爱达荷州太阳谷举行的Allen & Co.大会上就此进行了讨论。尽管谈判氛围整体积极,但消息人士也警告称,协议尚未最终敲定,仍可能面临新的障碍。 微软自2019年以来已向OpenAI投资超过137.5亿美元,是该初创公司最大的外部资助者之一。此前的协议规定,一旦OpenAI达成其设定的“通用人工智能”目标,微软将失去部分对其技术的访问权。当前谈判的目标之一,就是避免这种“技术断供”在协议期满前(即2030年)发生。 此次谈判还伴随着OpenAI内部结构的重组,OpenAI正试图由一个非营利组织向以盈利为导向的结构过渡。该过程复杂多变,还受到监管审查以及特斯拉首席执行官埃隆·马斯克的诉讼挑战。马斯克曾是OpenAI早期的支持者,后因理念不合退出,并指控该公司背离其非营利使命、欺骗投资者。OpenAI方面否认相关指控,称马斯克是在试图阻挠公司的发展。 除了调整技术访问权,OpenAI也希望在收入分配与知识产权上获得更大自主权。据知情人士透露,该公司希望能调整微软目前持有的股份比例,并争取更大份额的技术营收分成,同时希望在不依赖微软Azure平台的前提下拓展客户,尤其是向政府机构提供服务。 微软则希望确保在当前合约到期后仍可继续使用OpenAI的技术,尤其是新一代模型和关键工具。据悉,双方正在讨论微软在重组后新OpenAI中的持股比例,或在30%至35%之间。若微软认为该比例及其它条件不具吸引力,其也有可能选择维持现有协议。 在AGI方面,双方仍存在较大分歧。OpenAI官方定义AGI为“能在多数具经济价值的工作中超越人类的高度自主系统”。当前合约中有关AGI的条款较为复杂,设有技术与商业两个触发条件——一旦达到相关门槛,微软可能失去OpenAI全部技术的访问权,包括AGI之前所开发的成果。 OpenAI董事会拥有认定是否实现AGI的最终决定权;在商业方面,若公司累计利润达到1000亿美元、足以偿还微软投资回报,也将触发相关条款。虽然微软有权对此类认定提出质疑,但若双方无法达成共识,可能最终诉诸法律途径解决。此外,合约中还设有限制微软自主开发AGI技术的条款。 在此过程中,微软对合约条款的部分修改表现出一定灵活性。例如,在OpenAI以65亿美元收购由iPhone设计师Jony Ive联合创立的初创公司io时,微软放弃了部分相关知识产权权利。但在另一项收购中,微软的立场则较为强硬。据悉,OpenAI曾尝试收购AI代码工具开发商Windsurf,但由于微软拒绝放弃其知识产权访问权限,该交易最终告吹。Windsurf与微软旗下产品存在直接竞争,最终,其创始人团队及部分员工选择加入谷歌,成交金额达24亿美元。 业内分析人士认为,若此次协议能够达成,将消除OpenAI重组过程中的一项重大障碍。高盛分析师Kash Rangan在接受彭博电视采访时指出,双方合作的深度令其都有显著的利益要素需要保障,这项协议的达成对两家公司而言都将是一个积极信号。
ChatGPT正式推出了名为“学习模式(Study Mode)”
据《卫报》2025年7月29日报道,为了鼓励学术领域对人工智能工具的“负责任”使用,ChatGPT正式推出了名为“学习模式(Study Mode)”的新功能。该功能旨在遏制大学中日益严重的AI滥用问题,并引导学生以更负责任的方式使用这一技术。 根据开发商OpenAI发布的信息,“学习模式”可通过ChatGPT界面中的工具按钮进入,其核心在于通过类似逐步展开的学术课程的形式,带领用户理解复杂主题。例如,在OpenAI展示的一个案例中,当用户请求帮助理解贝叶斯定理(Bayes’ Theorem)时,ChatGPT会首先询问用户掌握的数学水平和学习目标,然后再逐步引导其理解该数学公式,而不是直接提供完整答案。 OpenAI此举正值高校学术诚信遭遇AI挑战之际。据《卫报》针对英国高校学术违规行为的调查显示,2023至2024学年,共记录近7000起与AI工具相关的作弊案例,相当于每千名学生中约有5.1人涉案;而2022至2023学年,这一数字为每千人1.6起。 OpenAI方面指出,美国大学生中有超过三分之一正在使用ChatGPT,其中大约四分之一的对话与学习、辅导及学校作业相关。“学习模式”的设计目的在于避免学生直接获取完整的文章或考试答案,而是推动他们理解知识背后的原理。OpenAI在说明中表示,该模式“不会在未引导学生理解的前提下直接提供解决方案”。 不过,OpenAI也坦言,即使推出了“学习模式”,学生依然可以选择绕过该功能,利用ChatGPT获得学术捷径。 OpenAI的国际教育负责人Jayna Devani表示,公司希望ChatGPT被用于正向的学习过程,而非助长学术不端。“如何让学生认识到,与ChatGPT建立负责任的互动关系,是推动学习的一部分?这项功能就是我们迈出的第一步,”她说。 Devani进一步指出,要解决AI在教育中的滥用问题,仅靠技术公司是不够的,整个教育行业需要就评估方式和“什么是负责任的AI使用”达成明确共识,并出台清晰的指导方针。 据介绍,新推出的“学习与学习(Study and Learn)”模式,尤其适用于课后作业辅导、考试备考以及新知识的学习过程。此外,该模式还支持图片互动,用户可以上传过去的试题图片,由ChatGPT协助解析。 OpenAI还透露,在开发过程中,公司与教师、科学家和教育专家合作,确保新工具符合教学实际。但同时也提醒用户,目前在多轮对话中可能仍存在不一致行为和错误情况。
构建高性能系统的“vibe coding”实践回顾
近年来关于“vibe coding”的文章层出不穷。Indragie Karunaratne、Edward Yang 与 Cloudflare 的一些案例引发了广泛关注。这些项目往往有三个共通点:创作者本身已是该领域专家、应用为只读型因而容错度高,或者是在一个标准明确、设计空间有限的领域中展开。 然而,作者最近使用代理型编码方式构建了一个系统,目标是在24小时内抓取十亿个网页。这个项目的不同之处在于: 这篇文章详细说明了 AI 编码方式的助益与局限,并配有代码片段与对话日志链接。 结论预告:整体而言,AI 赋能效果显著。 作者主张,这些经验在构建其他高性能系统时也具有参考价值,尽管有一定前提条件。 一、工具与设置 作者使用了 Cursor(一个支持 AI 助理的 IDE),主要搭配 Claude 模型进行开发。没有使用后台 Agent(当时仍处于预览阶段)。尽管一些工程师如 Steve Yegge 早已将此类“聊天编码”模式称为“即将成为历史的古董”,作者仍选择坚持使用 Cursor,理由包括: 在整个项目中,总共有 32,169 行代码变动,仅有 1253 行是手写,约占 3.75%。 项目于 5 月底开始,当时仍是业余时间进行(最初使用 Gemini 2.5 Pro,后转为 Claude 4 Opus)。经历了 8 套完全不同的系统设计与无数实验后,作者利用 7 月 4 日所在的假期专心推进,最终实现目标。回顾整个过程,若能使用后台代理或并行机制,或许能节省大约一周的开发时间。 二、问题本质 AI 能带来多大帮助,取决于问题本身的形状——包括: 本项目涉及一个陌生领域。虽然作者在实时 C++、网页应用、开发者工具和 GPU 内核方面经验丰富,但数据密集型系统与所用的数据库技术对他而言皆属全新。…
回顾 Palantir:八年之旅的反思
Palantir 近期可谓炙手可热。该公司刚刚加入标准普尔500指数,股价一路飙升,市值接近1000亿美元。风投纷纷追逐前 Palantir 员工,希望能参与投资。 然而,对于那些长期在 Palantir 工作或已经离职的员工而言,这种热度显得颇为陌生。尤其是在2016至2020年间,声称自己在 Palantir 工作并不讨喜。该公司常被贴上“间谍技术”、“NSA监控工具”等标签,甚至更糟。公司外时常有抗议活动。即便是那些在道德层面上对公司没有疑虑的人,也往往将其视作一个伪装成软件公司的咨询机构,或是更高端的人才套利平台。 尽管作者本人于去年离职,但他此前从未公开分享过在 Palantir 的经历与反思。也正是因为外界对公司的理解存在诸多误区,他希望能以一个在公司工作八年的人的视角,尽可能还原真相。 一、加入的原因 作者于2015年夏天加入 Palantir,最初在伦敦的新办公室工作,之后转至硅谷,最后派驻华盛顿特区,担任“前线部署工程师”(FDE)。当时公司约有1500人,办公室分布于帕洛阿尔托总部、纽约、伦敦等地。如今公司人数已增长至约4000,总部迁至丹佛。 加入 Palantir 的动机有两个: 首先,作者希望能在“困难行业”中解决真正有意义的问题。个人兴趣所在的医疗与生物领域,正是 Palantir 当时正在初步涉足的方向。彼时,大多数科技公司热衷于社交网络(如Facebook、LinkedIn、Quora)或消费类应用(如Dropbox、Uber、Airbnb),而很少有人聚焦于航空航天、制造业、网络安全等“棘手”的实体经济板块。Palantir 是少数愿意投入这些领域的硅谷公司之一。 其次,出于移民和创业计划的考量,作者希望能在这些行业中深入了解,积累经验,并通过美国公司申请绿卡。Palantir 满足了这两点要求,因此成了不二之选。 此外,公司的“人才密度”令人印象深刻。在加入前,他曾与医疗板块的早期成员交流(如 Nick Perry、Lekan Wang 和 Andrew Girvin),并在后续与早期业务运营与战略团队面试中更加确信,这是一群极具竞争力、充满理想主义与哲学兴趣的人。他们会在业余时间阅读哲学,尝试各种极端饮食法,还把100英里骑行当作消遣。这种气质显然与 PayPal 早期文化一脉相承。 正如早期 PayPal 成员 Yishan Wong 所言,PayPal 的与众不同之处并非天赋,而是来自领导层的极端投入与强烈竞争精神。Palantir 也继承了这一特点。 作者还回忆起初次与联合创始人 Stephen Cohen 的对话:办公室空调设为摄氏15度,一堆奇怪的设备用于降低二氧化碳含量,还有一杯装满冰块的水。整个交谈过程中,他不断咀嚼冰块——据说这对认知有益。 他也面试了首席执行官 Alex Karp,一位充满哲学思考的人物,其面试风格极具个性:无简历、无岗位描述,仅靠几分钟的抽象对话观察候选人如何拆解问题。与 Karp 的对话甚至不涉及技术,而是花一小时讨论维特根斯坦。 Palantir 的创始团队多为哲学出身(Karp 与 Peter Thiel…
OpenAI宣称在享有盛誉的国际数学竞赛中斩获金牌,引发Google激烈争议。
OpenAI声称其未发布的推理模型在享有盛誉的国际数学奥林匹克竞赛(IMO)中获得金牌,引发了激烈的争议,在全球数学竞赛界掀起一场风波。 正值多数高中生享受假期之际,全球最优秀的数学学子齐聚IMO这一被视为世界上最具权威的数学竞赛。与此同时,人工智能实验室也派出自家大型语言模型(LLM)参与角逐。据研究人员Alexander Wei在社交平台X上透露,OpenAI的一款尚未发布的模型表现出色,得分足以斩获一枚金牌。 据介绍,该模型在六道试题中解对了五题,获得了42分中的35分,达到了金牌标准。Wei指出,每道题的评分均由三位曾获IMO奖牌的前选手独立完成,最终评分在三人一致达成共识后敲定。这些题目涵盖代数与初等微积分,要求参赛者具备高度的创造性思维。因此,AI模型能够推理出复杂、冗长的数学证明,被视为一项令人惊艳的技术成就。 然而,OpenAI公布这一结果的时机却引发了争议。据称,IMO方面曾要求与其有正式合作的AI实验室,在比赛结果揭晓后等待一周再发布公告,以免抢去学生参赛者的风头。这一说法来自AI治理与安全研究所(AI Governance and Safety Institute)负责人Mikhail Samin,他在X平台发文指出,OpenAI并未与IMO就成绩验证进行官方合作,而是与个别数学家合作、独立验证模型得分,因此不受此类协议约束。Mashable已就此联系Samin,寻求进一步评论。 不过,有关人士传出,这一举动令IMO组织方感到不悦,甚至有人形容OpenAI的行为“无礼”且“不合时宜”。相关传闻还包括Samin发布的一张截图,其中有人名为Joseph Myers、据称是两届IMO金牌得主,对此表达不满。Mashable已联系Myers,但对方尚未公开确认截图内容的真实性。 对此,OpenAI研究人员Noam Brown回应称,该团队是在IMO闭幕式结束后才公布结果,以此尊重一位IMO组织者提出的请求。Brown还指出,OpenAI并未与IMO建立任何联系,也没有参与任何有关发布时间的协定。 与此同时,谷歌DeepMind方面则被曝已与IMO正式合作,并于当天下午宣布,旗下“升级版Gemini模型Deep Think”在IMO中正式达成金牌标准。根据官方声明,该模型“由IMO协调员按照与学生相同的评分标准进行正式评审和认证”。这一声明的措辞与发布时间,引发外界对其背后意图的种种猜测。 虽然不少人热衷于追剧《真实主妇》,但在精英数学竞赛这一圈层中,遵守比赛礼仪和时间安排的细节,才是真正让圈内人士津津乐道的“高端戏剧”。