Meta 首席执行官马克·扎克伯格(Mark Zuckerberg)近期展开一轮“挖人行动”,试图为其新成立的“超级智能团队”招募顶尖 AI 研究员。据悉,Meta 向 OpenAI 和 Google DeepMind 的员工开出了高达一亿美元的薪酬包,邀请他们加入由前 Scale AI 首席执行官王晓磊(Alexandr Wang)领导、办公位置就在扎克伯格附近的 AI 团队。 OpenAI 首席执行官 Sam Altman 在与其兄弟 Jack Altman 合作录制的播客节目中证实了这些传闻。他指出,尽管扎克伯格提出的招聘条件极为优厚,但目前为止,Meta 的挖角计划并不成功,并在节目中对 Meta 进行了一些讽刺性点评。 Sam Altman 在节目中表示:“Meta 已经开始向我们团队的很多成员提出这些巨额邀请……像是一亿美元的签约奖金,年薪甚至更高。但至少到目前为止,我们最优秀的员工都没有接受。” Altman 认为,OpenAI 的员工之所以拒绝 Meta 的高薪诱惑,是因为他们相信 OpenAI 在实现通用人工智能(AGI)方面的机会更大,未来也可能成为更有价值的公司。他还指出,Meta 侧重高薪酬而非使命导向,可能不利于建立良好的公司文化。 据悉,Meta 曾尝试挖角 OpenAI 的核心研究员 Noam Brown 和 Google 的 AI 架构师 Koray Kavukcuoglu,但都未能成功。 Altman 强调,OpenAI…
Andrej Karpathy 谈“软件 3.0”:AI 时代的软件
不少人对 Andrej 在 YC AI Startup School 的演讲感到振奋。 第一部分 a:软件 3.0 —— 提示即是程序 此前在《Rise of The AI Engineer》中已有讨论,但这是对《Software 2.0》论文的自然延展,配合“最热门编程语言就是英语”这一观点。 Andrej 当年写《Software 2.0》时,就观察到它在特斯拉吞噬 Software 1.0 的趋势。而现在,他重新定义,迈入 Software 3.0 阶段。 他摒弃仅改良 Software 2.0 图表的做法,绘制了一个新的图表,展现 Software 1.0/2.0/3.0 三者并存且相互补充,指出“软件 3.0 正在吞噬 1.0/2.0”,并预测“大量软件将被重写”。 Andrej 仍将关注点放在“提示即是程序”上。作者与他在 2023 年对此略有分歧:Software 3.0 的“1+2=3”版本,是 AI 工程师近年远超提示工程师表现的关键原因之一。 第一部分 b:大型语言模型(LLM)类比 Andrej 将 LLM 比作:工具、制造代工厂、操作系统,甚至是分时共享主机…… 在《Power to the People》一文中,他指出,与传统昂贵的前沿技术相反,LLM 正显现出某种反向流动趋势。…
Scale AI 的王晓磊带着对整个 AI 行业动态的深入了解加入 Meta
据报道,Scale AI 联合创始人王晓磊(Alexandr Wang)将其卓越的人脉网络转化为 Meta 对其公司 Scale 的 143 亿美元投资,并获得了一份 Meta“超级智能”小组的新职位,直接向首席执行官马克·扎克伯格汇报。 王晓磊所创立的 Scale 公司专注于为机器学习模型提供由人工完成的数据采集工作,而他在 AI 行业内与有影响力人物建立的紧密关系,可能为 Meta 在竞争中提供重要优势。 王晓磊不仅与多家估值十亿美元的初创企业创始人保持密切联系,还与右翼意见领袖及美国共和党议员建立关系,并以擅长经营人脉、掌握行业动态而闻名。 过去几个月,他频繁与扎克伯格互动,甚至受邀前往后者位于加州太浩湖与帕洛阿尔托的住所,讨论人工智能的未来。据知情人士透露,扎克伯格对其高度欣赏。王也与 OpenAI CEO 山姆·奥特曼(Sam Altman)关系密切,二人曾于新冠疫情期间同住。据了解,Scale 于 2016 年进入 Y Combinator 孵化器,王与奥特曼的关系始于此。 与微软、亚马逊和谷歌等科技巨头斥资收购 AI 专家不同,Meta 此次并未收购一个拥有前沿模型或学术背景的技术公司,而是收购了一个“知道所有竞争对手在做什么的人”。Scale 专注于训练数据的标注与处理工作——这是构建 AI 模型的前期基础劳动,几乎所有大型 AI 公司都曾是其客户。 随着 Meta 持有 Scale 49% 的股份,扎克伯格在某种程度上掌握了对手的“生命线”:OpenAI 和谷歌等公司要么继续使用 Meta 拥有股份的 Scale,要么被迫寻找替代方案,从而可能放缓自身进展。据悉,OpenAI 将继续与 Scale 合作,而谷歌则考虑断开合作。 王晓磊的影响力早已延伸至科技圈之外。他自 19 岁创办…
软件工程人才如今如黄金般珍贵
软件工程正值黄金时期——但并非因外界所想的那些原因。 当前的软件工程就业市场状况不佳,远不如过去几年,尤其相比作者大学毕业时的情形。不过,尽管如此,软件工程人才仍拥有极高的杠杆能力和生产力,这是当今极为罕见的特质。 如果一位软件工程师既经验丰富,又具备特立独行的个性,那如今正是他们发挥致命威力的时刻。 许多人都有过想要自动化重复性工作的时刻。但真正会动手去实现自动化的,是另外一种人。 又或者,有人曾遇到过某些流程,看似机械且可重复,却因为中间涉及人工判断,无法完全自动化。如今,这些流程也可以自动化。而那个始终令人疑惑的问题——“整体来看,自动化是否划算?”——现在几乎总是可以得到一个明确的肯定答案:“是”。 举个例子:作者正在做一个创业项目,不过这并非本文重点,因此不详述具体内容。重点在于,作者需要更多客户。而获得客户的方法,是通过不断尝试各种营销策略,观察数据,并加大投入于那些能够带来正向回报的用户来源。 找到一个能盈利的客户来源并不容易,作者也没有什么神奇公式。如果有人真的掌握了这种公式,他们要么已经成为连续创业成功者,要么早已赚得盆满钵满,对金钱与生意感到厌倦。 一旦找到了一个能够带来收入高于广告成本的客户获取渠道,那就值得加大投入。这意味着要制作广告、内容(是的,那种“内容”),一些具有直接价值的东西,或者能向潜在客户发出信号的东西,表明产品或服务值得关注。 对作者而言,这意味着每天创建一个新的 2D 像素美术素材包,免费发布,并进行推广。实践发现 itch.io 是一个非常适合分享电子游戏、工具和资源的平台。作者每天都在 itch.io 上分享一个新素材包,这已成为主要的客户来源。 实际上,这一流程非常公式化:作者已经预先列好了想发布的素材主题列表。然后,利用其创业项目的核心服务生成素材包,接着在 itch.io 创建项目页面。值得注意的是,itch.io 提供了丰富的自定义选项:可以调整背景、次级背景、文本、按钮、标题颜色;标题和正文字体可分别从 Google Fonts 中任意选择;此外还需填写简短描述、详细介绍、标签等。每一项单独看都很重要,整体看更不容忽视。因为这些细节将直接影响两个关键指标:1)素材包是否令人赏心悦目;2)有多少人会查看、下载并使用它。理性的人会尽力优化这两个方面;有责任感的人则会自律,不随意把低质内容抛向公众。 由于这一流程非常固定,作者已将大部分步骤自动化,借助 ChatGPT 实现。虽然这听起来已经令人惊喜,但实际上还有更多突破:作者还实现了自动生成完整的素材包展示视频,搭配主题音乐和旁白!更令人惊讶的是,这个流程只用了一个小时就搞定了!而成品也并非随便应付,而是真正让人感到满意,用户反馈也非常积极。 如今,只要具备软件工程技能,任何那些明知可以自动化却又令人望而却步的烦人问题,只需花几分钟在最熟悉的文本编辑器中写几段清晰描述,即可在 Cursor 中调用 o3 MAX,一键生成自动化脚本,几分钟就搞定。这种能力,堪称“超级能力”。
Claude如何构建多智能体研究系统
他们的“研究”功能通过多个 Claude 智能体协作,更高效地探索复杂主题。他们在构建该系统过程中遇到的工程挑战和所汲取的经验将在此分享。 Claude 现具备研究能力,能够跨网络、Google Workspace 及其他集成工具进行搜索,以完成复杂任务。 从原型到生产,他们在多智能体系统的建设历程中学到了系统架构、工具设计与提示工程方面的重要经验。多智能体系统由多个智能体(LLM 自主循环使用工具)协作完成任务。他们的研究功能由一个负责规划研究流程的主智能体触发,根据用户查询生成多个并行子智能体去搜索信息,而多智能体系统给智能体协调、评估与可靠性带来了新的挑战。 本文将拆解他们验证有效的一系列原则,希望对您构建自己的多智能体系统有所启发。 多智能体系统的优势 研究工作涉及开放式问题,难以预先预测所需步骤。研究过程动态、路径相关,无法用硬编码路径来应对。人类研究时会根据新发现不断调整策略,并追踪出现的新线索。 这种不可预测性使得 AI 智能体在研究任务中尤为适合。研究需要在调查过程中灵活转向或发掘次级关联,模型需要自主在多个回合中判断应追踪哪个方向。线性、一次性的处理流程无法胜任这些需求。 搜索的本质是压缩:从海量语料中提炼见解。子智能体通过并行运行、各自拥有上下文窗口,同时探索问题的不同层面,然后将重要信息摘要回主智能体,实现压缩。每个子智能体还实现了关注点分离——使用不同工具、提示和探索路径,减少路径依赖,使调查更加深入且独立。 当智能体组合的智慧达到临界点,多智能体系统能显著扩张性能。例如,虽然个人智慧在人类历史中有所提升,但信息时代的人类社会依靠集体智慧实现了指数级的能力提升。即使是通用智能智能体,作为个体运作能力有限,而一组智能体协作则能实现更高成就。 内部评估显示,多智能体研究系统在涉及多个方向同时探索的“广度优先”查询中,表现尤为出色。他们发现,以 Claude Opus 4 作为主智能体、Claude Sonnet 4 担任子智能体的系统,在内部研究评测中,比单一 Claude Opus 4 智能体表现提升了 90.2%。例如,在查询“识别信息技术板块标普 500 公司全部董事会成员”时,多智能体系统将任务分配给子智能体并行搜索,成功找到答案,而单智能体系统则因必须逐步串行搜索而失败。 多智能体系统能高效执行任务,部分因为它能消耗足够多的 tokens。在 BrowseComp 评测中(测试智能体浏览难找信息能力),三大因素解释了 95% 的性能差异:token 使用量(约占 80%)、工具调用次数与模型选择。这个发现印证了他们的架构设计:分散上下文窗口,增强并行推理能力。最新 Claude 模型作为 token 使用效率的乘数,升级到 Claude Sonnet 4 带来的性能提升比将 Sonnet 3.7 的 token 预算翻倍更显著。多智能体架构可以有效扩展 token 使用,适应超出单一智能体处理能力的任务。 不过也有缺点:这种架构消耗 token 较快。数据显示,单次代理使用 token 约为普通对话的 4 倍,多智能体系统的 token 使用量约为普通对话的 15…
HP发布首款Google Beam三维视频会议系统,售价高达2.5万美元
在上月的Google I/O大会上,除了受到广泛关注的Gemini系列模型,谷歌还悄然将一个实验项目正式商品化:代号为“Project Starline”的沉浸式视频通信系统,现以“Google Beam”的身份重新登场。如今,谷歌与惠普(HP)联合推出了首款商用设备,名为HP Dimension,售价为24,999美元。 高端硬件驱动真实3D视频体验 Google Beam是一个高度先进的三维视频会议系统,旨在打造“如同面对面交谈”的沉浸式会议体验。HP Dimension采用六个高速摄像头环绕屏幕布置,实时从多个角度捕捉说话者图像。这些视觉数据随后被送入谷歌自研的体积视频模型,将多路图像流合成为一个精准的三维人物重建。 HP Dimension配备65英寸大屏幕,支持光场显示技术(light field technology),无需佩戴任何头显或3D眼镜即可实现真实立体显示。据称,系统可以以每秒60帧的速率呈现细微动作,精度达毫米级别。 不只是炫技:提升会议效率与沟通质量 HP与谷歌声称,Beam系统可大幅提升会议效率。相比传统2D视频通话,3D系统能更清晰地传达非语言信号,如面部表情、肢体语言,从而增强信息记忆力与理解力。 此外,谷歌还计划将基于Google Meet的实时翻译功能引入Beam系统,进一步消除语言壁垒。这对于跨国企业、跨文化团队具有显著价值。 并非人人都能用:对硬件与网络要求极高 尽管技术先进,Google Beam依赖极高的硬件与网络带宽支持。由于三维视频合成处理复杂,Beam系统依赖于云端实时计算以确保低延迟通话体验。意味着除了购买2.5万美元的HP Dimension硬件,用户还必须额外订购Google Beam云服务授权,其具体价格尚未公开。 当前版本的HP Dimension将支持Google Meet与Zoom两大主流会议平台。不过,只有当会议双方都使用Beam硬件时,才能实现真正的3D通话体验。否则,只能进行普通的2D视频通话。 目标用户:企业级市场 考虑到高昂的价格和技术门槛,HP Dimension显然不是为普通消费者设计的,而是面向高端企业客户。谷歌表示,Beam系统将于2025年晚些时候限量发售,初期仅提供给“精选客户”。 目前尚不清楚Google Beam许可的具体费用结构及后续计划,但谷歌和惠普均表示,该系统将在未来扩展更多尺寸和版本,以适应不同企业需求。 小结 HP与谷歌联手打造的Beam三维视频系统,为远程会议带来全新可能,其技术含量之高令人瞩目。但高昂的价格、复杂的部署与使用门槛意味着其短期内主要服务于企业客户,尤其是追求高质量远程协作体验的公司。随着技术成熟和成本下降,Beam或许将在未来几年内成为下一代视频会议的标准配置。
埃隆·马斯克宣布特斯拉Robotaxi自动驾驶出租车服务将于6月22日在奥斯汀“试运行”启动
特斯拉首席执行官埃隆·马斯克(Elon Musk)周二在X平台(前身为Twitter)发文称,特斯拉的Robotaxi自动驾驶出租车服务预计将于6月22日在德克萨斯州奥斯汀“试运行”上线。 马斯克表示,他将从洛杉矶飞往奥斯汀,亲自见证这一项目的启动。当被问及公众乘车何时开放时,马斯克回应称,目前计划在6月22日启动试运行,而首辆完全无人驾驶的特斯拉车辆将在6月28日——他的生日——完成从奥斯汀特斯拉工厂到客户家的首次“点对点”送达任务。 “我们对安全问题保持极度谨慎,因此时间可能会有所变动,”马斯克补充道。 当天早些时候,马斯克还在X上分享了一段特斯拉Robotaxi测试视频。视频中,一辆黑色Model Y SUV搭载“Robotaxi”涂鸦标志,在无人安全员的情况下于奥斯汀街头行驶,成功在十字路口礼让行人过马路。 规模与车型 马斯克在接受CNBC记者David Faber采访时表示,Robotaxi服务将以小规模试点启动,初期投入大约10到20辆搭载“全新无监督版本”的FSD(Full Self-Driving,完全自动驾驶)系统的Model Y车型参与测试。 尽管特斯拉去年在洛杉矶车展上展示了CyberCab未来车型,但此次试点不会使用CyberCab,而是采用现有的Model Y。马斯克指出,服务初期将设置**“地理围栏(geofence)”**,限制Robotaxi在奥斯汀的运营范围,并由员工进行远程实时监控。 多线经营与政治争议 目前,除了掌舵特斯拉,马斯克还同时担任航天公司SpaceX、人工智能企业xAI以及社交平台X的首席执行官。xAI最近已正式与X合并。此外,马斯克还被广泛关注为全球首富,并为支持唐纳德·特朗普重返白宫而投入近3亿美元资金。 他近期结束了一段**“政府效率部”**领导任期,在此期间推动了对多个联邦监管机构的大规模裁撤和精简,影响到包括特斯拉在内的多个企业监管体系。 安全争议与抗议计划 尽管许多特斯拉和马斯克的支持者对Robotaxi试点服务充满期待,但也有不少人表达出对自动驾驶安全的担忧,特别是针对特斯拉现有“Autopilot自动辅助驾驶”与“FSD监督版”系统的批评。 反对派团体如The Dawn Project联合Tesla Takedown与Resist Austin等组织宣布将于6月12日在奥斯汀市中心举行抗议示威,集中揭示特斯拉电动车和驾驶辅助系统中存在的安全隐患。 Dawn Project的发起人丹·奥道(Dan O’Dowd)是软件公司Green Hills Software的CEO,该公司生产的系统被福特、丰田等特斯拉竞争对手广泛使用。奥道曾在接受CNBC采访时将Dawn Project描述为一家专注技术安全与教育的组织。 展望与挑战 尽管Robotaxi项目是特斯拉自动驾驶战略的重要一环,但其能否安全、稳定地规模化扩展,仍面临诸多现实挑战: 小结 特斯拉计划于6月22日在奥斯汀“试运行”Robotaxi服务,标志着自动驾驶商业化迈出关键一步。但正如马斯克所说,“我们非常谨慎,日期可能仍会调整。”从技术突破到社会接受,特斯拉Robotaxi的全面落地仍是一场长期攻坚战。
Lyft如何每天完成1亿次机器学习预测:实时ML推理平台LyftLearn Serving解析
Lyft每天运行着数亿次机器学习预测,这些并非后台批处理任务,而是实时、关键决策型推理,贯穿于平台的方方面面——从价格预测到欺诈识别,从ETA预估到司机激励分配。 每次推理操作都承受着严格的性能压力,响应预算以毫秒计。系统每秒需处理数百万请求,多个工程团队各自推送模型更新,彼此依赖却也需独立。这对平台灵活性与可控性提出了极高要求。 Lyft将实时ML系统的挑战归结为两类: 一、为什么Lyft选择自建推理平台? 早期,Lyft依赖一个共享的单体服务统一托管所有ML模型。虽然最初便于启动,但很快暴露问题: 于是,Lyft决定构建LyftLearn Serving:一个具备高性能、强隔离、面向团队设计的微服务推理平台。 二、系统架构与关键组件 LyftLearn Serving 并未从零重建基础设施,而是在现有微服务架构上演进,融入Kubernetes、Envoy等已有生产组件。每个团队运行自己的一套服务实例,实现部署自主、行为可控、代码独立。 架构流程图核心组成如下: 1. HTTP服务层 每个推理请求首先到达Flask构建的HTTP端点,通过Gunicorn进行高并发管理。其前端由Envoy服务网格处理路由、连接与负载。 优化目标包括: 2. 核心推理库(Core Serving Library) 这是系统逻辑的核心,负责: 此库为所有团队共享,封装基础能力,但允许完全自定义推理逻辑。 3. 自定义推理代码 每个团队需实现以下两个函数: pythonCopyEditdef load(self, file: str) -> Any: # 加载模型对象 … def predict(self, features: Any) -> Any: # 推理逻辑 … 这种设计使团队可自由使用任意模型框架(如TensorFlow、PyTorch、LightGBM、XGBoost等),前提是能通过Python接口加载和预测。 4. 基础设施深度集成 LyftLearn Serving 完全集成Lyft的生产基础设施: 三、“一服务一团队”原则:隔离即稳定 LyftLearn Serving坚持“硬隔离”设计: Kubernetes与Envoy提供运行时资源隔离,保障故障局部化。 四、工具支持:从0到部署无需手动配置 Lyft提供“配置生成器(Config…
Meta发布V-JEPA 2世界模型及物理推理新基准,推动AI在物理世界中的认知与规划能力
Meta正式发布了其最新一代世界模型——V-JEPA 2(Video Joint Embedding Predictive Architecture 2)。这是一个在物理世界视觉理解和预测方面实现最先进性能的大型模型,具备零样本环境下的机器人规划能力,可以让AI代理与陌生物体和未知环境交互,完成复杂任务。此次发布不仅标志着Meta向“高级机器智能(AMI)”目标迈出的关键一步,也带来了三个全新物理推理评测基准,用于全面评估视频模型的物理直觉与因果理解能力。 什么是“世界模型”? 人类拥有与生俱来的物理直觉——比如把网球抛向空中,自然会期待它因重力落下,而不会莫名其妙漂浮、变向或变成苹果。即使在学会完整说话之前,儿童已开始通过观察积累这种“世界如何运行”的基本认知。 这种对世界状态和行为结果的预测能力,是人类在面对新环境、新任务时作出决策的基础。例如在拥挤的人群中行走、在冰球场上滑向未来的球点、或烹饪过程中控制火候,背后都依赖内心的“世界模型”。 对于人工智能来说,构建这样的世界模型意味着系统能够: V-JEPA 2:从视频中学习世界如何运行 V-JEPA 2是一个拥有12亿参数的模型,建立在Meta自研的**Joint Embedding Predictive Architecture(JEPA)**架构上。它由两个关键组件构成: V-JEPA 2通过自监督学习训练而成,无需人工标注,主要分两个阶段: 阶段一:无动作预训练 模型在超过100万小时视频和100万张图像上进行训练,涵盖人类行为、物体运动及物体交互等视觉知识。仅在此阶段,V-JEPA 2就已展现强大的理解与预测能力: 阶段二:引入机器人控制数据 通过接入仅62小时的机器人控制数据,模型进一步学习将具体行动映射至未来状态预测。这使得模型不仅能预测“世界可能如何变化”,还具备了动作条件下的控制能力,实现规划执行。 零样本机器人控制能力 V-JEPA 2可直接在未见过的新环境、新物体中进行零样本规划与机器人控制。不同于其他机器人基础模型需在部署环境中采集训练数据,V-JEPA 2仅使用公开DROID数据集训练,即可部署至实际机器人系统,实现如“抓取并放置物体”这类基础任务。 对于短期任务(如抓取物体),用户提供目标图像,模型通过编码当前状态和目标状态进行比对并规划行为。在每一步中,机器人都会重新评估行动方案,并通过模型预测控制(Model Predictive Control)执行最佳动作。 对于长期任务(如将物体放置至指定位置),V-JEPA 2支持多阶段目标规划(Visual Subgoal Planning),仿似人类模仿学习。这使得机器人在未见物体/环境下的任务完成率达到65%至80%。 三项全新开放评测基准:衡量视频模型的“物理世界智慧” Meta还同步发布三项评测数据集,用于测试当前视频模型是否真正具备“物理直觉”和“因果推理”能力。这些基准覆盖人类在生活中本能掌握的基本物理规律与推理方式。 1. IntPhys 2 衡量模型判断物理可能性与不可能性的能力。通过成对视频对比:两个视频前半段完全一致,后半段其中一个发生违反物理规律的事件(如穿墙、漂浮),模型需判断哪一个不合常理。人类准确率可达95%,但当前模型仍接近随机水平。 2. MVPBench(Minimal Video Pairs) 使用微差视频对测试模型在视觉-语言问答中的物理理解。每组题目含两条几乎相同视频,但正确答案相反。只有同时答对主视频与“微差版本”问题,才算通过,避免模型依赖表面特征作弊。 3. CausalVQA 考查模型是否能回答物理因果关系相关问题。包括: 这类问题比“视频中发生了什么”更具挑战性,测试模型是否真正理解动态因果链条。目前模型在这些问题上与人类表现仍有显著差距。 未来展望:通向高级机器智能的下一步 V-JEPA 2已具备单一时间尺度上的理解与预测能力。但现实任务通常需跨越多个时间尺度(如烘焙蛋糕、组装家具)。下一阶段,Meta将探索多层次、分层式JEPA模型,让AI能处理长期目标与中短期子任务之间的协调。 此外,Meta还计划发展多模态世界模型,引入视觉、音频、触觉等多感知维度,以进一步贴近人类认知方式。…
AI可以在面试中使用
软件工程的本质正在快速变化。在Canva,公司始终认为招聘流程必须与工程师日常使用的工具和实践同步演进。因此,现在Canva正式宣布:在后端、机器学习和前端工程师的技术面试中,不仅可以使用AI工具,而且必须使用。无论是GitHub Copilot、Cursor还是Claude,候选人都应在面试中积极使用这些AI助手。 现代工程现实:AI已成为日常开发工具 目前,在Canva,有近一半的前端和后端工程师每天都在使用AI辅助编程工具。这些工具帮助工程师快速构思原型、理解大型代码库并生成代码,从而腾出更多时间专注于核心使命——“赋能全球设计”。 Canva不仅鼓励员工使用AI,还明确期望工程师将AI集成进他们的工作流中。AI已经成为现代开发的生产力工具,能显著提升效率与竞争力。 然而在此之前,Canva的面试流程却仍然要求候选人在没有AI辅助的情况下解决算法和数据结构题目。这种脱离实际开发环境的考核方式,无法准确衡量候选人真实的工作表现。 理念转变:拒绝检测,拥抱透明 随着AI辅助工具的普及,越来越多的候选人在技术面试中秘密使用AI,有时甚至使用专门为“避开检测”而设计的工具。面对这种趋势,Canva不再试图监管AI的使用,而是选择主动拥抱这一现实。 公司希望看到的是:候选人如何与AI协作解决问题。这种方式,才能真实反映他们在入职后处理任务的能力。 初期的实验印证了这一决策:AI助手能轻松解决传统面试题,生成的答案不仅正确,还格式规范、带有详尽注释,几乎无需任何额外提示。这一发现促使团队重新审视面试方式,以确保能够准确评估候选人的真正能力。 面试的再设计:更真实、更复杂、更模糊 工程工作本质上更多是阅读与理解代码,而不是从零写出完整算法。工程师大多数时间都在阅读现有代码库、审查Pull Request、迭代优化。AI工具能够辅助生成初始代码,但工程师必须具备分析、理解与改进这些代码的能力。 因此,Canva重新设计了技术面试,题目更贴近真实开发情境——复杂、模糊且需要工程判断。这些问题不可能通过单一提示完成,而是需要候选人进行反复思考、澄清需求并做出技术决策。 例如,与其要求候选人实现“康威生命游戏”,现在可能会给出这样的挑战:“构建一个管理繁忙机场起降控制系统的控制平台。” 引入AI辅助编程面试:技能更全面的考核方式 Canva现在推出全新面试环节——“AI辅助编程”,用于替代原有的计算机科学基础面试(Computer Science Fundamentals)。这一环节主要面向后端与前端候选人,面试题围绕现实产品挑战设计,并明确要求使用AI工具。 但这不是“全靠AI完成任务”。面试重点考核的能力包括: 团队内部的质疑与支持 在初次提出改革时,公司内部确实出现过质疑。一些工程师担心面试流程“从严谨的技术考核变成了‘氛围编程’(vibe-coding)表演”。 但这一担忧是合理的,也促使面试设计团队明确:技术深度和代码掌握依然是核心评估项,只是考核方式发生变化。候选人仍需对最终代码结果负责,无论是亲手编写,还是借助AI生成。 在得到这些解释后,工程团队普遍由抵触转为支持,认为这是一种技术评估更贴近现实工作场景的方式。 初步经验总结:优秀候选人如何使用AI? 试点阶段的面试带来许多启示。最成功的候选人不是机械地接受AI输出,而是具备如下特质: 而缺乏AI使用经验的候选人往往表现较差,问题不是不会编码,而是无法有效驾驭AI、或不懂得何时拒绝不理想的建议。 向前看:AI时代的工程能力评估标准 Canva充分意识到,这种面试方式要求候选人改变准备策略。因此,公司会提前通知所有参与者,明确告知他们面试中将使用AI工具,并强烈建议提前进行实战练习。 这一改革,反映了Canva的核心理念——“AI无处不在”。不仅为用户构建AI功能,也在重塑企业内部的工作方式、创造流程与问题解决路径。 公司相信,未来属于那些能够将人类创造力与AI能力无缝融合的工程师。熟练掌握AI工具,不仅有助于通过面试,更是日常工作中脱颖而出的关键能力。 目前,这种新形式的面试反馈积极。无论是对候选人还是面试官,都更具互动性,并能准确预测候选人在团队中的表现。最重要的是,这一方式帮助Canva识别出真正能善用AI、构建未来视觉传播工具的工程师。 AI发展仍在迅速演进,Canva的面试流程也将持续适应更新。现在有效的方法,也许在半年后需再次迭代。公司承诺,始终动态评估与优化面试设计,确保评估的始终是最关键的工程能力。