在X(前Twitter)上,一位名为@kimmonismus的用户发帖问道:“还需要什么线索?”他是一个知名的AI传闻和信息传播账号。 开源AI初创公司Abacus AI的CEO宾杜·雷迪(Bindu Reddy)也在X上发声,表示这可能是在暗指“草莓计划”(Project Strawberry)。 这一猜测得到进一步支持,因为一个新的“匿名聊天机器人”AI模型已经被添加到热门的开源lmsys平台上。在这个平台上,包括OpenAI在内的多家AI模型提供商通常会在官方发布之前,向用户测试即将推出的模型。 当被询问时,这个新的“匿名聊天机器人”声称自己是OpenAI的GPT-4系列模型的一部分,它的语言风格与2024年5月推出的GPT-4o多模态模型发布前出现在lmsys上的“gpt2-chatbot”非常相似。 早期用户反馈,这款“匿名聊天机器人”表现出比GPT-4o和其他前沿模型更为先进的推理能力,暗示它可能比这些模型更为强大。 关于OpenAI即将推出一款强大新模型的传闻最早始于2023年11月路透社的一篇报道,文章中描述了一种名为“Q*”(发音为Q-Star)的新AI模型: “据路透社一位消息人士透露,OpenAI内部有些人认为Q*(发音为Q-Star)可能会成为该公司在寻求所谓的通用人工智能(AGI)过程中的一大突破。OpenAI将AGI定义为在大多数经济价值任务中超越人类的自主系统。” 路透社随后在7月中旬发布独家报道,进一步揭示了“草莓计划”的更多细节: “一位知情人士和内部文件显示,ChatGPT的开发者OpenAI正在一项代号为‘草莓’的项目中,尝试一种新的AI模型方法。” 至于“草莓计划”可能带来的具体新功能,路透社报道称: “文件描述了一个使用草莓模型的项目,旨在让该公司的AI不仅仅是生成问题的答案,还能够提前计划,足够可靠地在互联网上进行自主导航,以执行OpenAI所称的‘深度研究’。” 距离OpenAI上次发布重大基础模型GPT-4已经近17个月了。虽然期间推出了GPT-4o和GPT-4o mini等新模型,但这些模型的竞争者,如Anthropic、谷歌和Meta等,已经在某些任务上推出了更强大的模型,竞争显著加剧。
Intel能力挽狂难吗?
美国芯片巨头英特尔曾经是计算机时代的宠儿,但在人工智能时代却经历了艰难的时期。如果时光倒流,英特尔的命运可能会截然不同。 据知情人士透露,约七年前,英特尔曾有机会购买OpenAI的股份,当时OpenAI还是一家不为人知的非营利性研究组织,专注于一个名为生成式人工智能的领域。2017年和2018年期间,双方高管就各种选项进行了讨论,包括英特尔用10亿美元现金购买OpenAI 15%的股份。还有人透露,英特尔还考虑过,如果为OpenAI按成本价生产硬件,则再获得15%的股份。 然而,英特尔最终决定放弃这笔交易,部分原因是当时的CEO鲍勃·斯旺(Bob Swan)认为生成式人工智能模型短期内无法投入市场,因此无法为英特尔带来回报。与此同时,OpenAI对英特尔的投资也抱有兴趣,因为这将减少其对Nvidia芯片的依赖,并使其能够构建自己的基础设施。然而,由于英特尔的数据中心部门不愿意按成本价生产产品,这笔交易最终告吹。 英特尔拒绝对此次交易发表评论,而斯旺也没有回应评论请求。OpenAI则选择不发表意见。 这一决策导致英特尔错过了一个绝佳的机会——OpenAI后来推出了震撼市场的ChatGPT,并在2022年迅速崛起,目前估值据报道已达到800亿美元。错失投资OpenAI只是英特尔在AI时代一系列战略失误中的一环。随着AI技术的飞速发展,英特尔逐渐失去了在这一领域的主导地位。 上周,英特尔发布的第二季度财报导致股价暴跌超过四分之一,这是自1974年以来最严重的一次单日跌幅。如今,这家曾经主导市场的公司市值已跌破1000亿美元,这是30年来首次低于这一水平。曾经象征品质的”Intel Inside”口号,如今在AI领域却难觅英特尔的身影。 在AI芯片领域,英特尔的对手Nvidia的市值已达2.6万亿美元,远超英特尔。Nvidia从视频游戏图形芯片转型为AI芯片,而这些芯片是训练和运行大型生成式AI系统所必需的,如OpenAI的GPT-4和Meta的Llama模型。英特尔同样也落后于市值2180亿美元的AMD。 尽管英特尔在AI方面一直努力追赶,但其战略分散且难以形成统一的产品方向。英特尔曾认为CPU可以更有效地处理构建和运行AI模型所需的处理任务,但实际上,GPU在处理大规模AI模型所需的密集数据计算方面更为高效。Nvidia的工程师多年来一直在调整GPU架构,以优化其AI应用,而英特尔却未能及时跟进。 自2010年以来,英特尔至少进行了四次尝试,包括收购两家初创公司和至少两次重大内部努力,试图生产出竞争力的AI芯片,但均未能在市场上对Nvidia或AMD构成威胁。 在英特尔错失投资OpenAI的同时,微软在2019年抓住机会投资了这家AI公司,使自己在AI时代中占据了有利位置。 总之,英特尔的战略失误和错失良机使其在AI领域的竞争中逐渐落后于竞争对手。 英特尔站在了十字路口,他们的未来发展方向主要围绕以下几个关键战略和领域,这些领域将帮助其在半导体行业保持领先地位,并适应新的挑战和机遇。 1. 先进的半导体制造: 2. 多元化进入新市场: 3. 云计算和数据中心的主导地位: 4. 软件和生态系统发展: 5. 地缘政治和供应链考量: 6. 领导力和文化转型: Intel又一次站在了Inflection point上,他们能像上次一样在Grove and Gordon Moore的带领下完成惊天逆转吗?我们拭目以待
OpenAI API推出结构化输出功能
去年在DevDay大会上,OpenAI介绍了JSON模式,这个工具对于开发者来说是构建可靠应用程序的有用模块。虽然JSON模式提高了模型生成有效JSON输出的可靠性,但并不能保证模型的响应会符合特定的架构。今天,OpenAI推出了一项新功能——API中的结构化输出,旨在确保模型生成的输出完全符合开发者提供的JSON架构。 从非结构化输入生成结构化数据是现代应用程序中人工智能的核心用例之一。开发者使用OpenAI API构建功能强大的助手,这些助手可以通过函数调用获取数据并回答问题,提取结构化数据进行数据输入,并构建多步代理工作流,使大型语言模型能够采取行动。开发者长期以来一直通过开源工具、提示和反复重试请求来解决大型语言模型在这方面的局限性,确保模型输出符合其系统所需的格式。结构化输出通过约束OpenAI模型以符合开发者提供的架构,并训练模型更好地理解复杂的架构,解决了这一问题。 在对复杂JSON架构遵循性的评估中,OpenAI的新模型gpt-4o-2024-08-06在结构化输出方面得分为100%,而gpt-4-0613得分不到40%。 有了结构化输出,gpt-4o-2024-08-06在评估中实现了100%的可靠性,完美匹配输出架构。 如何使用结构化输出 OpenAI在API中以两种形式引入结构化输出: 输出: 请求: 输出: 安全的结构化输出 安全性是OpenAI的首要任务——新的结构化输出功能将遵循现有的安全政策,并且仍然允许模型拒绝不安全的请求。为了简化开发,API响应中增加了一个新的refusal字符串值,允许开发者以编程方式检测模型是否生成了拒绝,而不是匹配架构的输出。当响应不包含拒绝且模型的响应未被提前中断时(如由finish_reason指示),则模型的响应将可靠地产生匹配提供架构的有效JSON。 原生SDK支持 OpenAI的Python和Node SDK已更新,提供对结构化输出的原生支持。提供工具或响应格式的架构与提供Pydantic或Zod对象一样简单,SDK将处理将数据类型转换为支持的JSON架构,自动将JSON响应反序列化为类型化的数据结构,并在出现拒绝时解析它们。 以下示例显示了使用函数调用的结构化输出的原生支持。 Python: Node: 响应格式的原生支持也可用。 Python: Node: 其他使用案例 开发者经常使用OpenAI的模型生成结构化数据以满足各种使用需求。以下是一些额外的示例: 根据用户意图动态生成用户界面 例如,开发者可以使用结构化输出创建代码或用户界面生成应用程序。以下所有示例都使用相同的response_format,可以根据用户输入生成不同的用户界面。 系统: 将最终答案与支持推理或额外评论分开 给模型一个单独的思维链字段可以提高最终响应的质量。 请求: 输出: 从非结构化数据中提取结构化数据 例如,指示模型从会议记录中提取待办事项、截止日期和负责人。 请求: 输出: 工作原理 OpenAI采用了两步方法来提高与JSON Schema匹配的模型输出的可靠性。首先,训练了最新的模型gpt-4o-2024-08-06,以理解复杂的架构并最佳地生成匹配它们的输出。然而,模型行为本质上是非确定性的——尽管这一模型的性能有所提高(在基准测试中得分为93%),但它仍未达到开发者构建强大应用程序所需的可靠性。因此,OpenAI还采用了一种确定性、工程性的方法来约束模型的输出,以实现100%的可靠性。 限制与注意事项 使用结构化输出时需要注意以下几点: 可用性 结构化输出现已在API中普遍可用。 通过函数调用实现的结构化输出适用于所有支持函数调用的API模型。这包括OpenAI最新的模型(gpt-4o,gpt-4o-mini),所有gpt-4-0613及以后和gpt-3.5-turbo-0613及其后续版本,以及任何支持函数调用的微调模型。此功能适用于聊天补全API、助手API和批量API。通过函数调用实现的结构化输出也兼容视觉输入。 通过响应格式实现的结构化输出适用于gpt-4o-mini和gpt-4o-2024-08-06及基于这些模型的任何微调模型。此功能适用于聊天补全API、助手API和批量API。通过响应格式实现的结构化输出也兼容视觉输入。 通过切换到新的gpt-4o-2024-08-06,开发者在输入方面节省50%($2.50/百万输入tokens),在输出方面节省33%($10.00/百万输出tokens),相较于gpt-4o-2024-05-13。 要开始使用结构化输出,请查看OpenAI的文档。(https://platform.openai.com/docs/guides/structured-outputs)
Figure 02:全球最先进人形机器人亮相,引发人类工人未来担忧
机器人公司Figure AI最近发布了最新的人形机器人——Figure 02,这是去年发布的Figure 01的继任者。该公司声称Figure 02拥有“显著的技术进步”,可以自主完成复杂任务,自我纠正错误,并与工人进行双向对话,可能成为“市场上最先进的人形机器人”。 Figure 02结合内置麦克风和扬声器与AI模型(可能是GPT-4),提升了沟通能力,并且配备了更强大的摄像系统,允许更快速和直观的视觉推理。 它拥有与人类手部规模相同的手,并具有人类般的力量和协调能力,能够举起重达55磅(相当于一台65英寸电视)的物体,并能精确地将它们放置到毫米级的正确位置。 升级后的电池使其续航时间比Figure 01长50%,目前正在宝马斯帕坦堡工厂进行测试,初步结果显示它可以准确地将金属板等物品放置到指定位置。 虽然Figure 02的全面推广时间表尚未确定,但Figure AI表示它将非常适合在工厂环境中执行“体力要求高且不安全的任务”(尽管他们暗示新机器人的灵活性将来可能使其在家庭中使用),这增加了人们对机器人将很快取代人类工人、使某些低技能、手工工作变得多余的担忧,正如亚马逊已经做的那样:引入75万台机器人后,该公司减少了10万名员工。
联邦法官裁定谷歌搜索业务违反美国反垄断法
美国联邦法官周一裁定,谷歌在其搜索业务中违反了美国反垄断法,这一判决可能重塑数百万美国人的信息获取方式,并颠覆谷歌数十年来的主导地位。 “经过仔细考虑和权衡证人证词和证据,法院得出以下结论:谷歌是一个垄断者,并且为了维持其垄断地位采取了行动,”美国哥伦比亚特区地方法院法官阿米特·梅塔在周一的意见中写道。“它违反了《谢尔曼法》第2条。” 这一裁决对谷歌最古老和最重要的业务构成了巨大打击。谷歌花费了数百亿美元通过独家合同来确保其作为世界默认搜索提供商的主导地位,这些合同使其能够排挤微软的Bing和DuckDuckGo等潜在竞争对手,美国政府在特朗普政府期间提起的历史性反垄断诉讼中提出了这一指控。 梅塔表示,这一强大的市场地位导致了反竞争行为,必须加以遏制。特别是谷歌与苹果和其他移动生态系统关键参与者的独家协议具有反竞争性,谷歌还在搜索广告中收取了反映其垄断地位的高价。 尽管法院没有发现谷歌在搜索广告中存在垄断行为,但总体上,这一判决代表了美国政府主导的一系列针对大科技公司的竞争诉讼中的首个重大决定。这一案件被描述为自千禧年之交美国政府与微软的反垄断对决以来最大的科技反垄断案件。 “这场对谷歌的胜利是美国人民的历史性胜利,”美国司法部长梅里克·加兰在声明中表示。“没有任何公司——无论多大或多有影响力——可以凌驾于法律之上。” 白宫称这一裁决是“美国人民的胜利”。 “正如拜登总统和副总统哈里斯长期以来所说,美国人民应拥有一个自由、公平和开放竞争的互联网,”白宫新闻秘书卡琳·让-皮埃尔在周一晚上的声明中说。 谷歌在声明中表示计划上诉,称梅塔的意见承认谷歌是互联网最好的搜索引擎——这是公司在法庭上提出的消费者偏爱谷歌而不是竞争对手的理由。 “在这个过程中,我们将继续专注于开发人们认为有用且易于使用的产品,”谷歌全球事务总裁肯特·沃克在X(前身为Twitter)上发布的一则帖子中说。 这一案件与拜登政府2023年针对谷歌广告技术业务提起的另一反垄断诉讼不同。该案预计将于9月初开庭审理。 但周一的裁决标志着谷歌第二次高调的反垄断失败。去年12月,加州的联邦陪审团裁定谷歌通过其专有应用商店运营非法垄断。该案件的法院仍在商议可能的补救措施。 梅塔的裁决预计将触发一项单独的程序,以确定谷歌将面临何种处罚。加上谷歌即将上诉,整个过程可能需要数月甚至数年才能产生任何潜在后果。但该裁决最终可能颠覆谷歌使其搜索引擎对用户可用的方式,影响其与设备制造商和在线服务提供商签订的昂贵合同,这些合同是案件的核心。 其他补救措施也可能被纳入考虑。例如,法院可能会迫使谷歌实施一个“选择屏幕”,让用户了解其他可用的搜索引擎,范德比尔特大学法学教授丽贝卡·艾伦斯沃思告诉CNN。 谷歌还可能面临罚款,尽管罚款“不是美国反垄断系统执行法律的主要方式”,因为对谷歌这样庞大且非常盈利的公司来说,罚款往往只是“杯水车薪”。 在诉讼最初提起时,美国反垄断官员也未排除拆分谷歌的可能性,警告称谷歌的行为可能威胁到未来的创新或谷歌继任者的崛起。 “绝对是一个里程碑”一些反垄断专家表示,周一对谷歌的不利裁决可能会被铭记为历史上其他重大反垄断案件的一部分。这个名单包括拆分AT&T电话垄断和标准石油,以及微软非法将其Internet Explorer浏览器与Windows捆绑在一起的案例。 在每一个这些案件中,法院都强调了一种特定的商业实践或机制——例如微软的浏览器捆绑——违反了美国竞争法。 本周的谷歌裁决也不例外,重点关注搜索巨头的独家合同,发现使用这种合同的垄断企业存在巨大问题。 “这绝对是一个里程碑,”莫斯说,补充道“信号非常明确,在垄断者手中的独家合同的使用违反了法律。” 然而,科技倡导组织“进步商会”创始人、前谷歌政策主管亚当·科瓦切维奇对该裁决提出了异议,称“今天裁决的最大赢家不是消费者或小科技公司,而是微软。” “微软在搜索方面的投资不足,但今天的裁决为必应的默认交易打开了法院命令的大门。这对选择谷歌的消费者来说是一个耳光,他们认为谷歌是最好的,”科瓦切维奇说。微软CEO萨提亚·纳德拉在谷歌反垄断审判中作证。 这项裁决不仅会影响谷歌搜索引擎的用户,还会对整个经济产生连锁反应,因为企业将消化梅塔发出的关于商业合同的信息。 这项裁决还可能成为其他重大科技反垄断案件的风向标,包括针对苹果和亚马逊的案件。亚马逊和苹果都称针对他们的反垄断诉讼在事实和法律上都是错误的。莫斯表示,这也可能提振司法部对Ticketmaster母公司Live Nation的反垄断诉讼,因为该诉讼的核心也是独家协议。 “政府在其针对谷歌的案件中提出的许多论点都是其其他案件的拼图,”艾伦斯沃思说。 人工智能岌岌可危梅塔的277页意见书是在去年历时数周的漫长审判之后发布的,谷歌的高管以及包括苹果、微软等竞争对手和合作伙伴在内的高管均亲自作证。由于涉及的交易中的敏感商业信息,大部分复杂的诉讼过程在闭门进行。 在审判中,一些批评者警告称,谷歌的搜索垄断通过源源不断的用户搜索查询供给,将使其在人工智能领域获得主导地位。 微软CEO萨提亚·纳德拉在证人席上表示,通过默认协议提供给谷歌的海量搜索数据,可以帮助谷歌训练其人工智能模型,使其比任何其他模型更好——这威胁到谷歌在AI领域的不可撼动的优势,从而进一步巩固其力量。 纳德拉的证词强调了政府的案件可能产生的广泛影响,超出了传统搜索领域,可能会塑造世界领导人所描述的具有潜在变革性技术的未来。 如果法院取消谷歌使其成为众多设备默认搜索引擎的协议,可能会在一个非常关键的时刻损害该公司的核心产品,Emarketer高级分析师伊芙琳·米切尔-沃尔夫在一封电子邮件声明中说。 “其普及性是其最大的优势,尤其是在AI驱动的搜索替代品竞争加剧之际,”米切尔-沃尔夫说,指的是OpenAI的ChatGPT等人工智能搜索工具对谷歌搜索主导地位的威胁。
OpenAI秋季DevDay降温:不发布GPT-5,新重心在开发者教育
去年,OpenAI在旧金山举办了一场盛大的新闻发布会,宣布了一系列新产品和工具,包括命运多舛的GPT商店。 然而,今年的活动将低调许多。周一,OpenAI宣布将其DevDay大会的形式从一个重要的活动改为一系列巡回开发者互动会。公司还确认不会在DevDay期间发布其下一个主要旗舰模型,而是专注于API和开发者服务的更新。 “我们不计划在DevDay上宣布我们的下一个模型,”OpenAI发言人告诉TechCrunch。“我们将更多地关注教育开发者现有的内容,并展示开发者社区的故事。” 今年的DevDay活动将于10月1日在旧金山、10月30日在伦敦、11月21日在新加坡举行。所有活动将包括研讨会、小组讨论、OpenAI产品和工程团队的演示以及开发者聚光灯。注册费用为450美元(符合条件的参会者可通过奖学金免费参加),申请将于8月15日截止。 最近几个月,OpenAI在生成式AI领域采取了更多的渐进步骤,而不是巨大的飞跃,公司选择在训练其当前领先模型GPT-4o和GPT-4o mini的继任者时精细调整其工具。公司改进了模型的整体性能并防止其像以前那样频繁出错,但根据一些基准测试,OpenAI似乎在生成式AI竞赛中失去了技术领先地位。 其中一个原因可能是寻找高质量训练数据的挑战日益增大。 OpenAI的模型(与大多数生成式AI模型一样)基于海量的网络数据进行训练——许多创作者选择限制访问这些数据,担心他们的数据会被剽窃或不会得到应有的信用或报酬。根据Originality.AI的数据,全球排名前1000的网站中有超过35%现在屏蔽了OpenAI的网络爬虫。麻省理工学院数据来源计划的一项研究发现,主要用于训练AI模型的“高质量”来源数据中约有25%已被限制。 如果当前的访问屏蔽趋势继续下去,研究小组Epoch AI预测开发者将在2026年至2032年之间用尽用于训练生成式AI模型的数据。这——以及对版权诉讼的担忧——迫使OpenAI与出版商和各种数据经纪人达成高昂的许可协议。 据悉,OpenAI已经开发了一种推理技术,可以提高其模型在某些问题(特别是数学问题)上的响应能力,公司首席技术官Mira Murati承诺未来将推出具有“博士水平”智能的模型。(OpenAI在5月的一篇博文中透露,它已经开始训练其下一个“前沿”模型。)这是一个巨大的承诺——压力也很大。据报道,OpenAI在训练其模型和雇佣高薪研究人员时,损失了数十亿美元。 OpenAI仍面临许多争议,例如使用受版权保护的数据进行训练、严格的员工保密协议(NDA)以及有效地将安全研究人员推开。较慢的产品周期可能有助于扭转OpenAI为了追求更强大的生成式AI技术而忽视AI安全工作的叙事。
全新神经网络:Kolmogorov-Arnold网络更具解释性,有望为物理学家提供新假设
人工神经网络——受生物大脑启发的算法——是现代人工智能的核心,无论是聊天机器人还是图像生成器都依赖于它们。然而,由于其众多神经元,神经网络常常成为黑箱,用户难以理解其内部运作。 研究人员现在创造了一种从根本上新的神经网络方式,在某些方面超越了传统系统。据称,这些新网络不仅更具解释性,而且更准确,即使规模更小。其开发者表示,这种学习简洁表示物理数据的新方法可能帮助科学家发现新的自然法则。 “看到有新的架构出现,真是太好了。”——约翰霍普金斯大学布莱斯·梅纳德 过去十多年里,工程师们主要通过反复试验来调整神经网络设计。约翰霍普金斯大学的物理学家布莱斯·梅纳德研究神经网络的运行方式,但并未参与这项新工作,该研究于四月在arXiv上发布。“看到有新的架构出现,真是太好了,”他说,尤其是一种从基本原理设计的架构。 可以将神经网络比作神经元(或节点)和突触(或连接那些节点的链接)。在传统神经网络(称为多层感知机,MLP)中,每个突触学习一个权重——一个确定两个神经元之间连接强度的数字。神经元按层排列,一个层的神经元从前一层的神经元接受输入信号,并根据突触连接的强度加权。然后,每个神经元对其输入总和应用一个简单函数,称为激活函数。 在新的架构中,突触扮演更复杂的角色。它们不仅学习两个神经元之间连接的强度,还学习这种连接的完整性质——从输入到输出的映射函数。与传统架构中神经元使用的激活函数不同,这个函数可能更复杂——实际上是一个“样条”或多个函数的组合——并且在每个实例中不同。另一方面,神经元变得更简单——它们只是对所有前置突触的输出求和。这些新网络称为Kolmogorov-Arnold网络(KAN),以研究函数如何组合的两位数学家命名。其理念是,KAN在学习表示数据时提供更大的灵活性,同时使用更少的学习参数。 “这就像一种外星生命,从不同角度看待事物,但对人类来说也容易理解。”——麻省理工学院的刘子明 研究人员在相对简单的科学任务上测试了他们的KANs。在一些实验中,他们采用简单的物理定律,例如两个相对论速度物体相遇的速度。他们使用这些方程生成输入-输出数据点,然后对每个物理函数,训练一个网络并测试其余数据。他们发现,增加KANs的规模比增加MLPs的规模更快地提高其性能。在求解偏微分方程时,一个KAN比拥有100倍参数的MLP准确100倍。 在另一实验中,他们训练网络根据拓扑结的其他属性预测其标记属性。一个MLP使用约300,000个参数达到了78%的测试准确率,而一个KAN使用仅约200个参数达到了81.6%的测试准确率。 此外,研究人员可以直观地绘制KANs的图,查看激活函数的形状以及每个连接的重要性。他们可以手动或自动修剪弱连接,并用更简单的函数(如正弦或指数函数)替换一些激活函数。然后,他们可以将整个KAN简洁地总结为一个直观的单行函数(包括所有组件激活函数),在某些情况下完全重构生成数据集的物理函数。 “未来,我们希望它能成为日常科学研究的有用工具,”麻省理工学院的计算机科学家、该论文的第一作者刘子明说。“给我们一个我们不知道如何解释的数据集,我们把它交给KAN,它可以为你生成一些假设。你只需盯着大脑(KAN图)看,如果你愿意,还可以对其进行手术。”你可能会得到一个简洁的函数。“这就像一种外星生命,从不同角度看待事物,但对人类来说也容易理解。” 已经有几十篇论文引用了KAN预印本。“我一看到它就觉得非常激动,”阿根廷圣安德烈斯大学的计算机科学本科生亚历山大·博德纳说。在一周内,他和三名同学将KAN与卷积神经网络(CNN)结合,这是一种处理图像的流行架构。他们测试了他们的卷积KANs在分类手写数字或衣物上的能力。最好的卷积KANs在参数使用量减少约60%的情况下,与传统CNN的性能大致相当(两者在数字分类上均达到99%的准确率,在衣物分类上均达到90%)。尽管这些数据集相对简单,但博德纳表示,其他拥有更多计算能力的团队已经开始扩展这些网络。其他人将KAN与在大规模语言模型中流行的Transformer架构结合。 KANs的一个缺点是每个参数的训练时间更长——部分原因是它们无法利用GPU。但它们需要更少的参数。刘子明指出,即使KANs无法取代用于处理图像和语言的巨型CNN和Transformer,训练时间在许多物理问题的小规模下也不会成为问题。他正在研究专家如何将其先验知识插入KANs——例如通过手动选择激活函数——并使用简单界面轻松从中提取知识。未来,他说,KANs可能帮助物理学家发现高温超导体或控制核聚变的方法。
OpenAI人事变动:联合创始人John Schulman离职加入Anthropic
OpenAI的联合创始人之一John Schulman已离开公司,加入竞争对手AI初创公司Anthropic。此外,OpenAI的总裁兼联合创始人Greg Brockman也确认将休假至年底,以“放松和充电”,结束在公司九年的任期。 OpenAI还证实,去年加入的产品经理Peter Deng也已离职。Deng此前在Meta、Uber和Airtable负责产品开发。《信息》最早报道了Brockman和Deng的离职消息。 关于Schulman的离职,OpenAI的发言人表示:“我们感谢John作为OpenAI创始团队成员所做的贡献,以及他在推进对齐研究方面的努力。他的激情和努力为未来的创新奠定了坚实的基础,并将继续激励和支持OpenAI及整个领域的发展。” Schulman在X上发布了一则关于他离职的消息,表示他希望更加专注于AI对齐研究,即确保AI按预期行为的科学,并进行更多实际的技术工作。 “我决定在Anthropic追求这一目标,我相信在那里可以获得新的视角,并与对我最感兴趣的话题深有研究的人一起工作,”Schulman说。“我相信,即使没有我,OpenAI和我所在的团队也会继续繁荣。” Schulman在完成加州大学伯克利分校电气工程和计算机科学博士学位后不久就加入了OpenAI。他在创建AI聊天机器人平台ChatGPT方面发挥了关键作用,领导OpenAI的强化训练团队,优化生成式AI模型以遵循人类指令。 在AI安全研究员Jan Leike离职(现也在Anthropic工作)后,Schulman成为OpenAI对齐科学工作的负责人,也被称为“后训练”团队的负责人。他还曾是OpenAI新成立的安全委员会成员,目前尚不清楚谁将接替他的位置。 尽管围绕OpenAI的争议不断,尤其是公司在AI安全研究方面的态度和处理方式,但Schulman表示,他的离职并不是因为缺乏支持。 “公司领导层一直非常致力于对齐研究的投资,”Schulman说。“我的决定是个人的,基于我希望在职业生涯的下一阶段如何集中精力。” 随着Schulman的离职,OpenAI的11位创始人中只剩下三位:CEO Sam Altman、Brockman和负责语言和代码生成的Wojciech Zaremba。 “感谢你为OpenAI所做的一切!”Altman在X上对Schulman写道。“你是一位杰出的研究员,对产品和社会有深刻的思考者,更重要的是,你是我们所有人的好朋友。我们会非常想念你,并会让你为这个地方感到自豪。”
Mistral AI:欧洲AI新星的崛起之路
过去一年,总部位于巴黎的Mistral AI迅速崛起,成为欧洲本土的AI冠军之一,赢得了法国总统马克龙的赞誉。作为2024年TIME100最具影响力公司之一,这家初创公司已经发布了六个AI语言模型,能够回答问题、生成代码并进行基本推理。 今年6月,Mistral宣布在一轮融资中筹集了6.45亿美元,据报道,公司估值超过60亿美元。此前在2月,Mistral宣布与微软达成协议,将其模型提供给微软的客户,以换取使用微软计算资源的机会。 Mistral的联合创始人兼CEO Arthur Mensch在欧盟的里程碑式AI法律辩论中发声,主张立法者应关注AI模型的使用方式,而不是对通用AI模型进行监管。他还反对对AI开发者自由分享其创作的限制,称“看不到开放源码模型有任何风险,只看到好处。” TIME在五月采访了Mensch,讨论了吸引稀缺AI人才、Mistral的盈利计划以及欧洲AI生态系统的不足之处。 Mistral的首席商务官Florian Bressand几个月前在接受CNBC采访时表示,曾开发Llama模型的团队中超过一半的人现在为Mistral工作。Mistral是如何从像Meta这样资源丰富的公司吸引到这么多才华横溢的研究人员的? Mensch表示,最初是雇用了朋友。由于他们在该领域做出了有意义的贡献,大家都知道与他们一起工作很有趣。后来,他们开始雇佣不太熟悉的人,这得益于他们推动该领域朝着更开放方向发展的策略,这种使命吸引了许多科学家。 全世界只有少数人能够训练Mistral这样的AI系统。Mensch认为,虽然法国有一个繁荣的AI场景,但他们并没有雇佣所有懂得如何做这件事的人,但确实吸引了大约15位专家,约占当时能够从事这些工作的人的10%。 Mistral在筹集资金,这些钱主要用于计算资源。Mensch解释道,与软件行业不同,他们需要在初期进行大量投资,以获得科学团队和前沿技术模型。 几乎所有其他基础模型公司都谈到未来几年将在计算资源上花费1000亿美元。Mensch表示,尽管他们的花费会增加,但与竞争对手相比,他们仍然会更加节省。 Mistral目前是否盈利?当然不是。Mensch表示,作为一个成立仅12个月的初创公司,目前还不预期盈利。他们的商业模式是构建前沿模型并将其提供给开发者,建立一个允许开发者自定义AI模型的平台。 关于欧洲是否应该建立自己的主权计算基础设施,Mensch认为这对生态系统有益。目前,Mistral依赖多个云提供商,并致力于建立独立的技术堆栈和分发渠道。 法国前数字事务部长、Mistral联合创始人Cedric O警告说,欧盟AI法案可能会“扼杀”Mistral。Mensch认为,该法案总体上是可行的,但在透明度和知识产权方面需要平衡。 对于AI如何改变世界,Mensch表示,Mistral专注于提高生产力和推理能力。他认为,如果正确实施这项技术,并确保每个人都能使用它,它将改善各行各业的生活。 在谈到开源模型的风险时,Mensch坚信开源是治理软件和使用方式的最佳方法。他认为,AI模型只是定义软件的一种更抽象的方式,没有任何风险,只看到好处。
谷歌回归:Character AI创始人重返巨头怀抱,LLM团队大变动
Character AI(CAI),作为每月访问量超过1亿次的最热门消费者AI产品之一,正在失去其聪明的创始人和核心LLM人才,这些人才将回归谷歌。CAI的共同创始人Noam Shazeer和他的团队,原本是谷歌最初的Transformers论文的作者。 这是怎么回事? 谷歌正在授权CAI的模型并重新雇用其共同创始人,这些人最初离开谷歌创办了CAI。 这意味着什么? 用户花费数小时与CAI的聊天机器人交谈。如果有人认为CAI比Gemini对ChatGPT构成更大的威胁,那也不奇怪——看起来谷歌在某种程度上也同意这一点。 CAI的共同创始人Noam Shazeer和Daniel DeFreitas正在重新加入谷歌。他们并不孤单,构建CAI的LLM团队的大多数成员也在跟随他们。公告还提到,谷歌正在授权(非独占)CAI的当前LLM技术。为了提供背景信息,自2021年以来,CAI一直在构建自己的AI模型,但对其技术几乎没有宣传。 总体而言,这看起来像是为了获取顶级的LLM人才。谷歌可能并不需要CAI的模型(尤其是在发布了自己实验模型并名列前茅之后)。那么这个许可证的意义何在? CAI本身不会消失。它将继续运行,但将使用开源模型代替其自有技术。考虑到Meta的Llama模型几乎与封闭源代码模型一样好,为什么要花钱培训相同的LLM呢?相反,CAI将专注于让他们的角色扮演聊天机器人更具粘性。 投资者们获得了相当不错的回报,大约是他们在2023年估值CAI为10亿美元时支付的2.5倍。虽然不算是大赚一笔,但总算是有所收获。员工股票也将按相同的比例在2026年之前归属。 为什么要关心这个? 这笔交易是大科技公司迅速吞并AI初创公司的趋势的一部分。微软收购了Inflection AI,亚马逊收购了Adept AI,现在谷歌通过Character AI完成了这一杰作。 这正在改变AI的格局,并引发了对竞争的担忧。此外,如果你对AI或科技投资感兴趣,这也是一个提醒,即使是备受关注的初创公司也可能最终回到科技巨头的怀抱。哦,如果你是CAI的粉丝,你最喜欢的聊天机器人可能会有一些变化。