Claude 最近上新了个狠角色,叫做 “think” 工具。这不是普通的“多想想”,而是给 Claude 自己腾出一个小空间,专门用来“停下来、理一理思路”。听起来简单,实则能让它在面对超级复杂任务时变得更加靠谱、条理清晰、决策稳定。 {“name”: “think”,“description”: “Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.”,“input_schema”: {“type”: “object”,“properties”: {“thought”: {“type”: “string”,“description”: “A thought to think about.”}},“required”: [“thought”]}}…
第二个DeepSeek?Manus AI
最近AI圈子里最火的话题非Manus莫属!这款由中国武汉创业公司“蝴蝶效应”推出的通用AI代理自上周发布以来,在全球范围内掀起了一阵热潮。不仅在国内备受瞩目,在国际科技圈也频频刷屏。连推特联合创始人杰克·多西(Jack Dorsey)和Hugging Face产品负责人维克多·穆斯塔尔(Victor Mustar)都对其赞不绝口,甚至有人称其为“第二个DeepSeek”——毕竟,这款AI的实力和它的“出身”都让人意想不到。 Manus到底是什么? 官方介绍称,Manus是全球首个真正意义上的“通用AI代理”。它并不像传统AI聊天机器人那样仅依赖单一大模型,而是集成了多个AI模型(包括Anthropic的Claude 3.5 Sonnet和阿里巴巴的开源Qwen的微调版本),并通过多个独立运行的代理协作完成各种任务。换句话说,它不仅会聊天,更具备主动执行复杂任务的能力。 当然,虽然热度空前,但能亲自体验到Manus的用户少之又少。当前,仅有不到1%的候补名单用户收到了邀请码,而Manus的Discord频道成员却已超过18.6万,足见市场期待值之高。 MIT科技评论的实测 MIT科技评论最近拿到了Manus的测试权限。整体体验下来,这款AI确实像一个超高效的智能实习生。它有时候会误解指令,甚至偶尔偷懒,但逻辑清晰、适应力强,而且给出详细反馈后会显著改进。虽然目前并不完美,但确实充满潜力。 Manus的界面设计简洁,默认语言为英语。登陆后,用户会看到一个类似ChatGPT或DeepSeek的主页,左侧显示历史对话记录,中间是聊天输入框。此外,官方还提供了一系列示例任务,如商业策略制定、交互式学习以及定制化音频冥想等。 一个独特的功能是**“Manus’s Computer”**窗口,允许用户实时查看Manus执行任务的过程,甚至在关键时刻介入调整,这点比大多数AI助手都更透明。 为了评测Manus的能力,测试员设置了三个任务: 任务1:寻找中国科技记者 初版名单仅包含5个记者,外加5个“荣誉提名”。部分记者的代表作被标注,部分却没有。问Manus原因,得到的答案令人哭笑不得——“偷懒了。”它直言自己在“优化研究效率”的过程中,部分信息没补充完整。在要求统一标准后,它迅速调整,最终给出了30名记者的详细列表,并附上了他们目前所在的媒体和代表作。值得一提的是,Manus的输出可以直接下载为Word或Excel文件,方便后续整理和分享。 不过,它在处理付费墙内容时遇到了障碍,许多新闻网站识别其为“可疑行为”并拒绝访问。如果未来版本能在遇到此类问题时主动请求用户协助,体验会更进一步。 任务2:搜寻纽约房源 Manus起初误解了“某种户外空间”的概念,直接筛掉了所有没有私人阳台或露台的房源。但经过调整,它最终生成了一个分层推荐列表,类似Wirecutter风格,包括“最佳整体选择”、“性价比最高”和“豪华选项”等类别。这项任务花了不到半小时,比整理记者名单快得多,可能是因为房地产数据更公开、结构化程度更高。 任务3:“35岁以下创新者”候选人 这个任务的难度最大。Manus需要研究往年榜单、制定搜索策略、筛选候选人,并确保多元化。然而,由于无法访问学术论文和部分新闻网站,研究进展受限。三小时后,它仅找到3个完整背景资料的候选人。最终,在强制要求下,它凑出了50个名字,但部分领域和机构过度集中,反映出研究仍有漏洞。在进一步补充“中国候选人”后,它确实找到了一些合适的人选,但不少是国内媒体常见的“明星创新者”。 最终评测 从实测来看,Manus确实是一个直观、适合无代码背景用户的AI工具。在某些任务上,它比ChatGPT DeepResearch表现更好,尤其擅长在开放网络上进行深入研究。但它的处理速度较慢,特别是涉及大范围搜索时,效率还有提升空间。 然而,它的稳定性仍需优化。测试过程中,Manus偶尔崩溃,甚至因服务器负载过高拒绝创建新任务。相比ChatGPT DeepResearch,它的任务失败率更高。Manus的首席科学家Peak Ji表示,团队正努力改善这一问题。而根据中国媒体36Kr的报道,每次任务的成本仅约2美元,远低于DeepResearch的20美元,成本优势明显。 Manus的一大亮点是透明且可定制的工作流程。它会主动询问问题,并在“知识”记忆中保留用户的重要指令,以便未来任务中使用。每个任务的操作步骤也可以回放和分享,提高了可控性和协作体验。 虽然Manus当前仍存在一些短板,但它已经展示了中国AI公司在通用智能代理上的独特创新能力,不再只是跟随西方步伐,而是在自主塑造AI技术的发展方向。未来,如果服务器架构得到优化,它有望成为白领、独立开发者和小型团队的新宠!
阿里巴巴发布 R1-Omni:首个基于 RLVR 的全模态大语言模型,用于情感识别
情感识别一直是 AI 领域的难题,尤其是 视觉与音频信号的融合。单独依赖视觉或音频的模型,往往会忽略二者之间的微妙关联,导致错误理解。此外,许多模型缺乏 可解释性,无法清晰说明如何得出情感判断,更别提在陌生场景下保持稳定性。 阿里巴巴研究团队 正式推出 R1-Omni (https://r1-omni.com/),一种 基于“可验证奖励强化学习”(RLVR)的全模态大语言模型,专为情感识别优化。相比现有方法,R1-Omni 不仅能准确预测情感,还能提供详细的推理过程,让 AI 决策更透明、更可解释。 R1-Omni 如何突破情感识别难题? 💡 核心技术 1:强化学习 + 可验证奖励(RLVR) 📈 核心技术 2:GRPO(群体相对策略优化) 实验结果:R1-Omni 在多个数据集上全面超越现有模型 🔹 在 DFEW 数据集上: 🔹 在 MAFW 数据集上: 🔹 泛化能力测试(RAVDESS 数据集): ✅ 可解释性更强: 未来展望:如何让 AI 读懂人类更复杂的情感? 尽管 R1-Omni 在情感识别领域取得了重大突破,但仍有待优化的方向: 🔍 字幕识别能力提升:部分音频数据存在噪音或字幕缺失,AI 仍需增强对音频内容的理解能力。🎭 更细腻的情感分析:当前 AI 仍难以完全模拟人类情感的微妙变化,未来可能需要更先进的音视频融合方法。🧠 推理逻辑进一步优化:减少 AI 生成 不符合事实 的解释,让…
Gemini Robotics:Google DeepMind 让 AI 机器人真正“动”起来!
Google DeepMind 正在打破 AI 仅限于数字世界的边界,正式推出 Gemini Robotics,一款基于 Gemini 2.0 的 AI 机器人模型。这次,AI 不再只是 看和听,而是 真正能动起来 了! Gemini Robotics 是一款 “视觉-语言-行动”(VLA)模型,让机器人具备更强的物理世界交互能力。此外,Google 还推出了 Gemini Robotics-ER(Embodied Reasoning),专注于 空间理解和推理,帮助机器人更精准地 感知、规划、执行任务。 这两款 AI 机器人模型将彻底改变机器人行业,使机器人能够执行 前所未有的复杂任务,并适应 全新的环境和设备。 Gemini Robotics 的三大核心突破 🤖 通用性(Generality) 🗣 交互性(Interactivity) ✋ 灵活性(Dexterity) Gemini Robotics-ER:让机器人真正“理解”世界 除了 Gemini Robotics,Google 还推出了专注于 空间推理 的 Gemini Robotics-ER,进一步增强机器人对 3D 物理世界 的理解能力。 🧠 更聪明的…
Meta 测试自研 AI 训练芯片,欲削减对 Nvidia 依赖
Meta 正在测试一款 自研 AI 训练芯片,希望借此减少对 Nvidia 等硬件厂商的依赖。据 Reuters(路透社) 报道,该芯片专为 AI 任务优化,由 台积电(TSMC) 代工,目前处于 小规模部署 阶段,若测试顺利,Meta 计划扩大生产。 这并非 Meta 首次尝试定制 AI 芯片。此前,该公司曾推出专门 运行 AI 模型的芯片,但 从未 涉及 训练 领域。然而,Meta 在芯片开发上的探索并非一帆风顺,过去已有多个芯片项目因未达预期而被取消或缩减规模。 目前,Meta 今年的资本支出预计高达 650 亿美元,其中大部分将用于采购 Nvidia GPU。如果自研芯片能部分替代 Nvidia 设备,即便削减 一小部分 成本,对 Meta 来说也是 重大利好。
Gemma 3 发布:最强单 GPU/TPU 可运行模型,性能超 Llama-405B!
Google DeepMind 再次掀起 AI 界的狂潮,正式推出 Gemma 3 ——一款轻量级但性能炸裂的开源 AI 模型。这款模型不仅沿袭了 Gemini 2.0 的前沿技术,还专为 单 GPU/TPU 设备 设计,无论是手机、笔记本,还是工作站,都能流畅运行。 过去一年,Gemma 生态(Gemmaverse)已经收获了 超 1 亿次下载,衍生出 6 万多个变体,成为开源 AI 领域的顶流。如今,Gemma 3 进一步升级,带来了 1B、4B、12B 和 27B 四种规格,开发者可以根据硬件和性能需求自由选择。 Gemma 3 新功能抢先看 🔥 全球最强单加速器模型:在 LMArena 排行榜的人类偏好测试中,Gemma 3 完胜 Llama-405B、DeepSeek-V3 和 o3-mini,成为同规格 AI 领域的佼佼者。 🌍 140 种语言支持:开箱即用支持 35+ 语言,预训练支持 140+ 语言,助力全球化 AI 应用。…
OpenAI 最新发布 Responses API 和开源 Agents SDK,开发者可自建 Deep Research 和 Operator 级 AI 代理
OpenAI 正在推出一套全新的 API 和工具,帮助开发者和企业更高效地构建 AI 代理。这些技术正是支撑其自家 AI 代理 Deep Research 和 Operator 的核心——前者能够自主搜索互联网,生成结构清晰、引文完整的研究报告,而后者则能根据用户文本指令自主操作浏览器,比如查找体育赛事门票或预订餐厅。 现在,开发者终于能直接使用这些强大 AI 代理的底层技术,打造自己的竞品,或是针对特定领域和受众定制更加专业的 AI 代理。 OpenAI 的 AI 代理进化史:从 Deep Research 到 Responses API OpenAI 近期在推理、多模态处理和安全机制上的突破,为 AI 代理的发展奠定了基础,尤其是其“o”系列推理模型(o1 和 o3)。 “推理模型对 AI 代理的能力至关重要,”OpenAI 平台产品负责人 Olivier Godement 说道。“过去,AI 代理最大的问题是无法处理复杂的长期任务,比如规划。” 然而,尽管 AI 代理的潜力巨大,开发者一直缺乏易于部署到生产环境的工具,直到现在。 让 AI 代理真正“懂事”:Responses API 和开源 Agents SDK 为了解决这些问题,OpenAI 推出了几款全新产品:Responses API、内置的网页搜索和文件搜索工具、计算机使用工具,以及开源的 Agents…
DeepSeek凭什么不拿VC的钱?这三个原因揭秘!
DeepSeek,这家正在颠覆AI行业的中国初创公司,至今仍未接受外部投资。在硅谷AI创业公司频繁宣布融资、资本竞逐AI模型的背景下,DeepSeek创始人梁文峰却稳坐钓鱼台,对蜂拥而至的投资人一概不理。**《华尔街日报》(WSJ)**近日揭秘了梁不愿引入外部资金的三大关键原因。 1. 梁文峰不想失去控制权 一般来说,创业公司需要外部资本支持,因此难免会受投资人影响。然而,DeepSeek是个特例。 早在2023年,梁在接受中国媒体采访时就曾抱怨VC们过于关注AI的快速变现,而非基础研究。因此,即使大量投资机构希望进入,梁始终不愿放权。 2. DeepSeek目前根本不缺钱 相比其他从零开始的AI初创公司,DeepSeek的资金来源并不依赖外部投资,而是靠High-Flyer基金的盈利输血。 3. VC投资可能加剧信任与隐私担忧 DeepSeek的中国背景让其在国际市场面临监管压力,而外部投资可能让情况更加复杂。 但DeepSeek不会永远拒绝投资 尽管梁目前不急于融资,但这并不意味着DeepSeek永远不会引入外部资本。 未来谁会投资DeepSeek? 虽然DeepSeek现在还在“谢绝VC”,但大厂们已经开始盯上它: 结论:DeepSeek还能独立多久? 梁文峰目前依靠High-Flyer的资金维持DeepSeek的独立性,同时避免VC干涉。但随着AI计算需求激增、盈利压力加大、基金表现下滑,DeepSeek终究可能不得不开放融资大门。 最终的问题是:当DeepSeek决定融资时,它会选择谁? 是腾讯、阿里等中国科技巨头,还是国际资本?这不仅关乎公司发展方向,也会影响其在全球市场的战略定位。
CoreWeave:从“微软专供”到OpenAI的座上宾
OpenAI再下一城!据路透社报道,这家AI巨头已与GPU云计算公司CoreWeave达成一项5年期、119亿美元的天价合作协议。这不仅是OpenAI在计算资源上的一大步,更是在与微软的“暧昧竞争”中布下的一步高手级棋局。 CoreWeave:从“微软专供”到OpenAI的座上宾 本次协议的亮点之一,是OpenAI直接拿下CoreWeave 3.5亿美元的股权,而且这部分投资与CoreWeave即将进行的IPO完全独立。 值得一提的是,CoreWeave的最大客户原本是微软。在2024年,微软贡献了CoreWeave62%的收入,使其年营收飙升至19亿美元(2023年仅为2.29亿美元,一年暴增近8倍)。如今,OpenAI正式入局,CoreWeave不仅新增了一位超大客户,还有效降低了单一客户依赖带来的IPO投资风险。 CoreWeave拥有Nvidia 6%股权支持,其AI云业务遍布32个数据中心,截至2024年底运行着超过25万张Nvidia GPU,包括最新的Blackwell系列。可以说,这家公司掌控着AI算力的命脉,而OpenAI选择下注,显然是为了确保未来不再因算力短缺而受制于人。 OpenAI & 微软:友谊小船说翻就翻? 这笔交易的另一个看点,是它与微软和OpenAI之间日益紧张的关系息息相关。 微软作为OpenAI的大金主,已经投入了140亿美元,并有权分享OpenAI的一部分收入。然而,随着OpenAI的崛起,双方的竞争关系日益显现。OpenAI不仅争夺企业级客户,还计划推出高端AI代理,与微软展开直接竞争。 回顾过去几个月,微软已经开始去OpenAI化: 这场AI军备竞赛已经打响,CoreWeave的加入,无疑让OpenAI多了一张强力王牌。 CoreWeave:从挖矿到IPO,华丽转身 CoreWeave的故事本身就足够戏剧性。这家公司最早是加密货币挖矿公司,由前对冲基金从业者创办。如今,它已完成华丽转型,成为AI时代最炙手可热的云计算玩家。 如果一切顺利,这场从GPU挖矿到AI淘金的狂欢,将让CoreWeave的创始人们继续在资本市场“印钞”。 未来走向:OpenAI vs 微软,全面开战? 从这笔交易来看,OpenAI已经不再满足于微软的资源,而是直接投资自己的GPU云计算提供商,彻底掌握算力命脉。未来,OpenAI可能会: 至于微软,它也不会坐以待毙——自主AI模型、收购人才、拓展云计算合作,多线并行,全面应对OpenAI的独立化进程。 这不仅是AI巨头们的较量,更是一场关于AI算力、数据、市场份额的终极博弈。CoreWeave的这步棋,可能只是开局,但AI战场上的真正较量,才刚刚开始。
伦敦国王学院(King’s College London)和艾伦图灵研究所(The Alan Turing Institute)的研究团队推出了一种全新的自蒸馏框架——CODI
大语言模型(LLM)的推理能力再迎重大突破!来自伦敦国王学院(King’s College London)和艾伦图灵研究所(The Alan Turing Institute)的研究团队推出了一种全新的自蒸馏框架——CODI(Continuous Chain-of-Thought via Self-Distillation),可以让LLM在不显式生成推理步骤的情况下,依然具备强大的逻辑推理能力。 大模型推理的难题:显式 vs. 隐式 CoT Chain-of-Thought(CoT)提示工程已经被证明是提升LLM逻辑推理能力的有效方法,它能让模型按步骤拆解问题,进行层层推理。然而,CoT主要依赖自然语言来表达推理过程,而研究表明,人类的数学推理其实并不完全依赖语言,这意味着可能存在更高效的推理方式。 目前,LLM在推理时主要面临以下挑战: 一些方法(如Coconut)尝试用课程学习(Curriculum Learning)来逐步引导模型内化推理步骤,但仍然存在误差传播和遗忘问题,导致效果不理想。因此,如何在保证推理能力的同时,减少计算开销,成为了研究的关键。 CODI:用自蒸馏让AI“内化”推理过程 为了解决这个问题,研究团队提出了CODI框架,它的核心思想是: CODI的关键机制: 相比于传统方法,CODI无需多阶段训练,通过单步蒸馏就能让模型获得推理能力,避免了课程学习方法中的信息遗失和遗忘问题。 实验结果:推理更强,速度更快 研究团队在数学推理任务上测试了CODI,结果令人惊喜: 此外,CODI还能在跨领域任务(如SVAMP和MultiArith数据集)上取得更好的泛化能力,说明它不仅能在数学推理中生效,还能扩展到更广泛的逻辑推理任务。 未来展望:CODI如何改变AI推理? CODI的出现,标志着隐式CoT推理终于追上了显式CoT,同时也让推理更加高效。相比传统方法,它的优势在于: 未来,CODI可能会被应用到更复杂的多模态推理任务,比如: 总结CODI通过自蒸馏+隐式推理,成功让大模型推理速度更快、计算更高效,并首次让隐式CoT达到显式CoT的推理能力。这一突破,不仅让LLM在数学推理任务上表现更优,也为未来的AI推理技术提供了新的方向。未来,CODI有望在更复杂的推理场景中发挥巨大作用,让AI真正迈向高效、精准、可扩展的推理时代!