字节跳动的全新人工智能代理UI-TARS横空出世,其能力不仅可以接管用户的电脑,还能自主完成复杂的工作流,大幅超越现有的竞争对手。 UI-TARS与Anthropic的“Computer Use”类似,能够理解图形用户界面(GUI)、进行逻辑推理并逐步执行操作。 行业领先的性能表现 UI-TARS基于约500亿训练标注数据,提供7B和72B参数版本。无论是在性能、感知能力、任务执行能力还是整体表现上,UI-TARS在10多个GUI基准测试中均表现出色,超越OpenAI的GPT-4o、Anthropic的Claude,以及谷歌的Gemini。 例如,在VisualWebBench测试中,UI-TARS 72B取得了82.8%的高分,领先于GPT-4o(78.5%)和Claude 3.5(78.2%)。在WebSRC测试(衡量网页语义内容理解能力)中,UI-TARS-7B得分93.6%,而在复杂屏幕布局理解的ScreenQA-short测试中,UI-TARS-72B以88.6%的成绩拔得头筹,全面超越Qwen、Claude 3.5和Gemini系列模型。 研究团队表示,这些成果证明了UI-TARS在网页与移动端环境中优异的感知与理解能力。这种能力为复杂任务的精准执行奠定了坚实基础。 操作演示:能看懂界面并自主行动 UI-TARS的操作界面分为两部分:左侧为思考过程,实时记录其每一步推理逻辑;右侧为操作窗口,可自动打开文件、访问网站或运行应用程序。 实例场景: UI-TARS的多步骤操作能力和故障恢复能力展示了其出色的自主学习和适应性。 背后技术解析 UI-TARS通过大规模截图数据集训练,数据包含元素描述、类型、视觉信息、位置框和功能等元数据。模型可以全面描述截图内容,不仅识别界面元素,还能理解它们的空间关系。 研究人员还引入了纠错和反思数据,确保模型能够识别错误并动态调整,从而进一步提升任务完成的可靠性与效率。 超越竞争对手的全能表现 与Anthropic的Claude相比,UI-TARS不仅在网页任务中表现优异,还能轻松胜任移动端操作。 Claude在移动任务上的短板反映了其GUI操作能力的局限,而UI-TARS在跨平台领域(如网页和移动端)都展现了卓越的能力。例如,在多步骤操作与移动任务中,UI-TARS在AndroidWorld的116项测试中实现了高分表现,进一步验证了其通用性和实用性。 未来展望 UI-TARS的诞生代表着AI原生代理技术的重大进步。研究人员表示,未来的发展方向在于结合主动学习和持续学习,使代理通过与真实世界的交互自主改进能力。这种前瞻性设计将推动AI在更多实际场景中的落地应用,成为竞争激烈的AI代理市场中的重要玩家。
DeepSeek V3 LLM在NVIDIA H200 GPU上的推理性能
这篇博客聚焦于NVIDIA H200 GPU在大型语言模型(LLM)、视觉语言模型(VLM)和双塔模型(DiT)推理与训练中的性能表现。当前,SGLang团队正与研究团队共同开展实验,确保结果的可重复性和正式性,并投入了GPU基础设施和工程资源。未来文章将探讨H200的硬件优化及SGLang最新的DeepSeek V3功能改进(如FP8 GEMM优化及H200专属的FusedMoE优化)。 Hopper GPU规格对比:H100与H200 技术参数 H100 SXM H200 SXM BFLOAT16 989.5 TFLOPS 989.5 TFLOPS FP16 989.5 TFLOPS 989.5 TFLOPS FP8 1979 TFLOPS 1979 TFLOPS INT8 1979 TFLOPS 1979 TFLOPS GPU内存 80 GB 141 GB GPU内存带宽 3.35 TB/s 4.8 TB/s 相比H100,H200的芯片内存增加了76%(141 GB对比80 GB),内存带宽提升了43%(4.8 TB/s对比3.35 TB/s)。 研究方向 LLM推理中的内存分配 1. 模型状态内存 推理过程中主要关注模型参数占用的内存,而非优化器状态和梯度。 2. 残差状态内存 LLM推理中的主要内存开销在于中间状态和激活值,尤其是KV缓存的存储需求。更大的批次和上下文长度会显著增加KV缓存的大小,这通常远超模型参数的内存占用。…
微软和 OpenAI在Stargate之后
微软近期就 OpenAI 宣布的 5000 亿美元数据中心计划(“Stargate 项目”)澄清了双方的合作关系。在 OpenAI 日益增长的计算需求下,这一合作模式正在发生变化。 合作现状与变化 微软的态度与立场 微软 CEO Satya Nadella 曾在 2023 年 11 月表示,即便 OpenAI 不复存在,微软也具备所有必要资源和能力,包括 IP、计算力和数据。Nadella 强调:“我们在 OpenAI 的上下左右无处不在。” 尽管双方合作关系不再完全独占,微软仍在 OpenAI 的发展中占据核心地位。通过 Azure 的深度绑定以及对 OpenAI 的技术支持,微软在推动 AI 技术发展的同时,确保了自身在云计算和 AI 市场的战略地位。
Trump的“Stargate”
特朗普周二宣布与 OpenAI、甲骨文(Oracle)和软银(Softbank)合作,成立名为 “Stargate” 的联合企业,计划在未来四年内投资 5000 亿美元,用于加强美国的人工智能基础设施。这一消息在白宫由特朗普、软银 CEO 孙正义、OpenAI CEO Sam Altman 和甲骨文联合创始人 Larry Ellison 共同发布。 项目亮点 背景与发展 行业与国家战略意义 展望 Stargate 项目的公布标志着美国在全球 AI 竞争中的重大动作。尽管面临技术和资本密集的挑战,但通过 OpenAI、软银和甲骨文等公司的合作,这一计划将成为推动美国人工智能发展、重塑国家技术优势的重要催化剂。
Anthropic 正计划为其聊天机器人 Claude 推出“双向语音模式”和一个新的记忆功能
Anthropic 正计划为其聊天机器人 Claude 推出“双向语音模式”和一个新的记忆功能,以进一步增强用户体验。Anthropic CEO Dario Amodei 在达沃斯世界经济论坛上接受《华尔街日报》采访时透露了这一消息,并表示公司计划在未来几个月内推出“更智能”的 AI 模型。 功能升级:语音与记忆 未来发展与市场压力 Amodei 提到,过去一年(尤其是最近三个月),用户需求激增,令 Anthropic 的算力供应不堪重负。他表示:“这种需求激增远超我们目前的计算能力。” 行业趋势与挑战 Anthropic 在推出 Claude 新功能的同时,正努力跟上用户需求和技术迭代的步伐: 总结 随着功能的升级和更智能 AI 模型的推出,Claude 将与 OpenAI 的 ChatGPT 等竞争对手展开更激烈的市场争夺。尽管 Anthropic 面临巨大的资金和算力压力,其在用户体验优化和技术进步上的努力显示出其争夺市场领先地位的决心。这场 AI 军备竞赛仍在升温。
DeepSeek 推出了其最新开源推理模型 DeepSeek-R1
中国 AI 实验室 DeepSeek 推出了其最新开源推理模型 DeepSeek-R1,引发行业广泛关注。据称,这款模型在某些基准测试中的表现已媲美 OpenAI 的 o1 模型,同时具备完全开源和商用无约束的优势。 DeepSeek-R1 的亮点 局限与挑战 行业格局与未来趋势 结论 DeepSeek-R1 的发布不仅展示了中国 AI 实验室在推理模型领域的技术实力,也标志着开源 AI 模型的新高度。尽管存在内容审查和政策挑战,其性能与灵活性已让全球开发者看到更广阔的应用前景。随着类似 R1 的模型继续扩展,AI 技术的平民化趋势或将以更快速度到来。
OpenAI 的全新 AI 代理“Operator”在一系列泄密中首次曝光
据报道,OpenAI 的全新 AI 代理“Operator”在一系列泄密中首次曝光!这款被称为“下一代突破性技术”的代理工具将能够为用户自动完成各种基于计算机的任务,比如编程、预订旅行和网络浏览等。 泄密关键点: 行业意义: 未来展望: 尽管当前 “Operator” 在复杂任务上的成功率尚待提升,其智能水平和自动化能力已经展现了令人瞩目的潜力。随着研究预览的推出,OpenAI 的这款 AI 代理或将为工作效率工具和自主智能技术设立新的标杆,引领下一波技术革新潮流。
本地 AI 模型“不实用”?
近年来,本地 AI 模型正逐渐成为热门话题,而过去许多人对它们的偏见——“又笨又占资源”——似乎正在被打破。以下是为何本地 AI 模型如今被认为可行的主要原因,以及它们可能带来的深远影响。 为什么过去的本地 AI 模型“不实用”? 如今发生了什么? 开源 AI 领域,尤其是中国团队的贡献,推动了技术进步: 为什么这很重要? 本地 AI 模型的崛起带来了几大转变: 为什么 GPQA Diamond 很重要? GPQA Diamond 是评估模型理解力和知识水平的可靠基准测试,比数学和编程任务更适合衡量模型的通用智能能力。数据显示,许多 7-8B 的开源模型已经能够在这个测试中媲美 GPT-4o,而与 Claude 3.5 Sonnet 的差距也逐步缩小。 接下来的挑战是什么? 虽然本地 AI 模型的性能和便捷性不断提高,但仍有几个障碍需要克服: 未来展望 随着本地 AI 技术的成熟,个人设备将不再仅仅是消费工具,而能成为功能强大的生产力工具。无论是保护隐私,还是摆脱对云服务的依赖,本地 AI 都展现出改变行业规则的潜力。期待下一个“爆款”产品,真正让这些本地模型走进千家万户。
谷歌 AI 推出了一项革命性框架,专注于扩展扩散模型在推理阶段的性能
背景:扩散模型推理的挑战 生成模型近年来在语言、视觉和生物学领域引发了巨大变革。尽管通过增加数据量、计算资源和模型规模,这些模型在训练阶段取得了显著进步,但推理阶段的扩展能力却面临诸多限制。以扩散模型为例,这类模型通过降噪过程生成连续数据(如图像、音频和视频),但简单增加降噪步数(NFE)的传统方法并未显著提升性能,甚至可能导致计算资源浪费。 目前,多种方法被尝试用来改进生成模型的推理性能。例如,大型语言模型(LLM)在测试时通过改进搜索算法、验证方法和计算分配策略取得了成功。但在扩散模型领域,现有方法主要集中于训练阶段优化,如微调、强化学习和直接偏好优化等,而推理阶段的深入扩展方案尚属稀缺。 谷歌框架:推理阶段的新方法论 NYU、MIT 和谷歌的研究团队提出了一种全新的推理扩展框架,摆脱了简单增加降噪步数的思路,通过创新的搜索机制提升生成质量。新框架的核心是通过更优噪声候选的发现和验证算法,改进扩散模型的降噪过程,并提供灵活的组件组合,适配多种应用场景。 具体实现中,该框架采用了针对 ImageNet 的类条件生成,使用预训练的 SiT-XL 模型(256 × 256 分辨率)和二阶 Heun 采样器。降噪步数固定为 250 步,同时探索额外的 NFE 用于搜索操作。搜索机制采用随机搜索算法和“最佳 N 次策略”(Best-of-N),选取最优噪声候选,验证阶段则引入了两个 Oracle 验证器:Inception 分数(IS)和 Fréchet Inception 距离(FID)。IS 基于 InceptionV3 模型的分类概率最高值,而 FID 通过最小化与预先计算的 ImageNet 特征分布的差异来评估。 框架测试结果与影响 测试结果显示,这一框架在不同基准上的性能表现突出。在 DrawBench(涵盖多样化文本提示)中,基于 LLM Grader 的评估表明,使用不同验证器的搜索机制能够显著提升样本质量。尤其是 ImageReward 和验证器集成(Verifier Ensemble),在多项指标上均表现优异,展现了细腻的评估能力和与人类偏好的高度一致性。 在 T2I-CompBench 的测试中,优化配置更加偏向文本提示的准确性,而非视觉质量。ImageReward 表现最佳,而美学评分(Aesthetic Scores)影响较小甚至为负,CLIP 则提供了适度改进。这些结果表明,不同的验证器在特定任务上的表现具有显著差异。 展望:开启推理优化新方向 研究团队认为,这一框架通过战略性搜索机制实现了推理阶段的显著扩展,为生成模型在不同规模和任务上的性能提升提供了新的思路。同时,研究还揭示了验证器的内在偏差,强调了开发任务特定验证方法的重要性。 这一研究成果为扩散模型的推理优化树立了新标杆,也为未来探索更高效的验证系统和针对特定任务的优化方法提供了广阔空间。无论在视觉生成还是更广泛的生成式 AI 应用中,这一框架都将发挥重要作用。
Perplexity AI 周六向 TikTok 母公司字节跳动递交了一项提案
据 CNBC 报道,AI 搜索引擎初创公司 Perplexity AI 周六向 TikTok 母公司字节跳动递交了一项提案,计划打造一个全新的合并实体,整合 Perplexity、TikTok 美国业务以及新的资本合作伙伴。 方案亮点:保留现有投资者权益,扩展视频内容 据知情人士透露,此次提案旨在让字节跳动的大部分现有投资者保留股权,同时为 Perplexity 增加更多视频内容。这位消息人士因交易保密而要求匿名。据悉,该计划将避免字节跳动直接出售 TikTok,而是通过合并的方式保持控制权,这或许是 Perplexity 自信能成功竞标的原因。 Perplexity AI 是一家主打人工智能搜索技术的初创公司,与 OpenAI 和谷歌展开直接竞争。今年年初,该公司估值仅约 5 亿美元,而随着生成式 AI 的火爆发展和投资者兴趣的激增,其年底估值飙升至约 90 亿美元。然而,快速增长的同时,Perplexity 也因涉及抄袭争议而备受关注。 AI 搜索的未来与 TikTok 的命运 AI 辅助搜索被投资者视为谷歌面临的主要风险之一,因为它可能彻底改变消费者获取信息的方式。自 2022 年底 OpenAI 推出 ChatGPT 并掀起生成式 AI 热潮以来,AI 搜索工具不断涌现,包括 OpenAI 的 SearchGPT 和谷歌的“AI 概述”功能。然而,TikTok 在美国的前景却充满不确定性。 TikTok 宣布,如果拜登政府无法明确表示不会惩罚苹果、谷歌等托管其应用的公司,TikTok 将于周日关闭美国市场。对此,总统当选人唐纳德·特朗普在周六接受 NBC…