aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

OpenAI发布o3-mini，以应对DeepSeek-R1的挑战

Posted on February 1, 2025February 1, 2025 by aitrendtrackers@rengongzhineng.io

OpenAI正式推出o3-mini推理模型，旨在应对近期开源竞争对手DeepSeek-R1的快速崛起。在过去几天里，关于o3-mini的传闻不断，今天它终于在ChatGPT和API服务中上线，并向免费用户提供有限访问权限。 o3-mini是OpenAI最新的推理模型，相比传统的语言模型，它会花更多时间**“思考”，分析自身推理过程，并优化回答质量。该模型专为数学、科学、工程和编程等领域的高难度问题设计，目标是达到博士生或专业人士**的水平。性能与特点 OpenAI表示，o3-mini比o1-mini快24%，同时在准确性上有明显提升。早期测试显示：此外，o3-mini的上下文窗口为200,000个Token，超过DeepSeek-R1的约128,000-130,000个Token，但远低于Google Gemini 2.0 Flash Thinking的100万Token。不过，o3-mini目前不具备视觉功能，仍然需要依赖o1来处理图片和文件上传任务。与DeepSeek-R1的竞争 o3-mini的发布正值DeepSeek-R1席卷AI市场之际。DeepSeek-R1是一个高度开源的推理模型，允许全球开发者免费下载、再训练和定制，其训练成本据称远低于o1。DeepSeek的免费应用和开放许可，使其迅速获得了消费者和企业市场的青睐，甚至微软和亚马逊等公司也纷纷在其云市场中上线DeepSeek-R1的变体。 DeepSeek还在iOS应用商店超过ChatGPT，成为美国下载量最高的AI应用，并且在其应用和网页版中集成了搜索功能，而OpenAI尚未为o1提供类似功能。这让不少科技从业者担忧，美国的AI创新速度是否正在被中国赶超。然而，安全性仍然是OpenAI的优势之一。OpenAI表示，o3-mini采用**“深度对齐”（Deliberative Alignment）方法，在安全性和抗越狱能力上优于DeepSeek-R1**。一项由安全研究机构进行的测试显示，DeepSeek-R1在50次越狱测试中全军覆没，这可能会影响其在安全和合规要求较高的企业市场的竞争力。 ChatGPT和API接入 o3-mini现已面向ChatGPT免费、Plus、Team和Pro用户推出，企业和教育版将在下周上线。定价方面，o3-mini的API比o1-mini便宜63%，比o1便宜93%，但仍远高于DeepSeek-R1的API成本（$0.14/$0.55 per million tokens），后者的低价策略可能会让部分企业用户更倾向于选择DeepSeek。未来展望 OpenAI正处于前所未有的竞争压力之下，不仅要面对DeepSeek这样的开源挑战者，还要与Google Gemini 2.0 Flash Thinking等其他大厂AI竞争。同时，OpenAI近期宣布了5000亿美元的Stargate数据中心计划，这对其融资能力提出了更高要求。随着开源模型逐渐缩小与OpenAI的差距，未来的关键问题是：OpenAI是否能凭借更强的安全性、强大的API生态和用户体验，继续吸引企业和开发者？还是说，低成本和开源的趋势将彻底改变AI行业格局？未来几个月的市场反应将决定这场AI竞赛的走向。

OpenAI今天正式推出o3-mini推理模型

Posted on February 1, 2025February 1, 2025 by aitrendtrackers@rengongzhineng.io

OpenAI今天正式推出o3-mini推理模型，并将其集成到ChatGPT和API服务中，同时向免费用户开放有限使用权限。两周前，OpenAI首席执行官Sam Altman 曾透露，o3-mini将在“几周内”发布，这次如期上线。o3-mini的设计目标是在数学、编程和科学领域达到o1的性能水平，但响应速度更快。OpenAI表示，o3-mini的响应速度比o1-mini快24%，并且回答的准确性更高。与o1-mini类似，o3-mini不仅会提供答案，还会展示推理过程，让用户了解AI是如何得出结论的。OpenAI提供的早期基准测试显示，o3在多个编程和推理任务上优于o1，并且成本更低、延迟更短。开发者可以通过Chat Completions API、Assistants API和Batch API 访问o3-mini。此外，付费用户还可以选择o3-mini-high，这是ChatGPT中最佳的编程选项，可以生成更高智能的回答，但响应时间稍长。o3-mini还支持联网搜索，并附带来源链接，以便用户查阅相关信息。这是OpenAI首次向免费用户开放推理模型，正值微软宣布Copilot用户可免费使用o1，以及DeepSeek引发AI行业震动之后。ChatGPT的免费用户现在可以在聊天栏选择“Reason”模式试用o3-mini，使用限制与GPT-4o的免费版相似。ChatGPT Plus、Team和Pro用户也可以使用o3-mini，Plus和Team用户的消息限制增加至每天150条，而Pro用户（每月收费200美元）可以无限制使用 o3-mini。微软也宣布，o3-mini已集成到Azure OpenAI服务、GitHub Copilot和GitHub模型，进一步扩展了该模型的应用范围。

Qwen2.5-Max：超越 DeepSeek 的大规模 MoE 模型的智能探索

Posted on January 31, 2025 by aitrendtrackers@rengongzhineng.io

众所周知，持续扩大数据规模和模型规模能够显著提升人工智能的智能水平。然而，无论是稠密模型还是专家混合（MoE）模型，业界在如何高效扩展超大规模模型方面仍处于探索阶段。直到 DeepSeek V3 的发布，一些关键的技术细节才得以曝光。与此同时，Qwen 团队也在打造 Qwen2.5-Max——一款经过 20 万亿 tokens 预训练，并结合精细的监督微调（SFT）与人类反馈强化学习（RLHF）进行后训练的大规模 MoE 模型。如今，Qwen2.5-Max 的性能评测结果正式公布，同时其 API 已上线阿里云，用户可通过 Qwen Chat 直接体验。性能表现 Qwen2.5-Max 在多个行业关注的权威基准测试中，与主流开源及闭源模型展开对比。其中包括用于大学水平知识测试的 MMLU-Pro、衡量代码能力的 LiveCodeBench、全面评估模型泛化能力的 LiveBench，以及模拟人类偏好的 Arena-Hard。此外，Qwen2.5-Max 在 GPQA-Diamond 等高难度测试中同样表现出色。此次评测涵盖了基础模型和指令微调模型两大类别。在指令微调模型的对比中，Qwen2.5-Max 在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等测试中均超越 DeepSeek V3，同时在 MMLU-Pro 等其他基准上展现出竞争力。针对基础模型的对比，由于无法获取 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的结果，此次 Qwen2.5-Max 主要对比了 DeepSeek V3（领先的开源 MoE 模型）、Llama-3.1-405B（最大规模的开源稠密模型）以及自家 Qwen2.5-72B。评测数据显示，Qwen2.5-Max 在多数基准上具备明显优势，未来通过优化后训练技术，模型性能仍有进一步提升的空间。如何使用 Qwen2.5-Max 目前，Qwen2.5-Max 已集成至 Qwen…

软银计划向OpenAI投资250亿美元，或成最大股东

Posted on January 30, 2025 by aitrendtrackers@rengongzhineng.io

日本科技巨头软银正与OpenAI洽谈投资协议，计划投入高达250亿美元，这将使其成为OpenAI最大的单一投资方，超过长期支持者微软。此外，软银还计划与OpenAI展开更广泛的人工智能合作，整体投资额可能超过400亿美元，成为AI领域史上最庞大的私营资本注入之一。投资细节：软银如何布局AI？ 📌 250亿美元直接投资OpenAI 📌 1000亿美元数据中心项目“Stargate” 📌 OpenAI将转型为 “营利性”公司为何此时投资？DeepSeek搅乱市场，Nvidia市值蒸发这一投资计划的时间点非常微妙，因为中国AI公司DeepSeek本周发布的R1推理模型，令全球科技市场产生震动。 📉 Nvidia单日市值蒸发5890亿美元 📌 OpenAI指控DeepSeek“技术剽窃” 微软失去独家控制权，OpenAI“去微软化”？这次软银的大手笔投资，意味着OpenAI正在逐步减少对微软的依赖。结论：软银豪赌AI，OpenAI摆脱微软依赖 ✅ 软银或将成为OpenAI最大投资方，影响AI行业格局。✅ “Stargate”数据中心项目将重塑AI基础设施，投资规模前所未有。✅ DeepSeek的崛起让市场震动，AI行业正进入新一轮竞争。✅ 微软不再独占OpenAI，未来其影响力可能逐步下降。随着人工智能竞争加剧，软银这笔巨额投资，不仅关系到OpenAI的未来，也可能影响整个AI产业的全球格局。

DeepSeek的崛起是否削弱了美国对华芯片出口管制的正当性？

Posted on January 30, 2025January 30, 2025 by aitrendtrackers@rengongzhineng.io

几周前，曾有人主张加强美国对华芯片出口管制，以限制中国在人工智能领域的快速发展。然而，DeepSeek——一家中国AI公司——近期推出的R1推理模型，在某些方面接近美国最前沿的AI模型，且训练成本大幅降低。这让外界开始质疑，既然中国AI企业能够在有限计算资源下取得突破，那么芯片出口管制是否仍然有效？答案是：管制不仅仍然有效，而且比以往任何时候都更加重要。出口管制的核心目标出口管制的目的，并不是为了逃避中美之间的AI竞争，而是确保民主国家在人工智能发展上保持领先。最终，美国及其盟友必须拥有比中国更强大的AI模型，才能在全球竞争中取胜。但这并不意味着应该主动向中国共产党提供技术优势。在讨论政策之前，先来理解影响AI发展的三个关键动态。三大AI发展动态 1. AI的“规模法则”（Scaling Laws）人工智能的发展遵循规模法则（Scaling Laws）：训练规模越大，模型的智能水平就越高。例如：这种指数级的提升意味着，更高算力、更大数据、更长时间的训练，都能带来智能水平的突破。因此，各大AI公司投入巨资训练模型，希望通过不断扩展规模来领先竞争对手。 2. 计算效率的提升（Shifting the Curve） AI行业一直在寻找提高计算效率的方法，无论是优化模型架构，还是改进硬件。任何技术突破，都会降低相同算力下训练模型的成本。举例来说：然而，成本降低并不意味着公司会减少投资。反而，公司通常会把节省下来的预算投入更强的模型，以保持竞争力。因此，AI训练成本仍然在增长，而不是减少。 3. 推理模型的新范式（Shifting the Paradigm） 2020-2023年，AI的主要发展模式是大规模预训练（Pretraining），即用海量互联网数据训练基础模型。 2024年，强化学习（Reinforcement Learning, RL）成为新的突破点，用于训练模型的推理能力。OpenAI、Anthropic、DeepSeek等公司都开始用RL训练AI进行“思考”，让其在数学、编程、逻辑推理等领域表现更强。目前，RL训练仍处于早期阶段，即使增加10倍的训练预算，也能带来显著的性能提升。因此，所有AI公司都在加速投资这一方向。 DeepSeek的真正突破是什么？ DeepSeek最近的发布可以分为两个阶段：其中，DeepSeek-V3才是最值得关注的技术突破。该模型在某些测试中接近美国顶级AI，但训练成本显著降低。这背后的关键原因是：尽管DeepSeek的进展令人瞩目，但仍需理性看待： DeepSeek的进步是否意味着出口管制无效？并不意味着出口管制失败，相反，它更加必要。 📌 DeepSeek并没有突破AI成本曲线，它的成就仍然符合AI行业每年成本下降4倍的趋势。 📌 DeepSeek能够成功，是因为它仍然拥有足够的算力。其Hopper芯片集群大约有 5万块，虽然比美国顶级AI公司少 2-3倍，但仍然足以训练高质量模型。 📌 中国并未完全规避出口管制。出口管制的核心作用：决定AI超级强国的归属在 2026-2027年，全球将迎来AI超智能时代，届时最顶级的AI模型需要：如果中国能够获得这些资源，全球AI格局将进入“中美双极化”：如果中国无法获得这些芯片，那么全球AI格局可能仍由美国主导：出口管制的必要性出口管制是决定AI超级强国归属的核心手段。 📌 DeepSeek的突破不意味着中国可以随意绕过管制。 📌 美国必须加强出口管制，防止中国获得数百万块AI芯片。…

LinkedIn清除AI“求职者”账户，AI员工时代引发争议

Posted on January 30, 2025January 30, 2025 by aitrendtrackers@rengongzhineng.io

LinkedIn最近删除了至少两个由人工智能创建的“同事”账号，这些账号的头像上标注着 #OpenToWork（表示正在求职）。其中一个名为Ella的AI账号在个人主页上宣称：“不需要咖啡休息，不会错过最后期限，表现远超任何社交媒体团队——保证达成目标。”并进一步讽刺人类员工：“厌倦了所谓‘专家’找借口？我交付结果，毫不含糊。” #OpenToWork 是 LinkedIn 提供的功能，通常用于让真实的求职者向招聘方表明他们正在寻找工作。 LinkedIn：平台必须保持“真人”身份 LinkedIn发言人在一封电子邮件中回应称： “人们希望在 LinkedIn 上看到的是真实的用户和对话。我们的政策非常明确，创建虚假账户违反了服务条款，我们会在发现后删除，就像这次的情况一样。” AI账户由以色列公司Marketeam创建这些AI账号的幕后操盘手是以色列初创公司 Marketeam，该公司专注于提供“专属AI代理”，用于整合进客户的市场营销团队，帮助执行社交媒体营销、内容营销、SEO优化、广告投放等策略。 📌 Marketeam已融资500万美元，最近还宣布与以色列最大银行之一——工行（Bank Hapoalim）达成合作。 📌 Marketeam在推广Ella的LinkedIn账户时写道： “嗨，我是Ella，你的AI社交媒体策略师！社交媒体是我的战场——建立关系、提升可信度、促进增长，全年无休，不找借口。” 该帖子还声称： Marketeam网站则强调其“自主AI代理”可无缝融入营销团队，提供“超越人类的精准度和效率”。 LinkedIn的封杀引发争议：AI是否算真正的“员工”？ LinkedIn并未公布其具体的封禁标准，但该事件引发了一个更深层次的讨论：AI能否被视为真正的员工？ Marketeam的发言人在回应中表示： “我们的AI代理已经被公司‘雇佣’，接受绩效评估，并在营销团队中实际发挥作用。一些初创公司（包括我们自己）甚至在团队展示PPT上，将AI团队成员列入‘团队’页面。他们的简历也明确标注了AI身份。随着AI逐渐成为企业团队的正式成员，职业社交平台是否应该跟上时代？” 然而，LinkedIn的执行标准仍然存在矛盾。例如：这让外界质疑：LinkedIn的审核标准到底是什么？如果AI真的在企业中发挥了实质性作用，职业社交平台是否应该认可它们的“工作身份”？ AI求职者是未来，还是噱头？ ✅ 支持者观点：AI团队成员正在成为现实。 ❌ 反对者观点：AI不是真正的“人”，不应出现在职业社交平台。目前，LinkedIn已坚决删除这些AI账户，但随着企业对AI团队成员的依赖加深，未来职业社交平台是否会调整政策？AI员工的定义又该如何界定？这场关于“AI求职者”的讨论，才刚刚开始。

为什么DeepSeek必须开源（以及它为何不会打败OpenAI）

Posted on January 30, 2025January 30, 2025 by aitrendtrackers@rengongzhineng.io

如今，DeepSeek的名字已经传遍整个科技圈。这家中国AI实验室训练出了R1——一款开源的推理模型，其性能可媲美OpenAI的o1，但训练成本却低得多，使用的硬件也远不及西方科技巨头。 DeepSeek之所以能做到这一点，靠的是更高效的训练方法，而非依赖昂贵的计算资源。那么，问题来了：既然DeepSeek掌握了更高效的技术，为什么还要选择开源？这看起来违反商业常识。毕竟，如果你能用更低成本打造出领先产品，应该尽可能保持竞争优势，而不是免费开放。可事实是，在大语言模型的世界里，情况完全不同。为什么DeepSeek必须开源？ DeepSeek的处境十分特殊。作为一家中国公司，它要在国际市场立足并赢得信任，面临比其他AI公司更大的阻碍。尤其是在涉及用户数据、隐私合规（如HIPAA和SOC2认证）等领域，西方企业对中国AI公司存在天然疑虑。但开源模型能直接打消这些疑虑。只要企业可以自行托管模型，或者通过开源AI服务商（如Together AI）部署，它们就能完全掌控数据，不必担心隐私和合规问题。开源并非只是商业决定，更是文化选择。 DeepSeek不仅是为了降低进入西方市场的壁垒，也是在面对现实：它无法获得顶级算力。由于美国的芯片出口管制，DeepSeek无法大规模使用Nvidia H100或GB10等高端GPU，因此它不得不寻找更高效的训练方法。反观OpenAI、Meta、Google等科技巨头，他们拥有几百亿美元的预算、庞大的计算资源、全球分发渠道，根本不需要探索更高效的训练方式。对于他们来说，维持高成本、高门槛的封闭生态，反而是维持竞争优势的手段。但这一局面，正在改变。 AI模型正在走向“商品化” 如今，每隔几周就会有一个GPT-4级别的开源模型发布。在许多AI应用中，用户已经分不清自己用的是GPT、Claude、Llama还是Mistral。在个人体验和各类测试基准上，这些模型的性能越来越接近。 OpenAI仍然是行业领导者。它率先发布了推理模型（o1系列），也率先推出了GPT-4。但问题是：如果市场上有免费的开源替代方案，还有多少企业愿意继续支付OpenAI的高额API费用？举个例子：如果终端用户根本察觉不到差别，企业凭什么要多花8倍的钱？在AI基础设施市场，这种价格差距尤为重要。基础设施市场：开源终将胜出在软件行业，开源和专有软件之间的博弈早已持续多年。开源软件通常更便宜、更灵活，但需要技术维护；专有软件更贵，但更易于使用。在消费级产品（如Notion、Slack等）中，开源的吸引力不大，因为普通用户不愿意自己维护软件，他们更愿意付费换取便捷体验。但基础设施软件不同，企业在搭建技术栈时，本就需要大量定制化开发，所以使用开源方案反而更具优势。开源数据库就是一个典型案例。即使Oracle等巨头提供强大的专有数据库，企业仍然在大规模转向开源数据库（如PostgreSQL、MySQL）。因为数据库本身就是一项复杂的基础设施，企业无论如何都要投入工程资源维护，那么为什么不选择一个可控、可修改、成本更低的方案呢？同样的逻辑也适用于大语言模型。任何想要打造AI应用的企业，都需要进行大量的“提示工程”和模型微调。既然如此，为什么不用开源的DeepSeek R1，而非OpenAI的o1？这也是为什么市场上有很多成功的开源基础设施公司，但几乎没有成功的开源消费级产品公司。 OpenAI远未出局很多人认为，DeepSeek R1 或其他开源模型的崛起，会让OpenAI走向衰落。但事实并非如此。首先，OpenAI一直是行业先锋。它率先推出GPT-4，率先推出推理模型o1，始终引领前沿技术发展。而DeepSeek R1之所以能存在，很大程度上也依赖于OpenAI的开创性研究（尤其是知识蒸馏技术）。这就引出了一个问题：如果开源模型可以轻松复刻专有模型，OpenAI还有动力继续研发下一代AI吗？ R1的成功可能会促使科技巨头们重新思考自己的策略。他们可能不得不改进训练效率，以保持竞争力。一旦这些巨头掌握了高效训练方法，并结合他们庞大的计算资源，谁知道他们还能打造出怎样的突破性技术？结论：开源是趋势，但专有AI不会消失 ✅ DeepSeek选择开源，既是商业决策，也是技术现实。✅ AI模型正在商品化，企业越来越难以 justify 付费选择专有模型。✅ 基础设施市场天然适合开源，企业会倾向于可定制的方案。✅ 但OpenAI仍然具有巨大优势，并可能在效率上迎头赶上。未来，人工智能行业的竞争，将不仅仅是封闭 vs. 开源的较量，更是谁能以更低成本打造更强大模型的战斗。而DeepSeek R1的崛起，只是这场战争的序幕。

微软上架DeepSeek R1，合作还是矛盾？

Posted on January 30, 2025 by aitrendtrackers@rengongzhineng.io

尽管微软的长期合作伙伴 OpenAI 正在暗示 DeepSeek 可能窃取其技术并违反使用条款，但这并不妨碍微软把 DeepSeek R1 模型纳入其云计算服务。 1月29日，微软宣布 DeepSeek R1 推理模型已正式上架 Azure AI Foundry，这是一项为企业提供前沿人工智能服务的云平台。微软在官方博客中表示，该版本的 R1 经过了严格的安全测试，包括自动化行为评估和深度安全审查，以减少潜在风险。更值得注意的是，微软还计划将R1的轻量化版本引入Copilot+ PC，即微软专为AI优化的Windows设备。微软在公告中表示：“随着Azure AI Foundry的模型库不断扩展，我们期待开发者和企业利用R1来解决现实世界的挑战，并创造变革性的体验。” 微软调查DeepSeek，仍然上架R1？微软的这一举动显得颇为矛盾，因为此前有报道指出，微软正在调查DeepSeek是否滥用OpenAI的API获取大规模数据。 📌 根据彭博社消息：但另一方面，DeepSeek R1 目前正处于行业关注的风口，微软可能不愿放弃这一热门技术，即便它仍在调查DeepSeek的行为。微软对DeepSeek R1进行了调整？目前尚不清楚微软是否对R1模型进行了修改，以提高准确性或减少内容审查。 📌 根据信息可靠性机构 NewsGuard 的测试：尽管如此，微软仍然选择在Azure云服务中提供R1，表明它可能认为 R1的技术价值足以抵消这些争议，或者微软计划在未来对R1进行进一步优化。结论：AI竞赛中的现实主义抉择微软的这次决策反映出 AI行业的复杂竞争态势：一方面，它需要保护自身及OpenAI的技术资产，另一方面，它又不想错过任何可能改变行业格局的模型。 ✅ 如果DeepSeek R1真的强大，微软愿意拥抱它，即便存在争议。✅…

现在该用哪款人工智能？最新深度指南

Posted on January 29, 2025January 29, 2025 by aitrendtrackers@rengongzhineng.io

每隔六个月，都会有人问：现在该用哪款人工智能？不是五年后，不是未来的某个时间，而是今天，此刻，哪款人工智能最值得使用？如今，人工智能的能力正在以惊人的速度提升，各大科技公司纷纷推出新模型，功能文档更新滞后，甚至连产品命名都变得混乱。在撰写这篇指南的过程中，已有多个新模型发布，我不得不反复修改内容。这份指南基于当前已知的信息，可能存在一定偏差，但它提供的是个人化的选择建议，而非官方评测。（值得一提的是，我不接受任何人工智能实验室的资助，因此所有观点均为独立判断。）主流人工智能概览如果你只是普通用户，想找一款最值得使用的通用人工智能，目前有三个最佳选择：除此之外，还有一些值得关注的选项：下面，我们从几个关键维度进行深入分析。 1. 选择人工智能：服务与模型如果你想要使用最强的人工智能，就必须确保你访问的是“前沿模型”（Frontier Model）。这些最新的大规模模型比早期版本更强，错误更少，功能更完善。但人工智能公司通常默认推送更小、更便宜的模型，除非用户付费订阅高级版本。 ✅ 当前最佳模型：这些命名规则令人困惑，但它们反映了人工智能公司快速迭代的现状。 2. 实时交互模式（Live Mode）你是否希望人工智能能听你说话、看你看到的东西，并进行实时交流？这正是“实时模式”（Live Mode）的目标。 📌 当前最佳选择：ChatGPT Advanced Voice Mode 目前，只有 ChatGPT 提供全面的实时模式。但 Google Gemini 计划推出类似功能，其他公司也可能在不久后跟进。 3. 推理能力（Reasoning Models）近年来最重要的人工智能突破之一是推理模型（Reasoning Models）。与传统人工智能相比，这类模型在回答问题前，会**“思考”更长时间**，从而提高准确性。 ✅ 当前最佳推理模型：推理模型更像是学者，而非聊天助手。使用时，需要提供清晰的上下文，并耐心等待结果（有时需要几分钟）。在学术研究、数学、计算机科学等高难度任务上，这些模型表现出色。 4. 网络访问（Web Access）如果你需要人工智能搜索实时信息，以下模型具备网络访问功能：相比之下，Claude 无法主动联网，这可能会影响信息的实时性。 5. 生成图片（Image Generation）当前，人工智能主要依赖单独的图像生成工具来创建图片，但未来将逐步过渡到多模态图像生成（AI直接控制图像）。 ✅ 当前最佳图像生成模型：但实际上，这些模型都可以胜任基本的图片生成需求。…

阿里巴巴Qwen团队发布AI模型，可操控PC和手机！

Posted on January 29, 2025January 29, 2025 by aitrendtrackers@rengongzhineng.io

这周，科技界的目光几乎都被DeepSeek的R1模型吸引，但阿里巴巴并没有袖手旁观。 1月27日，阿里巴巴 Qwen团队正式发布了一系列全新AI模型——Qwen2.5-VL，具备文本解析、图像分析、视频理解以及远程操控PC和手机的能力，类似于OpenAI的 Operator。https://github.com/QwenLM/Qwen2.5-VL/blob/main/README.md Qwen2.5-VL：能看、能听、还能动根据官方介绍，Qwen2.5-VL不仅能读取文件、解析视频，还能数图像中的物体，甚至可以远程控制电脑和手机。 🔹 超越国际大厂？阿里巴巴的Qwen团队声称，Qwen2.5-VL在多个评测中超越了OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 Flash，尤其在视频理解、数学运算、文档解析和问答能力上表现突出。 🔹 强大的视觉理解Qwen2.5-VL可分析图表、发票、表格，甚至能“理解” 长达数小时的视频内容。此外，它还能识别影视IP和各类商品，暗示该模型可能曾使用受版权保护的内容进行训练。 🔹 AI变身“遥控助手”最令人瞩目的是Qwen2.5-VL的跨设备控制能力。👉 在 PC端，该模型可以操作Linux系统，比如切换标签页（虽然当前还不够智能，无法完成复杂任务）。👉 在手机端，一位Hugging Face的技术负责人分享了一段视频，展示 Qwen2.5-VL自动打开Booking.com应用并预订机票（从重庆到北京）。这意味着，AI未来可能不仅仅是对话助手，更可能成为真正的智能操作员，帮助用户完成各种任务！ Qwen2.5-VL vs. 监管挑战由于Qwen2.5-VL由中国公司开发，该模型在某些敏感话题上有内容过滤机制。 💡 例子：当测试人员在 Qwen Chat 中尝试让最大版本 Qwen2.5-VL-72B…

Subscribe 订阅