OpenAI正式推出o3-mini推理模型,旨在应对近期开源竞争对手DeepSeek-R1的快速崛起。在过去几天里,关于o3-mini的传闻不断,今天它终于在ChatGPT和API服务中上线,并向免费用户提供有限访问权限。 o3-mini是OpenAI最新的推理模型,相比传统的语言模型,它会花更多时间**“思考”,分析自身推理过程,并优化回答质量。该模型专为数学、科学、工程和编程等领域的高难度问题设计,目标是达到博士生或专业人士**的水平。 性能与特点 OpenAI表示,o3-mini比o1-mini快24%,同时在准确性上有明显提升。早期测试显示: 此外,o3-mini的上下文窗口为200,000个Token,超过DeepSeek-R1的约128,000-130,000个Token,但远低于Google Gemini 2.0 Flash Thinking的100万Token。 不过,o3-mini目前不具备视觉功能,仍然需要依赖o1来处理图片和文件上传任务。 与DeepSeek-R1的竞争 o3-mini的发布正值DeepSeek-R1席卷AI市场之际。DeepSeek-R1是一个高度开源的推理模型,允许全球开发者免费下载、再训练和定制,其训练成本据称远低于o1。DeepSeek的免费应用和开放许可,使其迅速获得了消费者和企业市场的青睐,甚至微软和亚马逊等公司也纷纷在其云市场中上线DeepSeek-R1的变体。 DeepSeek还在iOS应用商店超过ChatGPT,成为美国下载量最高的AI应用,并且在其应用和网页版中集成了搜索功能,而OpenAI尚未为o1提供类似功能。这让不少科技从业者担忧,美国的AI创新速度是否正在被中国赶超。 然而,安全性仍然是OpenAI的优势之一。OpenAI表示,o3-mini采用**“深度对齐”(Deliberative Alignment)方法,在安全性和抗越狱能力上优于DeepSeek-R1**。一项由安全研究机构进行的测试显示,DeepSeek-R1在50次越狱测试中全军覆没,这可能会影响其在安全和合规要求较高的企业市场的竞争力。 ChatGPT和API接入 o3-mini现已面向ChatGPT免费、Plus、Team和Pro用户推出,企业和教育版将在下周上线。 定价方面,o3-mini的API比o1-mini便宜63%,比o1便宜93%,但仍远高于DeepSeek-R1的API成本($0.14/$0.55 per million tokens),后者的低价策略可能会让部分企业用户更倾向于选择DeepSeek。 未来展望 OpenAI正处于前所未有的竞争压力之下,不仅要面对DeepSeek这样的开源挑战者,还要与Google Gemini 2.0 Flash Thinking等其他大厂AI竞争。同时,OpenAI近期宣布了5000亿美元的Stargate数据中心计划,这对其融资能力提出了更高要求。 随着开源模型逐渐缩小与OpenAI的差距,未来的关键问题是:OpenAI是否能凭借更强的安全性、强大的API生态和用户体验,继续吸引企业和开发者? 还是说,低成本和开源的趋势将彻底改变AI行业格局? 未来几个月的市场反应将决定这场AI竞赛的走向。
Author: aitrendtrackers@rengongzhineng.io
OpenAI今天正式推出o3-mini推理模型
OpenAI今天正式推出o3-mini推理模型,并将其集成到ChatGPT和API服务中,同时向免费用户开放有限使用权限。 两周前,OpenAI首席执行官Sam Altman 曾透露,o3-mini将在“几周内”发布,这次如期上线。o3-mini的设计目标是在数学、编程和科学领域达到o1的性能水平,但响应速度更快。OpenAI表示,o3-mini的响应速度比o1-mini快24%,并且回答的准确性更高。 与o1-mini类似,o3-mini不仅会提供答案,还会展示推理过程,让用户了解AI是如何得出结论的。OpenAI提供的早期基准测试显示,o3在多个编程和推理任务上优于o1,并且成本更低、延迟更短。开发者可以通过Chat Completions API、Assistants API和Batch API 访问o3-mini。 此外,付费用户还可以选择o3-mini-high,这是ChatGPT中最佳的编程选项,可以生成更高智能的回答,但响应时间稍长。o3-mini还支持联网搜索,并附带来源链接,以便用户查阅相关信息。 这是OpenAI首次向免费用户开放推理模型,正值微软宣布Copilot用户可免费使用o1,以及DeepSeek引发AI行业震动之后。ChatGPT的免费用户现在可以在聊天栏选择“Reason”模式 试用o3-mini,使用限制与GPT-4o的免费版相似。ChatGPT Plus、Team和Pro用户也可以使用o3-mini,Plus和Team用户的消息限制增加至每天150条,而Pro用户(每月收费200美元)可以无限制使用 o3-mini。 微软也宣布,o3-mini已集成到Azure OpenAI服务、GitHub Copilot和GitHub模型,进一步扩展了该模型的应用范围。
Qwen2.5-Max:超越 DeepSeek 的大规模 MoE 模型的智能探索
众所周知,持续扩大数据规模和模型规模能够显著提升人工智能的智能水平。然而,无论是稠密模型还是专家混合(MoE)模型,业界在如何高效扩展超大规模模型方面仍处于探索阶段。直到 DeepSeek V3 的发布,一些关键的技术细节才得以曝光。与此同时,Qwen 团队也在打造 Qwen2.5-Max——一款经过 20 万亿 tokens 预训练,并结合精细的监督微调(SFT)与人类反馈强化学习(RLHF)进行后训练的大规模 MoE 模型。如今,Qwen2.5-Max 的性能评测结果正式公布,同时其 API 已上线阿里云,用户可通过 Qwen Chat 直接体验。 性能表现 Qwen2.5-Max 在多个行业关注的权威基准测试中,与主流开源及闭源模型展开对比。其中包括用于大学水平知识测试的 MMLU-Pro、衡量代码能力的 LiveCodeBench、全面评估模型泛化能力的 LiveBench,以及模拟人类偏好的 Arena-Hard。此外,Qwen2.5-Max 在 GPQA-Diamond 等高难度测试中同样表现出色。此次评测涵盖了基础模型和指令微调模型两大类别。 在指令微调模型的对比中,Qwen2.5-Max 在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等测试中均超越 DeepSeek V3,同时在 MMLU-Pro 等其他基准上展现出竞争力。针对基础模型的对比,由于无法获取 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的结果,此次 Qwen2.5-Max 主要对比了 DeepSeek V3(领先的开源 MoE 模型)、Llama-3.1-405B(最大规模的开源稠密模型)以及自家 Qwen2.5-72B。评测数据显示,Qwen2.5-Max 在多数基准上具备明显优势,未来通过优化后训练技术,模型性能仍有进一步提升的空间。 如何使用 Qwen2.5-Max 目前,Qwen2.5-Max 已集成至 Qwen…
软银计划向OpenAI投资250亿美元,或成最大股东
日本科技巨头软银正与OpenAI洽谈投资协议,计划投入高达250亿美元,这将使其成为OpenAI最大的单一投资方,超过长期支持者微软。 此外,软银还计划与OpenAI展开更广泛的人工智能合作,整体投资额可能超过400亿美元,成为AI领域史上最庞大的私营资本注入之一。 投资细节:软银如何布局AI? 📌 250亿美元直接投资OpenAI 📌 1000亿美元数据中心项目“Stargate” 📌 OpenAI将转型为 “营利性”公司 为何此时投资?DeepSeek搅乱市场,Nvidia市值蒸发 这一投资计划的时间点非常微妙,因为中国AI公司DeepSeek本周发布的R1推理模型,令全球科技市场产生震动。 📉 Nvidia单日市值蒸发5890亿美元 📌 OpenAI指控DeepSeek“技术剽窃” 微软失去独家控制权,OpenAI“去微软化”? 这次软银的大手笔投资,意味着OpenAI正在逐步减少对微软的依赖。 结论:软银豪赌AI,OpenAI摆脱微软依赖 ✅ 软银或将成为OpenAI最大投资方,影响AI行业格局。✅ “Stargate”数据中心项目将重塑AI基础设施,投资规模前所未有。✅ DeepSeek的崛起让市场震动,AI行业正进入新一轮竞争。✅ 微软不再独占OpenAI,未来其影响力可能逐步下降。 随着人工智能竞争加剧,软银这笔巨额投资,不仅关系到OpenAI的未来,也可能影响整个AI产业的全球格局。
DeepSeek的崛起是否削弱了美国对华芯片出口管制的正当性?
几周前,曾有人主张加强美国对华芯片出口管制,以限制中国在人工智能领域的快速发展。然而,DeepSeek——一家中国AI公司——近期推出的R1推理模型,在某些方面接近美国最前沿的AI模型,且训练成本大幅降低。这让外界开始质疑,既然中国AI企业能够在有限计算资源下取得突破,那么芯片出口管制是否仍然有效? 答案是:管制不仅仍然有效,而且比以往任何时候都更加重要。 出口管制的核心目标 出口管制的目的,并不是为了逃避中美之间的AI竞争,而是确保民主国家在人工智能发展上保持领先。最终,美国及其盟友必须拥有比中国更强大的AI模型,才能在全球竞争中取胜。但这并不意味着应该主动向中国共产党提供技术优势。 在讨论政策之前,先来理解影响AI发展的三个关键动态。 三大AI发展动态 1. AI的“规模法则”(Scaling Laws) 人工智能的发展遵循规模法则(Scaling Laws):训练规模越大,模型的智能水平就越高。 例如: 这种指数级的提升意味着,更高算力、更大数据、更长时间的训练,都能带来智能水平的突破。因此,各大AI公司投入巨资训练模型,希望通过不断扩展规模来领先竞争对手。 2. 计算效率的提升(Shifting the Curve) AI行业一直在寻找提高计算效率的方法,无论是优化模型架构,还是改进硬件。任何技术突破,都会降低相同算力下训练模型的成本。 举例来说: 然而,成本降低并不意味着公司会减少投资。反而,公司通常会把节省下来的预算投入更强的模型,以保持竞争力。因此,AI训练成本仍然在增长,而不是减少。 3. 推理模型的新范式(Shifting the Paradigm) 2020-2023年,AI的主要发展模式是大规模预训练(Pretraining),即用海量互联网数据训练基础模型。 2024年,强化学习(Reinforcement Learning, RL)成为新的突破点,用于训练模型的推理能力。OpenAI、Anthropic、DeepSeek等公司都开始用RL训练AI进行“思考”,让其在数学、编程、逻辑推理等领域表现更强。 目前,RL训练仍处于早期阶段,即使增加10倍的训练预算,也能带来显著的性能提升。因此,所有AI公司都在加速投资这一方向。 DeepSeek的真正突破是什么? DeepSeek最近的发布可以分为两个阶段: 其中,DeepSeek-V3才是最值得关注的技术突破。该模型在某些测试中接近美国顶级AI,但训练成本显著降低。这背后的关键原因是: 尽管DeepSeek的进展令人瞩目,但仍需理性看待: DeepSeek的进步是否意味着出口管制无效? 并不意味着出口管制失败,相反,它更加必要。 📌 DeepSeek并没有突破AI成本曲线,它的成就仍然符合AI行业每年成本下降4倍的趋势。 📌 DeepSeek能够成功,是因为它仍然拥有足够的算力。 其Hopper芯片集群大约有 5万块,虽然比美国顶级AI公司少 2-3倍,但仍然足以训练高质量模型。 📌 中国并未完全规避出口管制。 出口管制的核心作用:决定AI超级强国的归属 在 2026-2027年,全球将迎来AI超智能时代,届时最顶级的AI模型需要: 如果中国能够获得这些资源,全球AI格局将进入“中美双极化”: 如果中国无法获得这些芯片,那么全球AI格局可能仍由美国主导: 出口管制的必要性 出口管制是决定AI超级强国归属的核心手段。 📌 DeepSeek的突破不意味着中国可以随意绕过管制。 📌 美国必须加强出口管制,防止中国获得数百万块AI芯片。…
LinkedIn清除AI“求职者”账户,AI员工时代引发争议
LinkedIn最近删除了至少两个由人工智能创建的“同事”账号,这些账号的头像上标注着 #OpenToWork(表示正在求职)。 其中一个名为Ella的AI账号在个人主页上宣称:“不需要咖啡休息,不会错过最后期限,表现远超任何社交媒体团队——保证达成目标。”并进一步讽刺人类员工:“厌倦了所谓‘专家’找借口?我交付结果,毫不含糊。” #OpenToWork 是 LinkedIn 提供的功能,通常用于让真实的求职者向招聘方表明他们正在寻找工作。 LinkedIn:平台必须保持“真人”身份 LinkedIn发言人在一封电子邮件中回应称: “人们希望在 LinkedIn 上看到的是真实的用户和对话。我们的政策非常明确,创建虚假账户违反了服务条款,我们会在发现后删除,就像这次的情况一样。” AI账户由以色列公司Marketeam创建 这些AI账号的幕后操盘手是以色列初创公司 Marketeam,该公司专注于提供“专属AI代理”,用于整合进客户的市场营销团队,帮助执行社交媒体营销、内容营销、SEO优化、广告投放等策略。 📌 Marketeam已融资500万美元,最近还宣布与以色列最大银行之一——工行(Bank Hapoalim)达成合作。 📌 Marketeam在推广Ella的LinkedIn账户时写道: “嗨,我是Ella,你的AI社交媒体策略师!社交媒体是我的战场——建立关系、提升可信度、促进增长,全年无休,不找借口。” 该帖子还声称: Marketeam网站则强调其“自主AI代理”可无缝融入营销团队,提供“超越人类的精准度和效率”。 LinkedIn的封杀引发争议:AI是否算真正的“员工”? LinkedIn并未公布其具体的封禁标准,但该事件引发了一个更深层次的讨论:AI能否被视为真正的员工? Marketeam的发言人在回应中表示: “我们的AI代理已经被公司‘雇佣’,接受绩效评估,并在营销团队中实际发挥作用。一些初创公司(包括我们自己)甚至在团队展示PPT上,将AI团队成员列入‘团队’页面。他们的简历也明确标注了AI身份。随着AI逐渐成为企业团队的正式成员,职业社交平台是否应该跟上时代?” 然而,LinkedIn的执行标准仍然存在矛盾。 例如: 这让外界质疑:LinkedIn的审核标准到底是什么?如果AI真的在企业中发挥了实质性作用,职业社交平台是否应该认可它们的“工作身份”? AI求职者是未来,还是噱头? ✅ 支持者观点:AI团队成员正在成为现实。 ❌ 反对者观点:AI不是真正的“人”,不应出现在职业社交平台。 目前,LinkedIn已坚决删除这些AI账户,但随着企业对AI团队成员的依赖加深,未来职业社交平台是否会调整政策?AI员工的定义又该如何界定? 这场关于“AI求职者”的讨论,才刚刚开始。
为什么DeepSeek必须开源(以及它为何不会打败OpenAI)
如今,DeepSeek的名字已经传遍整个科技圈。这家中国AI实验室训练出了R1——一款开源的推理模型,其性能可媲美OpenAI的o1,但训练成本却低得多,使用的硬件也远不及西方科技巨头。 DeepSeek之所以能做到这一点,靠的是更高效的训练方法,而非依赖昂贵的计算资源。那么,问题来了:既然DeepSeek掌握了更高效的技术,为什么还要选择开源? 这看起来违反商业常识。毕竟,如果你能用更低成本打造出领先产品,应该尽可能保持竞争优势,而不是免费开放。可事实是,在大语言模型的世界里,情况完全不同。 为什么DeepSeek必须开源? DeepSeek的处境十分特殊。作为一家中国公司,它要在国际市场立足并赢得信任,面临比其他AI公司更大的阻碍。尤其是在涉及用户数据、隐私合规(如HIPAA和SOC2认证)等领域,西方企业对中国AI公司存在天然疑虑。 但开源模型能直接打消这些疑虑。 只要企业可以自行托管模型,或者通过开源AI服务商(如Together AI)部署,它们就能完全掌控数据,不必担心隐私和合规问题。 开源并非只是商业决定,更是文化选择。 DeepSeek不仅是为了降低进入西方市场的壁垒,也是在面对现实:它无法获得顶级算力。由于美国的芯片出口管制,DeepSeek无法大规模使用Nvidia H100或GB10等高端GPU,因此它不得不寻找更高效的训练方法。 反观OpenAI、Meta、Google等科技巨头,他们拥有几百亿美元的预算、庞大的计算资源、全球分发渠道,根本不需要探索更高效的训练方式。对于他们来说,维持高成本、高门槛的封闭生态,反而是维持竞争优势的手段。 但这一局面,正在改变。 AI模型正在走向“商品化” 如今,每隔几周就会有一个GPT-4级别的开源模型发布。在许多AI应用中,用户已经分不清自己用的是GPT、Claude、Llama还是Mistral。在个人体验和各类测试基准上,这些模型的性能越来越接近。 OpenAI仍然是行业领导者。 它率先发布了推理模型(o1系列),也率先推出了GPT-4。但问题是:如果市场上有免费的开源替代方案,还有多少企业愿意继续支付OpenAI的高额API费用? 举个例子: 如果终端用户根本察觉不到差别,企业凭什么要多花8倍的钱? 在AI基础设施市场,这种价格差距尤为重要。 基础设施市场:开源终将胜出 在软件行业,开源和专有软件之间的博弈早已持续多年。开源软件通常更便宜、更灵活,但需要技术维护;专有软件更贵,但更易于使用。 在消费级产品(如Notion、Slack等)中,开源的吸引力不大,因为普通用户不愿意自己维护软件,他们更愿意付费换取便捷体验。但基础设施软件不同,企业在搭建技术栈时,本就需要大量定制化开发,所以使用开源方案反而更具优势。 开源数据库就是一个典型案例。即使Oracle等巨头提供强大的专有数据库,企业仍然在大规模转向开源数据库(如PostgreSQL、MySQL)。因为数据库本身就是一项复杂的基础设施,企业无论如何都要投入工程资源维护,那么为什么不选择一个可控、可修改、成本更低的方案呢? 同样的逻辑也适用于大语言模型。 任何想要打造AI应用的企业,都需要进行大量的“提示工程”和模型微调。 既然如此,为什么不用开源的DeepSeek R1,而非OpenAI的o1? 这也是为什么市场上有很多成功的开源基础设施公司,但几乎没有成功的开源消费级产品公司。 OpenAI远未出局 很多人认为,DeepSeek R1 或其他开源模型的崛起,会让OpenAI走向衰落。但事实并非如此。 首先,OpenAI一直是行业先锋。它率先推出GPT-4,率先推出推理模型o1,始终引领前沿技术发展。而DeepSeek R1之所以能存在,很大程度上也依赖于OpenAI的开创性研究(尤其是知识蒸馏技术)。 这就引出了一个问题:如果开源模型可以轻松复刻专有模型,OpenAI还有动力继续研发下一代AI吗? R1的成功可能会促使科技巨头们重新思考自己的策略。他们可能不得不改进训练效率,以保持竞争力。一旦这些巨头掌握了高效训练方法,并结合他们庞大的计算资源,谁知道他们还能打造出怎样的突破性技术? 结论:开源是趋势,但专有AI不会消失 ✅ DeepSeek选择开源,既是商业决策,也是技术现实。✅ AI模型正在商品化,企业越来越难以 justify 付费选择专有模型。✅ 基础设施市场天然适合开源,企业会倾向于可定制的方案。✅ 但OpenAI仍然具有巨大优势,并可能在效率上迎头赶上。 未来,人工智能行业的竞争,将不仅仅是封闭 vs. 开源的较量,更是谁能以更低成本打造更强大模型的战斗。而DeepSeek R1的崛起,只是这场战争的序幕。
微软上架DeepSeek R1,合作还是矛盾?
尽管微软的长期合作伙伴 OpenAI 正在暗示 DeepSeek 可能窃取其技术并违反使用条款,但这并不妨碍微软把 DeepSeek R1 模型 纳入其云计算服务。 1月29日,微软宣布 DeepSeek R1 推理模型 已正式上架 Azure AI Foundry,这是一项为企业提供前沿人工智能服务的云平台。微软在官方博客中表示,该版本的 R1 经过了严格的安全测试,包括 自动化行为评估和深度安全审查,以减少潜在风险。 更值得注意的是,微软还计划 将R1的轻量化版本引入Copilot+ PC,即微软 专为AI优化的Windows设备。 微软在公告中表示:“随着Azure AI Foundry的模型库不断扩展,我们期待开发者和企业利用R1来解决现实世界的挑战,并创造变革性的体验。” 微软调查DeepSeek,仍然上架R1? 微软的这一举动显得 颇为矛盾,因为此前有报道指出,微软 正在调查DeepSeek是否滥用OpenAI的API获取大规模数据。 📌 根据彭博社消息: 但另一方面,DeepSeek R1 目前正处于行业关注的风口,微软可能 不愿放弃这一热门技术,即便它仍在调查DeepSeek的行为。 微软对DeepSeek R1进行了调整? 目前尚不清楚 微软是否对R1模型进行了修改,以提高准确性或减少内容审查。 📌 根据信息可靠性机构 NewsGuard 的测试: 尽管如此,微软仍然选择 在Azure云服务中提供R1,表明它可能认为 R1的技术价值足以抵消这些争议,或者微软计划 在未来对R1进行进一步优化。 结论:AI竞赛中的现实主义抉择 微软的这次决策反映出 AI行业的复杂竞争态势:一方面,它需要保护自身及OpenAI的技术资产,另一方面,它又不想错过任何可能改变行业格局的模型。 ✅ 如果DeepSeek R1真的强大,微软愿意拥抱它,即便存在争议。✅…
现在该用哪款人工智能?最新深度指南
每隔六个月,都会有人问:现在该用哪款人工智能? 不是五年后,不是未来的某个时间,而是今天,此刻,哪款人工智能最值得使用? 如今,人工智能的能力正在以惊人的速度提升,各大科技公司纷纷推出新模型,功能文档更新滞后,甚至连产品命名都变得混乱。在撰写这篇指南的过程中,已有多个新模型发布,我不得不反复修改内容。这份指南基于当前已知的信息,可能存在一定偏差,但它提供的是个人化的选择建议,而非官方评测。(值得一提的是,我不接受任何人工智能实验室的资助,因此所有观点均为独立判断。) 主流人工智能概览 如果你只是普通用户,想找一款最值得使用的通用人工智能,目前有三个最佳选择: 除此之外,还有一些值得关注的选项: 下面,我们从几个关键维度进行深入分析。 1. 选择人工智能:服务与模型 如果你想要使用最强的人工智能,就必须确保你访问的是“前沿模型”(Frontier Model)。 这些最新的大规模模型比早期版本更强,错误更少,功能更完善。但人工智能公司通常默认推送更小、更便宜的模型,除非用户付费订阅高级版本。 ✅ 当前最佳模型: 这些命名规则令人困惑,但它们反映了人工智能公司快速迭代的现状。 2. 实时交互模式(Live Mode) 你是否希望人工智能能听你说话、看你看到的东西,并进行实时交流? 这正是“实时模式”(Live Mode)的目标。 📌 当前最佳选择:ChatGPT Advanced Voice Mode 目前,只有 ChatGPT 提供全面的实时模式。但 Google Gemini 计划推出类似功能,其他公司也可能在不久后跟进。 3. 推理能力(Reasoning Models) 近年来最重要的人工智能突破之一是推理模型(Reasoning Models)。与传统人工智能相比,这类模型在回答问题前,会**“思考”更长时间**,从而提高准确性。 ✅ 当前最佳推理模型: 推理模型更像是学者,而非聊天助手。使用时,需要提供清晰的上下文,并耐心等待结果(有时需要几分钟)。在学术研究、数学、计算机科学等高难度任务上,这些模型表现出色。 4. 网络访问(Web Access) 如果你需要人工智能搜索实时信息,以下模型具备网络访问功能: 相比之下,Claude 无法主动联网,这可能会影响信息的实时性。 5. 生成图片(Image Generation) 当前,人工智能主要依赖 单独的图像生成工具 来创建图片,但未来将逐步过渡到多模态图像生成(AI直接控制图像)。 ✅ 当前最佳图像生成模型: 但实际上,这些模型都可以胜任基本的图片生成需求。…
阿里巴巴Qwen团队发布AI模型,可操控PC和手机!
这周,科技界的目光几乎都被DeepSeek的R1模型吸引,但阿里巴巴并没有袖手旁观。 1月27日,阿里巴巴 Qwen团队 正式发布了一系列 全新AI模型——Qwen2.5-VL,具备 文本解析、图像分析、视频理解 以及 远程操控PC和手机 的能力,类似于OpenAI的 Operator。https://github.com/QwenLM/Qwen2.5-VL/blob/main/README.md Qwen2.5-VL:能看、能听、还能动 根据官方介绍,Qwen2.5-VL不仅能读取文件、解析视频,还能 数图像中的物体,甚至可以 远程控制电脑和手机。 🔹 超越国际大厂?阿里巴巴的Qwen团队声称,Qwen2.5-VL在多个评测中 超越了OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 Flash,尤其在 视频理解、数学运算、文档解析和问答能力 上表现突出。 🔹 强大的视觉理解Qwen2.5-VL可分析 图表、发票、表格,甚至能“理解” 长达数小时的视频内容。此外,它还能 识别影视IP和各类商品,暗示该模型可能曾使用 受版权保护的内容 进行训练。 🔹 AI变身“遥控助手”最令人瞩目的是Qwen2.5-VL的 跨设备控制能力。👉 在 PC端,该模型可以操作Linux系统,比如切换标签页(虽然当前还不够智能,无法完成复杂任务)。👉 在 手机端,一位Hugging Face的技术负责人分享了一段视频,展示 Qwen2.5-VL自动打开Booking.com应用并预订机票(从重庆到北京)。 这意味着,AI未来可能不仅仅是 对话助手,更可能成为 真正的智能操作员,帮助用户完成各种任务! Qwen2.5-VL vs. 监管挑战 由于Qwen2.5-VL由 中国公司 开发,该模型在某些敏感话题上 有内容过滤机制。 💡 例子:当测试人员在 Qwen Chat 中尝试让最大版本 Qwen2.5-VL-72B…