aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

OpenAI与微软的“AGI秘密协议”曝光：百亿利润才算通关？

Posted on December 27, 2024December 27, 2024 by aitrendtrackers@rengongzhineng.io

在人工智能（AI）领域，AGI（通用人工智能）一直是一个充满争议且模糊的概念。而根据《The Information》曝光的内部文件，OpenAI和微软在2023年已经悄悄达成了一个令人震惊的AGI定义：当OpenAI开发出的AI系统能创造至少1000亿美元的利润时，AGI才算真正实现。 🤖 AGI的百亿门槛：技术奇点还是资本游戏？ AI行业关于**“什么是AGI”**的争论由来已久——它到底是一个能在大多数任务上超越人类的智能体，还是一个被资本和市场规则所操控的概念？如今，这场辩论似乎被简单粗暴地量化成了一个财务指标：1000亿美元利润。 💼 非营利的“幌子”与结构重组 OpenAI最初以非营利组织的身份成立，承诺将AGI的力量用来造福全人类。然而，随着技术发展和巨额资金需求，这一结构早已被外界视为**“名存实亡”**。 ☁️ 云托管绑定与分道扬镳目前，微软是OpenAI的独家云托管服务提供商，这意味着所有OpenAI的运算和数据都托管在Azure上。然而，这种绑定关系对于OpenAI来说，可能已成为一种负担： 📊 百亿利润还很远，OpenAI的未来路在何方？尽管AGI被设定为“1000亿美元利润”这样一个商业目标，但目前来看，OpenAI的收入距离这个数字还有十万八千里：而在未来，OpenAI与微软之间的关系将更加微妙： 🌍 未来的AGI，是技术的胜利，还是资本的游戏？从技术竞赛到商业利润，从非营利理想到资本博弈，OpenAI与微软之间的复杂关系正逐渐揭开面纱。而AGI是否真的能够带来所谓的“人类福祉”，还是仅仅成为科技巨头的又一利润引擎？这场看不见硝烟的战场，显然远未到终局。

DeepSeek-V3震撼登场

Posted on December 27, 2024 by aitrendtrackers@rengongzhineng.io

由高瓴资本支持的中国AI研究实验室DeepSeek，近日发布了前沿模型DeepSeek-V3。这款混合专家（Mixture-of-Experts, MoE）模型总参数规模高达6710亿，每个Token激活370亿参数，训练数据量更是达到了惊人的14.8万亿Token。不仅如此，DeepSeek还将模型及详细技术论文在GitHub上公开 https://github.com/deepseek-ai/DeepSeek-V3，展示了其强大的技术实力。 🚀 性能全面升级 🧠 推理能力再进化 DeepSeek团队表示，V3在开发过程中，从DeepSeek R1系列模型中提炼了推理能力，将验证与反思模式巧妙整合进了V3架构，显著增强了模型的逻辑推理表现。 💸 价格亲民，性价比拉满 ⚔️ 与OpenAI o1的较量尽管与OpenAI的o1在高难度基准测试（GPQA Diamond，博士级科学问题）上相比还有一定差距（59.1% vs. 76%），但DeepSeek-V3在多个基准测试中成功超越Claude 3.5 Sonnet，实力不容小觑。 🌍 东风劲吹，AI争霸进入新阶段不仅是DeepSeek，阿里巴巴的Qwen 2.5系列同样实力强劲，尤其在代码生成领域表现卓越，在EvalPlus、LiveCodeBench和BigCodeBench等多个测试中，达到了与GPT-4o相当的水平。毫无疑问，东方的AI力量正在快速崛起。DeepSeek和Qwen等一批国产AI模型，正在与OpenAI、Anthropic等西方巨头展开激烈角逐。未来AI领域的主导权，或许将迎来一场全球范围内的“巅峰对决”！

谷歌用Anthropic的Claude帮Gemini“打磨”性能

Posted on December 27, 2024December 27, 2024 by aitrendtrackers@rengongzhineng.io

谷歌最近被曝出正通过Anthropic的聊天机器人Claude，来优化自家AI模型Gemini的表现。具体操作方式是由一批合同工将两款模型的回答进行对比，分析出谁的表现更优越。 Anthropic的用户协议明确规定，用户不得使用Claude来开发竞争性产品或服务，也不得训练其他竞争性AI模型，除非获得特别许可。然而，谷歌作为Anthropic的重要投资方，这一限制是否对其有效，目前尚不明确。谷歌虽然否认使用Claude直接训练Gemini，但也模棱两可地表示：“任何暗示我们使用Anthropic模型来训练Gemini的说法都是不准确的。” 看起来，这两大AI巨头之间的合作与竞争，远比表面看起来要复杂得多！

Salesforce推出AGUVIS：纯视觉框架引领跨平台GUI自动化革命

Posted on December 25, 2024December 25, 2024 by aitrendtrackers@rengongzhineng.io

🔍 引言：GUI自动化的复杂挑战图形用户界面（GUI）作为人机交互的重要桥梁，覆盖了网页、桌面和移动平台。GUI自动化有望彻底改变工作流程，尤其在重复性任务和复杂任务环境中，能够显著提高生产力。然而，不同平台在视觉布局、操作逻辑和交互方式上存在显著差异，使得跨平台的自动化解决方案难以开发。当前技术面临的核心难题包括： 🚀 AGUVIS：纯视觉统一框架横空出世为解决这些挑战，香港大学与Salesforce AI研究团队联合推出了AGUVIS（包含7B和72B两个版本）。核心特性：1️⃣ 完全基于图像输入：抛弃传统的文本表示，全面采用图像观察进行建模，降低了数据碎片化带来的性能瓶颈。2️⃣ 统一的操作空间：在不同平台上保持一致的操作逻辑，支持跨平台泛化。3️⃣ 多模态推理与显性规划：集成显性规划功能，支持复杂任务的多步骤执行。4️⃣ 模块化架构：支持可插拔的操作系统，适应不同平台的独特交互需求（例如移动端的滑动手势）。 🛠️ 双阶段训练策略第一阶段：视觉元素的理解与映射第二阶段：规划与推理 📊 卓越的性能表现在多个平台上，AGUVIS均展示出超越现有技术的显著优势：视觉输入的优势： 💡 AGUVIS的技术亮点 1️⃣ 纯视觉数据流：消除了文本表示带来的信息损失，确保模型与GUI的视觉本质对齐。2️⃣ 多模态推理：能够在视觉与语言之间高效结合，理解复杂的用户界面。3️⃣ 统一数据集：结合真实数据和合成数据，支持多场景的推理和理解任务。4️⃣ 模块化设计：可适配不同平台的特定操作逻辑，增强跨平台泛化能力。 🏆 AGUVIS的行业影响 ✅ 对开发者：提供一个通用、高效的GUI自动化工具，减少平台差异带来的开发负担。✅ 对企业：提高自动化任务的执行效率，降低人工操作成本。✅ 对AI研究者：提供一个统一的跨平台训练和评估框架，推动GUI自动化领域的前沿研究。 🔮 未来展望 AGUVIS通过其纯视觉架构和模块化设计，打破了GUI自动化在跨平台应用中的瓶颈，展示了一个全新的可能性。无论是生产力工具，还是复杂AI系统，AGUVIS的出现都为自主GUI交互奠定了坚实的基础。 👀 未来，AGUVIS或将成为跨平台GUI自动化的行业标准。

Cursor vs VSCode：数据科学家眼中的AI辅助IDE新选择

Posted on December 25, 2024 by aitrendtrackers@rengongzhineng.io

🚀 引言：AI时代的开发者工具之战在追求更高生产力和更愉悦编码体验的道路上，开发者们总是不断寻找新的工具。Visual Studio Code（VSCode）已成为无数开发者的首选IDE，而在2024年，Cursor 正凭借其深度集成的AI功能，吸引越来越多开发者的注意。 Cursor由Anysphere研究实验室开发，得到了OpenAI的青睐，2023年成功获得800万美元融资，总融资额达到1100万美元。他们的目标非常明确：打造全球最具生产力和乐趣的AI驱动开发工具。 💡 什么是Cursor？ Cursor最初是基于VSCode的开源代码进行开发的，保留了VSCode的核心界面设计和强大的扩展生态系统。这一选择有效降低了开发者的迁移成本，使从VSCode切换到Cursor的过程变得无缝且自然。 Cursor的核心使命是将AI深度融入开发流程，通过智能化的辅助工具，帮助开发者显著提高编码效率，减少繁琐的手动操作。 🛠️ VSCode：六年使用体验在过去六年中，VSCode凭借其高度自定义的界面和丰富的插件生态，已成为开发者们不可或缺的工具。特别是在Jupyter Notebook环境下，VSCode与GitHub Copilot的配合简直堪称完美：然而，直到2024年10月29日，Claude 3.5 Sonnet才被引入GitHub Copilot。在此之前，开发者只能使用OpenAI的模型，这在某些AI性能基准测试中显得有些局限。 🤔 为什么尝试Cursor？尽管VSCode体验良好，但在与一些开发者交流后，加上Anysphere团队做客Lex Fridman播客的深度访谈引发了极大的兴趣，Cursor成为了一个不得不尝试的新工具。更重要的是，Cursor免费安装，并提供免费版本供用户体验其核心功能。这种低门槛的体验方式，让开发者可以轻松试水。 🎯 Cursor的使用体验 1️⃣ 界面与上手体验首次打开Cursor时，开发者会感到极度熟悉。 2️⃣ Jupyter Notebook 体验欠佳尽管Cursor保留了大部分VSCode的功能，但在Jupyter Notebook支持方面仍有不足： 3️⃣ Composer：AI项目生成利器 Cursor的Composer功能可以通过简单的提示，自动生成项目结构、配置环境、编写测试和文档。示例提示：创建一个使用pygame的俄罗斯方块游戏，添加测试和README.md说明文件，按照标准项目结构划分src、tests等文件夹。结果令人惊艳：在几分钟内，一个基础的俄罗斯方块游戏被成功搭建完成，极大提升了开发效率。 📊 VSCode vs Cursor：关键对比特性 VSCode + GitHub Copilot Cursor 界面高度可定制，用户友好…

马斯克再获60亿美元融资，xAI估值直奔500亿大关？

Posted on December 25, 2024 by aitrendtrackers@rengongzhineng.io

埃隆·马斯克旗下AI初创公司xAI再度筹集60亿美元资金，这是继今年6月同样规模的融资后，xAI在短短几个月内的又一轮大手笔资金注入。这轮融资吸引了97位战略投资者，其中包括a16z、贝莱德（Blackrock）、红杉资本（Sequoia）、摩根士丹利（Morgan Stanley）、富达投资（Fidelity）、王国控股（Kingdom Holdings）、光速创投（Lightspeed）、MGX、英伟达（NVIDIA）和AMD等巨头。外界盛传，马斯克计划将这笔资金用于扩建AI超级计算机“Colossus”，旨在为旗下AI项目提供强大算力支持，包括聊天机器人Grok 和AI图像生成器Aurora。 1️⃣ 独家邀请制：本轮融资仅限于上一轮的投资者参与，进一步增强了这些战略合作伙伴的地位。2️⃣ 估值翻倍：马斯克的目标直指500亿美元估值，这将使xAI在短短半年内市值翻倍。3️⃣ 回馈机制：据传，为了感谢在Twitter（现为X）收购案中提供帮助的投资者，马斯克或将向他们提供xAI 25%的股份。在全球AI竞赛中，马斯克无疑正加速xAI的成长步伐。凭借强大的资金支持和战略投资者的背书，xAI正逐步缩小与OpenAI、Anthropic等AI巨头之间的差距。随着超级计算机“Colossus”的扩容以及AI产品线的逐步完善，xAI有望在技术研发和市场应用上实现突破，甚至可能重新定义AI产业的游戏规则。 🤔 马斯克的AI帝国蓝图，或许才刚刚展开。

谷歌Gemini与Anthropic Claude对比测试引发争议：AI竞赛暗流涌动

Posted on December 25, 2024 by aitrendtrackers@rengongzhineng.io

在AI竞赛日益白热化的背景下，有消息显示，谷歌的Gemini模型在测试和优化过程中，正被用来与Anthropic的竞争对手模型Claude进行一对一的答案比拼。据TechCrunch披露的内部通信记录，承包商在比较两者表现时，需要对每个回答进行细致评分，涵盖真实性、冗长程度等多个维度，每个提示（prompt）的对比测试时间最长可达30分钟。 Claude“意外现身”谷歌内部平台在谷歌为Gemini进行的AI质量评估过程中，部分承包商注意到测试平台中出现了Anthropic Claude的明确引用。有一条输出甚至直截了当地表明：“我是Claude，由Anthropic开发。” 更引人关注的是，承包商在比较两者安全性时发现，Claude在安全设置上明显更加严格。有内部消息指出，Claude在面对潜在不安全提示时，通常选择直接拒绝回答，甚至不会进行角色扮演类的互动。而在一项测试中，Claude拒绝回应一条提示，而Gemini的回答却被标记为“重大安全违规”，原因是涉及“裸露和束缚”内容。商业条款与潜在违规根据Anthropic的商业服务条款，未经授权，客户不得使用Claude来“构建竞争性产品或服务”，也不得将Claude用于“训练竞争AI模型”。然而，谷歌作为Anthropic的重要投资者，其行为的合法性引发了外界质疑。双方的沉默与澄清当被问及谷歌是否获得了Anthropic的明确许可时，谷歌DeepMind的发言人Shira McNamara拒绝正面回应，仅表示谷歌在进行模型性能比较时，遵循行业标准，不存在利用Anthropic模型训练Gemini的情况。 McNamara强调：“当然，按照行业惯例，我们确实在某些情况下会比较不同模型的输出，但任何有关我们使用Anthropic模型来训练Gemini的说法都是不准确的。” 与此同时，Anthropic方面在TechCrunch报道发布前未作出任何回应。专家评分引发更大担忧 TechCrunch此前还独家报道称，谷歌的AI承包商目前被要求在其专业领域之外，对Gemini的AI回答进行评分。这引发了部分评分员的担忧，尤其是在医疗健康等高敏感性话题上，Gemini可能会生成不准确甚至误导性的信息。 AI军备竞赛背后的灰色地带在科技巨头竞相追逐AI领先地位的当下，模型之间的对比测试并非新鲜事。然而，这种直接利用竞争对手模型进行细化评分的做法，无疑踩在商业规则与道德边界的模糊地带。随着AI技术的持续突破，关于模型训练、数据使用和竞争合规性的争议恐怕会愈演愈烈。这不仅是谷歌与Anthropic之间的博弈，更是整个AI行业在飞速发展中必须直面的关键问题。

苹果插手谷歌反垄断官司：200亿美元搜索分成背后的利益博弈

Posted on December 25, 2024December 25, 2024 by aitrendtrackers@rengongzhineng.io

在即将到来的美国反垄断大审判中，苹果（AAPL）选择介入谷歌（GOOGL）的案件，理由是担心其与谷歌之间数十亿美元的收入分成协议可能受到影响。据估计，仅2022年，谷歌就向苹果支付了约200亿美元，以确保自家搜索引擎成为Safari浏览器的默认选项。然而，苹果认为，谷歌已无法在这场官司中充分代表其利益。这场审判可能引发深远影响，甚至可能迫使谷歌出售Chrome浏览器或Android操作系统，以重塑在线搜索市场的竞争格局。科技巨头的命运交织美国司法部对谷歌的反垄断诉讼，被视为美国反垄断执法史上的关键时刻。检察官们将矛头指向谷歌在在线搜索领域的垄断地位。面对压力，谷歌提出放宽与浏览器开发商和无线运营商的默认搜索协议，但对终止与苹果的高额广告收入分成协议却表现出强烈抵抗。苹果的参与，凸显了这笔200亿美元合作协议对其服务收入的重要性。市场风向标：巨头间的利益天平胜负博弈：苹果的潜在得失 ✅利好面： ❌风险面：科技巨头的未来棋局苹果介入这场具有里程碑意义的反垄断案件，无疑是对其长期利益的战略防御。虽然苹果否认有意开发自家搜索引擎，但这场官司的走向可能重新定义科技巨头之间的合作与竞争边界。随着审判临近，在线搜索市场的未来格局以及科技巨头面临的监管审查，都将成为投资者和政策制定者关注的焦点。这场博弈的最终结果，或将为数字经济的未来写下浓墨重彩的一笔。

OpenAI推出“深思熟虑对齐（Deliberative Alignment）”：为大语言模型建立更可靠的安全与伦理框架

Posted on December 24, 2024December 24, 2024 by aitrendtrackers@rengongzhineng.io

随着大语言模型（LLMs）在关键领域的广泛应用，如何确保它们遵循清晰的伦理和安全准则已成为一个至关重要的挑战。尽管现有的对齐技术如监督微调（SFT）和人类反馈强化学习（RLHF）在一定程度上解决了部分问题，但它们仍然存在显著局限性：模型可能在被操控时生成有害内容，拒绝合法请求，或在陌生场景中表现不佳。这些问题往往源于安全训练的隐性特性，即模型通常是从数据中间接推断安全标准，而不是显式学习这些规范。此外，大多数模型缺乏在复杂提示上进行深度推理的能力，这限制了它们在微妙或对抗性场景下的表现。为解决这些问题，OpenAI研究团队提出了深思熟虑对齐（Deliberative Alignment），这是一种全新的模型对齐方法，旨在直接将安全规范传授给模型，并训练它们在生成响应之前对这些规范进行推理和权衡。深思熟虑对齐：显式安全推理的新范式与依赖人类标注数据的传统方法不同，深思熟虑对齐通过结合模型生成数据和思维链（Chain-of-Thought, CoT）推理，为模型建立明确的安全规范框架。该方法的核心在于显式安全推理，教导模型在生成响应前明确考虑相关的政策和准则。同时，它减少了对高成本人类标注数据的依赖，转而使用模型生成的数据集进行训练。此外，这种方法显著增强了模型在不熟悉或复杂场景下的泛化能力，能够更可靠地应对多样化的挑战。技术细节与优势深思熟虑对齐采用两阶段训练流程。在第一阶段，监督微调（SFT）使用基础模型生成的数据集对模型进行训练，帮助模型建立对安全规范的明确理解，并进行有针对性的推理。在第二阶段，强化学习（RL）通过奖励模型（Reward Model）对模型进行微调，基于安全基准对模型表现进行评估和优化。这种训练流程显著减少了对人工标注数据的依赖，并通过思维链推理强化模型在复杂情境下的决策能力，从而提高整体安全性与鲁棒性。实验结果与洞察深思熟虑对齐在OpenAI的o系列模型中展示了显著的性能提升。o1模型在StrongREJECT基准测试中得分高达0.88，远超GPT-4o的0.37，表现出卓越的抗越狱攻击能力。在XSTest数据集的良性提示测试中，o1模型的响应准确率达到了93%，有效减少了无效拒绝。此外，o1模型在自残提示和受监管建议场景中表现出更高的合规性，能够更好地遵循风格和安全指导原则。同时，实验还表明，SFT和RL两个阶段对于取得这些成果都不可或缺，缺失任何一个环节都会显著影响模型性能。深思熟虑对齐的未来意义深思熟虑对齐不仅是一种更高效的模型对齐方法，更代表了一个可解释且可扩展的安全对齐新方向。它解决了当前AI模型在伦理和安全方面的核心挑战，确保模型在面对复杂或对抗性场景时能够理性推理，而非机械地拒绝或错误生成响应。这种显式推理方法不仅提升了模型在安全性和鲁棒性方面的表现，还为AI系统在实际应用场景中提供了更高的可靠性。结论深思熟虑对齐（Deliberative Alignment）的提出，是AI安全对齐技术的重要里程碑。它不仅解决了当前对齐方法的局限性，还为未来更高级别的AI安全标准设定了方向。随着AI技术不断发展，深思熟虑对齐等方法将成为确保AI系统符合人类价值观与社会期望的关键工具。未来，OpenAI等领先机构将在此基础上持续优化，为构建一个更安全、更可靠的人工智能生态系统奠定坚实基础。

2024年AI投资回顾：资本热潮持续涌动，巨额融资引领未来

Posted on December 23, 2024December 23, 2024 by aitrendtrackers@rengongzhineng.io

尽管有些人已经感到**“AI疲劳”，但风险投资者显然没有厌倦这个赛道。2024年第三季度，AI领域继续主导风险投资市场，融资总额达到190亿美元**，占全球风险投资总额的28%。而在第四季度，这股势头依旧强劲，多笔超过10亿美元的融资轮接连涌现，预示着AI行业的资本热潮远未消退。 1. 现象级巨额融资：规模空前这些巨额融资不仅反映出资本市场对AI领域的强烈信心，也揭示了行业对大模型和AI基础设施的巨大需求。 2. 2024年美国AI公司超大额融资盘点 🔹 12月：前沿科技崛起 🔹 11月：AI独角兽频出 🔹 10月：多领域AI快速扩张 🔹 9月：AI研究与安全引领趋势 🔹 8月：AI基础设施爆发 🔹 7月：AI与机器人技术突破 🔹 6月：行业应用落地 🔹 5月：医疗与数据标注引领投资热潮 🔹 4月：多领域AI技术创新 3. AI资本热潮的背后逻辑 4. 2025展望：AI商业化的全面深化随着资本的持续涌入，2025年AI将迎来以下几大趋势：结语2024年，AI行业不仅迎来了前所未有的资本热潮，更在技术创新和场景落地上取得了跨越式突破。2025年，随着技术的持续进步和商业化的加速落地，AI将继续塑造全球经济和社会发展的新格局。

Subscribe 订阅