aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

OpenAI CEO Sam Altman畅谈“计算预算”与AGI未来，AI发展或迎重大变革

Posted on February 10, 2025 by aitrendtrackers@rengongzhineng.io

在个人博客的一篇新文章中，OpenAI CEO Sam Altman 抛出了多个“听起来有点奇怪”的想法，包括引入**“计算预算”（Compute Budget）**，以确保全球每个人都能广泛使用AI，并让技术红利得到公平分配。 OpenAI CEO畅谈AGI未来：计算预算、智能普及与全球影响 OpenAI的使命是确保通用人工智能（AGI）造福全人类。在最新的文章中，CEO Sam Altman 提出了三大关键观察，并深入探讨了AGI的经济学、全球影响以及未来的技术发展方向。他指出，AGI的时代即将到来，我们正处于一个至关重要的时刻，需要深刻理解技术的本质及其社会影响。 AGI：人类工具进化的终极形态？ Altman将AGI视为人类科技发展的下一步，就像电力、晶体管、计算机和互联网一样，它是不断进步的工具链的一部分。但与此同时，他也承认，这次的影响或许前所未有。AGI不仅有望推动经济增长到惊人的水平，还可能彻底改变医学、创造力和生活方式。他乐观地预测，未来十年内，地球上的每个人都可能比今天最有影响力的个人成就更大。不过，短期内，人们的日常生活不会立刻发生巨变，2025年的人类依然会恋爱、组建家庭、在网上争论、去大自然徒步。但长远来看，AGI将深刻重塑社会和经济，创造新的职业、竞争方式和社会价值观。三大观察：AI经济学的核心规律 Altman总结了关于AI发展经济性的三大观察： AI代理人（AI Agents）：未来的虚拟同事 OpenAI正在逐步推出AI代理人（AI Agents），最终它们将成为**“虚拟同事”**。一个典型案例是软件工程AI代理，它将能够完成相当于顶级公司工作数年的工程师所能处理的大部分任务（但仅限于几天内的任务）。这些AI代理不会有原创性的“最伟大想法”，需要大量人类监督，在某些任务上非常强大，但在某些方面会表现奇差。然而，一旦拥有1000个，甚至100万个这样的AI代理，整个软件工程行业的形态将被彻底重塑。这样的AI代理不仅限于编程，还将渗透到各个知识领域。他将AGI类比为晶体管——最初人们意识不到它的意义，但它最终会渗透到经济和社会的每个角落。AI代理人将成为所有行业的基础设施，影响深远。社会与经济的变革：不平衡的增长与计算预算 Altman强调，确保AGI的收益能够公平分配是关键。历史表明，技术进步虽然提升了整体福祉，但从未自动带来平等，因此需要全新的社会机制来调整资本和劳动的关系。他提出的一个可能方案是**“计算预算”（Compute Budget），即为全球每个人提供一定量的AI计算资源，以确保AI的普及**。不过，他也认为，如果AI的成本持续下降，这一问题可能会自动解决。 AI安全、开源与个人赋权：未来的关键平衡在安全问题上，Altman表示，OpenAI在推进AGI时将做出一些“不受欢迎的重大决策”。 OpenAI曾承诺，如果有其他安全意识强、价值观一致的团队先一步开发出AGI，OpenAI将停止竞争，转而支持该团队。但如今，OpenAI已从非营利模式转向盈利模式，其目标是2029年实现1000亿美元收入，商业考量可能会影响其承诺的执行。在开源问题上，Altman承认，OpenAI可能在过去的策略上“站错了队”，未来可能需要更开放地共享技术，但同时也要在安全与个人赋权之间找到平衡。最终，AI是选择赋权个体，还是被极权政府用来进行大规模监控，将取决于社会如何塑造它。OpenAI的立场是，应让AI更多地促进个人能力，而非助长集权。结论：AGI的未来将是“每个人都能支配无限的智慧” Altman的最终愿景是：总结：AGI即将到来，我们做好准备了吗？ Altman的愿景听起来令人兴奋，同时也充满挑战。AGI的未来不是一场静态的革命，而是一场动态的竞赛。最终，人类能否成功驾驭这一最强大的工具，仍然是一个开放的问题。

Anthropic推出宪法分类器：用“温和派”AI应对通用越狱攻击

Posted on February 10, 2025 by aitrendtrackers@rengongzhineng.io

随着大型语言模型（LLM）深入各类应用场景，其安全性问题也日益凸显。其中，“通用越狱”（Universal Jailbreaks）已成为重大挑战——黑客利用特定提示技巧绕过模型安全机制，从而获取受限信息。这类漏洞可能被用于非法活动，如合成违禁物质或规避网络安全措施。AI技术在不断进步的同时，攻击手段也在同步升级，因此，需要一种既能确保安全性，又不影响实际可用性的防御机制。 Anthropic的“宪法分类器”登场为应对这一问题，Anthropic研究团队推出了**“宪法分类器”（Constitutional Classifiers），这是一种结构化框架，旨在提升LLM的安全性。该分类器基于符合“宪法原则”的合成数据**进行训练，能够明确划分允许与受限内容，从而提供更灵活的安全防护，并能适应不断演变的攻击策略。与传统的静态规则过滤或人工审核不同，宪法分类器直接将伦理和安全考量嵌入模型，使其在保证安全性的同时，依然具备良好的用户体验和扩展性。如何运作？有哪些优势？ Anthropic的宪法分类器围绕以下三大核心展开：对抗越狱攻击的鲁棒性：分类器基于宪法规则生成的合成数据进行训练，大幅提升识别和拦截有害内容的能力。实用性与低成本部署：该框架引入的推理开销仅为23.7%，确保其在真实环境中的可行性。适应性强：由于宪法规则可以更新，系统能及时应对新的安全挑战，保持长期有效性。分类器在输入端和输出端均发挥作用。输入端分类器：对用户输入的提示词进行审查，阻止潜在有害请求进入模型。输出端分类器：实时评估模型生成的内容，确保其符合安全规则，必要时进行拦截。这种逐个token实时评估的机制，在确保安全性的同时，兼顾了用户体验，避免模型“过度防御”导致实用性下降。实验测试：能否真正防住通用越狱？ Anthropic团队进行了超过3000小时的红队攻击测试，共有405名安全研究员和AI专家参与，结果如下：零成功的通用越狱：测试过程中，没有发现任何能稳定绕过防御的“万能越狱”方法。 95%拦截率：宪法分类器成功阻止了95%的越狱尝试，而未防护模型的拒绝率仅14%，防御能力显著提升。极低误杀率：分类器在真实应用中仅额外增加了**0.38%**的拒绝率，表明其不会过度屏蔽正常用户请求。攻击者主要手法：实验发现，攻击者更倾向于微调措辞或调整回答长度，而非利用系统漏洞进行真正的突破。尽管没有任何安全系统是100%无懈可击的，但这些实验数据表明，宪法分类器确实显著降低了通用越狱的风险。结论：AI安全的新范式 Anthropic的宪法分类器为LLM安全性提供了一种更灵活、更可扩展的解决方案。通过围绕明确的宪法原则构建安全机制，该方法既提升了对越狱攻击的防御能力，又避免了传统安全策略中过度限制用户使用的弊端。随着攻击技术的不断进化，这一框架仍需持续优化，以保持长期有效性。然而，从当前实验结果来看，宪法分类器已经证明了适应性安全防护的可行性，成为AI安全领域的一次重要突破。

大型语言模型（LLM）中的自适应推理预算管理：基于约束策略优化的解决方案

Posted on February 10, 2025February 10, 2025 by aitrendtrackers@rengongzhineng.io

大型语言模型（LLMs）在复杂推理任务上展现出惊人的能力，尤其是在数学问题求解和代码生成方面。然而，这些模型仍面临重大挑战：虽然延长推理链可以提高问题解决能力，但往往导致不必要的冗长推理，即便是简单问题也会生成过长的解答。这种“统一长度”的推理方式不仅降低了计算效率，还削弱了其在实际应用中的实用性，使得计算成本和资源消耗大幅上升。目前，提升LLMs推理能力的方法层出不穷，其中“思维链”（Chain-of-Thought, CoT）是基础技术之一，它通过将推理拆分为多个离散步骤来提升模型解题能力。在此基础上，研究人员进一步发展出了更复杂的推理策略，例如增加推理步骤的扩展CoT、自我反思机制、多轮推理以及多智能体辩论系统。近年来，一些模型（如OpenAI-o1和DeepSeek-R1）主打超长推理链，以提升复杂任务的解答能力。然而，这类模型无论面对何种问题，都倾向于生成冗长的推理路径，导致计算资源浪费，并增加了碳排放，对实际应用造成阻碍。为了破解这一难题，Meta AI与伊利诺伊大学芝加哥分校的研究团队提出了一种创新方法，致力于让模型能根据查询的复杂度自动调整推理长度。相比于以往依赖启发式方法优化token利用率的策略，该研究从强化学习（RL）的角度切入，不直接建模响应长度，而是采用一种“分组方法”，通过对不同类型的回答进行分类，构建覆盖整个响应空间的高效推理框架，同时确保推理效率。该方法采用序列级符号系统，将复杂的状态转移概率和中间奖励简化处理，把每个响应视为完整单元。系统架构将回答划分为两大类：标准长度的CoT推理，以及需要额外计算成本的扩展推理。模型采用双层优化框架，在凸多面体约束下分配计算资源，确保推理链的长度控制在合理范围内。此外，该算法通过迭代优化，上层问题采用梯度更新求解，而下层优化则在每次迭代中直接计算。实验结果表明，该方法在多个任务上的表现均取得显著提升。监督微调（SFT）方法的SVSFT与ASV-SFT-1虽然提升了pass@1指标，但推理资源消耗相应增加。值得注意的是，ASV-IuB-q+在50%和75%参数设定下，推理效率提升显著，分别减少4.14%和5.74%的计算开销，同时性能与当前最优的RL自我修正方法SCoRe相匹配。此外，实验还揭示了基于提示（prompting）和SFT方法在绝对提升和效率优化上的局限性，进一步表明RL方法在自我修正方面的潜力更大。研究团队还提出了IBPO（约束策略优化框架），通过加权监督微调更新机制来优化推理过程。该方法基于CGPO框架，在每次迭代中通过整数线性规划计算最优权重，实现动态推理预算分配，并在数学推理任务上展现出卓越的资源管理能力。尽管计算资源限制仍然是一个挑战，但该框架可通过多步采样积累缓解这一问题。未来，该方法的应用范围有望进一步扩展，研究人员计划在更多LLM任务中测试其可行性，并扩大实验规模，以探索其在不同场景下的潜在价值。

微软AI研究团队推出LLaVA-Rad：轻量级开源基础模型，助力先进临床放射学报告生成

Posted on February 10, 2025 by aitrendtrackers@rengongzhineng.io

近年来，大型基础模型在生物医学领域展现出惊人的潜力，不仅在各种基准测试中取得亮眼成绩，还能在数据标注需求极低的情况下，迅速适应下游任务。然而，将这些模型真正应用于临床仍面临巨大挑战。即使是先进的GPT-4V，在多模态生物医学任务上的表现仍存在显著差距。此外，高昂的运行成本、有限的可获取性以及繁琐的手动评估流程，使得医生在处理患者隐私数据时难以直接应用这些最前沿的AI技术。https://github.com/microsoft/LLaVA-Med 随着多模态生成式AI的进步，生物医学应用的范围也在不断扩展，能够同时处理文本和图像的AI系统，已在视觉问答、放射学报告生成等任务上展现出巨大潜力。然而，临床落地依然困难重重。大型模型的资源需求使其在计算成本和环境影响方面带来不小压力，而小型多模态模型（SMMs）虽然更加高效，但在性能上与大型模型仍有较大差距。此外，开源可用的高质量模型匮乏，以及缺乏可靠的事实性评估方法，尤其是在幻觉检测方面的不足，进一步阻碍了其在医学领域的推广。为了解决这些问题，微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一款全新的小型多模态模型——LLaVA-Rad，并推出了CheXprompt自动评分指标，以评估模型生成报告的事实性。该系统专注于胸部X光（CXR）影像分析，这是医学影像领域最常见的检查类型，旨在自动生成高质量的放射学报告。LLaVA-Rad训练于来自七个不同来源的697,435个影像-报告数据对，当仅有结构化标签时，还利用GPT-4进行报告合成。模型在推理阶段仅需一张V100 GPU即可运行，训练则在一个包含8张A100的计算集群上，仅用一天便可完成。 LLaVA-Rad的架构代表了一种全新的小型多模态模型设计，即便规模远小于Med-PaLM M等大模型，依然能在关键指标上实现领先表现。其训练策略分为三个阶段：单模态预训练、对齐调整和轻量级跨模态学习。模型采用高效的适配器机制，将非文本模态信息映射到文本嵌入空间，确保跨模态学习的有效性。此外，LLaVA-Rad利用来自258,639名患者的697,000张去识别化胸片及其对应报告，构建了一个强大的单模态基础，并在此基础上实现高效的跨模态适应。相比同等规模（7B参数量）的模型，如LLaVA-Med、CheXagent和MAIRA-1，LLaVA-Rad展现出卓越性能。尽管其规模远小于当前最强的Med-PaLM M，在关键评测指标上依然实现了显著提升：在放射学文本评估指标ROUGE-L上提升12.1%，在F1-RadGraph指标上提升10.1%。更重要的是，在多个数据集（如CheXpert和Open-I）上的测试表明，即便是从未见过的数据，LLaVA-Rad仍能保持稳定的高质量表现。这一优势归功于其模块化设计和高效的数据利用策略。尽管Med-PaLM M在F1-5 CheXbert指标上的优势不足1%，但LLaVA-Rad凭借更高的计算效率和更低的资源需求，使其在实际应用中更具可行性。总体来看，LLaVA-Rad的推出标志着基础模型向临床应用迈出了重要一步。作为一个开源、轻量级的解决方案，它在放射学报告生成任务中达到了最先进的水平。其成功得益于对697,000张胸部X光影像及报告的全面训练，并结合GPT-4进行数据处理，同时采用创新的三阶段训练方法。此外，CheXprompt的引入有效解决了自动评估难题，使得模型的准确性评估可媲美专业放射科医生。这一系列突破无疑为AI在临床医学中的落地应用奠定了坚实基础，加速了人工智能与医疗行业的深度融合。

ChunkKV：优化 KV 缓存压缩，让 LLM 长文本推理更高效

Posted on February 9, 2025 by aitrendtrackers@rengongzhineng.io

在长文本推理中，大型语言模型（LLM）需要存储大量的 KV 缓存，这对 GPU 内存占用带来了极大挑战。传统的 KV 缓存压缩方法往往通过注意力分数筛选出“重要”Token，并裁剪掉相对不重要的部分。然而，这些方法通常单独评估每个 Token，忽视了Token 之间的依赖关系。结果就是，某些关键主题词被保留，但与之相关的重要上下文信息却可能被删减，导致模型语义理解出现偏差。因此，一种更结构化的 KV 缓存压缩方法迫在眉睫，它不仅要考虑Token 重要性，还要兼顾语义完整性。近年来，一些动态 KV 缓存压缩策略被提出，以优化内存使用的同时维持模型性能。例如，H2O 和 SnapKV 通过注意力机制筛选关键 Token，而Chunking（文本分块）方法则将文本划分为语义相关的段落，以确保上下文连贯性。这种分块技术在 NLP 预训练和检索任务中早已广泛应用。此外，还有像 LISA 和 DoLa 这样的分层策略，利用 Transformer 不同层的结构信息提升模型效率。然而，在 KV 缓存压缩中引入 Token 依赖意识，依然是提升长文本推理能力的关键。 ChunkKV：按块存储，提升 KV 缓存效率香港大学的研究团队推出了ChunkKV，一种全新的 KV 缓存压缩方法，与传统方法不同的是，它不再单独评估 Token，而是将 Token 组织成“语义块”进行处理。通过按块存储，ChunkKV 减少了内存占用，同时确保语义信息的完整性。除此之外，该方法还引入分层索引复用（Layer-wise Index Reuse）技术，在不同层间共享已压缩的索引，进一步提升计算效率。在多个基准测试（如 LongBench、Needle-In-A-Haystack、GSM8K 和 JailbreakV）上的实验表明，ChunkKV 在高压缩率下仍能将模型准确率提高 10%，相比传统方法，它在保留上下文信息和提升内存效率方面表现更优，被认为是当前长文本推理的最优解决方案之一。 ChunkKV 如何优化 GPU 内存？…

Meta AI 最近推出了一款全新的机器学习框架ParetoQ，专门用于大型语言模型的4-bit 以下量化

Posted on February 9, 2025February 9, 2025 by aitrendtrackers@rengongzhineng.io

Meta AI 最近推出了一款全新的机器学习框架——ParetoQ，专门用于大型语言模型的4-bit 以下量化。随着深度学习模型的不断膨胀，模型压缩技术的重要性日益凸显，而低比特量化成为一种既能缩小模型体积，又能保持准确度的关键方法。然而，围绕量化比特数的争论一直没有定论，一些研究认为4-bit 量化是最优解，而另一些研究则认为1.58-bit 模型同样能取得类似表现。由于缺乏统一的评估框架，不同研究得出的结论往往矛盾，导致低比特精度量化的规模化规律难以建立。量化的难点在于如何在计算效率与模型准确度之间找到最佳平衡。不同方法各有优缺点，例如后训练量化（PTQ）虽然可以直接在训练好的模型上进行量化，部署方便，但低比特时准确率损失较大；量化感知训练（QAT）则是在训练过程中就引入量化，使模型能够更好地适应低比特表示。此外，还有可学习量化和混合精度策略等方法尝试进一步优化模型压缩效果。但由于评估标准不统一，很难直观比较不同量化方法的优劣。为了解决这一问题，Meta AI 研究团队推出了ParetoQ，它作为一个标准化框架，支持1-bit、1.58-bit、2-bit、3-bit 和 4-bit 量化的系统性评估。相比以往各自为政的量化研究，ParetoQ 通过优化训练方案和比特特定量化函数，提供了一种更具一致性的比较方式。 ParetoQ 如何优化低比特量化？该框架采用优化版 QAT 训练策略，在保证模型压缩效果的同时，将准确率损失降到最低。研究发现，当模型精度降至2-bit 以下时，会发生显著的表征偏移，而3-bit 及以上的模型则仍然保持与原始预训练分布的相似性。为此，ParetoQ 针对不同比特宽度优化量化网格、调整训练方式，并提供比特特定的学习策略。实验结果显示，ParetoQ 在性能上远超现有的量化方法。例如，研究团队基于 ParetoQ 训练的600M 参数三进制（ternary）模型，准确率超越了之前最强的 3B 参数三进制模型，但参数量仅为其五分之一。此外，2-bit 量化模型在相同体积下的准确率相比 4-bit 模型提升1.8 个百分点，证明了2-bit 量化是 4-bit 量化的有效替代方案。不仅如此，ParetoQ 还带来了更高效的硬件适配性。优化后的2-bit CPU 内核在计算速度和内存效率上都比 4-bit 量化更优，使低比特量化在实际部署中更加可行。实验也表明，相比 1-bit 和 4-bit 量化，2-bit、3-bit 及 ternary 量化模型在准确率和模型大小之间达到了更优平衡，进一步强化了4-bit 以下量化策略的价值。未来展望这项研究奠定了大型语言模型低比特量化的坚实基础。通过引入结构化框架，ParetoQ 有效解决了准确率权衡与比特宽度优化问题。研究结果表明，虽然极端低比特量化（如 1-bit）可行，但目前来看，2-bit 和…

Mistral AI推出Small 3：开源对标GPT-4o mini，本地运行无压力！

Posted on February 8, 2025February 8, 2025 by aitrendtrackers@rengongzhineng.io

法国人工智能实验室Mistral AI近日发布了Small 3，一款24B参数的大型语言模型（LLM），号称是**“同类中最优”的高效模型，并且优化了延迟表现。Mistral AI表示，该模型可以与Llama 3.3 70B、Qwen 32B等大模型竞争，甚至可以作为GPT-4o mini的开源替代方案**。小巧但强大，Small 3为何值得关注？ 1. 开源+本地运行，MacBook也能带得动 Small 3完全开源，采用Apache 2.0许可证发布，任何个人或企业都可以使用和修改。更值得一提的是，它可以在拥有32GB RAM的MacBook上本地运行，意味着开发者和企业无需昂贵的云计算资源，也能高效利用AI能力。 2. 高效低延迟，适合关键任务 Mistral AI表示，Small 3专门优化了延迟表现，尤其适用于需要快速、精准响应的场景。其架构采用较少的层数，提升了处理速度，同时仍保持卓越的推理能力。在MMLU基准测试中，Small 3的准确率超过81%，展现了强大的通用知识理解能力。 3. 训练方式不同，更具灵活性有别于其他大模型，Small 3未经过强化学习（RL）或合成数据训练，Mistral AI认为，这让Small 3在模型生产过程中处于较早阶段，比DeepSeek R1等模型更具可塑性。此外，该模型指令微调版本的表现甚至可媲美参数量大三倍的开放权重模型，并且在代码、数学、通识知识和指令跟随能力上，与GPT-4o mini不相上下。用户评价如何？ Mistral AI通过第三方供应商进行了一项人类评估测试，使用超过1000个编码和通识问题对Small 3进行考验。测试结果显示，大多数评审者更喜欢Small 3，相较于Gemma-2 27B和Qwen-2.5 32B表现更优，但在对比Llama-3.3 70B和GPT-4o mini时，评价则相对平均。这表明Small 3在不同应用场景下可能具有不同的优势。适用场景：从虚拟助理到金融风控 Mistral AI推荐使用Small 3来构建客户服务型虚拟助手，尤其适用于金融欺诈检测、法律咨询、医疗健康等高精度需求场景。该模型还能用于机器人、制造业等领域，甚至非常适合爱好者和企业在本地环境中处理敏感或专有信息。此外，Mistral AI暗示，未来几周内将推出更多不同规模、推理能力更强的模型，敬请期待！目前，Small 3已可在HuggingFace上获取。https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501

亚马逊即将推出全新AI版Alexa，订阅费或达10美元！

Posted on February 8, 2025February 8, 2025 by aitrendtrackers@rengongzhineng.io

亚马逊终于要带来万众期待的Alexa升级版了！据知情人士透露，这次的改版引入了生成式人工智能（AI），堪称自Alexa诞生以来最重大的升级。为了预热这场科技革新，亚马逊已经向媒体发出了邀请函，定于2月26日在纽约举办发布会，由设备与服务部门负责人Panos Panay亲自主持。虽然官方还未透露具体细节，但可以确定的是，这场活动的核心就是Alexa的新生。这一AI升级版Alexa不仅是亚马逊的一次大胆创新，同时也面临着巨大的商业风险。全球超过5亿台Alexa设备的用户，能否从免费用户转变为付费订阅者，将直接影响亚马逊的商业回报。新Alexa计划具备更强的对话能力，能够连续处理多个指令，甚至能自主完成任务，而不像当前版本那样只能应对单个指令。据悉，亚马逊高层将在2月14日召开“Go/No-go”会议，最终决定新版Alexa是否能按计划上线。 Alexa将走向付费模式？新一代Alexa预计将在初期限量推出，并暂不收取费用。但亚马逊已经在考虑未来的订阅模式，费用可能在每月5到10美元之间。同时，目前的“经典版Alexa”仍将继续免费提供，但据消息人士透露，亚马逊已经停止为经典版添加新功能，未来可能会逐步引导用户向付费版转移。 AI升级，能否摆脱“计时器”形象？尽管Siri早在2011年便已问世，但2014年发布的Alexa才真正引爆了智能语音助手市场。然而，近年来Alexa的使用场景逐渐被限定在设置计时器、播报天气等简单功能上，原因在于其核心功能多年未有重大升级。而这一次，亚马逊希望通过AI版Alexa彻底改变用户体验，让它成为一个能自主执行任务的智能“代理”，比如在用户下单前修改订单，或者根据个人偏好推荐音乐和餐厅。不过，新的Alexa也面临着类似OpenAI、谷歌等AI聊天机器人常见的问题，比如AI“幻觉”（错误信息）。考虑到Alexa已经广泛应用于汽车、电视、智能家居等设备，亚马逊必须确保其准确性和安全性，以免造成不必要的困扰。贝佐斯的星际梦，Alexa能否实现？ Alexa的诞生可以追溯到亚马逊创始人杰夫·贝佐斯的愿景——他希望打造出一个类似《星际迷航》中全能电脑的语音助手。亚马逊曾设想，未来Alexa将能完成各种任务，比如控制智能家居、播放音乐、发送邮件、甚至叫车。2014年，时任设备主管的戴夫·林普曾表示：“也许未来的某一天，Alexa能够回答用户提出的所有问题。”然而，理想很丰满，现实却因技术瓶颈而屡屡受阻。为了完善新版Alexa，亚马逊甚至为该项目取了代号“Banyan”（印度榕树）和“Remarkable Alexa”，不过最终是否会以这些名字推出尚未可知。能否实现商业突破？亚马逊目前已经向AI初创公司Anthropic投资80亿美元，以强化Alexa的人工智能能力。有分析认为，如果10%的Alexa活跃用户愿意为新版Alexa支付每月5美元的订阅费，亚马逊每年可从中获利6亿美元。这意味着，新版Alexa不仅要展现出足够的智能，还需要让用户愿意为它买单，否则这场升级将难以带来真正的商业价值。去年9月，亚马逊曾展示过Alexa AI版本的早期演示，但因质量问题而被无限期推迟。这次能否顺利发布，Alexa能否真正实现智能化蜕变，2月14日的最终决策和2月26日的发布会，将成为关键节点。

Gemini 2.0 全面开放，AI 进入新纪元！

Posted on February 6, 2025 by aitrendtrackers@rengongzhineng.io

谷歌今天正式宣布，最新 AI 模型 Gemini 2.0 现已面向所有用户开放！这标志着 AI 领域迎来新的发展阶段，尤其是在推理能力、编程表现以及高效处理复杂任务方面，Gemini 2.0 带来了革命性的提升。 Gemini 2.0 Flash：高效推理全面普及去年 12 月，谷歌发布了 Gemini 2.0 Flash 的实验版，为开发者提供了一款低延迟、高性能的 AI 模型。今年初，2.0 Flash Thinking Experimental 在 Google AI Studio 迎来升级，结合了 Flash 的速度与更强的推理能力，能够解决更复杂的问题。上周，新版 2.0 Flash 已经向所有 Gemini 应用用户开放，无论是桌面端还是移动端，用户都可以体验 AI 在创作、互动和协作方面的全新可能性。今天，谷歌更进一步，宣布 2.0 Flash 通过 Gemini API 在 Google AI Studio 和 Vertex AI 上线，开发者现在可以用它来构建生产级应用。 Gemini 2.0 Pro：最强编程与推理…

谷歌的最新 AI 模型发布，Gemini 迎来“思考”能力！

Posted on February 6, 2025 by aitrendtrackers@rengongzhineng.io

全球科技巨头谷歌周三正式推出备受期待的旗舰 AI 模型——Gemini 2.0 Pro Experimental，同时还带来了一系列新 AI 模型的发布。更值得关注的是，该公司正式将其“推理”模型——Gemini 2.0 Flash Thinking，带入了 Gemini 应用。此举恰逢科技圈对 AI 低成本推理模型的关注达到新高度，而中国 AI 初创公司 DeepSeek 更是成为市场焦点。DeepSeek 的 AI 模型不仅在性能上与美国科技巨头们的产品比肩，甚至在某些方面还更胜一筹。更重要的是，DeepSeek 还通过 API 以超高性价比向企业开放其 AI 模型。事实上，早在去年 12 月，谷歌和 DeepSeek 就先后推出了 AI 推理模型，但 DeepSeek 的 R1 迅速抢占了风头。如今，谷歌似乎希望借助其流量巨大的 Gemini 应用，让 Gemini 2.0 Flash Thinking 获得更多关注度。至于 Gemini 2.0 Pro，它是去年 2 月发布的 Gemini 1.5 Pro…

Subscribe 订阅