aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

谷歌在反垄断压力下加速摆脱对苹果Safari的依赖

Posted on July 8, 2024July 8, 2024 by aitrendtrackers@rengongzhineng.io

谷歌在反垄断案前夕努力减少对苹果Safari的依赖谷歌在搜索行业的主导地位正受到美国司法部的调查，而其与苹果的关系是案件的重要组成部分。根据《The Information》今日的报道，谷歌正加紧减少对苹果Safari浏览器的依赖，以应对可能的反垄断案件结果。案件焦点司法部对谷歌的指控之一是谷歌与苹果的协议，使谷歌成为iPhone默认搜索引擎。谷歌每年向苹果支付超过200亿美元以维持这一默认状态，司法部认为这阻碍了搜索引擎行业的竞争。值得注意的是，苹果并未被列为该诉讼的当事方，但案件已经导致苹果高管如Eddy Cue出庭作证。谷歌的应对策略《The Information》报道指出，谷歌希望增加iPhone用户在Safari以外进行搜索的比例：过去几年，谷歌一直试图说服iPhone用户改用Google或Chrome应用进行搜索。尽管谷歌取得了一些进展——从五年前的25%提高到现在的30%出头，但这一进展在去年下半年停滞了。据参与此项工作的三位人士透露，这一比例远低于谷歌希望到2030年将iPhone搜索比例提高到50%的目标。谷歌每年向苹果支付的巨额资金是一种收入分享协议，苹果从Safari中进行的谷歌搜索广告收入中分得一部分。通过推动用户使用Chrome和Google应用，谷歌支付给苹果的钱会减少，并且减少了其受到监管的风险。面临的挑战然而，谷歌要说服用户使用其应用而不是Safari并不容易。消息人士告诉《The Information》，“克服Safari预装在苹果设备上的事实实在太难了”。报道还提到，谷歌聘请了前Instagram和Yahoo高管Robby Stein来负责这项工作。作为计划的一部分，谷歌高管曾考虑将其AI摘要功能限制在自己的应用中，这意味着Safari用户看不到搜索结果中的AI摘要，但使用谷歌自家应用的用户可以看到。不过，谷歌最终决定不采取这一措施。新的推动力量今年早些时候，谷歌聘请了前Instagram和Yahoo的产品高管Robby Stein，负责将iPhone用户转移到谷歌的移动应用。根据现任和前任员工的说法，他的任务之一是探索如何利用生成性AI使谷歌应用更具吸引力。结论报道明确指出，谷歌多年来一直在努力摆脱对Safari的依赖，但收效甚微。结果是否会有所改变还有待观察，但真正的关键是美国司法部的反垄断案件，预计“将在未来几个月内”有结果。

极客时间：使用Autogen Builder和本地LLM（Microsoft Phi3模型）在Mac上创建本地AI代理

Posted on July 8, 2024July 8, 2024 by aitrendtrackers@rengongzhineng.io

AI技术已经取得了长足的进步，现在通过微软、谷歌和OpenAI等公司发布的各种新AI代理框架，创建自己的AI代理比以往任何时候都更容易。借助AutoGen Builder（https://microsoft.github.io/autogen/）和强大的本地LLM（如Microsoft Phi3），你可以直接在Mac上构建和部署AI解决方案。让我们一起来实现吧——以下是逐步指南。步骤1：安装AutoGen Builder 在之前的帖子中，我们玩过微软的AutoGen。AutoGen Builder是一个无代码环境，用户可以轻松创建工作流、模型和代理。运行以下命令进行安装：安装完成后，在终端运行其Web UI：界面相当简洁。步骤2：使用Ollama运行本地LLM 使用以下命令运行本地LLM非常简单：起初，我对我的M1 MacBook过于自信，尝试运行谷歌的Gemma 2 9B，结果在工作流测试期间我的Mac崩溃了。因此，我不得不切换到体积更小的Phi 3 Mini（2.3GB）。步骤3：运行LiteLLM和Gunicorn AutoGen原生支持OpenAI和Gemini的LLM模型，但不支持Phi3。因此，我们需要使用LiteLLM和Gunicorn作为代理，提供符合OpenAI标准的API供AutoGen调用。安装过程非常简单：我遇到了以下错误：处理这个错误的过程中，发现还需要安装一些额外的依赖，包括backoff：然后运行：你会看到代理运行在http://0.0.0.0:4000。步骤4：配置AutoGen Builder 首先，我们需要创建测试工作流。工作流将使用代理“local_assistant”。然后，我们将“local_assistant”代理配置为使用我们的本地LLM Phi3（实际上我命名为local_gemma2，忘了改成local_phi3）。接下来，创建模型。对于“API key”，输入“NotRequired”，因为我们调用的是本地LLM Phi3。点击“Test Model”，如果一切正常，你会看到“Model tested successfully”。最后，进入AutoGen Builder的“Playground”运行测试。你会看到来自本地Phi3的回复。 AutoGen Builder使用起来非常简单。下一步更有趣的是创建一个具有自己技能的自定义代理。将会非常有趣。敬请期待！动手试试吧，玩得开心。

Stability AI 推出新社区许可证，拥抱开放源代码

Posted on July 8, 2024July 8, 2024 by aitrendtrackers@rengongzhineng.io

Stability AI 重返开放源代码：新社区许可证 Stability AI 最近宣布将其 AI 模型免费提供给大多数用户，包括小型企业。他们正在加大开放源代码的力度，试图在SD3发布不顺利后赢回社区的支持。发生了什么？ Stability AI 发布了一种新的“社区许可证”，对其 AI 模型的使用权限更加宽松。这一举措是回应他们最忠实用户的抱怨，因为这些用户不满公司逐渐远离开放源代码的做法。看起来公司已经听取了这些意见并对许可证进行了修改。具体意味着什么？现在，年收入低于100万美元的个人和小型企业可以免费进行商业使用。只有年收入超过100万美元的大型商业用户需要支付企业许可证费用。和之前一样，非商业用途仍然完全免费（适用于研究人员、学生、爱好者等），并且不再限制生成图像的数量。Stability 的团队还在努力改进 SD3 Medium，以解决社区指出的质量问题。为什么这对你重要？大语言模型（LLM）在AI讨论中往往占据不成比例的关注度，因为它们对构建日常软件产品的开发者来说非常容易使用。相比之下，图像生成主要局限于一些 Discord 服务器和受限的图像模型。更宽松的许可证将激励开发者构建以图像生成为核心的AI产品。值得注意的是，Stability AI 在最近的领导层变动和资金注入后，正在回归其开放源代码的初衷（之前也面临严重的资金紧张问题）。这一回归可能会为社区带来更多创新和发展机遇。

微软AI主管对网络内容版权的错误理解

Posted on July 7, 2024July 7, 2024 by aitrendtrackers@rengongzhineng.io

微软AI部门负责人穆斯塔法·苏莱曼（Mustafa Suleyman）最近声称，只要在开放网络上发布的内容，就成为了“自由软件”，任何人都可以自由复制和使用。在接受CNBC采访时，安德鲁·罗斯·索金（Andrew Ross Sorkin）询问他“AI公司是否盗用了世界的知识产权”，他回应说： “对于已经在开放网络上的内容，自90年代以来的社会契约就是公平使用。任何人都可以复制、重建、再生产。这已经成为‘自由软件’，这是一直以来的理解。” 微软目前正面临多起诉讼，指控其与OpenAI盗用了受版权保护的在线内容来训练其生成性AI模型。因此，微软高管为其辩护为合法行为并不令人意外。但令人惊讶的是，他的言论如此公开且明显错误。版权保护的基本知识尽管笔者不是法律专家，但可以明确的是，在美国，一旦创作完成，作品便自动受到版权保护。创作者无需申请，更不会因将作品发布在网上而失去版权。事实上，放弃版权的过程非常复杂，以至于律师们制定了专门的网络许可证来帮助实现这一点。公平使用则是通过法院裁定的，而不是通过“社会契约”。这是一个法律防御机制，允许在法院权衡复制内容的目的、数量以及对版权持有者的影响后，进行某些使用。尽管许多AI公司声称使用受版权保护的内容进行训练属于“公平使用”，但大多数公司在讨论此事时并不像苏莱曼那样直言不讳。在提到“公平使用”后，苏莱曼还发表了一句令人深思的言论： “我们作为人类的集体，除了是一个知识和智力的生产引擎，还有什么其他目的呢？” 关于robots.txt的讨论苏莱曼似乎认为robots.txt文件的概念有些道理——即通过在文本文件中指定哪些机器人不能抓取特定网站的内容，可能会阻止他人获取其内容。他说道： “另一个类别是网站、出版商或新闻机构明确表示‘除了索引外，请勿抓取我的内容。’这是一个灰色地带，我认为这将通过法院解决。” 但robots.txt并不是法律文件。它才是自90年代以来的“社会契约”——然而一些AI公司似乎也在忽略它。据报道，微软的合作伙伴OpenAI就是其中之一。

Meta最新AI图像生成模型：3D Gen的快速登场

Posted on July 7, 2024July 7, 2024 by aitrendtrackers@rengongzhineng.io

https://ai.meta.com/research/publications/meta-3d-gen Meta公司最近推出了一款全新的“3D Gen”模型，这是一个“最先进的快速处理管道”，能够在一分钟内将输入文本转换为高保真3D图像。更令人兴奋的是，该系统还能通过文本提示为生成的图像和艺术家制作的图像应用新纹理和皮肤。据Meta Gen AI研究团队的最新研究，3D Gen不仅提供高分辨率的纹理和材料贴图，还支持基于物理的渲染（PBR）和生成性重新纹理化功能。研究团队估计，使用Meta的3D AssetGen模型创建初始3D模型的平均推理时间仅为30秒。用户随后可以通过Meta 3D TextureGen模型使用文本提示来进一步完善现有的模型纹理或替换为新的纹理，这一过程预计仅需额外的20秒推理时间。研究摘要中提到：“通过结合这些优势，3DGen同时在三种方式下表示3D对象：视图空间、体积空间和UV（或纹理）空间。”Meta团队将其3D Gen模型与多个行业基准进行了比较，考虑了文本提示的保真度、视觉质量、纹理细节和伪影等因素。通过结合这两个模型的功能，注释者在68%的时间里选择了通过集成的两阶段过程生成的图像，而不是单阶段生成的图像。虽然这篇论文中讨论的系统仍在开发中，尚未准备好公开使用，但该研究展示的技术进步可能会在游戏和电影特效到VR应用等多个创意领域产生变革性影响。赋予用户快速且直观地创建和编辑3D生成内容的能力，可以大大降低这些创作活动的门槛。不难想象，这对游戏开发等领域将产生的巨大影响。

Google RichHF-18K 文本到图像生成中的丰富人类反馈

Posted on July 7, 2024July 7, 2024 by aitrendtrackers@rengongzhineng.io

近年来，图像生成模型（T2I）如Stable Diffusion和Imagen在根据文本描述生成高分辨率图像方面取得了显著进展。然而，许多生成的图像仍然存在诸如伪影（如物体变形、文本和身体部位失真）、与文本描述不一致以及美学质量低下等问题。例如，某个输入提示为“熊猫骑摩托车”，但生成的图像却显示了两只熊猫，并伴有其他不需要的伪影，如熊猫的鼻子和车轮辐条变形。受人类反馈强化学习（RLHF）在大型语言模型（LLMs）中的成功启发，研究者们探索了从人类反馈中学习（LHF）是否能帮助改善图像生成模型。在应用于LLMs时，人类反馈可以包括简单的偏好评分（如“点赞或踩”、“A或B”），也可以是更详细的回应，如重写有问题的答案。然而，目前LHF在T2I中的应用主要集中在简单的响应上，如偏好评分，因为修复有问题的图像通常需要高级技能（如编辑），这既困难又耗时。在“富人类反馈的文本到图像生成”中，研究人员设计了一种获取具体且易于获取的富人类反馈的方法。他们展示了LHF在T2I中的可行性和优势。主要贡献有三点：这是第一个用于最先进的文本到图像生成的丰富反馈数据集和模型。富人类反馈的收集从Pick-a-Pic训练数据集中根据PaLI自动创建的属性选择图像，以确保类别和类型的良好多样性，最终得到17K张图像。研究人员将这17K张样本随机分为训练集（16K样本）和验证集（1K样本）。此外，他们在Pick-a-Pic测试集中收集了丰富的人类反馈，作为测试集。最终，RichHF-18K数据集包含16K训练样本、1K验证样本和1K测试样本。对于每张生成的图像，注释者首先检查图像并阅读文本提示，然后在图像上标记任何不可信、伪影或与文本提示不一致的位置。最后，注释者对未对齐的关键词以及可信度、图像-文本对齐、美学和整体质量的四种评分进行打分，分别使用5分Likert量表。富人类反馈的预测 RAHF模型的架构基于ViT和T5X模型，受先前大型视觉语言模型（PaLI和Spotlight）的启发。文本信息通过自注意力机制传播到图像标记以预测文本未对齐评分和热图（伪影或未对齐的区域），而视觉信息传播到文本标记以进行更好的视觉感知文本编码，从而解码文本未对齐序列。最好的模型使用单头预测每种类型的反馈，如热图、评分和未对齐序列。研究人员为每个任务在提示中添加了任务字符串（如“不可信热图”）以提示模型特定任务。从丰富的人类反馈中学习预测的丰富人类反馈（如评分和热图）可以用来改善图像生成。例如，通过用预测的评分来微调生成模型。研究人员首先通过RAHF预测的评分筛选Muse模型的结果，创建一个高质量的数据集，然后使用该数据集通过LoRA微调方法微调Muse模型。对比评估显示，使用RAHF可信度评分微调的Muse生成的图像比原始Muse具有显著更少的伪影。此外，研究人员展示了使用RAHF美学评分作为分类器指导来改进Latent Diffusion模型的示例，这表明每种细化的评分都可以改善生成模型的不同方面。总之，研究人员发布了RichHF-18K，这是第一个用于文本到图像生成的丰富人类反馈数据集。他们设计并训练了一个多模态变压器来预测丰富的人类反馈，并展示了使用这些反馈改进图像生成的一些实例。未来的工作包括改进数据集以提高注释质量（尤其是在未对齐热图上），并收集更多生成模型（如Imagen和DALL-E）的丰富人类反馈，同时探索更多使用丰富人类反馈的方法。他们希望RichHF-18K和初始模型能够激发进一步在图像生成领域学习人类反馈的研究方向。

Runway推出革命性AI模型Gen-3，推动生成式视频创作

Posted on July 6, 2024July 6, 2024 by aitrendtrackers@rengongzhineng.io

Runway一贯致力于推动生成式AI驱动的创意边界，他们的最新模型Runway Gen-3也不例外。这个新的进展展示了一些我们所见过的最具电影感、最惊艳和最逼真的AI视频。（https://runwayml.com/ai-tools/gen-3-alpha/）在本文中，我们将探讨Runway Gen-3的卓越特性、相对于前代模型的改进，以及其对电影制作、广告、媒体生产、教育、游戏和虚拟现实开发等各个行业的潜在影响。什么是Runway Gen-3 Alpha？ Runway推出了Gen-3 Alpha，这是一款突破性的文本到视频AI模型，设定了视频创作的新标杆。这款先进的模型是Runway视频生成技术的第三代，能够以令人印象深刻的速度和精度生成高分辨率、细节丰富且一致性强的视频。模型从简单提示生成高质量视频的能力展示了其创造性灵活性。艺术家可以探索多种概念和风格，知道模型可以处理复杂的视觉需求。这部动漫风格的视频突显了Gen-3在角色参照和细粒度时间控制方面的能力（能够精确管理和操控事件的时序），其一致的艺术方向和流畅的镜头运动尤为显著。对水流和反射等小细节的关注增加了真实感和参与感。 Runway Gen-3的发布时间？在短暂的alpha测试阶段后，Runway已经推出了Gen-3 Alpha供用户试用。截至本文更新时，你现在可以注册账户并订阅开始使用该工具。 Runway Gen-3的费用是多少？ Gen-3模型目前仅对付费订阅者开放。Runway采用按需付费模式，根据GPU使用情况收费，使用户无需进行重大硬件投资即可获得必要的计算能力。共有几个使用层级——“基础”层是免费的（有使用限制），此外还有“标准”（每月12美元）、“专业”（每月28美元）和“无限”（每月76美元）选项。 Runway Gen-3与Sora AI的对比 Runway Gen-3和OpenAI的Sora是生成式视频生成领域最先进的模型之一。 Runway Gen-3基于视觉转换器、扩散模型和多模态系统实现高保真度和时间一致性。扩散模型通过逐步去噪来精炼图像，产生逼真的高清视觉效果。Gen-3实现了文本到视频和图像到视频的功能。示例提示：近距离拍摄在繁忙的幻想市场夜晚飞舞的火焰精灵。火焰的逼真运动、与周围物体的互动以及真实的阴影和反射展示了模型生成高分辨率内容的能力，增强了输出的电影质量。技术角度的比较 Sora，由OpenAI开发，使用类似Midjourney的扩散模型技术，从噪声开始，逐步精炼直到生成连贯的场景。基于Transformer架构，Sora将视频表示为数据块集合，逐帧学习文本描述与视觉表现之间的复杂映射。 Sora能够处理各种时长、分辨率和纵横比的多样化视觉数据。Sora AI在动态场景创建方面表现出色，展示了对光照、物理和摄像技术的敏锐理解。 Gen-3的关键特性根据Runway的官方公告（以及视频证据），Gen-3在早期模型基础上取得了重大进步：高保真度视频生成 Runway Gen-3展示了视频质量的改进。它以Gen-2的两倍速度生成视频，同时保持卓越的保真度。Gen-3在创建复杂动作如跑步和行走方面表现出色，得益于先进的AI算法准确渲染人类运动和解剖结构。先进控制 Runway Gen-3引入了先进的控制功能，极大地提高了视频生成的创造性和精确性。模型对角色参照的定制使用单词，允许创作者在不同项目中重用这些参照，使设计的角色外观一致。示例提示：一名宇航员在两栋建筑物之间行走。用户友好界面 Runway Gen-3采用了更新的用户界面，适合初学者和专业人士。它提供直观且用户友好的体验，简化了各种技术水平用户的视频生成过程。 Gen-3的技术创新模型以两倍于前代版本的速度生成视频，并引入先进特性，如单词角色参照的可定制模型。解决了AI视频生成中的复杂挑战，如创建真实的动作并保持视频的一致性。示例提示：一个中年秃头男子在一顶卷发假发和太阳镜突然掉到他头上时变得高兴。 Runway工具套件的集成 Runway Gen-3与其他Runway AI工具集成，提供如文本到视频、图像到视频和高级视频编辑工具的功能，用于创建复杂和定制的视频。潜在应用及用例…

Open-TeleVision：开放源码的沉浸式遥操作系统

Posted on July 6, 2024July 6, 2024 by aitrendtrackers@rengongzhineng.io

Open-TeleVision：增强机器人学习的沉浸式遥操作系统 (https://robot-tv.github.io/) 遥操作是一种强大的方法，用于收集机器人示范学习所需的在机数据。遥操作系统的直观性和易用性对于确保高质量、多样性和可扩展的数据至关重要。为此，我们提出了一种沉浸式遥操作系统Open-TeleVision，允许操作员以立体方式主动感知机器人的周围环境。此外，该系统将操作员的手臂和手的动作镜像到机器人上，创造出一种仿佛操作员的意识传送到机器人实体中的沉浸式体验。我们通过收集数据并在两个不同的人形机器人上训练四个长距离、精确任务的模仿学习策略来验证我们系统的有效性。这些任务包括：罐头分类、罐头插入、折叠和卸载，并在现实世界中进行部署。核心优势：通过Open-TeleVision系统，我们不仅提高了遥操作的沉浸感和精确性，还为机器人学习提供了丰富而可靠的数据来源，推动了机器人技术的发展和应用。

Kyutai推出开源革命性实时多模态基础模型Moshi，震撼科技界

Posted on July 6, 2024July 6, 2024 by aitrendtrackers@rengongzhineng.io

在震撼科技界的惊人宣布中，Kyutai推出了Moshi，这是一款革命性的实时本地多模态基础模型。该创新模型不仅反映了OpenAI在5月展示的GPT-4o的部分功能，还在某些方面超越了它。https://kyutai.org/ Moshi旨在理解和表达情感，具备多种功能，包括以不同口音（如法语）说话。它可以聆听和生成音频和语音，同时保持文本思维的流畅衔接。Moshi的一个突出特点是能够同时处理两个音频流，使其可以同时聆听和讲话。这种实时交互基于文本和音频的联合预训练，利用了Kyutai开发的7B参数语言模型Helium的合成文本数据。实验性AI研究快讯 Kyutai强调了负责任的AI使用，通过水印技术检测AI生成的音频，这是目前正在进行中的功能。决定将Moshi作为开源项目发布，体现了Kyutai对透明性和AI社区合作开发的承诺。 Moshi由一个7B参数的多模态语言模型驱动，处理语音输入和输出。模型采用两通道I/O系统，同时生成文本令牌和音频编解码器。基于Kyutai内部开发的Mimi模型，语音编解码器具备300倍压缩率，捕捉语义和声学信息。训练过程与部署效率 Moshi的训练过程非常严格，细调了100,000个带有情感和风格注释的高细节转录文本。支持70种不同情感和风格的文本到语音引擎在由一名叫Alice的授权配音员录制的20小时音频上进行了细调。该模型设计适应性强，可以在不到30分钟的音频中进行细调。 Moshi的部署展示了其高效性。演示模型托管在Scaleway和Hugging Face平台上，能够在24GB VRAM下处理两个批次。它支持多种后端，包括CUDA、Metal和CPU，并通过Rust优化推理代码。增强的KV缓存和提示缓存预计将进一步提高性能。未来计划与开源愿景展望未来，Kyutai对Moshi有着雄心勃勃的计划。团队打算发布技术报告和开源模型版本，包括推理代码库、7B模型、音频编解码器和完整的优化栈。未来版本如Moshi 1.1、1.2和2.0将基于用户反馈改进模型。Moshi的许可旨在尽可能宽松，以促进广泛采用和创新。总结 Moshi展示了小而专注的团队在AI技术上取得非凡进展的潜力。该模型为研究辅助、头脑风暴、语言学习等开辟了新途径，展示了AI在设备上部署时的非凡灵活性和变革力量。作为开源模型，它邀请了广泛的合作与创新，确保这项突破性技术的好处惠及所有人。

Meta挑战AI效率竞赛：发布采用多令牌预测的新型预训练模型

Posted on July 5, 2024July 5, 2024 by aitrendtrackers@rengongzhineng.io

Meta在提高人工智能效率的竞赛中扔下了挑战书。这家科技巨头周三发布了预训练模型，利用了一种新颖的多令牌预测方法，可能改变大型语言模型（LLM）的开发和部署方式。这种新技术首次在Meta今年4月发布的研究论文中概述，与传统的仅预测序列中下一个词的LLM训练方法不同。Meta的方法要求模型同时预测多个未来词汇，承诺提高性能并大幅缩短训练时间。 Meta的多令牌预测方法突破了传统单一词汇预测的限制，使模型能够更好地理解语言结构和上下文，从而在各种任务中表现出色。从代码生成到创意写作，这种方法的潜在应用广泛且影响深远，有望缩短AI与人类语言理解之间的差距。掌控当今威胁：机器规模应对策略随着AI模型规模和复杂性的不断增长，其对计算能力的巨大需求引发了成本和环境影响方面的担忧。Meta的多令牌预测方法可能提供了一种遏制这种趋势的方法，使先进的AI更加可及且可持续。民主化AI：高效语言模型的承诺与风险这种新方法的潜力不仅仅在于效率的提升。通过一次预测多个令牌，这些模型可能会对语言结构和上下文有更细致的理解。这可以改进从代码生成到创意写作的任务，可能弥合AI与人类语言理解水平之间的差距。然而，这种强大的AI工具的民主化是一把双刃剑。虽然这可以为研究人员和小型公司提供公平的竞争环境，但也降低了潜在滥用的门槛。AI社区现在面临着开发健全的伦理框架和安全措施的挑战，以跟上这些快速的技术进步。 Meta决定在Hugging Face平台上以非商业研究许可证发布这些模型，这与公司对开放科学的承诺一致。但这也是在日益竞争激烈的AI领域中的一个战略举措，开放性可以带来更快的创新和人才获取。初步发布集中在代码补全任务上，反映了AI辅助编程工具日益增长的市场。随着软件开发与AI的日益紧密结合，Meta的贡献可能加速人类与AI协作编码的趋势。 AI军备竞赛升温：Meta在科技战场上的战略布局然而，这一发布并非没有争议。批评者认为，更高效的AI模型可能加剧关于AI生成虚假信息和网络威胁的现有担忧。Meta试图通过强调许可证仅限于研究用途来解决这些问题，但有关这些限制措施能否有效执行的疑问仍然存在。多令牌预测模型是Meta发布的一系列AI研究成果的一部分，包括图像到文本生成和AI生成语音检测方面的进展。这种综合方法表明，Meta不仅在语言模型方面，而且在多个AI领域中都在定位自己为领导者。随着这一声明尘埃落定，AI社区不得不应对其影响。多令牌预测会成为LLM开发的新标准吗？它能否在不影响质量的情况下兑现其效率的承诺？它将如何影响更广泛的AI研究和应用领域？研究人员在论文中承认了他们工作的潜在影响，指出：“我们的方法提高了模型的能力和训练效率，同时允许更快的速度。”这一大胆声明为AI发展的新阶段奠定了基础，在这个阶段，效率和能力将齐头并进。有一点是明确的：Meta的最新举措为已经炙手可热的AI军备竞赛添加了新的燃料。随着研究人员和开发人员深入这些新模型，人工智能故事的下一个篇章正在实时书写。

Subscribe 订阅