AI TrendTrackers

VideoPrism: 深入了解视频内容的基础视觉编码器

Posted on February 25, 2024February 25, 2024 by aitrendtrackers@rengongzhineng.io

在这个信息爆炸的网络世界里，各种视频如同繁星般遍布每一个角落，从日常分享到历史时刻，再到科学观察，每一段视频都在用自己独特的方式记录着这个世界。要是有合适的工具来分析这些视频，我们对周围世界的理解可能会发生翻天覆地的变化。比起静态的图片，视频提供了更为丰富的动态视觉内容，捕捉到了运动、变化以及实体间的动态关系。分析这些复杂性，以及公开可获取的视频数据的巨大多样性，需要超越传统图像理解的模型。因此，很多在视频理解方面表现最佳的方法依然依赖于为特定任务量身定做的专门模型。最近，在这一领域使用视频基础模型（ViFMs）取得了令人兴奋的进展，比如VideoCLIP、InternVideo、VideoCoCa和UMT。然而，构建一个能够处理视频数据巨大多样性的ViFM依然是一个挑战。为了构建一个能够通用视频理解的单一模型，Google 推出了“视频棱镜：视频理解的基础视觉编码器”（VideoPrism）。视频棱镜是一款设计用来处理广泛视频理解任务的ViFM，包括分类、定位、检索、字幕和问答（QA）。Google在预训练数据以及建模策略上提出了创新。Google在大规模且多样化的数据集上预训练视频棱镜：3600万高质量视频-文本对和5.82亿带有噪声或机器生成的并行文本的视频片段。Google的预训练方法是为这种混合数据设计的，旨在从视频-文本对以及视频本身学习。视频棱镜极易适应新的视频理解挑战，并且使用单一冻结模型就能达到最新的性能水平。视频棱镜是一个通用视频编码器，通过从单一冻结模型产生视频表示，它在广泛的视频理解任务上实现了最新的结果，包括分类、定位、检索、字幕和问答。 Google提供了一个庞大的预训练视频库，理想情况下，Google希望预训练数据能够代表世界上所有的视频。虽然自然大多数视频没有完美的字幕或描述，即便是不完美的文本也能提供关于视频语义内容的有用信息。在两阶段训练中，视频棱镜模型架构源自标准的视觉变换器（ViT），采用分解设计，顺序编码空间和时间信息，遵循ViViT。Google的训练方法利用了上述提到的高质量视频-文本数据和带噪声文本的视频数据。首先，Google使用对比学习来教导模型匹配视频与其文本描述，包括不完美的描述。这为匹配语义语言内容到视觉内容奠定了基础。视频棱镜的独特之处在于，Google使用了两种互补的预训练信号：文本描述和视频内的视觉内容。文本描述通常聚焦于事物的外观，而视频内容提供了关于运动和视觉动态的信息。这使得视频棱镜在需要理解外观和运动的任务中表现出色。在广泛的视频理解任务上对视频棱镜进行了广泛评估，包括视频分类和定位、视频-文本检索、视频字幕、问答和科学视频理解。视频棱镜在33个视频理解基准测试中的30个上实现了最新的性能水平——所有这些都是通过对单一冻结模型的最小调整实现的。总之，视频棱镜作为一个强大且多功能的视频编码器，为通用视频理解设定了新的标准。Google通过构建大规模多样化的预训练数据集和创新的建模技术，验证了Google的方法。视频棱镜不仅一致性地超越了强大的基线，而且其独特的泛化能力使其非常适合处理一系列真实世界的应用。鉴于其潜在的广泛用途，Google致力于在这一领域继续进一步的负责任研究，由Google的AI原则指导。Google希望视频棱镜能为AI与视频分析交叉领域的未来突破铺平道路，帮助实现ViFMs在科学发现、教育和医疗等领域的潜力。

Gemini 模型将被引入Performance Max

Posted on February 25, 2024February 25, 2024 by aitrendtrackers@rengongzhineng.io

谷歌近日宣布其性能最大化广告系列中引入了创新特性，包括融合双子星模型，旨在为广告商解锁更多连接客户的机会。性能最大化广告系列跨越谷歌所有广告库存提供服务，突显了拥有满足不同客户需求和格式的广泛创意资产的重要性。研究发现，将广告强度提升至“优秀”的广告商，其平均转化率可见增加6%。谷歌公布的几项新功能助力广告商扩展并构建高品质的创意资产，特别是通过引入双子星模型到性能最大化中。这些创新利用了人工智能的强大功能，辅助广告商创建更高效的广告系列，并以吸引消费者所需的体量、速度和多样性构建创意资产。市场营销人员和代理合作伙伴继续作为创意过程的核心，利用对客户和业务的深刻理解，指导人工智能提供正确的输入，以制作有意义且效果显著的创意。谷歌于去年11月在性能最大化中推出了基于人工智能的资产生成和图像编辑功能，现在这些功能正在全球范围内向更多语言推广。双子星模型的引入进一步提升了这些资产生成功能，包括生成长标题和即将推出的网站链接生成功能；这些新特性都将利用双子星模型复杂的推理能力来生成文本资产。随着谷歌将图像生成模型升级至专为谷歌广告优化的Imagen 2，广告商将能够通过性能最大化生成展示人物行动的生活方式图像。同样，图像编辑功能也将包括生成和添加展示人物的背景能力。如果广告商已有表现良好的现有图像，他们将能够生成类似这些图像的新选项，以进一步扩大创意想法。谷歌确保广告商完全控制其广告系列建议的所有图像，并且不允许生成具名人物的图像，包括名人和公众人物。此外，谷歌强调，广告商不能使用性能最大化或资产生成来创建促进暴力、误导或任何其他被谷歌广告政策和生成式人工智能使用指南长期禁止的内容。谷歌还使用如SynthID水印等技术，允许将图像识别为由人工智能生成。Imagen2和SynthID是谷歌DeepMind开发的技术。谷歌将继续根据其人工智能原则和实践改进这些新的生成能力，以负责任地推进创新。随着构建新资产的方法越来越多，广告强度成为提供资产多样性和相关性实时反馈的重要指标。事实上，使用资产生成功能创建性能最大化广告系列的广告商，其广告强度评为“好”或“优秀”的可能性高出63%。展望未来，资产数量和多样性在确定性能最大化广告系列的广告强度时将得到更重视。这反映了它们在帮助广告商充分利用谷歌渠道提供的多样化库存和格式中的重要性。此外，谷歌鼓励广告商从其他设计平台导入创意资产，并强化了与Canva的合作。包含至少一个视频的性能最大化广告系列广告商平均看到总转化率增加12%。谷歌即将推出的广告预览分享功能将简化创意工作流程，使代理机构或内部营销团队更易共享概念。通过这些创新和工具，谷歌旨在帮助广告商利用人工智能技术提升其性能最大化广告系列的创意质量和效果。

谷歌搜索时代是不是已经过去了？

Posted on February 25, 2024February 25, 2024 by aitrendtrackers@rengongzhineng.io

尝试在谷歌上搜索“谷歌是不是走下坡路了？”你会发现许多人坚信答案是肯定的。点击第一个蓝色链接，你会跳转到一堆Reddit上的抱怨，满满都是对谷歌搜索结果中充斥的付费广告和推销垃圾网站的不满。最近的研究表明，这种挫败感并不仅仅是对这个有着25年历史产品的美好时光的怀旧。一群来自德国的顶尖互联网学者发现，谷歌在排除误导性产品评论的网站方面遇到了困难。谷歌对Gizmodo表示，对于产品查询，垃圾结果出现得更频繁，而且它已经改进了算法以避免混乱。尽管谷歌的表现优于搜索竞争对手Bing和DuckDuckGo，但由于其掌握了世界90%以上的搜索市场，谷歌的失误被放大了。但这并不意味着它现在就可以高枕无忧。一批新的AI工具威胁要挑战它作为搜索领域领头羊的地位。 OpenAI，即ChatGPT的制造者，据报道正在开发自己的搜索产品，并为微软的Bing提供AI能力。被杰夫·贝索斯支持的AI机器人Perplexity能够从网上总结信息，并提供链接到可靠来源。在最近一轮融资后，其估值达到了5.2亿美元。谷歌是在“恶化”吗？这是“恶化”概念的发明者科里·多克托罗（Cory Doctorow）所认为的。这位互联网文化批评家在2022年创造了这个术语，用来描述成熟在线平台为了利润最大化而牺牲用户体验的衰败过程。多克托罗声称，谷歌的顶级结果已经被垃圾邮件、骗局和广告所主导。他说，那些推送无用内容的网站太容易操纵那个排名搜索结果的守护算法了。一个搜索最佳鼻毛修剪器的人可能会被充斥着的产品评论网站所淹没，这些网站对于教育人们了解最佳鼻部打理选项的承诺不如他们引导访问者前往电商平台并进行购买所获得的费用来得热心。许多实际上没有测试他们宣传的商品的评论网站，通过在其页面上包含特定关键词而向谷歌用户展示。多克托罗写道，这家公司在向监管机构保证将投入大量资源对抗垃圾邮件的同时，成为了搜索巨头。但他说，谷歌却努力确保你在不加思考的情况下选择它的产品。最近被揭露，谷歌在2021年支付给苹果和三星等公司260亿美元，以成为他们设备的默认搜索引擎。这些策略是司法部因谷歌涉嫌非法手段成为搜索引擎垄断而起诉它的部分原因，预计将在五月做出裁决。它的搜索霸主地位是否正在滑落？自从微软CEO萨提亚·纳德拉（Satya Nadella）告诉The Verge他希望“人们知道我们让[谷歌]跳舞”以来已经过去一年了，他当时正在吹嘘Bing得到的OpenAI光环。根据The Information的报道，Bing自那以后未能赢得任何新的市场份额，而谷歌一直在与OpenAI竞争中努力。谷歌在ChatGPT上线后不久就推出了自己的AI聊天机器人Bard（现在叫Gemini），并一直在尝试添加AI生成的摘要到搜索中。据报道，它一直在与TikTok合作，将搜索结果嵌入到该应用中，以及其他计划，这些计划被反垄断活动人士在本周写给DOJ的一封信中批评为扩大其搜索垄断的努力，据纽约邮报报道。放眼全局：一位谷歌发言人告诉WSJ，其反垃圾邮件系统“帮助保持搜索结果99%的清洁”，并且它经常更新其搜索工具以清除不良结果。但随着AI威胁要颠覆人们在网上获取信息的方式，它需要继续为用户提供价值。

Google宣布暂停其AI工具“Gemini”生成人物图像的功能

Posted on February 23, 2024February 23, 2024 by aitrendtrackers@rengongzhineng.io

谷歌近日宣布，其旗舰生成AI套件“双子星”的生成人物图像功能将暂时搁置，公司正在更新技术以提高输出中涉及人物描绘的历史准确性。在社交媒体平台X上的一篇帖子中，谷歌宣布了这一被描述为“暂停”的举措，写道正在努力解决与历史不准确性相关的“最近问题”。谷歌表示：“在此期间，我们将暂停生成人物图像的功能，并将很快重新发布改进版。” 谷歌本月早些时候推出了双子星图像生成工具。然而，近日社交媒体上出现了一些不协调的历史人物图像——例如将美国开国元勋描绘成美洲印第安人、黑人或亚洲人——这导致了批评甚至是嘲笑。驻巴黎的风险投资家迈克尔·杰克逊今天在LinkedIn上的一篇帖子中加入了批评——将谷歌的AI品牌化为“荒谬的DEI（多样性、公平性和包容性）恶搞”。昨天，在X上的一篇帖子中，谷歌确认它“意识到”AI在一些历史图像生成描绘中产生了“不准确性”，并在一份声明中补充说：“我们正在努力立即改进这类描绘。双子星的AI图像生成确实能够生成各种人物。这通常是好事，因为世界各地的人们都在使用它。但在这里它没有达到预期的效果。” 生成AI工具根据训练数据和其他参数（如模型权重）产生输出。这类工具更常因产生带有偏见的输出而受到批评——例如过度性别化的女性形象，或者对高地位职业角色的提示反馈白人男性形象。谷歌早期的一个AI图像分类工具在2015年因错误将黑人男性分类为大猩猩而引起公愤。公司承诺修复此问题，但正如Wired几年后报道的，其“修复”只是一个简单的变通方法：谷歌简单地阻止了技术识别大猩猩。

Stable Diffusion 3正式发布，旨在巩固其在AI图像领域相对于Sora和Gemini的领先地位

Posted on February 23, 2024February 23, 2024 by aitrendtrackers@rengongzhineng.io

Stability AI最近宣布推出Stable Diffusion 3（简称SD3），这是该公司最新、最强大的图像生成AI模型。虽然具体细节还未充分披露，但显然这是为了抵御OpenAI和Google最近宣布的竞争对手所带来的热潮的尝试。虽然我们很快就会提供更技术性的分析，但目前你需要知道的是，SD3基于一种新的架构，能够在各种硬件上运行（尽管仍然需要较强的硬件支持）。SD3目前还未发布，但你可以在这里登记等待名单。 SD3采用了更新版的“扩散变换器”，这是一种在2022年首创但在2023年进行了修订并现在达到可扩展性的技术。OpenAI引人注目的视频生成器Sora似乎也是基于类似原理工作的（论文的共同作者Will Peebles后来共同领导了Sora项目）。SD3还采用了“流匹配”，这是另一种新技术，同样在不增加太多开销的情况下提高了质量。模型套件的范围从8亿参数（低于常用的SD 1.5）到80亿参数（超过SD XL），旨在运行在各种硬件上。你可能仍然需要一块强大的GPU和一个用于机器学习工作的设置，但你不像通常使用OpenAI和Google模型那样限于API。（就其本身而言，Anthropic并没有公开专注于图像或视频生成，因此它实际上不是这次讨论的一部分。）在X（前身为Twitter）上，Stable Diffusion的负责人Emad Mostaque指出，新模型能够进行多模态理解，以及视频输入和生成，这些都是他的竞争对手在他们的API驱动的竞争者中强调的功能。这些能力仍然是理论上的，但听起来似乎没有技术障碍阻止它们被包含在未来的发布中。当然，比较这些模型是不可能的，因为它们都还没有真正发布，我们所依赖的只是竞争性的声明和精心挑选的示例。但Stable Diffusion有一个明确的优势：它作为进行任何类型的图像生成的首选模型在时代潮流中的存在，方法或内容上几乎没有内在的限制。（的确，一旦越过了安全机制，SD3几乎肯定会开启AI生成色情内容的新时代。） Stable Diffusion似乎想成为你不可或缺的白牌生成AI，而不是你不确定是否需要的精品生成AI。为此，该公司也在升级其工具，以降低使用门槛，尽管与公告的其余部分一样，这些改进留给了想象。有趣的是，该公司在公告中将安全放在了首位，声明：我们已经采取并继续采取合理步骤，防止恶意行为者滥用Stable Diffusion 3。安全从我们开始训练模型时就启动，并在测试、评估和部署过程中持续进行。为了这次早期预览，我们引入了许多安全措施。通过持续与研究人员、专家和我们的社区合作，我们期望在模型公开发布时以诚信进一步创新。这些安全措施到底是什么？毫无疑问，预览将在一定程度上阐明它们，然后公开发布会进一步完善，或根据你对这些事情的看法而被审查。我们很快会知道更多，并且与此同时，我们将深入技术细节，以更好地理解这一新一代模型背后的理论和方法。

Phind-70B-运行速度提高4倍的同时，缩小了与GPT-4 Turbo在代码质量上的差距

Posted on February 23, 2024February 23, 2024 by aitrendtrackers@rengongzhineng.io

近日，科技界迎来了一个激动人心的消息：Phind-70B模型正式发布，这是目前为止最大、性能最强的模型。Phind-70B能够以每秒高达80个token的速度运行，为用户在技术话题上提供高质量的答案，极大地缩短了等待时间，提升了开发者的整体用户体验。该模型是在CodeLlama-70B的基础上，通过对额外500亿token进行微调而来，带来了显著的性能提升，并支持高达32K token的上下文窗口。在人类评估标准HumanEval上，Phind-70B以82.3%的高分超越了最新的GPT-4 Turbo（gpt-4-0125-preview）的81.1%。而在Meta的CRUXEval数据集上，尽管Phind-70B以59%的得分略低于GPT-4报告的62%，但在实际工作负载中的表现说明了Phind-70B在代码生成领域与GPT-4 Turbo处于同一质量水平，甚至在某些任务上表现更佳。Phind-70B展现出的主动性也超过了GPT-4 Turbo，在生成详细代码示例方面表现出更少的犹豫。得益于在NVIDIA的H100 GPU上运行TensorRT-LLM库的优化，Phind-70B的运行速度是GPT-4 Turbo的四倍，达到每秒80个以上的token。该团队正在努力进一步提高Phind-70B的推理速度。

微软放风了，OpenAI的新宠儿“Sora”即将加盟代码小助手行

Posted on February 23, 2024February 23, 2024 by aitrendtrackers@rengongzhineng.io

最近，微软广告与网络服务部门的CEO Mikhail Parakhin 在推特上的一番互动，间接透露了OpenAI的“Sora”最终会融入到代码小助手中，不过这个过程可能需要一段时间。这番话是在一位用户询问“Sora”是否会加入到Copilot时引出的，Parakhin的回答是：“最终会的，但这需要时间。” “Sora”是OpenAI开发的一个大型语言模型聊天机器人；你可以输入任何详细的文字提示，然后AI模型会在60秒内返回一个高度详细的视频。将这两者结合起来，有可能为开发者创建一个强大的工具，让他们能够在工作中利用两个AI模型的能力。 OpenAI表示，“Sora”是通过一个简化视频的网络来学习的。这个网络以普通视频为起点，将其简化，只保留最重要的部分。然后，“Sora”通过学习这些简化后的视频来创建新的视频。然而，微软似乎还在处理这一整合的技术层面问题。考虑到“索拉”几天前才对公众进行了预告，要让“Sora”在Copilot中可用还需要一些时间。值得注意的是，Parakhin的推文并没有提供“索拉”何时会与Copilot整合的具体时间表。然而，他的回答表明，微软致力于最终实现这一目标。

Google 推出Gemma：介绍全新的顶尖开放模型

Posted on February 22, 2024February 22, 2024 by aitrendtrackers@rengongzhineng.io

去试试：http://ai.google.dev/gemma Google坚信人工智能应对每个人都有所帮助。该公司长期致力于向开放社区贡献创新，例如Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode等。最近，谷歌兴奋地推出了其新一代开放模型，旨在协助开发者和研究人员负责任地构建人工智能。 Gemma开放模型系列是一系列由谷歌DeepMind及谷歌其他团队共同开发的轻量级、最先进的开放模型。这些模型基于创建Gemini模型的相同研究和技术。Gemma的设计灵感来源于Gemini，其名称源自拉丁语“宝石”的含义。除了模型权重，谷歌还发布了支持开发者创新、促进合作并指导负责任使用Gemma模型的工具。 Gemma模型现已全球推出。其关键细节包括发布了Gemma 2B和Gemma 7B两种尺寸的模型权重，每种尺寸都提供了预训练和指令调优的变体。谷歌还提供了一个新的负责任生成人工智能工具包，为创建更安全的人工智能应用提供指导和必要工具。此外，通过JAX、PyTorch和TensorFlow提供了全面的推理和监督式微调(SFT)工具链，并通过与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成，简化了使用Gemma的过程。 Gemma模型不仅能在笔记本电脑、工作站或谷歌云上运行，而且通过Vertex AI和谷歌Kubernetes引擎(GKE)实现了简易部署。谷歌还确保了Gemma在多个人工智能硬件平台上的优化，以保证行业领先的性能。谷歌在设计Gemma时将其AI原则置于首位，采用自动化技术从训练集中过滤掉敏感数据，并通过广泛的微调和来自人类反馈的强化学习(RLHF)确保模型的安全可靠。此外，谷歌对Gemma模型进行了全面的风险评估，包括手动红队测试和自动化对抗测试。为了支持人工智能的创新，谷歌为开发者和研究人员提供了Gemma的免费访问权限，并鼓励使用Kaggle、Colab笔记本以及谷歌云提供的信用额度。谷歌在ai.google.dev/gemma网站上提供了更多关于Gemma的信息和快速入门指南，并期待未来几周内为多样化应用介绍Gemma模型的新变体。

马斯克最近放出大新闻，说Neuralink的一位患者在植入手术后状态良好，甚至可以用大脑移动鼠标了！

Posted on February 21, 2024February 21, 2024 by aitrendtrackers@rengongzhineng.io

Neuralink联合创始人埃隆·马斯克最近表示，首位植入该公司脑芯片的人类现在仅凭思考就能移动鼠标光标了。”进展很好，患者似乎已经完全康复，我们目前没有发现任何不良影响。患者仅通过思考就能在屏幕上移动鼠标，”马斯克在周一的一个X Spaces活动中这样说道，据路透社报道。这次更新是在马斯克宣布Neuralink在人体植入芯片几周后进行的。之前的更新也是在X上发布的，X是马斯克拥有的社交网络，以前叫Twitter。马斯克在昨天的聊天中表示：”我们试图通过思考来实现尽可能多的按钮点击。所以我们当前正在研究的是：你能否实现左键点击、右键点击、鼠标按下、鼠标释放… 我们想要的不仅仅是两个按钮。” Neuralink本身似乎还没有就患者的进展发表任何声明。我们今天联系了该公司，如果得到回复将更新本文。Neuralink发布信息的方式上周受到了批评，批评者为纽约大学格罗斯曼医学院医学伦理学部门负责人、生物伦理学教授Arthur Caplan和宾夕法尼亚大学医学伦理学教授Jonathan Moreno。 “通过新闻发布的科学，虽然越来越普遍，但并非科学，”Caplan和Moreno在非营利组织Hastings Center发表的一篇文章中写道。”当为人类实验买单且在结果上有巨大财务利益的人是唯一的信息来源时，基本的伦理标准还没有达到。”Caplan和Moreno承认，从法律上看，Neuralink和马斯克似乎”没问题”：假设某种脑-计算机接口设备确实被植入了某个严重瘫痪的患者体内，由某些外科医生在某处进行，人们会期待关于这一前所未有的实验的一些正式报告。但与药物研究不同，药物研究需要在公共数据库中注册各个阶段，食品药品监督管理局并不要求早期可行性研究的设备报告。从法律角度看，马斯克的公司没问题，这一事实肯定没有逃过他公司律师的战术关注。但他们争辩说，”打开一个活人的大脑插入设备”应该伴随更多公开的细节。他们写道，存在”避免给数以千计有严重神经系统残疾的人错误希望的”伦理义务。脑植入物可能会有导致患者状况恶化的并发症，伦理学教授指出。”我们甚至不知道如果事情出了问题或者受试者简单地想要停止时，有什么计划来移除设备，”Caplan和Moreno写道。”我们也不知道动物研究的发现是什么，这些研究证明了为什么现在开始人类第一例实验，尤其是因为这并非救命研究。” 临床试验仍待进行 Neuralink因研究中涉嫌虐待动物被批评，并在去年因违反美国交通部关于危险物质运输规则而被罚款2480美元，这是在去年对公司设施进行检查后的结果。”人们应该继续对Neuralink生产的任何设备的安全性和功能性保持怀疑，”非营利组织负责医学责任的医生委员会在上个月宣布首次植入后说。 “医生委员会继续敦促埃隆·马斯克和Neuralink转向开发非侵入性脑-计算机接口，”该组织说。”其他地方的研究人员已经取得了进展，使用这种非侵入性方法改善患者健康，这些方法不会带来手术并发症、感染或修复功能失常植入物的额外手术风险。” 2023年5月，Neuralink表示已获得食品药品监督管理局批准进行临床试验。据报道，该公司之前试图获得批准被食品药品监督管理局因安全顾虑和其他”缺陷”拒绝。9月，该公司表示正在招募志愿者，特别是那些因颈部脊髓损伤或肌萎缩侧索硬化症导致四肢瘫痪的人。Neuralink表示，首个人类临床试验PRIME（精确机器人植入脑-计算机接口）将评估其植入物和外科机器人的安全性，并评估其BCI[脑-计算机接口]初步功能，以使瘫痪人士能够通过思考控制外部设备。

马斯克最新爆料：”Grok 1.5″将加入”格洛克分析”功能，灵感竟来自《马达加斯加的企鹅》电影

Posted on February 21, 2024February 21, 2024 by aitrendtrackers@rengongzhineng.io

最近，马斯克又在聊天中透露了关于他的xAI语言模型Grok新版本——Grok 1.5的到来。这个即将推出的版本承诺带来一系列激动人心的新功能，其中包括一个能自动概括整个讨论串和回复的“格洛克分析”按钮，让把握复杂对话变得更加简单。此外，据报道Grok 1.5还将协助用户创建帖子，有望简化内容创作过程。 Grok 1.5的发布希望在几周内就能实现。它将带来一个“格洛克分析”的按钮，能够总结整个讨论串和回复。它还将帮助人们创建帖子。这一消息发布仅几天后，谷歌就发布了其Gemini 1.5语言模型，这引发了人们对两大AI巨头之间潜在竞争的猜测。虽然每个模型的具体功能不同，但都旨在通过先进的语言处理能力增强用户体验。 Grok 1.5可能带来的潜在好处包括： X还在与Midjourney，一个AI生成艺术平台，讨论潜在的合作可能。

Subscribe 订阅