埃隆·马斯克的xAI公司开发的AI聊天机器人Grok-1现已开源。Grok-1的开放发布版本现已在Github上提供,供用户访问和构建。这一消息发布于马斯克在X(前身为Twitter)上宣布公司将很快向开发者提供聊天机器人访问权限几天后。xAI提到,他们将Grok-1这个大型语言模型的基础模型权重和网络架构作为开源AI平台提供。 对于那些不知道的人来说,开源意味着软件、其源代码和项目对所有人都是可访问的,无需任何许可费。这种模型的优势在于为公司和开发者提供灵活性,以提出新的解决方案,找到修复方法,甚至为不同的需求和用途重新目的化它。 根据博客文章,Grok-1是Grok-1预训练阶段的原始基础模型检查点,该阶段于2023年10月进行。它是一个由xAI使用自定义训练堆栈在JAX和Rust之上从头训练的314亿参数混合专家模型”。xAI进一步明确表示,他们正在“根据Apache 2.0许可证发布权重和架构”,该许可证允许商业使用,但不包括用于训练AI大型语言模型的数据或访问实时数据的权限。文章还指出,Grok-1模型没有针对任何特定应用程序或对话进行训练。 埃隆·马斯克一直在批评像OpenAI这样的公司没有将他们的AI语言模型作为开源提供。去年11月在一个播客中,马斯克提出了将AI语言模型作为开源平台提供的想法。他在播客中提到,“我通常倾向于开源,比如有偏向于开源的倾向。”他的评论是在xAI的Grok发布后不久发表的,Grok的训练花费了四个月的时间。也就是说,一开始,Grok与OpenAI的ChatGPT、微软的Copilot甚至谷歌的双子星相比,被认为是一个更加更新的AI聊天机器人。 同样,不是没有公司将AI模型作为开源提供。Mistral和Falcon是已经可用的开源AI平台。然而,从更广泛的角度来看,大多数AI平台都是封闭源代码的。公司只是将其作为开源或有限开源模型提供,以接收来自其他研究人员的反馈并对其进行改进。 下载:https://github.com/xai-org/grok-1
Apple加速AI大跃进:最新发布的MM1 模型论文
苹果似乎在大型语言模型(LLM)的领域里来得有点晚,跟谷歌、微软和Meta在打造强大的AI工具方面有些距离,但看起来它正在迅速追赶。 今年早些时候,CEO蒂姆·库克告诉投资者,将会有关于AI的重大宣布,这将是一个“重大突破”。许多人猜测这将是一个新版的Siri,由与谷歌的助手更换为双子星类似的LLM驱动。 苹果的研究人员刚刚揭示了这个下一代Siri的可能基础的细节,如果传言属实,它可以在iPhone上与双子星并行工作,提供选择。 作为一篇预印研究论文发布的MM1,本质上提供了一种使用AI生成的数据和标签来加速新模型训练的新方法——包括可能的Siri 2.0。 MM1的核心是一种使用合成数据(包括图像和文本)训练多模态模型的新方法。MM1的研究者声称,他们的新方法加快了性能,并减少了获得所需结果所需的后续提示次数。能够改善提示理解,并尽可能少地与AI互动就得到所需输出,对于消费技术来说是完美的,特别是在将由各种技术能力的人群使用的Siri中。 这些模型在预训练指标上达到了最先进的水平,并在微调后在多模态基准测试上表现出竞争力。MM1似乎是一个AI模型家族,最大的模型大约有300亿个参数。这比GPT-4和Claude 3 Opus中的万亿以上参数要小得多,但研究者仍然声称由于效率提高而达到关键基准。这一突破性成就特别体现在视觉方面,尤其是对图像和其他视觉内容的分析能力以及理解输出的能力。我最近测试了ChatGPT、Claude和双子星在这项任务上的表现如何。 MM1使用不同于其他模型的架构,包括更高分辨率的图像编码器,采用了不同的预训练和标注方法,并专注于使用数据混合来提高单一提示的总体性能。 它还使用了一种混合专家(MoE)模型来在保持处理要求低的同时扩大规模,这进一步暗示了它在iPhone或笔记本电脑等设备上的潜在用途,而不是在云中运行。 苹果是否会用MM1驱动Siri 2.0?尽管这篇论文没有提到Siri或任何潜在产品,但对性能和效率的关注、实现最少提示下的稳定结果以及对广泛多模态能力的需求确实暗示了苹果未来可能会如何发展Siri。由于苹果长期以来的隐私立场,许多LLM驱动的Siri的功能可能必须“在设备上”运行,特别是处理个人信息方面。能够开发一个非常强大的模型,能够从与用户的互动中学习,并且足够小到可以在iPhone上运行,这是一个重大进步。 随着最近的消息称苹果可能会将双子星带到iPhone上,以及之前的传言称公司也在与ChatGPT制造商OpenAI进行谈判,看起来苹果正在采取多方面的方法来实现库克向投资者承诺的AI“大爆炸”。
苹果计划与谷歌合作使用Gemini AI技术,提升iPhone功能,同时探索与OpenAI合作可能性
苹果和谷歌打算携手达成一项重磅交易,旨在将双子星AI模型的强大功能融入iPhone上,据彭博社报道。这将使谷歌的地位更加牢不可破,因为该公司已经是iPhone上Safari浏览器的首选搜索引擎提供商。 报道援引了熟悉此事的人士的话称,苹果计划许可谷歌的AI技术,以便在今年晚些时候通过iOS更新引入AI驱动的特性。此外,该公司还与OpenAI进行了讨论,可能会使用GPT模型,彭博社表示。 苹果面临着巨大的压力,需要赶上如OpenAI、微软、Anthropic乃至谷歌等在AI领域的竞争对手。苹果首席执行官蒂姆·库克在2月份表示,公司将在“今年晚些时候”推出基于生成式AI的特性。 公司去年的招聘广告暗示苹果正在研发多种内部和外部工具,这些工具由生成式AI驱动。然而,讨论利用第三方AI技术的消息意味着苹果在自己的AI努力方面进展不如预期。 苹果自己的模型可能会为即将发布的iOS 18软件更新提供一些设备上的功能 — 预计将在每年六月举行的全球开发者大会(WWDC)上宣布。但是,该公司正在探索与外部提供商合作,以应用于诸如图像创建和帮助用户写作等生成式AI用例。 谷歌自己在双子星上也遇到了问题。上个月,该公司不得不暂停其图像生成功能,因为该模型产生了带有历史错误的图像。后来,谷歌首席执行官桑达尔·皮查伊表示,双子星的回应是“完全不可接受的”。上周,谷歌表示,它正在全球范围内阻止有关选举的查询在双子星上进行。但TechCrunch发现,用户可以通过对一些查询引入错别字来绕过这些限制。 尽管遇到这些挫折,谷歌在推出与智能手机相关功能方面仍具有优势。今年早些时候,该公司与三星合作,在Galaxy S24系列设备上引入了双子星驱动的AI功能。这家搜索巨头还在自己的Pixel系列手机上推出了这些功能。
斯坦福大学推出pyvene:开创性的AI模型干预Python库
在AI领域不断演化的今天,理解和操作神经模型变得至关重要。这一需求源自多种应用,从改进模型以增强其鲁棒性,到揭示它们的决策过程以提高可解释性。在这一背景下,斯坦福大学的研究团队推出了“pyvene”,这是一个开创性的开源Python库,专为对PyTorch模型进行复杂干预而设计。pyvene巧妙地克服了现有工具的局限性,这些工具往往缺乏灵活性、可扩展性和用户友好性。 pyvene的创新之处在于其基于配置的干预方法。这种方法不同于传统的、基于代码执行的干预,提供了一种更直观、更可适应的操作模型状态的方式。该库处理多种类型的干预,包括静态和可训练参数,满足多种研究需求。该库的一个突出特点是其对复杂干预方案的支持,如顺序和并行干预,以及它在模型解码过程的不同阶段应用干预的能力。这种多功能性使pyvene成为生成模型研究中不可或缺的资产,尤其是在模型输出生成动态特别有趣的情况下。 深入探究pyvene的能力,研究通过着眼于模型可解释性的引人注目的案例研究,证明了该库的有效性。团队利用因果抽象和知识定位技术,展示了pyvene揭示模型预测背后机制的潜力。这一努力展示了该库在实际研究场景中的实用性,并突出了其在使AI模型更加透明和可理解方面的贡献。 斯坦福团队对pyvene进行了严格测试,跨越了各种神经架构,展示了其广泛的适用性。例如,该库成功地对从简单前馈网络到复杂的多模态架构等范围内的模型进行了干预。这种适应性进一步体现在库对涉及在多个模型前向传递中改变激活的干预的支持上,这对许多现有工具来说是一项挑战。 使用pyvene所得到的性能和结果特别令人印象深刻。该库在识别和操作神经模型的特定组件方面发挥了重要作用,从而使我们能够更细致地理解模型行为。在一个案例研究中,pyvene被用来在神经模型表示中定位性别,在性别代词预测任务中实现了100%的准确率。这一高水平的精确性突显了该库在促进目标干预和从复杂模型中提取有意义见解方面的有效性。 随着斯坦福大学研究团队继续完善和扩展pyvene的功能,他们强调了该库在推动AI研究创新方面的潜力。pyvene的推出在理解和改进神经模型方面标志着一个重要的进步。通过提供一个多功能、用户友好的工具进行干预,团队解决了现有资源的局限性,并在人工智能的探索和发现中开辟了新的路径。随着pyvene在研究社区中获得关注,它有望进一步推动发展,为开发更加鲁棒、可解释和有效的AI系统做出贡献。
探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑
在最新的科技研究领域,谷歌DeepMind团队推出了一项名为“可扩展指令式多世界代理”(Scalable Instructable Multiworld Agent,以下简称SIMA)的研究,这是一种能够根据自然语言指令在多种视频游戏设置中执行任务的代理。 视频游戏被视为人工智能(AI)系统的重要试验场。与现实世界类似,游戏提供了丰富的学习环境,其中包含了响应式的实时场景和不断变化的目标。 从谷歌DeepMind早期在雅达利游戏上的工作,到其AlphaStar系统在星际争霸II游戏中达到人类大师级水平,该团队在AI与游戏领域拥有长期的研究历史。 如今,谷歌DeepMind宣布了一个新的里程碑——其研究重点从针对单一游戏的研究转变为开发一个能够理解和执行多种游戏指令的通用AI代理。 在一份新的技术报告中,谷歌DeepMind团队介绍了“可扩展指令式多世界代理”,这是一种针对3D虚拟环境设计的通用AI代理。谷歌DeepMind与游戏开发商合作,训练SIMA在多种视频游戏中学习。这项研究首次证明了一种代理能够理解广泛的游戏世界,并能够根据自然语言指令在这些游戏世界中执行任务,如同人类可能做的那样。 该项工作的重点并不是在游戏中获得高分。对于AI系统而言,学会玩一个视频游戏本身就是一个技术挑战,但学会在多种游戏环境中根据指令执行任务可能会开启更多有用的AI代理,用于各种环境。该团队的研究展示了如何将先进AI模型的能力通过语言界面转化为实用的、现实世界中的行动。谷歌DeepMind希望,通过SIMA及其他代理的研究,可以利用视频游戏作为沙盒,更好地理解AI系统如何变得更加有益。 为了使SIMA接触到多样的环境,谷歌DeepMind与游戏开发商建立了合作伙伴关系。团队与八家游戏工作室合作,训练和测试SIMA在九种不同的视频游戏上,例如Hello Games的《无人深空》和Tuxedo Labs的《Teardown》。SIMA的投资组合中的每款游戏都开启了一个新的互动世界,其中包括从简单的导航和菜单使用到采矿资源、驾驶太空船或制作头盔等多种技能学习。 谷歌DeepMind还使用了四个研究环境,包括与Unity合作建立的一个名为建筑实验室的新环境,代理需要在此环境中从建筑块中构建雕塑,测试其物体操作和对物理世界的直观理解能力。 通过学习不同的游戏世界,SIMA能够理解语言与游戏行为之间的联系。谷歌DeepMind的首次尝试是记录其投资组合中游戏的人类玩家配对,其中一位玩家观察并指导另一位玩家。玩家还可以自由玩游戏,然后回顾他们的游戏行为,并记录下能够导致这些游戏行为的指令。 SIMA包括预训练的视觉模型和一个主模型,后者包含内存并输出键盘和鼠标动作。 作为一个多才多艺的AI代理,SIMA能够感知和理解多种环境,然后采取行动以实现指定的目标。它包括一个设计用于精确图像-语言映射的模型和一个视频模型,后者预测屏幕上接下来会发生什么。这些模型在特定于SIMA投资组合中的3D设置的训练数据上进行了微调。 谷歌DeepMind的AI代理不需要访问游戏的源代码或特定的API。它只需要两种输入:屏幕上的图像和用户提供的简单自然语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心角色执行这些指令。这种简单的界面与人类使用的界面相同,意味着SIMA可以潜在地与任何虚拟环境进行交互。 SIMA当前版本在600个基本技能上进行了评估,包括导航(例如“向左转”)、物体交互(例如“爬梯子”)和菜单使用(例如“打开地图”)。谷歌DeepMind训练了SIMA执行可以在大约10秒内完成的简单任务。 谷歌DeepMind希望其未来的代理能够处理需要高级战略规划和完成多个子任务的任务,例如“找到资源并建立一个 营地”。这对于AI总体来说是一个重要的目标,因为尽管大型语言模型催生了强大的系统,这些系统可以捕获关于世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。 在游戏和更多方面的泛化是谷歌DeepMind研究的重要部分。该团队展示了在多种游戏上训练的代理比只学会玩一个游戏的代理表现更好。在评估中,接受其投资组合中九款3D游戏训练的SIMA代理显著优于仅在每个单一游戏上训练的所有专业代理。更重要的是,除了一个游戏之外在所有游戏上训练的代理在那个未见过的游戏上的表现几乎与专门在其上训练的代理一样好,平均而言。这种在全新环境中正常工作的能力突出了SIMA的泛化能力。这是一个有希望的初步结果,然而,需要更多研究才能使SIMA在已知和未知的游戏中都能达到人类水平的表现。 谷歌DeepMind的结果还显示,SIMA的表现依赖于语言。在一个未给代理提供任何语言训练或指令的控制测试中,它以适当但无目的的方式行动。例如,一个代理可能会收集资源,这是一种频繁的行为,而不是按照指令行动。 谷歌DeepMind评估了SIMA遵循指令完成近1500个独特的游戏内任务的能力,部分使用人类评审。作为基线比较,该团队使用了环境专业的SIMA代理的表现(训练和评估以遵循单一环境内的指令)。这种表现与三种类型的通用SIMA代理进行了比较,每种都在多个环境中接受了训练。 推进AI代理研究是谷歌DeepMind的目标之一。SIMA的结果显示了开发一系列通用的、由语言驱动的AI代理的潜力。这是早期研究,该团队期待在更多训练环境中进一步构建SIMA,并整合更有能力的模型。 随着SIMA接触到更多训练世界,谷歌DeepMind预期它会变得更具泛化性和多才多艺。随着模型的进步,该团队希望提高SIMA对更高级语言指令的理解和行动能力,以实现更复杂的目标。 最终,谷歌DeepMind的研究旨在构建更通用的AI系统和代理,这些系统和代理可以理解并安全地执行广泛的任务,以一种对人类在线和现实世界有帮助的方式。
V-JEPA模型,非LLM另外的选择,AGI的未来:迈向Yann LeCun先进机器智能(AMI)愿景的下一步
I-JEPA:基于Yann LeCun愿景的首个更人性化AI模型– 庆祝FAIR十周年:通过开放研究推动技术前沿的十年– 图灵奖颁给了Yann LeCun、Geoffrey Hinton和Yoshua Bengio 今天,我们向大家公开发布视频联合嵌入预测架构(V-JEPA)模型,这是推进机器智能并加深对世界理解的关键一步。作为一个早期的物理世界模型示例,V-JEPA擅长检测和理解对象间的高度详细互动。遵循负责任的开放科学精神,我们决定以创意共享非商业许可发布此模型,供研究人员进一步探索。 作为人类,我们通过观察学习到关于周围世界的许多知识——尤其是在生命早期阶段。就像牛顿的第三运动定律:即使是婴儿(或猫)在多次推落桌上物品并观察结果后也能直观地理解,凡是上升的都必须下落。你不需要几小时的指导或阅读成千上万本书就能得出这个结果。你的内在世界模型——基于世界的心理模型的上下文理解——为你预测了这些后果,而且非常高效。 “V-JEPA是朝着更深入理解世界迈出的一步,以便机器能够实现更广泛的推理和规划,”Meta的副总裁兼首席AI科学家Yann LeCun说道,他在2022年提出了最初的联合嵌入预测架构(JEPA)。“我们的目标是构建高级机器智能,能像人类一样学习,形成对周围世界的内部模型,以便高效地学习、适应并制定计划以完成复杂任务。” 聚焦视频JEPA V-JEPA是一个非生成模型,通过预测视频中缺失或遮蔽部分的抽象表示空间学习。这类似于我们的图像联合嵌入预测架构(I-JEPA)如何比较图像的抽象表示(而不是直接比较像素本身)。与试图填补每个缺失像素的生成方法不同,V-JEPA具有丢弃不可预测信息的灵活性,这导致训练和样本效率提高了1.5到6倍。 由于采用自监督学习方法,V-JEPA完全使用未标记数据进行预训练。标签仅用于预训练后将模型适配到特定任务。与之前的模型相比,这种架构在所需标记示例数量和学习即使是未标记数据所需的总体努力方面更为高效。通过V-JEPA,我们在这两方面都看到了效率提升。 我们通过遮蔽视频的大部分内容,仅向模型展示一小部分上下文。然后我们让预测器填补缺失的部分——不是以实际像素的形式,而是作为这个表示空间中的更抽象的描述。 V-JEPA通过预测学习到的潜在空间中遮蔽的时空区域来训练视觉编码器。 遮蔽方法论 V-JEPA的训练并不是为了理解一种特定类型的行动。相反,它使用自监督训练在一系列视频上学习,并了解了世界运作方式的许多方面。团队还仔细考虑了遮蔽策略——如果你不遮蔽视频的大部分区域,而是在这里那里随机采样补丁,这会使任务变得太简单,你的模型就不会学到世界上特别复杂的任何事情。 同样重要的是要注意,在大多数视频中,事物随时间缓慢演变。如果你遮蔽视频的一部分,但只在特定瞬间,并且模型可以看到紧接之前和/或之后的情况,这也会使事情变得太简单,模型几乎肯定不会学到任何有趣的东西。因此,团队采用了一种在空间和时间上都遮蔽视频部分的方法,这迫使模型学习并发展对场景的理解。 高效预测 在抽象表示空间进行这些预测很重要,因为它允许模型专注于视频包含的高级概念信息,而不必担心那些对下游任务通常不重要的细节。毕竟,如果视频显示了一棵树,你可能不会关心每片单独叶子的微小运动。 我们对这一方向感到兴奋的原因之一是,V-JEPA是第一个擅长“冻结评估”的视频模型,这意味着我们在编码器和预测器上完成了所有自监督预训练,然后我们不再触碰模型的这 些部分。当我们想要将它们适配学习新技能时,我们只需在其上训练一个小型轻量级的专门层或小网络,这非常高效且快速。 低样本冻结评估:将V-JEPA与其他视频模型在Kinetics-400和Something-Something-v2上的冻结评估进行比较,我们变化了每个数据集可用于训练注意力探针的标记示例百分比。我们在几个低样本设置中训练探针:使用训练集的5%、10%或50%,并在每个设置中进行三次随机分割,以获得更稳健的指标,每个模型进行九次不同的评估实验。我们报告了K400和SSv2官方验证集上的平均值和标准偏差。V-JEPA比其他模型更节省标签——具体来说,减少每个类别可用的标记示例数量会增加V-JEPA与基准之间的性能差距。 以前的工作需要进行完全的微调,这意味着在预训练模型之后,当你希望模型在进行微调以承担该任务时真正擅长细粒度动作识别时,你必须更新模型中的参数或权重。然后那个模型总体上变得擅长执行那个任务,而不再适用于其他任何事情。如果你想教模型一个不同的任务,你必须使用不同的数据,并且必须为这个其他任务专门定制整个模型。如我们在这项工作中所展示的,通过V-JEPA,我们可以一次性预训练模型而不需要任何标记数据,固定它,然后重用模型的同一部分来完成几个不同的任务,如动作分类、精细物体交互识别和活动定位。 V-JEPA是一种自监督方法,用于从视频中学习表示,可以应用于各种下游图像和视频任务,而无需调整模型参数。V-JEPA在冻结评估中的图像分类、动作分类和时空动作检测任务上优于之前的视频表示学习方法。 未来研究的途径… 虽然“V”在V-JEPA中代表“视频”,但到目前为止它只考虑了视频的视觉内容。下一步显然是采取更多模态方法,所以我们正在仔细考虑如何将音频与视觉结合起来。 作为概念验证,当前的V-JEPA模型擅长于细粒度物体交互和区分随时间发生的详细物体对物体交互。例如,如果模型需要能够区分放下笔、捡起笔和假装放下笔但实际上没有放下笔之间的区别,V-JEPA相比之前的方法在这种高级别动作识别任务上做得相当好。然而,这些事情在相对较短的时间尺度上工作。如果你向V-JEPA展示几秒钟到10秒钟的视频剪辑,它在那方面做得很好。因此,我们的另一个重要步骤是考虑规划和模型在更长时间范围内进行预测的能力。 …以及通往AMI的道路 到目前为止,我们与V-JEPA的工作主要关于感知——理解各种视频流的内容,以获得一些关于我们周围世界的上下文。这个联合嵌入预测架构中的预测器充当了一个早期的物理世界模型:你不必看到画面中发生的一切,它可以告诉你那里概念上发生了什么。作为下一步,我们想展示我们如何能够使用这种预测器或世界模型进行规划或序列决策。 我们知道,可以在没有强监督的情况下对JEPA模型进行视频数据训练,它们可以像婴儿那样观看视频——被动地观察世界,学习很多有趣的东西,了解这些视频的上下文,以这样一种方式,仅需少量标记数据,你就可以迅速获得一项新的任务和能力,识别不同的动作。 V-JEPA是一个研究模型,我们正在探索许多未来的应用。例如,我们预期V-JEPA提供的上下文对我们的具身AI工作以及我们构建未来AR眼镜的上下文AI助手的工作将是有用的。我们坚信负责任的开放科学的价值,这就是为什么我们以CC BY-NC许可发布V-JEPA模型,以便其他研究人员可以扩展这项工作。 代码: https://github.com/facebookresearch/jepa
微软向谷歌发起挑战,直指后者在生成式AI领域的优势地位
在这个充满竞争的数字时代,微软直接向欧盟反垄断监管机构爆料,称谷歌凭借其庞大的数据宝库和专为AI优化的芯片,在生成式人工智能领域拥有不可小觑的竞争优势。这一切的背后,可不仅仅是两个科技巨头之间的小打小闹,而是一场关于未来科技霸权的较量。 微软的这番言论,是对欧盟委员会1月份关于生成式AI竞争水平的一次咨询的回应。生成式AI因其能够生成类似人类的回应而日益受到欢迎,由微软支持的OpenAI的ChatGPT和谷歌的聊天机器人Gemini就是两个典型的例子,但这也引发了人们对误信息和假新闻的担忧。 微软在报告中指出:“今天,只有谷歌一家公司在AI的各个层面上实现了垂直整合,这给它带来了力量和独立性,从芯片到繁荣的移动应用商店无所不包。其他公司必须依靠合作伙伴来创新和竞争。” 微软还表示,谷歌自产的AI半导体将在未来几年内给它带来竞争优势,而谷歌搜索索引和YouTube的大量专有数据使其能够训练其大型语言模型Gemini。“YouTube提供了无与伦比的视频内容集,拥有大约140亿个视频。谷歌可以访问这些内容,但其他AI开发者却无法做到。” 此外,微软指出,谷歌的Google Assistant和苹果的Siri等AI驱动的语音助手为这两家公司带来了优势。“它们非常有可能利用各自现有的语音助手,在生成式AI领域取得领导地位。谷歌和苹果的新进入者和竞争对手将无法享有同样的优势。” 面对其在OpenAI上超过100亿美元的投资现正受到欧盟反垄断监管机构的审视,微软还试图化解有关大型科技公司与初创企业之间合作伙伴关系的监管担忧。“所有这些初创企业都依靠不同形式的投资和合作伙伴关系,使它们能够进入和扩大在这一领域的存在。” 微软通过指出Anthropic、法国的Mistral以及加拿大的Cohere等公司背后的投资者包括谷歌、亚马逊、微软、Salesforce和Nvidia,强调在AI领域鼓励支持竞争的合作伙伴关系,是防止公司通过垂直整合获得反竞争优势的有效方式。
苹果收购DarwinAI,引领设备上AI运行新时代,隐私保护再升级
苹果公司对AI的态度绝不是闹着玩的。他们悄悄收购了加拿大初创公司DarwinAI,这家公司擅长让AI模型变得更小、更快——完美适合于直接在你的设备上运行AI。这是他们为2024年承诺的大规模AI升级做准备。 这到底是怎么一回事? 苹果在AI竞赛中正在迎头赶上,并且正在为今年的重大生成式AI推动增强其团队力量。 这意味着什么? DarwinAI主要关注于制造业,但它也在将AI模型缩小和加速方面做了一些工作。这可能就是苹果此次收购的大计(毕竟他们非常注重隐私和本地数据)。 DarwinAI团队中的几十位成员已加入苹果更广泛的生成式AI团队,共同创始人Alexander Wong在苹果的AI军队中担任“导演”级别的角色。 我为什么要关心? 我们很可能很快就会看到日常AI获得重大的苹果风格升级——最受期待的是更好的Siri。苹果能让设备上的AI工作吗? 三星和谷歌都试过,但许多“强大”的功能需要将你的数据发送到云端,那里有大型的语言模型。设备上的AI可以为隐私开辟令人兴奋的可能性,因为这些酷炫功能的工作不需要你的数据离开设备。
Claude 3 Haiku,它不仅是Claude系列中最快的成员,还在速度的赛道上领先一大步
在今天的技术圈里掀起了一场小小的革命,Claude 3系列迎来了它的最新成员——Haiku。这位新成员以其独特的速度优势和亲民的价格在智能界独树一帜。Haiku擅长于解析图像,无论是在行业基准测试还是实际应用场景中,都展现出了令人瞩目的表现。现在,无论用户是Sonnet的追随者还是Opus的爱好者,都可以在Claude API或者claude.ai的Claude Pro订阅服务中找到Haiku。 对于那些需要快速分析庞大数据集和生成及时输出的企业用户来说,Haiku的速度就像一股清流。这位新成员能够以其它同级产品三倍的速度处理大多数工作任务,每秒处理约21K token(大约30页内容),对于32K token以下的提示,它的响应速度异常迅速,能够提供流畅的聊天体验并同时执行多个小任务。 Haiku采用了1:5的输入输出token比率计价模式,特别适合处理企业级的长篇幅任务。企业可以依赖Haiku以半价的成本快速分析处理大量文件,如季度报告、合同或法律案件。例如,只需一美元,Haiku就能处理分析400个最高法院案例或2500张图片,这使得它在同等性能级别的模型中性价比极高。 除了速度和成本效益,Haiku还特别强调企业级的安全性和稳健性。通过严格的测试减少有害输出和模型逃逸的风险,确保使用的安全性。此外,从系统的持续监控、端点加固、安全编码实践、强大的数据加密协议到严格的访问控制等多重安全措施,均旨在保护敏感数据的安全。定期的安全审计和与经验丰富的渗透测试人员的合作也是为了主动识别和解决潜在的安全威胁。更多关于这些安全措施的信息可以在Claude 3的模型说明卡中找到。 从今天起,客户可以通过API或在claude.ai上的Claude Pro订阅服务使用Claude 3 Haiku。它已经在亚马逊Bedrock平台上线,并将很快登陆谷歌云的Vertex AI平台。
微软推出AI Copilot for Security,采用按量付费的方式
微软下月将把它的人工智能小能手——“AI 安全副舵手”带进网络安全领域,这可不是个普通的聊天机器人哦,它专为那些日夜奋战在网络安全第一线的英雄们设计,帮他们抵御各种网络威胁。别以为这家伙会像微软365的副驾一样,收你个月费就完事了。微软这次玩的是“用多少,付多少”,每小时4美刀的消费模式,4月1号正式上线。 这位“AI 安全副舵手”不仅脑洞大开,还特别能干,它是由OpenAI的GPT-4和微软自家的安全特制模型驱动的。这意味着,网络安全工作者现在可以随时获取最新的安全事件信息、威胁总结等等。微软早在一年前就开始测试这个聊天机器人了,它能接入微软每天收集的78万亿个安全信号中的最新威胁信息。 而且,“AI 安全副舵手”还有一个钉板区,方便网络安全员工之间的协作,还能总结事件报告呢。就像其他的AI聊天机器人一样,你可以用自然语言输入信息,上传文件供其分析,甚至让它来分析代码。所有的指令都会被保存在历史记录里,以便日后审计。 这种按量付费的定价策略,旨在帮助企业根据需要调整AI驱动的网络安全工作。微软表示:“我们会提供一个简单的定价模型,不管是单独的副驾体验还是嵌入到微软安全产品组合中的体验,都用这一个模型。消费模式意味着企业可以快速、小规模地开始,无需预付任何设备或用户费用,就能试验和学习。” 微软推动AI进入网络安全领域的同时,也正遭受俄罗斯国家支持的黑客组织Nobelium的攻击。就是这个团伙之前发动了SolarWinds攻击,还偷偷监视了一些微软高管的电子邮件收件箱好几个月。那次攻击还导致微软的一些源代码被偷,黑客得以访问公司的源代码仓库和内部系统。 在最近几年严重的Azure云攻击事件之后,微软正在全面改革其软件安全。2021年,因为Microsoft Exchange Server的一个漏洞,有三万个组织的电子邮件服务器被黑;去年,中国黑客通过一个微软云漏洞入侵了美国政府的电子邮件。