苹果公司最新力作——「Ferret」机器学习模型，开源界的新星登场

试试这里 https://github.com/apple/ml-ferret

苹果公司与康奈尔大学的研究人员在10月悄然推出了一个开源的多模态大型语言模型(LLM)，名为「Ferret」。这个研究项目在GitHub上的发布最初并未引起太多关注，没有任何宣传或庆祝活动。10月30日，Ferret的代码连同Ferret-Bench一起发布，而其检查点版本则在12月14日推出。

起初，Ferret的发布并未引起太多关注，但据VentureBeat报道，到了周六，情况发生了变化。一家专注于医疗AI的非营利组织的运营者Bart De Witte在X上发帖，称这个被“错过”的发布是“苹果对有影响力的AI研究的承诺的证明”。

Ferret以非商业许可证的形式开源，因此目前无法商业化。然而，将来它可能以某种形式被应用于苹果的产品或服务中。

苹果AI/ML研究科学家Zhe Gan在10月的一条推文中解释了Ferret的用途，称其为一个可以在图像中“任何地方、任何粒度上指代和定位任何事物”的系统。它还可以使用图像中任何形状的区域来实现这一功能。

简单来说，这个模型可以检查在图像上绘制的区域，确定其中对用户查询有用的元素，识别它，并在检测到的元素周围绘制边界框。然后，它可以将识别出的元素作为查询的一部分，以典型的方式做出响应。

例如，如果在图像中突出显示一个动物并询问LLM这是什么动物，它可以确定动物的种类，并且用户指的是从一群动物中区分出的个体动物。然后，它可以利用图像中检测到的其他项目的上下文提供进一步的响应。

这一发布对研究人员来说很重要，因为它表明苹果希望在其AI工作方面更加开放，而不是像以往那样保密。

苹果还面临着基础设施问题，尽管它正在努力增加拥有的AI服务器数量，但目前可能还没有足够的规模来与ChatGPT等对抗。尽管苹果可以与其他公司合作来扩大其能力，但它采取的另一种方式是发布一个开源模型。

Github发布中的一个有趣元素是，Reddit的r/Apple注意到Ferret是“在8个具有80GB内存的A100 GPU上训练的”。考虑到苹果与Nvidia GPU支持的历史，这被视为对GPU制造商的罕见承认。

Subscribe 订阅