试试这里 https://github.com/apple/ml-ferret
苹果公司与康奈尔大学的研究人员在10月悄然推出了一个开源的多模态大型语言模型(LLM),名为「Ferret」。这个研究项目在GitHub上的发布最初并未引起太多关注,没有任何宣传或庆祝活动。10月30日,Ferret的代码连同Ferret-Bench一起发布,而其检查点版本则在12月14日推出。
起初,Ferret的发布并未引起太多关注,但据VentureBeat报道,到了周六,情况发生了变化。一家专注于医疗AI的非营利组织的运营者Bart De Witte在X上发帖,称这个被“错过”的发布是“苹果对有影响力的AI研究的承诺的证明”。
Ferret以非商业许可证的形式开源,因此目前无法商业化。然而,将来它可能以某种形式被应用于苹果的产品或服务中。
苹果AI/ML研究科学家Zhe Gan在10月的一条推文中解释了Ferret的用途,称其为一个可以在图像中“任何地方、任何粒度上指代和定位任何事物”的系统。它还可以使用图像中任何形状的区域来实现这一功能。
简单来说,这个模型可以检查在图像上绘制的区域,确定其中对用户查询有用的元素,识别它,并在检测到的元素周围绘制边界框。然后,它可以将识别出的元素作为查询的一部分,以典型的方式做出响应。
例如,如果在图像中突出显示一个动物并询问LLM这是什么动物,它可以确定动物的种类,并且用户指的是从一群动物中区分出的个体动物。然后,它可以利用图像中检测到的其他项目的上下文提供进一步的响应。
这一发布对研究人员来说很重要,因为它表明苹果希望在其AI工作方面更加开放,而不是像以往那样保密。
苹果还面临着基础设施问题,尽管它正在努力增加拥有的AI服务器数量,但目前可能还没有足够的规模来与ChatGPT等对抗。尽管苹果可以与其他公司合作来扩大其能力,但它采取的另一种方式是发布一个开源模型。
Github发布中的一个有趣元素是,Reddit的r/Apple注意到Ferret是“在8个具有80GB内存的A100 GPU上训练的”。考虑到苹果与Nvidia GPU支持的历史,这被视为对GPU制造商的罕见承认。