Meta公司在上周五宣布,他们的研究部门“基础AI研究”(FAIR)推出了一系列新的AI模型。这些模型包括一个名为“自学评估器”的系统,有望减少AI开发过程中对人类参与的依赖,另一个模型则能够自由混合文本和语音。
此次发布是在Meta今年8月发布的一篇论文之后,该论文介绍了这些模型将依赖于“思维链”机制,这是OpenAI在其最新的o1模型中使用的一种技术,用于让AI在做出回应前“思考”。值得一提的是,Google和Anthropic也在研究“AI反馈强化学习”这一概念,尽管他们的相关研究尚未对公众开放。
FAIR团队表示,新的AI模型支持Meta实现“高级机器智能”的目标,同时推动开放科学和科研可重复性的进展。此次发布的模型包括图像和视频处理的升级版“分割任何事物模型2”(SAM 2),以及Meta Spirit LM、Layer Skip、SALSA、Meta Lingua、OMat24、MEXMA和自学评估器等。
自学评估器
Meta称这种新的自学评估器是一种“强大的生成性奖励模型,使用合成数据来验证其他AI模型的工作”。它提供了一种无需依赖人工标注来生成偏好数据的新方法。公司表示,该模型通过生成对比输出,并训练一个大型语言模型(LLM)作为“评判者”,用来进行推理和最终判断,并且这一过程是通过不断自我改进来实现的。
这个新方法意味着模型能够生成自己的数据来训练奖励模型,不再需要人工标注的数据。Meta声称,自学评估器性能优于像GPT-4这样的依赖人类标注数据的模型。
Meta Spirit LM
Spirit LM是Meta推出的首个开源语言模型,能够无缝集成文本和语音。大多数大型语言模型通常用于将语音转换为文本,反之亦然,但这种转换往往会丢失原本语音中的自然表达。Meta开发的Spirit LM通过使用音素、音调和语调等标记,克服了这些局限,使输入和输出更加自然。
该模型分为两个版本:Spirit LM Base专注于语音音效,而Spirit LM则可以捕捉到语音中的情绪,如愤怒或兴奋,从而使生成的语音更加真实。Meta称,该模型能够更自然地生成语音,并能够执行语音识别、文本转语音、语音分类等任务。