生成式AI的竞争正在加剧,视频生成成为当前的核心战场之一,而Genmo正在以不同的方式切入这一领域。Genmo发布了其Mochi-1视频生成模型作为“研究预览”版本,并采用Apache 2.0开源许可证,使其在技术上更为开放,用户可以对其进行二次开发或重组。https://github.com/genmoai/models
Mochi-1完全免费,用户可以在Genmo网站上直接尝试。开源属性还意味着该模型未来将登陆多种生成式AI平台,甚至有望在游戏PC上运行。随着视频生成领域的竞争激烈,不同服务各有所长,如Haiper提供的模板、Kling和Hailuo的逼真效果,或Pika Labs和Dream Machine的趣味特效,Genmo则专注于为开源领域带来最先进的技术。
Genmo的CEO Paras Jain表示,视频“运动”是模型评估的关键指标。他解释说,早期的视频生成模型有种“动态照片”的效果,但视频应以运动为主,Genmo团队为此进行了大量投资。这款模型虽小,但采用了一种全新的异步处理方式,通过100亿参数的变压器扩散模型,实现了强大的性能。
为了确保视频生成的准确性,Mochi-1仅使用视频数据进行训练,而非混合视频、图像和文本的传统方法,这种方法提升了模型对物理原理的理解。同时,Genmo团队也在提示语理解上投入巨大,以确保模型能准确生成符合用户需求的视频。
目前,Mochi-1的预览版视频分辨率被限制在480p。虽然清晰度有限,但Genmo希望这款模型能成为“开源领域的佼佼者”。Mochi-1不仅强调提示词的准确性,还通过类比OpenAI的DALL-E 3,利用视觉语言模型进行输出评估,以确保视频生成质量。
在众多竞争者中,Mochi-1并不是唯一的开源视频生成模型。AI公司Rhymes本周也发布了Allegro模型,这款模型支持15帧/秒、720p分辨率的视频生成。尽管Mochi-1的清晰度稍低,仅支持24帧/秒和420p,但其开源特性和运动表现使其在视频生成市场中独具优势。
目前,这些模型还无法在普通笔记本电脑上运行,但正如Jain所言,开源的优势在于未来可能通过优化让这些模型在低功率设备上运行,实现离线视频生成的潜力。