在这个信息爆炸的网络世界里,各种视频如同繁星般遍布每一个角落,从日常分享到历史时刻,再到科学观察,每一段视频都在用自己独特的方式记录着这个世界。要是有合适的工具来分析这些视频,我们对周围世界的理解可能会发生翻天覆地的变化。
比起静态的图片,视频提供了更为丰富的动态视觉内容,捕捉到了运动、变化以及实体间的动态关系。分析这些复杂性,以及公开可获取的视频数据的巨大多样性,需要超越传统图像理解的模型。因此,很多在视频理解方面表现最佳的方法依然依赖于为特定任务量身定做的专门模型。最近,在这一领域使用视频基础模型(ViFMs)取得了令人兴奋的进展,比如VideoCLIP、InternVideo、VideoCoCa和UMT。然而,构建一个能够处理视频数据巨大多样性的ViFM依然是一个挑战。
为了构建一个能够通用视频理解的单一模型,Google 推出了“视频棱镜:视频理解的基础视觉编码器”(VideoPrism)。视频棱镜是一款设计用来处理广泛视频理解任务的ViFM,包括分类、定位、检索、字幕和问答(QA)。Google在预训练数据以及建模策略上提出了创新。Google在大规模且多样化的数据集上预训练视频棱镜:3600万高质量视频-文本对和5.82亿带有噪声或机器生成的并行文本的视频片段。Google的预训练方法是为这种混合数据设计的,旨在从视频-文本对以及视频本身学习。视频棱镜极易适应新的视频理解挑战,并且使用单一冻结模型就能达到最新的性能水平。
视频棱镜是一个通用视频编码器,通过从单一冻结模型产生视频表示,它在广泛的视频理解任务上实现了最新的结果,包括分类、定位、检索、字幕和问答。
Google提供了一个庞大的预训练视频库,理想情况下,Google希望预训练数据能够代表世界上所有的视频。虽然自然大多数视频没有完美的字幕或描述,即便是不完美的文本也能提供关于视频语义内容的有用信息。
在两阶段训练中,视频棱镜模型架构源自标准的视觉变换器(ViT),采用分解设计,顺序编码空间和时间信息,遵循ViViT。Google的训练方法利用了上述提到的高质量视频-文本数据和带噪声文本的视频数据。首先,Google使用对比学习来教导模型匹配视频与其文本描述,包括不完美的描述。这为匹配语义语言内容到视觉内容奠定了基础。
视频棱镜的独特之处在于,Google使用了两种互补的预训练信号:文本描述和视频内的视觉内容。文本描述通常聚焦于事物的外观,而视频内容提供了关于运动和视觉动态的信息。这使得视频棱镜在需要理解外观和运动的任务中表现出色。
在广泛的视频理解任务上对视频棱镜进行了广泛评估,包括视频分类和定位、视频-文本检索、视频字幕、问答和科学视频理解。视频棱镜在33个视频理解基准测试中的30个上实现了最新的性能水平——所有这些都是通过对单一冻结模型的最小调整实现的。

总之,视频棱镜作为一个强大且多功能的视频编码器,为通用视频理解设定了新的标准。Google通过构建大规模多样化的预训练数据集和创新的建模技术,验证了Google的方法。视频棱镜不仅一致性地超越了强大的基线,而且其独特的泛化能力使其非常适合处理一系列真实世界的应用。鉴于其潜在的广泛用途,Google致力于在这一领域继续进一步的负责任研究,由Google的AI原则指导。Google希望视频棱镜能为AI与视频分析交叉领域的未来突破铺平道路,帮助实现ViFMs在科学发现、教育和医疗等领域的潜力。