产品:Twelve Labs正式发布他们最新的视频语言基础模型Pegasus-1,并推出一系列全新的视频转文字API(Gist API, Summary API, Generate API)。
产品和研究理念:与许多将视频理解重构为图像或语音理解问题的公司不同,Twelve Labs采取了“视频优先”策略,有四个核心原则:高效的长篇视频处理、多模式理解、视频本地嵌入、视频和语言嵌入之间的深度对齐。
新模型:Pegasus-1大约有800亿个参数,包含三个共同训练的模型组件:视频编码器、视频语言对齐模型、语言解码器。
数据集:Twelve Labs收集了超过3亿个多样化、精心策划的视频文本对,是进行视频语言基础模型训练的最大视频文本语料库之一。这份技术报告基于对包含3500万视频文本对和超过10亿图像文本对的10%子集进行的初步训练运行。
与SOTA视频语言模型的性能比较:与之前的最先进(SOTA)视频语言模型相比,Pegasus-1在MSR-VTT数据集(Xu等人,2016)上显示出61%的相对改进,在视频描述数据集(Maaz等人,2023)上提高了47%,通过QEFVC质量得分(Maaz等人,2023)进行测量。
在我们提出的评估指标VidFactScore上,它在MSR-VTT数据集上显示出20%的绝对F1得分增长,在视频描述数据集上提高了14%。 与ASR+LLM模型的性能比较:ASR+LLM是解决视频到文本任务的广泛采用方法。与Whisper-ChatGPT(OpenAI)和领先的商业ASR+LLM产品相比,Pegasus-1在MSR-VTT上的表现提高了79%,在视频描述数据集上提高了188%。在VidFactScore-F1上,它在MSR-VTT数据集上显示25%的绝对收益,在视频描述数据集上增加了33%。
访问Pegasus-1的API:这是等待名单上的Pegasus驱动的视频到文本API的链接。

更多请访问 https://app.twelvelabs.io/blog/introducing-pegasus-1