来看看这些新宠儿：‘视频转文字’和‘Pegasus-1（80B）’！

产品：Twelve Labs正式发布他们最新的视频语言基础模型Pegasus-1，并推出一系列全新的视频转文字API（Gist API, Summary API, Generate API）。

产品和研究理念：与许多将视频理解重构为图像或语音理解问题的公司不同，Twelve Labs采取了“视频优先”策略，有四个核心原则：高效的长篇视频处理、多模式理解、视频本地嵌入、视频和语言嵌入之间的深度对齐。

新模型：Pegasus-1大约有800亿个参数，包含三个共同训练的模型组件：视频编码器、视频语言对齐模型、语言解码器。

数据集：Twelve Labs收集了超过3亿个多样化、精心策划的视频文本对，是进行视频语言基础模型训练的最大视频文本语料库之一。这份技术报告基于对包含3500万视频文本对和超过10亿图像文本对的10%子集进行的初步训练运行。

与SOTA视频语言模型的性能比较：与之前的最先进（SOTA）视频语言模型相比，Pegasus-1在MSR-VTT数据集（Xu等人，2016）上显示出61%的相对改进，在视频描述数据集（Maaz等人，2023）上提高了47%，通过QEFVC质量得分（Maaz等人，2023）进行测量。

在我们提出的评估指标VidFactScore上，它在MSR-VTT数据集上显示出20%的绝对F1得分增长，在视频描述数据集上提高了14%。与ASR+LLM模型的性能比较：ASR+LLM是解决视频到文本任务的广泛采用方法。与Whisper-ChatGPT（OpenAI）和领先的商业ASR+LLM产品相比，Pegasus-1在MSR-VTT上的表现提高了79%，在视频描述数据集上提高了188%。在VidFactScore-F1上，它在MSR-VTT数据集上显示25%的绝对收益，在视频描述数据集上增加了33%。

访问Pegasus-1的API：这是等待名单上的Pegasus驱动的视频到文本API的链接。

更多请访问 https://app.twelvelabs.io/blog/introducing-pegasus-1

Subscribe 订阅