Meta最近发布了一批新的语言翻译模型。这些模型在翻译我们的话时,可以保持我们的说话方式不变。而且,你不必等到说完话才能得到翻译,语音输出几乎能实时跟上你的说话。

Meta推出了他们的“无缝”系列语言翻译模型。
这里有四个模型:
SeamlessM4T v2 – Meta于八月发布的基础模型。
SeamlessExpressive – 一个用于保留语音到语音翻译中表达的模型。
SeamlessStreaming – 一个流式翻译模型,提供最先进的结果,延迟大约两秒。
Seamless – 将SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2集成到一个模型中。
SeamlessExpressive目前能在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中保持语速、节奏停顿、情感和风格。SeamlessStreaming能在说话人仍在讲话时进行翻译。你可以在HuggingFace上试用这些模型,这些模型对非商业用途是开源的。
想象一下,在Instagram上使用无缝模型进行视频通话。你可以和世界上任何人聊天,英语不再是交流的障碍。另一个值得注意的点是,你可以构建算法来增强基础模型。例如,Seamless Streaming有一个算法,用于决定何时继续倾听,何时开始翻译,以处理不同语言中的不同句子结构。
这里去看更多 https://ai.meta.com/blog/seamless-communication/