谷歌翻译打破语言障碍,帮助人们更好地交流和理解周围的世界。为了让更多人能够使用这一工具,谷歌一直在应用最新技术。2022年,谷歌通过“零样本机器翻译”技术新增了24种语言,这种机器学习模型无需看到示例即可学习翻译。谷歌还宣布了“1000种语言计划”,致力于构建支持全球1000种最常用语言的人工智能模型。
现在,谷歌利用人工智能进一步扩大支持的语言种类。借助PaLM 2大型语言模型,谷歌翻译新增了110种语言,这是迄今为止最大的扩展。
为超过5亿人提供翻译支持
这些新语言覆盖了6.14亿多名使用者,占全球人口的约8%。其中一些是拥有超过1亿使用者的主要世界语言,另一些则是小型原住民社区使用的语言,还有一些几乎没有母语使用者但正在积极复兴。约四分之一的新语言来自非洲,这是谷歌迄今为止对非洲语言的最大扩展,包括丰语、基孔戈语、罗语、加语、斯瓦特语、文达语和沃洛夫语。

以下是谷歌翻译支持的一些新语言:
- 阿法尔语是一种在吉布提、厄立特里亚和埃塞俄比亚使用的声调语言。在此次发布的所有语言中,阿法尔语获得了最多的志愿者社区贡献。
- 粤语一直是谷歌翻译最受请求的语言之一。由于粤语在书写上经常与普通话重叠,因此很难找到数据并训练模型。
- 曼克斯语是曼岛的凯尔特语言。1974年随着最后一位母语使用者的去世几乎灭绝,但得益于全岛的复兴运动,现在有数千人会讲这种语言。
- 恩科语是西非曼丁语言的一种标准化形式,将许多方言统一为一种通用语言。其独特的字母表于1949年发明,今天有一个积极的研究社区开发相关资源和技术。
- 旁遮普语(沙姆希)是用波斯-阿拉伯字母书写的旁遮普语,是巴基斯坦最常用的语言。
- 塔马齐格特语(阿马兹格语)是一种在整个北非使用的柏柏尔语言。虽然有许多方言,但书面形式通常是相互理解的。它有拉丁字母和提非纳字母两种书写形式,谷歌翻译都支持。
- 托克皮辛语是一种以英语为基础的克里奥尔语,是巴布亚新几内亚的通用语。如果你会英语,试着翻译成托克皮辛语——你可能能够理解其含义!
选择语言变体的标准
添加新语言到谷歌翻译时需要考虑很多因素,包括提供的语言变体和使用的具体拼写标准。语言有大量的变体:地区变体、方言、不同的拼写标准。事实上,许多语言没有一种标准形式,因此无法选择“正确”的变体。谷歌的做法是优先考虑每种语言中最常用的变体。例如,罗姆语在整个欧洲有许多方言,谷歌的模型生成的文本最接近南瓦拉克斯罗姆语,这是一种常用的在线变体,但也混合了其他方言的元素,如北瓦拉克斯和巴尔干罗姆语。
PaLM 2是解决这一难题的关键,帮助谷歌翻译更有效地学习彼此密切相关的语言,包括与印地语接近的语言如阿瓦德语和马尔瓦迪语,以及法语克里奥尔语如塞舌尔克里奥尔语和毛里求斯克里奥尔语。随着技术的进步,以及谷歌继续与语言学专家和母语使用者合作,未来将支持更多的语言变体和拼写规范。
访问帮助中心了解更多关于这些新支持的语言,并通过translate.google.com或Android和iOS上的Google Translate应用程序开始翻译。