
在约翰内斯堡罗斯班克区的一个共享办公空间内,计算机科学家兼研究员Jade Abbott打开了她的电脑,让ChatGPT用isiZulu语(南非超过1000万人使用的语言)从1数到10。她表示结果“既混乱又有趣”。随后,她用isiZulu语输入了几句话,并要求聊天机器人将其翻译成英语。结果再次出人意料,完全不准确。尽管已经努力将某些语言纳入AI模型,即使这些语言可用于训练的数据不多,但对于Abbott来说,这些结果显示出技术“真的还没有捕捉到我们的语言”。
Abbott的经历反映了不说英语的非洲人所面临的情况。许多像ChatGPT这样的语言模型对于使用人数较少的语言表现不佳,尤其是非洲语言。但是,由Abbott和生物医学工程师Pelonomi Moiloa合作的一个名为Lelapa AI的新企业,正试图使用机器学习创建专门为非洲人服务的工具。
Lelapa今天发布的一个名为Vulavula的新AI工具,可以将语音转换为文本,并在书面文本中识别人名和地名(这对于文档总结或在线搜索某人可能很有用)。目前它能识别南非的四种语言——isiZulu、南非荷兰语、塞索托语和英语——团队正在努力将其他非洲语言纳入其中。Vulavula(在Xitsonga语中意为“讲话”)可以单独使用,也可以集成到像ChatGPT这样的现有AI工具和在线对话机器人中。希望通过Vulavula使那些目前不支持非洲语言的工具变得易于使用。
Moiloa表示,缺乏适用于非洲语言且能识别非洲名字和地点的AI工具使非洲人被排除在经济机会之外。对她而言,开发以非洲为中心的AI解决方案是帮助非洲人利用AI技术的巨大潜在好处的一种方式。“我们正在尝试解决真实问题,并将权力重新交到我们人民手中。”
世界上有成千上万种语言,仅非洲就有1000到2000种;据估计,该大陆占全球语言的三分之一。但尽管英语母语者仅占全球人口的5%,英语却主导了网络——现在也主导了AI工具。已经有一些纠正这种不平衡的努力。例如,OpenAI的GPT-4包括了像冰岛语这样的小众语言。2020年2月,谷歌翻译开始支持大约7500万人使用的五种新语言。但这些翻译很肤浅,该工具经常搞错非洲语言,离准确数字化非洲语言还有很长的路要走,非洲AI研究人员说。
例如,今年早些时候,埃塞俄比亚计算机科学家Asmelash Teka Hadgu在卢旺达基加利的一次顶级非洲AI会议上进行了与Abbott相同的实验。当他用他的母语提格里尼亚语向聊天机器人提问时,得到的答案完全是胡言乱语。“它生成的词完全没有意义,”Hadgu说,他是柏林的一家名为Lesan的AI初创公司的联合创始人,该公司正在开发埃塞俄比亚语言的翻译工具。
Lelapa AI和Lesan只是为非洲语言开发语音识别工具的两家初创公司之一。2月份,Lelapa AI筹集了250万美元的种子基金,该公司计划在2025年进行下一轮融资。但非洲企业家表示,他们面临重大障碍,包括缺乏资金、投资者获取渠道有限,以及训练AI学习多样化非洲语言的困难。“在非洲科技初创公司中,AI获得的资金最少,”伦敦初创公司AJALA的创始人Abake Adenle说,该公司为非洲语言提供语音自动化服务。
Hadgu说,开发支持非洲语言的产品的AI初创公司常常被投资者忽视,原因是潜在市场规模小、缺乏政治支持和互联网基础设施薄弱。然而,Hadgu表示,包括Lesan、GhanaNLP和Lelapa AI在内的小型非洲初创公司正在发挥重要作用:“大型科技公司不关注我们的语言,但我们不能等待他们。”
Lelapa AI正试图为非洲的AI模型创造一个新范式,公司AI团队的数据科学家Vukosi Marivate说。与西方公司不同,Lelapa AI不仅依靠互联网收集数据来训练其模型,还与语言学家和当地社区在线上和线下合作,收集数据、注释数据,并确定工具可能存在问题的用例。Lelapa AI的自然语言处理(NLP)研究员Bonaventure Dossou说,与语言学家合作使他们能够开发出具有特定语境和文化相关性的模型。“将文化敏感性和语言视角融入技术系统使系统变得更好,”Dossou说。例如,Lelapa AI团队为特定语言构建了情感和语调分析算法。
Marivate及其Lelapa AI的同事们设想了一个AI技术为非洲人服务并代表非洲人的未来。2019年,Marivate和Abbott成立了Masakhane,一个旨在促进非洲语言NLP研究的草根倡议。该倡议现在有成千上万的志愿者、编码人员和研究人员共同努力,构建以非洲为中心的NLP模型。
Moiloa说,由非洲人为非洲人构建的Vulavula和其他AI工具很重要:“我们是我们语言的守护者。我们应该是为我们的语言工作的技术的建造者。”