近年来,智能眼镜的热度直线上升,尤其在语音和音频应用领域,比如音乐播放和通讯,它们的优势相较于手机或是固定的智能音箱显而易见。想象一下,戴在头上的这玩意儿不仅装备了多个麦克风、摄像头和其他传感器,还能让你体验到与众不同的便捷。最吸引人的一点可能就是实时字幕功能了,想想未来还可能实现实时跨语言翻译,岂不是美滋滋? 但要实现这一切,得先攻克一系列难题,包括但不限于目标说话人的识别与定位、活动检测、语音识别和声音分离。加入其他信号,比如连续的加速度计和陀螺仪数据,结合音频数据,可能就是解决这些问题的钥匙。 为了支持这方面的研究,人们创建了MMCSG数据集。这个数据集包含了两位参与者之间自发对话的记录,两位参与者都获得了报酬,并同意他们的数据被纳入研究。其中一位参与者佩戴了可以捕捉视频、音频(配备7个麦克风)和惯性测量单元(IMU)数据(包括陀螺仪和加速度计)的智能眼镜。所有对话都经过人工注释,提供了智能眼镜佩戴者的转录、分割和标记。为了保护参与者的隐私,视频中的人脸都进行了模糊处理。 MMCSG数据集的目的是为了研究,使用需遵守我们的数据许可协议。 下载数据集: https://ai.meta.com/datasets/mmcsg-downloads/ 下载论文:Task 3 – MMCSG | CHiME Challenges and Workshops
ChatGPT的增长已经进入了瓶颈期
ChatGPT这颗曾经闪耀的AI新星,如今似乎进入了“成长的冬天”。据Similarweb这家分析公司的最新数据透露,OpenAI旗下的这位聊天机器人在过去八个月里有五个月的网络流量呈下降趋势,目前比2023年5月的巅峰时期下降了11%。而它的移动应用程序的增长速度也慢得出奇,甚至没有Snapchat在上个季度新增的用户多。 这些数据表明,OpenAI的后ChatGPT时代来得比许多人预期的还要快。尽管OpenAI最初将ChatGPT视作其GPT模型的一个演示项目,但它迅速成长为一件大事,让人们对它的潜力寄予厚望。然而,随着增长的放缓,公司必须更加努力地推进其他项目,并且思考为什么它的旗舰产品无法持续其快速的增长势头。 SimilarWeb的高级洞察经理David Carr对我说:“尽管他们吸引了很多注意力,ChatGPT仍然没有成为主流”。 让我们来看看这些数据究竟意味着什么: 2023年5月,ChatGPT的网络访问量达到了18亿次的峰值,但在夏季期间开始下滑。到了2023年8月,访问量从高峰时期下降了21%,之后就没有恢复过来。有人将夏季的下滑解释为由于学生放假的临时暂停,但在初秋的反弹之后,ChatGPT的使用量在11月下降了超过3%,12月下降了7%。到了2024年1月,它的访问量为16亿次,比峰值时期下降了11%,自2023年中旬以来增长停滞。这些数字虽然庞大,但相比之下:拥有全球3.4%搜索市场份额的Bing,在1月份收到了13亿次访问。 同时,ChatGPT的移动应用程序也并未如预期般飞速起飞。该应用程序在2023年7月以430万美国用户的身份首次亮相,但到2024年1月只增长到了630万美国用户。相比之下,Snapchat在2023年第四季度仅新增了800万日活跃用户,从4.06亿增长到了4.14亿。 OpenAI没有回应置评请求。 ChatGPT的停滞并不意味着OpenAI的结束,反而是一个进化的必要。这家研究机构可能价值1000亿美元,上周四推出了一个名为Sora的惊人视频生成模型,显示了一条前进的道路。在一个竞争激烈的AI竞赛中,Google的Gemini刚刚达到了GPT-4的能力,OpenAI将不得不持续推出新作以保持领先。Sora正是这样一种创新,当OpenAI CEO Sam Altman在X上展示其能力时,它获得了极高的评价。 尽管开发者为用户在ChatGPT平台上构建插件的梦想可能难以实现,但GPT技术仍然是OpenAI业务的核心。该公司通过出售对GPT模型的访问权限给企业,实现了约20亿美元的年化收入,使它们能够在其产品中构建特定用途的小型机器人和功能,如自然语言搜索。OpenAI还在开发AI代理,可能会接管机器并执行操作,如填写费用报告,这是一个重大推动,可能会最大化其当前技术的价值。 随着OpenAI的模型变得更好,ChatGPT也将变得更好,给它一个随时间增长的机会。公司目前正在解决ChatGPT最令人沮丧的问题之一——它的金鱼记忆——通过构建更好的回忆能力。不必在每次登录后都重新告诉机器人你是谁,对于重度用户来说应该是一种解脱。 大型、通用的聊天机器人也可能就有一个作为用户界面的上限,这是从一开始就困扰着ChatGPT的问题。如果这是极限,OpenAI应该还好,但如果它的革命性应用无法突破当前的阈值,那肯定会感到失望。
全新芯片闪亮登场,人工智能计算速度将迈入光速时代
宾夕法尼亚大学的工程师们最近大显神通,研发出了一款革命性的新芯片,这不是普通的芯片哦,它用光波而不是电来完成那些让AI变聪明的复杂数学计算。想想看,这意味着什么?这意味着电脑的处理速度将大大加速,同时还能省下一大笔电费。 这块硅光子(SiPh)芯片的设计灵感来自于Benjamin Franklin Medal Laureate和H. Nedwill Ramsey教授Nader Engheta的开创性研究。他们用纳米级别的材料操纵技术,在光——通信的最快方式——的帮助下进行数学计算,并且这还是基于硅的平台,没错,就是那个用来大规模生产电脑芯片的便宜且丰富的元素。 光波与物质的互动可能是突破今天电脑芯片局限性的一条途径,这些局限性基本上还是停留在1960年代计算革命初期芯片的原理上。 在《自然·光子学》杂志上发表的一篇论文中,Engheta的团队和电气及系统工程副教授Firooz Aflatouni的团队共同描述了这款新芯片的研发过程。 Engheta说:“我们决定联手。”他们利用Aflatouni的研究小组在纳米级硅器件方面的领先地位。 他们的目标是开发一个平台,用于执行向量-矩阵乘法,这是神经网络发展和功能中的核心数学操作,神经网络是当今AI工具的计算架构。 Engheta解释说,他们没有使用高度均匀的硅晶片,而是“让硅变薄,比如说到150纳米”,但这种变薄只发生在特定区域。这种高度的变化——而不需要添加任何其他材料——提供了一种控制光通过芯片传播的方法,因为高度的变化可以分布以引起光以特定模式散射,让芯片能够以光速进行数学计算。 由于生产芯片的商业铸造厂的限制,Aflatouni说,这种设计已经准备好用于商业应用,并且可能适用于图形处理单元(GPU),随着开发新AI系统的广泛兴趣,对GPU的需求已经急剧上升。 Aflatouni表示:“他们可以将硅光子平台作为一个附加组件,然后你可以加速训练和分类。” 除了更快的速度和更少的能耗外,Engheta和Aflatouni的芯片还具有隐私优势:因为许多计算可以同时进行,所以不需要在计算机的工作内存中存储敏感信息,这使得由这种技术驱动的未来计算机几乎不可能被黑客攻破。 Aflatouni说:“没有人可以黑进一个不存在的内存来访问你的信息。” 其他共同作者还包括宾夕法尼亚大学工程学院的Vahid Nikkhah、Ali Pirmoradi、Farshid Ashtiani和Brian Edwards。
Groq 首秀:一个闪电般基于LPU的 AI 答案引擎
去试试感觉下这个闪电般的速度 Groq Groq家的LPU可不走寻常路,它抛弃了大家熟悉的GPU那套SIMD(单指令多数据)模式。别看GPU玩并行处理玩得飞起,拿来渲染图形啥的有几百个核心呢,但LPU呢,它是专为AI计算打造,能够提供确定性的性能表现。 而且呢,LPU在能源效率上也超给力,它通过减少管理多线程的开销,避免核心利用率低下,因此在每瓦特的计算量上能做得更好,堪称环保小能手。 Groq的LPU潜力无限,无论是聊天机器人互动、个性化内容生成,还是机器翻译等基于大型语言模型的应用,都有望因此而性能飙升,价格更亲民。特别是在NVIDIA的A100和H100那么抢手的情况下,它可能成为一个不错的替代选择。 说到Groq的创立,还得提它的大佬Jonathan Ross。2016年,他搞起了这家公司,而且哦,他可是Google TPU(张量处理单元)项目的发起人,一开始还只是他的业余项目呢。后来他在Google X的Rapid Eval Team混过一阵,最终决定自己出来搞Groq。
Meta 最近搞的LLM软件测试让人眼前一亮
“Meta 使用大型语言模型自动优化单元测试”(https://arxiv.org/abs/2402.09171) 这篇论文介绍了 Meta 的 TestGen-LLM 工具,这是一个利用大型语言模型(LLMs)来自动优化人类编写的测试的工具。该工具确保生成的测试类通过一系列过滤器,以保证相对原始测试套件的显著改进,并减少与 LLM 幻觉相关的问题。文中讨论了在 Instagram 和 Facebook 平台的 Meta 测试马拉松中部署 TestGen-LLM 的情况,并展示了令人鼓舞的结果。在专注于 Instagram 的 Reels 和 Stories 产品的评估中,75% 的 TestGen-LLM 测试用例成功构建,57% 可靠通过,测试覆盖率增加了25%。论文强调了在 diff 时间部署测试的有效性,因为它为工程师提供了现有测试和审核中的代码的完整上下文。通过测试马拉松的经验获得了关于 diff 时间部署模式的见解,揭示了这项技术在现实世界场景中的表现。最初是手动完成的,但在后续事件中自动化了,为 Instagram 测试马拉松构建 TestGen-LLM diffs 取得了有希望的结果。在第一次 Instagram 测试马拉松中,36名工程师提交了105个单元测试 diffs,其中16个由 TestGen-LLM 生成。值得注意的是,一个 diff 因测试用例中缺乏断言而被拒绝。结果各不相同,一些 diffs 通过覆盖以前未触及的方法和文件显著提高了覆盖率。最大的覆盖率改进来自于一个覆盖了多个新文件和 A/B 测试守门员的 diff。在相关工作方面,基于大型语言模型的软件工程(LLMSE)领域的软件测试生成已被广泛研究。虽然以前的文献回顾证实了基于 LLM 的测试生成方法的普遍性,但本文因其专注于扩展现有测试类并报告工业规模部署的结果而脱颖而出。总的来说,这篇论文通过 diff 时间部署策略,为使用 LLM 在 Meta…
Slack 给平台加入了 AI 驱动的搜索和总结功能
Slack 这个企业通讯平台不仅仅是我们日常工作的小助手,它还默默地成为了一个知识库,里面藏着各种宝贵的公司信息。但是,想要从这个混乱无序的知识海洋中捞出有用的信息,以前可没那么简单。好消息来了,Slack 最近推出了几个新功能,让这些信息变得触手可及,包括一项全新的 AI 驱动搜索工具和频道内信息总结能力。 Slack 的产品大佬 Noah Weiss 说,平台以一种非正式且无结构的方式自然而然地收集了企业信息。挑战在于如何找到方法,把这些藏在暗处的知识宝藏挖掘出来。他在接受 TechCrunch 采访时表示,“这一切的关键在于,现在这波生成式 AI 技术的涌现让我们能够从多年来积累的分析中提取出全新的意义和智能。” 去年五月,Slack 在纽约的 Salesforce World Tour 上宣布,它将把生成式 AI 集成到平台中,这不仅仅是一个泛泛的号召,还特别为 Slack 平台上的内容打造了 SlackGPT。 今天的宣布更具体地把这一点付诸实践。Weiss 说,能够总结频道内容帮助员工在休假后迅速赶上进度,或者避免阅读冗长的线索就能抓住对话的要点。通过频道总结,你可以请求一个总结,Slack 的 AI 模型就会生成一个讨论话题的总结,并提供参考资料来展示模型是如何创建总结的每个部分,这是这个功能设计中的一个关键部分。 “你可以深入到任何区域,我们会向你展示所有详细的上下文。所以我们真的在考虑透明度,建立信任,确保我们展示我们的工作,并且给人们能力深入了解更多,如果他们想要的话,”他说。 公司还允许用户以自然的方式提问,就像与 ChatGPT 一样,但它使用的是 Slack 内容而不是更广泛的互联网内容,所以用户可以问一个问题,比如 ‘Project Gizmo 是什么?’ Slack AI 然后提供一个答案,再次带有来源,让人们看到答案从哪里来,以及他们是否可以信任它。 每个答案都包括一个质量检查,用户可以说答案是好的、坏的还是中性的,这样模型就可以学习到关于响应的质量,系统工程师也可以看到模型的表现如何。 他没有透露关于底层模型的具体细节,只是说它是大型语言模型的混合体。“我们发现它们各有不同的表现方式,速度和质量特性也不同。我们花了很多时间对模型进行微调,以适应我们在 Slack 中实际拥有的数据,同时也在提示工程方面做了大量工作。” Slack 的 AI 搜索和总结功能是企业计划的附加产品,这意味着它的成本会在正常许可成本之上额外增加。Slack 没有提供成本细节,但它今天在美国和英国提供,目前只有英文版本,但公司表示不久的将来会有更多语言版本推出。
OpenAI发布Sora,另一个层次的黑科技
OpenAI刚刚向外界展示了一个令人震惊的新技术——一种基于文本提示生成逼真视频的人工智能,这个名为Sora的文本到视频模型,引发了网上一片惊叹。在周四的一篇博客文章中,OpenAI介绍说,Sora“深刻理解语言”,能够生成“表达丰富情感的引人入胜的角色”。https://openai.com/sora Sora能够生成包含多个角色、特定类型动作和准确的主题及背景细节的复杂场景。这家得到微软支持的初创公司说:“这个模型不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中的存在方式。” OpenAI的CEO Sam Altman在X上邀请用户为Sora提供提示,然后发布了一些逼真视频的结果,包括两只金毛寻回犬在山顶上播客、一位祖母制作意大利面食gnocchi,以及海洋动物在海面上进行自行车比赛。 这些超现实的视频质量在社交媒体上引发了惊讶的反响,用户们纷纷称赞这些结果“不可思议”和“改变游戏规则”。“过了两个小时,我的大脑还是无法处理这些由OpenAI Sora生成的视频,”X上的用户Allen T说。然而,这一展示也引发了对潜在风险的担忧,特别是在全球密切关注的选举年,包括11月的美国总统选举。OpenAI在其博客文章中表示,将在向公众发布Sora之前采取几项重要的安全措施。 公司表示:“我们正在与红队专家合作——这些领域专家擅长于信息误导、仇恨内容和偏见——他们将对模型进行对抗测试。”“我们还在开发工具来帮助检测误导内容,比如一个检测分类器,能够识别视频是否由Sora生成。”OpenAI还承认Sora存在弱点,包括连贯性和区分左右的困难。 例如,一个人可能咬了一口饼干,但之后,饼干可能没有咬痕。与OpenAI的竞争对手Meta和Google也展示了文本到视频AI技术,但他们的模型未能产生像Sora那样逼真的结果。
下一代模型:Gemini 1.5,正如它的名字一样闪亮登场
上周,Google推出了其迄今为止最强大的模型——Gemini 1.0 Ultra,标志着其产品,尤其是Gemini Advanced变得更加有用的重要一步。从今天起,开发者和云客户也可以开始使用1.0 Ultra——通过AI Studio和Vertex AI中的Gemini API进行构建。 Google的团队继续推动最新模型的前沿,将安全性放在核心位置,并取得了迅速的进展。事实上,他们已准备好介绍下一代模型:Gemini 1.5。它在多个维度上展现出显著的改进,1.5 Pro在使用更少的计算资源的同时,达到了与1.0 Ultra相当的质量。 这一新一代还实现了在长文本理解上的突破。Google已经显著增加了其模型可以处理的信息量——稳定运行高达100万个令牌,实现了迄今为止任何大规模基础模型中最长的上下文窗口。更长的上下文窗口展示了可能性的承诺,将使得全新的能力成为可能,并帮助开发者构建更多有用的模型和应用程序。Google对开发者和企业客户提供这一实验功能的有限预览感到兴奋。Demis分享了更多关于能力、安全性和可用性的信息。 由Google DeepMind的CEO Demis Hassabis代表双子团队介绍Gemini 1.5:这是人工智能领域令人激动的时刻。领域内的新进展有潜力在未来几年为数十亿人提供更多帮助。自从引入Gemini 1.0以来,Google一直在测试、完善和增强其能力。今天,Google宣布了下一代模型:Gemini 1.5。Gemini 1.5带来了显著提升的性能。它代表了Google方法的一个重大变化,建立在几乎每一个部分的研究和工程创新之上,这包括使Gemini 1.5更加高效的训练和服务,采用了新的专家混合(MoE)架构。 Google正在为早期测试发布的第一个Gemini 1.5模型是Gemini 1.5 Pro。这是一个中等大小的多模态模型,为跨广泛任务的扩展进行了优化,并且与迄今为止最大的模型1.0 Ultra表现在相似的水平。它还引入了在长文本理解上的实验性突破特性。Gemini 1.5 Pro配备了标准的128,000令牌上下文窗口。但从今天起,一小部分开发者和企业客户可以通过AI Studio和Vertex AI在私密预览中尝试高达100万令牌的上下文窗口。 随着Google全面推出100万令牌上下文窗口,他们正在积极工作以改善延迟、降低计算需求并增强用户体验。Google对人们尝试这一突破性能力感到兴奋,并在下方分享了更多关于未来可用性的详细信息。这些在下一代模型中的持续进步将为人们、开发者和企业开启使用人工智能创建、发现和构建的新可能性。 Gemini 1.5基于Google在Transformer和MoE架构上的领先研究。而传统的Transformer作为一个大型神经网络运行,MoE模型被划分为较小的“专家”神经网络。根据给定的输入类型,MoE模型学会只激活其神经网络中最相关的专家路径。这种专业化大大提高了模型的效率。Google是通过诸如Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4等研究,成为深度学习中MoE技术的早期采用者和先锋。 Google的最新模型架构创新使Gemini 1.5能够更快地学习复杂任务并保持质量,同时训练和服务更加高效。这些效率帮助Google的团队比以往任何时候都更快地迭代、训练和交付更高级的Gemini版本,并且他们正在进行进一步的优化。作为大规模模型中首创的长上下文窗口,Google正在不断开发新的评估和基准测试来测试其新颖能力。遵循AI原则和严格的安全政策,Google确保其模型经过广泛的伦理和安全测试。然后,将这些研究成果整合到其治理过程、模型开发和评估中,以持续改进其AI系统。 自从去年12月引入1.0 Ultra以来,Google的团队继续对模型进行精炼,使其对更广泛的发布更安全。他们还进行了关于安全风险的新研究,并开发了红队技术来测试一系列潜在的危害。在发布1.5 Pro之前,Google采取了与其Gemini 1.0模型相同的负责任部署方式,进行了包括内容安全和代表性伤害在内的广泛评估,并将继续扩大这种测试。此外,Google正在开发进一步的测试,以考虑1.5 Pro的新长上下文能力。Google致力于负责任地将每一代Gemini模型带给全球数十亿人、开发者和企业。 从今天开始,Google通过AI Studio和Vertex AI向开发者和企业客户提供1.5 Pro的有限预览。更多信息请参阅Google开发者博客和Google Cloud博客。当模型准备好进行更广泛发布时,Google将引入标准的128,000令牌上下文窗口的1.5 Pro。不久,Google计划引入从标准的128,000上下文窗口开始并扩展到100万令牌的定价等级,随着模型的改进。在测试期间,早期测试者可以免费尝试100万令牌上下文窗口,尽管他们应该预期这一实验性功能会有较长的延迟时间。速度的显著改进也即将到来。 有兴趣测试1.5 Pro的开发者现在可以在AI Studio注册 (https://aistudio.google.com/app/waitlist/97445851),而企业客户可以联系他们的Vertex AI账户团队。
NVIDIA 刚刚揭秘了他们的最新大作——Eos,一台跻身全球十强的超级计算机
周四,NVIDIA 发布了一段视频,首次公开展示了其最新的数据中心级超级计算机——Eos,为我们揭开了驱动高级AI工厂的架构之谜。 Eos,这个规模庞大的NVIDIA DGX SuperPOD,是NVIDIA开发者利用加速计算基础设施和全面优化的软件创造AI突破的地方。配置了576套NVIDIA DGX H100系统,搭载NVIDIA Quantum-2 InfiniBand网络和软件的Eos,提供了高达18.4 exaflops的FP8 AI性能。 在2023年的超级计算贸易展览会上首次亮相的Eos,以希腊神话中的曙光女神命名,反映了NVIDIA对推进AI技术的承诺。Eos超级计算机是创新的加油站。每套DGX H100系统配备了八个NVIDIA H100 Tensor Core GPU,Eos共有4608个H100 GPU。因此,Eos能够处理最大的AI工作负载,包括训练大型语言模型、推荐系统、量子模拟等。 它展示了NVIDIA的技术在规模化工作时能做到什么。Eos的出现正逢其时。人们正在用生成式AI改变世界,从药物发现到聊天机器人,再到自主机器等等。为了实现这些突破,他们需要的不仅仅是AI专业知识和开发技能。他们需要一个AI工厂——一个专为AI设计的引擎,随时可用,可以帮助他们扩大规模,构建AI模型。 Eos做到了。在全球最快的500台超级计算机中排名第9,Eos推动了AI技术和基础设施的边界。它结合了NVIDIA的高级加速计算和网络技术,以及如NVIDIA Base Command和NVIDIA AI Enterprise等复杂的软件产品。Eos的架构为要求超低延迟和高吞吐量互联的大规模加速计算节点集群上的AI工作负载进行了优化,是企业扩大AI能力的理想解决方案。 基于NVIDIA Quantum-2 InfiniBand及其网络内计算技术的网络架构,支持高达400Gb/s的数据传输速度,便于快速移动训练复杂AI模型所需的大型数据集。Eos的核心是由NVIDIA的DGX H100系统驱动的革命性DGX SuperPOD架构。这种架构旨在为AI和计算领域提供紧密集成的全栈系统,能够进行大规模计算。 随着全球的企业和开发者寻求利用AI的力量,Eos站在了一个关键的资源点上,承诺加速向AI融合应用的旅程,为每一个组织注入动力。
最新研究发现,迄今为止最大的Amazon文本转语音人工智能模型展现出了”新兴能力”
亚马逊的研究人员训练出了迄今为止最大的文本转语音模型,他们声称这个模型展现出了“新兴”品质,提高了其自然地讲述甚至复杂句子的能力。这一突破可能正是这项技术需要的,以跳出令人不安的谷地。(详细的去看:BASE TTS) 这些模型的成长和进步是必然的,但研究人员特别希望看到一旦语言模型达到一定规模后,我们观察到的能力飞跃。出于我们不知道的原因,一旦大型语言模型(LLMs)增长到一定点,它们开始变得更加健壮和多才多艺,能够执行它们未经训练的任务。 这并不是说它们获得了自我意识或任何东西,只是说过了某个点,它们在某些对话AI任务上的表现呈现出曲棍球棒式增长。亚马逊AGI团队——他们的目标不言而喻——认为文本转语音模型的增长也可能出现同样的情况,他们的研究表明这确实是事实。 这个新模型被称为Big Adaptive Streamable TTS with Emergent abilities,简称BASE TTS。这个模型的最大版本使用了10万小时的公共领域语音,其中90%是英语,剩余的是德语、荷兰语和西班牙语。BASE-large有9.8亿参数,似乎是这一类别中最大的模型。他们还训练了基于10000小时和1000小时音频的4亿和1.5亿参数模型进行比较——目的是,如果其中一个模型显示出新兴行为,而另一个则没有,你就有了这些行为开始出现的范围。 事实证明,中等大小的模型显示出团队所寻找的能力跳跃,不一定在普通的语音质量上(它的评价更好,但只多了几分),而是在他们观察和测量到的新兴能力集上。下面是论文中提到的一些棘手文本示例: “这些句子被设计来包含挑战性任务——解析花园路径句子,对长篇复合名词施加短语重音,产生情绪化或耳语般的语音,或为像‘qi’这样的外来词或‘@’这样的标点符号产生正确的音素——所有这些BASE TTS都没有明确训练过,”作者写道。 这些特性通常会使文本转语音引擎出错,它们可能会发音不准确、跳过单词、使用奇怪的语调或犯下其他错误。BASE TTS仍然遇到了困难,但它比其同类模型——像Tortoise和VALL-E——表现得好得多。 他们为此模型制作的网站上有一些这些难处理文本被自然朗读的例子。当然这些例子是由研究人员挑选的,所以必然是精挑细选的,但无论如何都令人印象深刻。如果你不想点击查看,这里有几个例子: 哔哩哔哩音乐https://www.bilibili.com/audio/au4276593?type=1 因为这三个BASE TTS模型共享一个架构,很明显模型的大小和其训练数据的广度似乎是模型能够处理上述复杂性的原因。请记住,这仍然是一个实验模型和过程——不是一个商业模型或任何东西。后续研究将必须确定新兴能力的拐点以及如何有效地训练和部署结果模型值得注意的是,这个模型是“可流式传输”的,正如名称所示——意味着它不需要一次生成整个句子,而是可以逐刻以相对低的比特率进行。团队还尝试将语音元数据,如情感性、韵律等,打包在一个单独的、低带宽流中,这可能伴随着普通音频。 看来,文本转语音模型可能会在2024年迎来突破性时刻——正好赶上选举!但不可否认,这项技术的实用性,特别是在可访问性方面。团队确实注意到,由于担心坏人利用它,他们选择不公开模型的源代码和其他数据。不过,这只是时间问题,猫终将从袋中逃出。