Meta推出了名为Audiobox的全新基础音频生成研究模型。这款Audiobox能够通过语音输入和自然语言文本提示的结合,生成各种声音和音效,轻松为多种用途创造定制音频。作为我们对负责任研究行为承诺的一部分,我们即将邀请研究人员和学术机构申请专项资金,用于开展与Audiobox相关的安全性和责任研究。 首个跨任务通用的语音生成AI模型,具有最先进的性能 借助基础多模态模型,让世界通过语音翻译更加紧密联系 开放源码AudioCraft:简单且对所有人开放的音频生成AI 今年早些时候,Meta推出了Voicebox,一种最先进的AI模型,能够执行如编辑、采样、风格化等语音生成任务。它在生成AI方面取得了突破,可以通用于未经特定训练的语音生成任务,并以最先进的性能执行这些任务。 现在,作为Voicebox的继任者,Audiobox通过统一语音、音效(如狗叫、汽车喇叭、雷声等短暂、离散的声音)和声景的生成和编辑能力,进一步推进了音频生成AI。Audiobox还支持多种输入方式,以最大限度地控制每个用例。 最值得注意的是,Audiobox允许人们使用自然语言提示来描述他们想要生成的声音或语音类型。例如,如果有人想要生成声景,他们可以给模型一个文本提示,比如“奔流的河流和鸟儿的啼鸣”。 描述并生成声音:用户可以提供所需声音的简短描述,并要求模型生成它。 类似地,要生成一种声音,用户可能会输入,“一个年轻女性以高音调和快速节奏说话”。 描述并生成语音:用户可以提供所需声音的简短描述,以及要讲述的文字,并要求模型生成语音。 该模型还允许用户将音频语音输入与文本风格提示结合起来,以合成任何环境(例如,“在大教堂里”)或任何情感(例如,“悲伤和缓慢地说话”)中的该声音的语音。据我们所知,Audiobox是第一个允许自由风格声音重塑的双输入(语音提示和文本描述提示)模型。 声音重塑:Audiobox可以重塑声音,使其听起来好像在不同的环境中——例如,在这个例子中的一个大教堂。 Audiobox在语音和音效生成的可控性上展示了最先进的水平。我们自己的测试显示,它在质量和相关性(忠实于文本描述)方面显著优于之前的最佳模型(AudioLDM2、VoiceLDM和TANGO)。在各种语音风格上,Audiobox在风格相似性方面超过了Voicebox 30%以上。 长期来看,从构建只能生成一种类型音频(如语音或声音)的专用生成模型,转向构建可以生成任何音频的通用生成模型,将至关重要。有了这种模型,我们可以执行任何需要跨模态理解的生成音频任务。这将使开发者更容易地构建向更动态和广泛的用例。 Audiobox 是走向民主化音频生成的重要一步。我们设想一个每个人都可以更轻松、更有效地创建定制音频以满足其用例的未来。我们希望在文本和图像生成领域点燃创造力的进步,也能在音频上发生,无论是专业人士还是业余爱好者。 内容创作、讲述、声音编辑、游戏开发,甚至 AI 聊天机器人,都可以从音频生成模型的能力中受益
Author: aitrendtrackers@rengongzhineng.io
亚马逊首席技术官2024年科技预测
科技发展速度飞快。 先进的云技术、机器学习和生成人工智能现在触手可及。它们几乎影响着我们生活的每一个方面,从撰写电子邮件到软件开发,再到早期疾病的检测和诊断。未来几年,各个领域的创新将致力于让科技普及化,使用户能够跟上日常生活的加速步伐——从生成AI开始,亚马逊首席技术官兼副总裁Werner Vogels周四表示。《国家报》(The National)关注了沃格尔斯先生在周四亚马逊Web服务的re:Invent活动上做出的一些2024年的主要科技预测。 文化敏感的生成性AI大型语言模型将基于文化多样性数据进行训练,以确保更好地理解人类经验并解决复杂的社会挑战。这将保证模型能够在广泛的主题上提供更加健壮和技术上准确的回应。其影响将是深远的,将跨越地理区域、社区和后代。 “文化影响着一切——我们讲述的故事、我们吃的食物、我们的着装方式、我们的价值观、我们的礼仪、我们的偏见、我们解决问题和做决定的方式,”Vogels先生说。“这种文化流利度承诺将使生成AI对全球用户更加易用。” FemTech迎来期待已久的飞跃随着FemTech投资的激增,2024年女性健康护理将达到一个转折点,大量数据将使诊断和患者结果得到改善。“我们一直与女性领导的初创公司密切合作,亲眼目睹了FemTech的增长。仅去年一年,资金就增加了197%,”Vogels先生说。 随着获得资本的增加,像机器学习、AI和专为女性设计的连接设备等技术预计明年将激增。美国女性,占人口的50%,在该国占消费者医疗决策的80%,每年在护理上的支出超过5000亿美元,AWS说。 AI助手革新开发者的效率AI助手将从基本代码生成器进化为教育者和协作者,在整个软件开发生命周期中提供支持。这些助手可以在个人、团队或公司级别进行定制,它们将能够解释复杂分布式系统的复杂性。 “它们将用简单的语言解释复杂系统,建议有针对性的改进,并承担重复任务,让开发者专注于他们工作中最有影响的部分,”Vogels预测。 因此,在未来几年,工程团队将变得更加高效,开发更高质量的系统,并缩短软件发布周期,“因为AI助手从新奇变为整个软件行业的必需品”,他说。 教育与快速技术创新同步Vogels预测,以行业为导向的技能培训项目将在2024年出现,这种转变将使人们和企业受益。“随着越来越多的行业要求员工专业化,学校教授的内容与雇主需求之间的差距正在扩大,”他说。上周,亚马逊宣布了一个名为“AI Ready”的倡议,旨在到2025年为全球200万人提供免费的AI技能培训。 但Vogels先生说,这并不意味着传统学位将消失。“这不是非此即彼的情况……这是关于选择的,”他说。“在科技领域仍有一些领域,这种学术学习是至关重要的。但将有许多行业,其中技术的影响超过了传统教育系统。”
Meta推出了一套AI语言翻译模型,这些模型不仅能保留说话的表达方式,还能提升流式翻译的效果
Meta最近发布了一批新的语言翻译模型。这些模型在翻译我们的话时,可以保持我们的说话方式不变。而且,你不必等到说完话才能得到翻译,语音输出几乎能实时跟上你的说话。 Meta推出了他们的“无缝”系列语言翻译模型。 这里有四个模型: SeamlessM4T v2 – Meta于八月发布的基础模型。 SeamlessExpressive – 一个用于保留语音到语音翻译中表达的模型。 SeamlessStreaming – 一个流式翻译模型,提供最先进的结果,延迟大约两秒。 Seamless – 将SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2集成到一个模型中。 SeamlessExpressive目前能在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中保持语速、节奏停顿、情感和风格。SeamlessStreaming能在说话人仍在讲话时进行翻译。你可以在HuggingFace上试用这些模型,这些模型对非商业用途是开源的。 想象一下,在Instagram上使用无缝模型进行视频通话。你可以和世界上任何人聊天,英语不再是交流的障碍。另一个值得注意的点是,你可以构建算法来增强基础模型。例如,Seamless Streaming有一个算法,用于决定何时继续倾听,何时开始翻译,以处理不同语言中的不同句子结构。 这里去看更多 https://ai.meta.com/blog/seamless-communication/
Sam Altman 回归CEO专访确认Q*的存在
OpenAI董事局开除总裁萨姆后一天又让他回来,起先他感到忿忿不平,受伤且盛怒。“我花了几分钟平复自己,摆脱自负和情绪,然后意识到‘当然我想回去’,“他在周三的电话采访中向我透露。“显然,我真的很爱这家公司,在过去的四年半里全职为它贡献了生命力量,其实时间比这更久,大部分时间都在OpenAI。我们在实现我十分关心的使命方面进展顺利 ── 实现安全有益的人工通用智能。” 经过为期5天的董事会政变后,萨姆周三正式继续担任OpenAI CEO。公司最大投资者微软计划接受无表决权董事席位。 在我们的采访中,萨姆一再拒绝回答所有人心中的主要问题:他最初被开除的确切原因。OpenAI新董事会主席Bret Taylor将展开独立调查。“我非常欢迎”, 萨姆对我说。 以下是我与OpenAI CEO萨姆和CTO米拉的完整采访,为清晰起见稍加编辑: 萨姆,我想先讨论大家心中最大的疑问,那就是我们仍不知道你最初被开除的确切原因。你认为你被开除的原因是什么? 董事会将展开独立评议。我非常欢迎。现在我没有更多评论,不过我期待了解更多。 董事会声称对你失去信任,你怎么看? 这问题更适合让他们来回答。 你在X平台上说,你和董事会成员之间明显存在“误解”。这些误解是什么? 我还不准备讨论这个。我认为让评议过程继续非常重要。关于任何面向未来的事我都很乐意谈,可能过一段时间我会很乐意讨论这里发生的事,但现在不行。 你能告诉我你现在为什么谈不了吗? 我只是想让过程继续,不要干扰。 你在致员工的信中提到了伊利亚·萨斯克沃。你能透露下为什么他改变主意站到其他人一边了吗? 米拉:我们不知道。你必须问伊利亚。 萨姆,事后看来,你决定回归的主要原因是什么? 周六早上,一些董事会成员打电话给我,问我是否愿意讨论。我的第一反应是反抗。我当时心情很糟,觉得受到伤害且很生气。 然后,我立即意识到我其实真的很爱这家公司,在过去四年半里全职为它奉献生命力量,时间实际上更长。我们正在实现我极为在乎的使命,实现安全有益的通用AI。不仅是这个使命,还有这里的员工,所有给我们极大支持的合作伙伴,以及米拉和领导层,这里所有做出不可思议贡献的人。我花了几分钟平复自己,摆脱自负和情绪,然后意识到“当然我想回去”。 所以,董事会请你回来了? 是的。 你最初犹豫了? 不久。在发生那些事后,我有很多感受。 很明显员工都站在你一边。这有多大影响? 的确,我们因此变得团结一致、有更强使命感和决心。我本以为我们已经很有信念和决心,现在我认为比以前强很多很多。所以,这一切的积极意义在于此。 在整个过程中,我们没有流失任何员工或客户。不但产品即使面临巨大增长仍在正常运转,还推出了新功能。研究工作继续进展。 你想重返董事会吗? 这听起来像公关话术:这现在不是我的重点。我有大量非常困难、重要且紧迫的工作。我想好好完成自己的工作,而不是是不是在董事会。这不是我现在想的事。 “改进治理结构” 意味着什么?非营利控股公司结构会改变吗? 这问题更适合董事会成员来回答,而且现在也不行。诚实的回答是他们需要时间,我们会全力支持他们深入思考。显然,我们的治理结构出现问题。解决问题的最佳方式需要时间。我完全理解为什么人们现在就想要答案。但我也认为现在就期待答案不合理。 你认为为什么不合理? 我觉得人们看到许多含糊之处关于发生的事。貌似只是分歧,没有渎职或其他类似的事。 设计真正出色的治理结构需要时间,特别是对如此重大影响的技术。这绝不是一周就能回答的问题。它需要人们投入时间思考、讨论、听取外界观点,进行压力测试。这就需要一段时间。 OpenAI是否会由于刚发生的事而改变安全工作方法? 与安全无关。 关于你们最近取得的Q*模型突破的报道,情况如何? 对那起不幸泄密没有特别评论。不过,我们两周前、今天和一年多前一直在说的,就是预期这项技术的进展将继续迅速,而且我们也会继续努力弄清楚如何使其安全有益。这是我们每天起床的原因,未来也一样。我认为我们在这个问题上一直特别一致。 不评论任何特定事情或项目,我们相信进展源自研究。当然你可能会遇到障碍,但是我们预计进展会继续显著。我们希望就此与世界进行互动,搞清楚如何让事情尽可能向好的方向发展。 最后一个问题:我相信你仍在思考整个事件。我知道这还很新鲜。你从这个风波中获得的教训是什么? 我还没有准备好的简明扼要的回答。显然,有很多值得学习的地方,但是我还在努力理清它们。当然,这会有很多可以谈的,但是目前我只有漫长而支离破碎的答案。 好的,改天我们再聊吧。 结束通话后,萨姆几分钟后打来电话。 公司确实可以在没有我的情况下正常运转,这很好。别误会,我很高兴回来。但是我回来时没有任何压力,比如“哦,我必须做这个,公司需要我”,之类的。我自私地感到高兴,因为我选拔了出色的领导者,或者我很好地指导了他们。感觉公司会没事的,团队已准备好,并取得进步。这感觉很好。
Perplexity 推出全新大型在线语言模型
Perplexity 的这些新模型能够通过互联网访问及时信息,提供实用且基于事实的回答——这是离线模型难以做到的。 https://docs.perplexity.ai/docs 这意味着什么? 这些模型是在现有的开源模型,比如 Mistral-7B 和 Llama-70B 的基础上构建的。然后,这些模型通过将当前的网络信息进行层叠调整(微调),以更好地回答需要最新数据的问题,超越了离线模型。这些模型的目标是提供有用、无幻觉的回答。 Perplexity 对这些模型进行了新鲜度、准确性和实用性的评估,认为它们非常适合真实世界的使用场景,比如回答消费者问题,其中最新信息至关重要。作为发布的一部分,Perplexity 通过其公共 API 和 Perplexity Labs 游乐场向大众开放了这些模型的访问。 像 ChatGPT 这样的消费者产品正在将搜索功能加入产品中。搜索结果可以减少幻觉,而且人们关心实时信息。但在大多数模型中构建搜索功能是件繁琐的事情。PPLX 的新在线模型 API 为你内置了他们的 SEO 专业知识,你无需额外的搜索 API。」
Amazon Web Services (AWS) 宣布推出Amazon Q(预览版)
Amazon Q的推出是一项重大创新,标志着人工智能在商业场景中应用的一个重要发展。下面是这一新闻的关键点: Amazon Q的推出对于希望利用人工智能优化业务流程和提升客户体验的企业而言,是一个值得关注的重要里程碑。
介绍SDXL Turbo:一款实时文本到图像生成模型
关键要点总结: 在Stability AI的图像编辑平台Clipdrop上测试SDXL Turbo,体验实时文本到图像生成功能的beta演示。 今天,Stability AI 发布了SDXL Turbo,一种新的文本到图像模式。SDXL Turbo基于一种名为对抗扩散蒸馏(ADD)的新蒸馏技术,该技术使模型能够一步合成图像输出,并在保持高采样保真度的同时生成实时文本到图像输出。对于对技术细节感兴趣的研究人员和爱好者,Stability AI 的研究论文可在此处查看 https://stability.ai/research/adversarial-diffusion-distillation。重要的是要注意,SDXL Turbo目前尚不适用于商业用途。 对抗扩散蒸馏的优势 SDXL Turbo采用了扩散模型技术的新进展,基于SDXL 1.0的基础上进行了迭代,并实现了文本到图像模型的新蒸馏技术:对抗扩散蒸馏。通过结合ADD,SDXL Turbo获得了许多与GANs(生成对抗网络)相同的优势,如单步图像输出,同时避免了其他蒸馏方法中常见的伪影或模糊。详细介绍该模型新蒸馏技术的SDXL Turbo研究论文可在此处查看https://stability.ai/research/adversarial-diffusion-distillation。 与其他扩散模型相比的性能优势 为了选择SDXL Turbo,Stability AI 比较了多种不同的模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL),使用相同的提示生成输出。然后,人类评估员随机显示两个输出,并被要求选择最符合提示方向的输出。接下来,使用相同的方法完成了图像质量的额外测试。在这些盲测中,SDXL Turbo在单步中就能超过LCM-XL的4步配置,以及仅用4步就能超过SDXL的50步配置。通过这些结果,Stability AI 可以看到SDXL Turbo在显著降低计算需求的同时,无需牺牲图像质量,就超越了最先进的多步模型。 此外,SDXL Turbo还大幅提高了推理速度。在A100上,SDXL Turbo生成512×512图像的时间为207ms(提示编码+单次去噪步骤+解码,fp16),其中67ms由单个UNet前向评估占据。 探索SDXL Turbo与Clipdrop 要测试这款新模型的功能,请访问Stability AI的图像编辑平台Clipdrop https://clipdrop.co/stable-diffusion-turbo,体验SDXL Turbo实时图像生成的beta演示。它兼容大多数浏览器,目前可免费试用。 看看测试
为非洲语言构建人工智能技术
在约翰内斯堡罗斯班克区的一个共享办公空间内,计算机科学家兼研究员Jade Abbott打开了她的电脑,让ChatGPT用isiZulu语(南非超过1000万人使用的语言)从1数到10。她表示结果“既混乱又有趣”。随后,她用isiZulu语输入了几句话,并要求聊天机器人将其翻译成英语。结果再次出人意料,完全不准确。尽管已经努力将某些语言纳入AI模型,即使这些语言可用于训练的数据不多,但对于Abbott来说,这些结果显示出技术“真的还没有捕捉到我们的语言”。 Abbott的经历反映了不说英语的非洲人所面临的情况。许多像ChatGPT这样的语言模型对于使用人数较少的语言表现不佳,尤其是非洲语言。但是,由Abbott和生物医学工程师Pelonomi Moiloa合作的一个名为Lelapa AI的新企业,正试图使用机器学习创建专门为非洲人服务的工具。 Lelapa今天发布的一个名为Vulavula的新AI工具,可以将语音转换为文本,并在书面文本中识别人名和地名(这对于文档总结或在线搜索某人可能很有用)。目前它能识别南非的四种语言——isiZulu、南非荷兰语、塞索托语和英语——团队正在努力将其他非洲语言纳入其中。Vulavula(在Xitsonga语中意为“讲话”)可以单独使用,也可以集成到像ChatGPT这样的现有AI工具和在线对话机器人中。希望通过Vulavula使那些目前不支持非洲语言的工具变得易于使用。 Moiloa表示,缺乏适用于非洲语言且能识别非洲名字和地点的AI工具使非洲人被排除在经济机会之外。对她而言,开发以非洲为中心的AI解决方案是帮助非洲人利用AI技术的巨大潜在好处的一种方式。“我们正在尝试解决真实问题,并将权力重新交到我们人民手中。” 世界上有成千上万种语言,仅非洲就有1000到2000种;据估计,该大陆占全球语言的三分之一。但尽管英语母语者仅占全球人口的5%,英语却主导了网络——现在也主导了AI工具。已经有一些纠正这种不平衡的努力。例如,OpenAI的GPT-4包括了像冰岛语这样的小众语言。2020年2月,谷歌翻译开始支持大约7500万人使用的五种新语言。但这些翻译很肤浅,该工具经常搞错非洲语言,离准确数字化非洲语言还有很长的路要走,非洲AI研究人员说。 例如,今年早些时候,埃塞俄比亚计算机科学家Asmelash Teka Hadgu在卢旺达基加利的一次顶级非洲AI会议上进行了与Abbott相同的实验。当他用他的母语提格里尼亚语向聊天机器人提问时,得到的答案完全是胡言乱语。“它生成的词完全没有意义,”Hadgu说,他是柏林的一家名为Lesan的AI初创公司的联合创始人,该公司正在开发埃塞俄比亚语言的翻译工具。 Lelapa AI和Lesan只是为非洲语言开发语音识别工具的两家初创公司之一。2月份,Lelapa AI筹集了250万美元的种子基金,该公司计划在2025年进行下一轮融资。但非洲企业家表示,他们面临重大障碍,包括缺乏资金、投资者获取渠道有限,以及训练AI学习多样化非洲语言的困难。“在非洲科技初创公司中,AI获得的资金最少,”伦敦初创公司AJALA的创始人Abake Adenle说,该公司为非洲语言提供语音自动化服务。 Hadgu说,开发支持非洲语言的产品的AI初创公司常常被投资者忽视,原因是潜在市场规模小、缺乏政治支持和互联网基础设施薄弱。然而,Hadgu表示,包括Lesan、GhanaNLP和Lelapa AI在内的小型非洲初创公司正在发挥重要作用:“大型科技公司不关注我们的语言,但我们不能等待他们。” Lelapa AI正试图为非洲的AI模型创造一个新范式,公司AI团队的数据科学家Vukosi Marivate说。与西方公司不同,Lelapa AI不仅依靠互联网收集数据来训练其模型,还与语言学家和当地社区在线上和线下合作,收集数据、注释数据,并确定工具可能存在问题的用例。Lelapa AI的自然语言处理(NLP)研究员Bonaventure Dossou说,与语言学家合作使他们能够开发出具有特定语境和文化相关性的模型。“将文化敏感性和语言视角融入技术系统使系统变得更好,”Dossou说。例如,Lelapa AI团队为特定语言构建了情感和语调分析算法。 Marivate及其Lelapa AI的同事们设想了一个AI技术为非洲人服务并代表非洲人的未来。2019年,Marivate和Abbott成立了Masakhane,一个旨在促进非洲语言NLP研究的草根倡议。该倡议现在有成千上万的志愿者、编码人员和研究人员共同努力,构建以非洲为中心的NLP模型。 Moiloa说,由非洲人为非洲人构建的Vulavula和其他AI工具很重要:“我们是我们语言的守护者。我们应该是为我们的语言工作的技术的建造者。”
微软发布了Orca 2,一对小型语言模型,它们的性能超越了体积更大的同类产品
尽管全球目睹了OpenAI的权力斗争和大规模辞职,但作为AI领域的长期支持者,微软并没有放慢自己的人工智能努力。今天,由萨提亚·纳德拉领导的公司研究部门发布了Orca 2,这是一对小型语言模型,它们在零样本设置下对复杂推理任务的测试中,要么匹敌要么超越了体积是它们五到十倍的大型语言模型,包括Meta的Llama-2 Chat-70B。 这些模型分别具有70亿和130亿参数,是在几个月前展示了通过模仿更大、更有能力模型的逐步推理轨迹而展现出强大推理能力的原始13B Orca模型工作的基础上构建的。 微软的研究人员在一篇联合博客文章中写道:“通过Orca 2,我们继续展示改进的训练信号和方法可以让小型语言模型实现更强的推理能力,这通常只在更大的语言模型中找到。” 公司已经开源了这两个新模型,以进一步研究小型模型的开发和评估,这些模型可以像更大的模型一样表现出色。这项工作可以为企业(特别是资源有限的企业)提供更好的选择,以应对其目标用例,而无需在计算能力上投入过多。 了解更多 教小型模型如何推理 虽然像GPT-4这样的大型语言模型长期以来一直以其推理能力和解释复杂问题的能力给企业和个人留下深刻印象,但它们的小型对应物大多缺乏这种能力。微软研究院决定通过对Llama 2基础模型进行微调来解决这一差距,使用高度定制的合成数据集。然而,研究人员训练小型模型采用不同的解决策略来应对不同的任务,而不是训练模型去复制更有能力模型的行为——这是一种常用的模仿学习技术。这个想法是,更大模型的策略可能并不总是适用于小型模型。例如,GPT-4可能能够直接回答复杂的问题,但一个小型模型在没有那种能力的情况下,可能会受益于将同一任务分解成几个步骤。 研究人员在今天发表的一篇论文中写道:“在Orca 2中,我们教授模型各种推理技术(逐步、回忆然后生成、回忆-推理-生成、直接回答等)。更重要的是,我们旨在帮助模型学会确定每项任务最有效的解决策略。”该项目的培训数据是从一款更有能力的教师模型中获取的,以这样的方式教导学生模型处理两个方面:如何使用推理策略以及何时准确地使用它来处理手头的任务。 编辑 Orca 2在较大模型中的表现更佳 在零样本设置下的15项多样化基准测试(包括语言理解、常识推理、多步骤推理、数学问题解决、阅读理解、总结和真实性等方面)中,Orca 2模型取得了惊人的结果,其表现大多与体积是它们五到十倍的模型相匹敌或超越。所有基准测试结果的平均值显示,Orca 2的7B和13B在Llama-2-Chat-13B和70B以及WizardLM-13B和70B上表现更好。只有在GSM8K基准测试中,它包含了8.5K高质量的小学数学问题,WizardLM-70B比Orca模型和Llama模型做得更好。 Orca 2基准测试结果 Orca 2基准测试结果 虽然这种表现对于可能希望使用小型、高性能模型进行经济高效的商业应用的企业团队来说是个好消息,但重要的是要注意,这些模型也可能继承其他语言模型以及它们所基于的基础模型的普遍限制。 微软补充说,创建Orca模型的技术甚至可以用于其他基础模型。 “尽管它有几个限制……,Orca 2在未来发展的潜力是显而易见的,尤其是在提高小型模型的推理能力、专业化、控制和安全性方面。使用精心筛选的合成数据进行后期培训被证明是这些改进的关键策略。随着更大的模型继续表现出色,我们与Orca 2的合作标志着在语言模型的应用和部署选项多样化方面迈出了重要的一步。”研究团队写道。 更多小型高性能模型即将涌现 随着开源Orca 2模型的发布和该领域的持续研究,可以肯定地说,更多高性能的小型语言模型可能会在不久的将来出现。 就在几周前,中国最近成为独角兽的01.AI,由资深人工智能专家李开复创立,也在这一领域迈出了重要的一步,发布了一款支持中英文的340亿参数模型,其性能超过了70亿的Llama 2和180亿的Falcon对手。该初创公司还提供了一个经过6亿参数训练的较小选项,在广泛使用的AI/ML模型基准测试中表现尚可。 Mistral AI,这家成立六个月的巴黎初创公司,因其独特的Word Art标识和创纪录的1.18亿美元种子轮融资而成为头条新闻,也提供了一款70亿参数的模型,其性能超过了更大的产品,包括Meta的Llama 2 13B(Meta较小的新型号之一)。
介绍Habitat 3.0:通往社交智能机器人之路的下一个重要里程碑
FAIR 一直致力于开发具备普适智能的实体化 AI 代理,它们能够感知并与环境互动,在安全地与人类伙伴共享环境的同时,还能在数字世界和现实世界中与这些人类伙伴进行沟通和协助。 FAIR 正在努力实现未来愿景:全天候佩戴的增强现实 (AR) 眼镜,这将包括一个与情境相结合的 AI 驱动界面和助手,以帮助人们度过每一天。同时,FAIR 也在改进社交智能机器人的技术,这些机器人将在适应和个性化地满足人类伙伴的偏好的同时,帮助完成日常家务。 训练和测试实体化的社交 AI 代理具有可扩展性的局限性,需要增加建立标准化基准测试程序的复杂性,并可能引发安全问题。为此,FAIR 开发了一套新的工具,用于跨模拟器、数据集以及包括硬件和软件在内的经济实惠的技术栈的机器人研究。 今天,FAIR 宣布了三项主要进展,以发展能够与人类合作并协助他们日常生活的社交实体化 AI 代理: 这些进展为开发能够与人类合作并协助他们日常生活的社交实体化 AI 代理铺平了道路。 下一步: 近年来,实体化人工智能研究领域主要集中于对静态环境的研究——这是基于一种假设,即环境中的物体保持静止不动。然而,在人类居住的物理环境中,情况并非如此。我们对社交智能机器人的愿景超越了当前的范式,考虑了动态环境,其中人类和机器人相互作用,并与周围环境互动。人类与机器人之间的互动带来了新的问题和可能性,如合作、沟通和预测未来状态。 自从2019年开源Habitat 1.0以来,我们朝着社交智能机器人的愿景取得了相当大的进展,但仍有重要工作要做。在我们研究的下一阶段,我们将使用Habitat 3.0模拟器训练我们的AI模型,使这些机器人能够协助他们的人类伙伴并适应他们的偏好。我们将结合使用HSSD-200和Habitat 3.0,以大规模收集人机交互和协作的数据,从而训练更健壮的模型。我们将专注于将在模拟中学到的模型部署到物理世界中,以便更好地评估它们的性能。