OpenAI董事局开除总裁萨姆后一天又让他回来,起先他感到忿忿不平,受伤且盛怒。“我花了几分钟平复自己,摆脱自负和情绪,然后意识到‘当然我想回去’,“他在周三的电话采访中向我透露。“显然,我真的很爱这家公司,在过去的四年半里全职为它贡献了生命力量,其实时间比这更久,大部分时间都在OpenAI。我们在实现我十分关心的使命方面进展顺利 ── 实现安全有益的人工通用智能。” 经过为期5天的董事会政变后,萨姆周三正式继续担任OpenAI CEO。公司最大投资者微软计划接受无表决权董事席位。 在我们的采访中,萨姆一再拒绝回答所有人心中的主要问题:他最初被开除的确切原因。OpenAI新董事会主席Bret Taylor将展开独立调查。“我非常欢迎”, 萨姆对我说。 以下是我与OpenAI CEO萨姆和CTO米拉的完整采访,为清晰起见稍加编辑: 萨姆,我想先讨论大家心中最大的疑问,那就是我们仍不知道你最初被开除的确切原因。你认为你被开除的原因是什么? 董事会将展开独立评议。我非常欢迎。现在我没有更多评论,不过我期待了解更多。 董事会声称对你失去信任,你怎么看? 这问题更适合让他们来回答。 你在X平台上说,你和董事会成员之间明显存在“误解”。这些误解是什么? 我还不准备讨论这个。我认为让评议过程继续非常重要。关于任何面向未来的事我都很乐意谈,可能过一段时间我会很乐意讨论这里发生的事,但现在不行。 你能告诉我你现在为什么谈不了吗? 我只是想让过程继续,不要干扰。 你在致员工的信中提到了伊利亚·萨斯克沃。你能透露下为什么他改变主意站到其他人一边了吗? 米拉:我们不知道。你必须问伊利亚。 萨姆,事后看来,你决定回归的主要原因是什么? 周六早上,一些董事会成员打电话给我,问我是否愿意讨论。我的第一反应是反抗。我当时心情很糟,觉得受到伤害且很生气。 然后,我立即意识到我其实真的很爱这家公司,在过去四年半里全职为它奉献生命力量,时间实际上更长。我们正在实现我极为在乎的使命,实现安全有益的通用AI。不仅是这个使命,还有这里的员工,所有给我们极大支持的合作伙伴,以及米拉和领导层,这里所有做出不可思议贡献的人。我花了几分钟平复自己,摆脱自负和情绪,然后意识到“当然我想回去”。 所以,董事会请你回来了? 是的。 你最初犹豫了? 不久。在发生那些事后,我有很多感受。 很明显员工都站在你一边。这有多大影响? 的确,我们因此变得团结一致、有更强使命感和决心。我本以为我们已经很有信念和决心,现在我认为比以前强很多很多。所以,这一切的积极意义在于此。 在整个过程中,我们没有流失任何员工或客户。不但产品即使面临巨大增长仍在正常运转,还推出了新功能。研究工作继续进展。 你想重返董事会吗? 这听起来像公关话术:这现在不是我的重点。我有大量非常困难、重要且紧迫的工作。我想好好完成自己的工作,而不是是不是在董事会。这不是我现在想的事。 “改进治理结构” 意味着什么?非营利控股公司结构会改变吗? 这问题更适合董事会成员来回答,而且现在也不行。诚实的回答是他们需要时间,我们会全力支持他们深入思考。显然,我们的治理结构出现问题。解决问题的最佳方式需要时间。我完全理解为什么人们现在就想要答案。但我也认为现在就期待答案不合理。 你认为为什么不合理? 我觉得人们看到许多含糊之处关于发生的事。貌似只是分歧,没有渎职或其他类似的事。 设计真正出色的治理结构需要时间,特别是对如此重大影响的技术。这绝不是一周就能回答的问题。它需要人们投入时间思考、讨论、听取外界观点,进行压力测试。这就需要一段时间。 OpenAI是否会由于刚发生的事而改变安全工作方法? 与安全无关。 关于你们最近取得的Q*模型突破的报道,情况如何? 对那起不幸泄密没有特别评论。不过,我们两周前、今天和一年多前一直在说的,就是预期这项技术的进展将继续迅速,而且我们也会继续努力弄清楚如何使其安全有益。这是我们每天起床的原因,未来也一样。我认为我们在这个问题上一直特别一致。 不评论任何特定事情或项目,我们相信进展源自研究。当然你可能会遇到障碍,但是我们预计进展会继续显著。我们希望就此与世界进行互动,搞清楚如何让事情尽可能向好的方向发展。 最后一个问题:我相信你仍在思考整个事件。我知道这还很新鲜。你从这个风波中获得的教训是什么? 我还没有准备好的简明扼要的回答。显然,有很多值得学习的地方,但是我还在努力理清它们。当然,这会有很多可以谈的,但是目前我只有漫长而支离破碎的答案。 好的,改天我们再聊吧。 结束通话后,萨姆几分钟后打来电话。 公司确实可以在没有我的情况下正常运转,这很好。别误会,我很高兴回来。但是我回来时没有任何压力,比如“哦,我必须做这个,公司需要我”,之类的。我自私地感到高兴,因为我选拔了出色的领导者,或者我很好地指导了他们。感觉公司会没事的,团队已准备好,并取得进步。这感觉很好。
Perplexity 推出全新大型在线语言模型
Perplexity 的这些新模型能够通过互联网访问及时信息,提供实用且基于事实的回答——这是离线模型难以做到的。 https://docs.perplexity.ai/docs 这意味着什么? 这些模型是在现有的开源模型,比如 Mistral-7B 和 Llama-70B 的基础上构建的。然后,这些模型通过将当前的网络信息进行层叠调整(微调),以更好地回答需要最新数据的问题,超越了离线模型。这些模型的目标是提供有用、无幻觉的回答。 Perplexity 对这些模型进行了新鲜度、准确性和实用性的评估,认为它们非常适合真实世界的使用场景,比如回答消费者问题,其中最新信息至关重要。作为发布的一部分,Perplexity 通过其公共 API 和 Perplexity Labs 游乐场向大众开放了这些模型的访问。 像 ChatGPT 这样的消费者产品正在将搜索功能加入产品中。搜索结果可以减少幻觉,而且人们关心实时信息。但在大多数模型中构建搜索功能是件繁琐的事情。PPLX 的新在线模型 API 为你内置了他们的 SEO 专业知识,你无需额外的搜索 API。」
Amazon Web Services (AWS) 宣布推出Amazon Q(预览版)
Amazon Q的推出是一项重大创新,标志着人工智能在商业场景中应用的一个重要发展。下面是这一新闻的关键点: Amazon Q的推出对于希望利用人工智能优化业务流程和提升客户体验的企业而言,是一个值得关注的重要里程碑。
介绍SDXL Turbo:一款实时文本到图像生成模型
关键要点总结: 在Stability AI的图像编辑平台Clipdrop上测试SDXL Turbo,体验实时文本到图像生成功能的beta演示。 今天,Stability AI 发布了SDXL Turbo,一种新的文本到图像模式。SDXL Turbo基于一种名为对抗扩散蒸馏(ADD)的新蒸馏技术,该技术使模型能够一步合成图像输出,并在保持高采样保真度的同时生成实时文本到图像输出。对于对技术细节感兴趣的研究人员和爱好者,Stability AI 的研究论文可在此处查看 https://stability.ai/research/adversarial-diffusion-distillation。重要的是要注意,SDXL Turbo目前尚不适用于商业用途。 对抗扩散蒸馏的优势 SDXL Turbo采用了扩散模型技术的新进展,基于SDXL 1.0的基础上进行了迭代,并实现了文本到图像模型的新蒸馏技术:对抗扩散蒸馏。通过结合ADD,SDXL Turbo获得了许多与GANs(生成对抗网络)相同的优势,如单步图像输出,同时避免了其他蒸馏方法中常见的伪影或模糊。详细介绍该模型新蒸馏技术的SDXL Turbo研究论文可在此处查看https://stability.ai/research/adversarial-diffusion-distillation。 与其他扩散模型相比的性能优势 为了选择SDXL Turbo,Stability AI 比较了多种不同的模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL),使用相同的提示生成输出。然后,人类评估员随机显示两个输出,并被要求选择最符合提示方向的输出。接下来,使用相同的方法完成了图像质量的额外测试。在这些盲测中,SDXL Turbo在单步中就能超过LCM-XL的4步配置,以及仅用4步就能超过SDXL的50步配置。通过这些结果,Stability AI 可以看到SDXL Turbo在显著降低计算需求的同时,无需牺牲图像质量,就超越了最先进的多步模型。 此外,SDXL Turbo还大幅提高了推理速度。在A100上,SDXL Turbo生成512×512图像的时间为207ms(提示编码+单次去噪步骤+解码,fp16),其中67ms由单个UNet前向评估占据。 探索SDXL Turbo与Clipdrop 要测试这款新模型的功能,请访问Stability AI的图像编辑平台Clipdrop https://clipdrop.co/stable-diffusion-turbo,体验SDXL Turbo实时图像生成的beta演示。它兼容大多数浏览器,目前可免费试用。 看看测试
为非洲语言构建人工智能技术
在约翰内斯堡罗斯班克区的一个共享办公空间内,计算机科学家兼研究员Jade Abbott打开了她的电脑,让ChatGPT用isiZulu语(南非超过1000万人使用的语言)从1数到10。她表示结果“既混乱又有趣”。随后,她用isiZulu语输入了几句话,并要求聊天机器人将其翻译成英语。结果再次出人意料,完全不准确。尽管已经努力将某些语言纳入AI模型,即使这些语言可用于训练的数据不多,但对于Abbott来说,这些结果显示出技术“真的还没有捕捉到我们的语言”。 Abbott的经历反映了不说英语的非洲人所面临的情况。许多像ChatGPT这样的语言模型对于使用人数较少的语言表现不佳,尤其是非洲语言。但是,由Abbott和生物医学工程师Pelonomi Moiloa合作的一个名为Lelapa AI的新企业,正试图使用机器学习创建专门为非洲人服务的工具。 Lelapa今天发布的一个名为Vulavula的新AI工具,可以将语音转换为文本,并在书面文本中识别人名和地名(这对于文档总结或在线搜索某人可能很有用)。目前它能识别南非的四种语言——isiZulu、南非荷兰语、塞索托语和英语——团队正在努力将其他非洲语言纳入其中。Vulavula(在Xitsonga语中意为“讲话”)可以单独使用,也可以集成到像ChatGPT这样的现有AI工具和在线对话机器人中。希望通过Vulavula使那些目前不支持非洲语言的工具变得易于使用。 Moiloa表示,缺乏适用于非洲语言且能识别非洲名字和地点的AI工具使非洲人被排除在经济机会之外。对她而言,开发以非洲为中心的AI解决方案是帮助非洲人利用AI技术的巨大潜在好处的一种方式。“我们正在尝试解决真实问题,并将权力重新交到我们人民手中。” 世界上有成千上万种语言,仅非洲就有1000到2000种;据估计,该大陆占全球语言的三分之一。但尽管英语母语者仅占全球人口的5%,英语却主导了网络——现在也主导了AI工具。已经有一些纠正这种不平衡的努力。例如,OpenAI的GPT-4包括了像冰岛语这样的小众语言。2020年2月,谷歌翻译开始支持大约7500万人使用的五种新语言。但这些翻译很肤浅,该工具经常搞错非洲语言,离准确数字化非洲语言还有很长的路要走,非洲AI研究人员说。 例如,今年早些时候,埃塞俄比亚计算机科学家Asmelash Teka Hadgu在卢旺达基加利的一次顶级非洲AI会议上进行了与Abbott相同的实验。当他用他的母语提格里尼亚语向聊天机器人提问时,得到的答案完全是胡言乱语。“它生成的词完全没有意义,”Hadgu说,他是柏林的一家名为Lesan的AI初创公司的联合创始人,该公司正在开发埃塞俄比亚语言的翻译工具。 Lelapa AI和Lesan只是为非洲语言开发语音识别工具的两家初创公司之一。2月份,Lelapa AI筹集了250万美元的种子基金,该公司计划在2025年进行下一轮融资。但非洲企业家表示,他们面临重大障碍,包括缺乏资金、投资者获取渠道有限,以及训练AI学习多样化非洲语言的困难。“在非洲科技初创公司中,AI获得的资金最少,”伦敦初创公司AJALA的创始人Abake Adenle说,该公司为非洲语言提供语音自动化服务。 Hadgu说,开发支持非洲语言的产品的AI初创公司常常被投资者忽视,原因是潜在市场规模小、缺乏政治支持和互联网基础设施薄弱。然而,Hadgu表示,包括Lesan、GhanaNLP和Lelapa AI在内的小型非洲初创公司正在发挥重要作用:“大型科技公司不关注我们的语言,但我们不能等待他们。” Lelapa AI正试图为非洲的AI模型创造一个新范式,公司AI团队的数据科学家Vukosi Marivate说。与西方公司不同,Lelapa AI不仅依靠互联网收集数据来训练其模型,还与语言学家和当地社区在线上和线下合作,收集数据、注释数据,并确定工具可能存在问题的用例。Lelapa AI的自然语言处理(NLP)研究员Bonaventure Dossou说,与语言学家合作使他们能够开发出具有特定语境和文化相关性的模型。“将文化敏感性和语言视角融入技术系统使系统变得更好,”Dossou说。例如,Lelapa AI团队为特定语言构建了情感和语调分析算法。 Marivate及其Lelapa AI的同事们设想了一个AI技术为非洲人服务并代表非洲人的未来。2019年,Marivate和Abbott成立了Masakhane,一个旨在促进非洲语言NLP研究的草根倡议。该倡议现在有成千上万的志愿者、编码人员和研究人员共同努力,构建以非洲为中心的NLP模型。 Moiloa说,由非洲人为非洲人构建的Vulavula和其他AI工具很重要:“我们是我们语言的守护者。我们应该是为我们的语言工作的技术的建造者。”
微软发布了Orca 2,一对小型语言模型,它们的性能超越了体积更大的同类产品
尽管全球目睹了OpenAI的权力斗争和大规模辞职,但作为AI领域的长期支持者,微软并没有放慢自己的人工智能努力。今天,由萨提亚·纳德拉领导的公司研究部门发布了Orca 2,这是一对小型语言模型,它们在零样本设置下对复杂推理任务的测试中,要么匹敌要么超越了体积是它们五到十倍的大型语言模型,包括Meta的Llama-2 Chat-70B。 这些模型分别具有70亿和130亿参数,是在几个月前展示了通过模仿更大、更有能力模型的逐步推理轨迹而展现出强大推理能力的原始13B Orca模型工作的基础上构建的。 微软的研究人员在一篇联合博客文章中写道:“通过Orca 2,我们继续展示改进的训练信号和方法可以让小型语言模型实现更强的推理能力,这通常只在更大的语言模型中找到。” 公司已经开源了这两个新模型,以进一步研究小型模型的开发和评估,这些模型可以像更大的模型一样表现出色。这项工作可以为企业(特别是资源有限的企业)提供更好的选择,以应对其目标用例,而无需在计算能力上投入过多。 了解更多 教小型模型如何推理 虽然像GPT-4这样的大型语言模型长期以来一直以其推理能力和解释复杂问题的能力给企业和个人留下深刻印象,但它们的小型对应物大多缺乏这种能力。微软研究院决定通过对Llama 2基础模型进行微调来解决这一差距,使用高度定制的合成数据集。然而,研究人员训练小型模型采用不同的解决策略来应对不同的任务,而不是训练模型去复制更有能力模型的行为——这是一种常用的模仿学习技术。这个想法是,更大模型的策略可能并不总是适用于小型模型。例如,GPT-4可能能够直接回答复杂的问题,但一个小型模型在没有那种能力的情况下,可能会受益于将同一任务分解成几个步骤。 研究人员在今天发表的一篇论文中写道:“在Orca 2中,我们教授模型各种推理技术(逐步、回忆然后生成、回忆-推理-生成、直接回答等)。更重要的是,我们旨在帮助模型学会确定每项任务最有效的解决策略。”该项目的培训数据是从一款更有能力的教师模型中获取的,以这样的方式教导学生模型处理两个方面:如何使用推理策略以及何时准确地使用它来处理手头的任务。 编辑 Orca 2在较大模型中的表现更佳 在零样本设置下的15项多样化基准测试(包括语言理解、常识推理、多步骤推理、数学问题解决、阅读理解、总结和真实性等方面)中,Orca 2模型取得了惊人的结果,其表现大多与体积是它们五到十倍的模型相匹敌或超越。所有基准测试结果的平均值显示,Orca 2的7B和13B在Llama-2-Chat-13B和70B以及WizardLM-13B和70B上表现更好。只有在GSM8K基准测试中,它包含了8.5K高质量的小学数学问题,WizardLM-70B比Orca模型和Llama模型做得更好。 Orca 2基准测试结果 Orca 2基准测试结果 虽然这种表现对于可能希望使用小型、高性能模型进行经济高效的商业应用的企业团队来说是个好消息,但重要的是要注意,这些模型也可能继承其他语言模型以及它们所基于的基础模型的普遍限制。 微软补充说,创建Orca模型的技术甚至可以用于其他基础模型。 “尽管它有几个限制……,Orca 2在未来发展的潜力是显而易见的,尤其是在提高小型模型的推理能力、专业化、控制和安全性方面。使用精心筛选的合成数据进行后期培训被证明是这些改进的关键策略。随着更大的模型继续表现出色,我们与Orca 2的合作标志着在语言模型的应用和部署选项多样化方面迈出了重要的一步。”研究团队写道。 更多小型高性能模型即将涌现 随着开源Orca 2模型的发布和该领域的持续研究,可以肯定地说,更多高性能的小型语言模型可能会在不久的将来出现。 就在几周前,中国最近成为独角兽的01.AI,由资深人工智能专家李开复创立,也在这一领域迈出了重要的一步,发布了一款支持中英文的340亿参数模型,其性能超过了70亿的Llama 2和180亿的Falcon对手。该初创公司还提供了一个经过6亿参数训练的较小选项,在广泛使用的AI/ML模型基准测试中表现尚可。 Mistral AI,这家成立六个月的巴黎初创公司,因其独特的Word Art标识和创纪录的1.18亿美元种子轮融资而成为头条新闻,也提供了一款70亿参数的模型,其性能超过了更大的产品,包括Meta的Llama 2 13B(Meta较小的新型号之一)。
介绍Habitat 3.0:通往社交智能机器人之路的下一个重要里程碑
FAIR 一直致力于开发具备普适智能的实体化 AI 代理,它们能够感知并与环境互动,在安全地与人类伙伴共享环境的同时,还能在数字世界和现实世界中与这些人类伙伴进行沟通和协助。 FAIR 正在努力实现未来愿景:全天候佩戴的增强现实 (AR) 眼镜,这将包括一个与情境相结合的 AI 驱动界面和助手,以帮助人们度过每一天。同时,FAIR 也在改进社交智能机器人的技术,这些机器人将在适应和个性化地满足人类伙伴的偏好的同时,帮助完成日常家务。 训练和测试实体化的社交 AI 代理具有可扩展性的局限性,需要增加建立标准化基准测试程序的复杂性,并可能引发安全问题。为此,FAIR 开发了一套新的工具,用于跨模拟器、数据集以及包括硬件和软件在内的经济实惠的技术栈的机器人研究。 今天,FAIR 宣布了三项主要进展,以发展能够与人类合作并协助他们日常生活的社交实体化 AI 代理: 这些进展为开发能够与人类合作并协助他们日常生活的社交实体化 AI 代理铺平了道路。 下一步: 近年来,实体化人工智能研究领域主要集中于对静态环境的研究——这是基于一种假设,即环境中的物体保持静止不动。然而,在人类居住的物理环境中,情况并非如此。我们对社交智能机器人的愿景超越了当前的范式,考虑了动态环境,其中人类和机器人相互作用,并与周围环境互动。人类与机器人之间的互动带来了新的问题和可能性,如合作、沟通和预测未来状态。 自从2019年开源Habitat 1.0以来,我们朝着社交智能机器人的愿景取得了相当大的进展,但仍有重要工作要做。在我们研究的下一阶段,我们将使用Habitat 3.0模拟器训练我们的AI模型,使这些机器人能够协助他们的人类伙伴并适应他们的偏好。我们将结合使用HSSD-200和Habitat 3.0,以大规模收集人机交互和协作的数据,从而训练更健壮的模型。我们将专注于将在模拟中学到的模型部署到物理世界中,以便更好地评估它们的性能。
OpenAI的董事会担忧,一个新的Q*技术突破可能对人类构成威胁
OpenAI董事会突然解雇CEO Sam Altman的谜团可能已经揭晓。最新报道称,多位研究人员向他们发出警告,称一个名为Q*(发音为Q-Star)的新技术突破可能对人类构成威胁——而Altman似乎未能及时通知他们。 研究人员在给董事会的一封信中提到,这一突破可能使人工智能在“大多数经济价值领域超越人类”。 迄今为止的故事 OpenAI在周五宣布,公司董事会的四名成员解雇了Altman,并将Brockman从董事会中移除。给出的理由非常模糊,只是称Altman“在与董事会的沟通中并不始终如一”。 科技界对Altman表示支持,OpenAI的主要投资者试图让他复职。董事会和高级管理层进行了谈判,但未能成功。 微软向Altman、Brockman以及其他想加入他们的OpenAI团队成员提供了工作机会。随后,几乎所有员工向董事会发出公开信,声明除非Altman复职并解雇董事会,否则他们将辞职。 OpenAI最初表示CTO Mira Murati将担任临时CEO,但在48小时内宣布Twitch联合创始人Emmett Shear将替换她,也是作为临时聘用。 随后进行了第二轮谈判。谈判结果是除了一名董事会成员外,所有人都被移除,Sam Altman重新被任命为CEO——但有一些显著的妥协。 Q*技术突破是什么? 目前,如果你让ChatGPT解决数学问题,它仍将使用其基于大型文本数据库的预测文本方法来编译答案,并逐字逐句决定人类会如何回答。这意味着它可能会也可能不会得到正确答案,但无论如何都没有数学技能。 OpenAI似乎在这一领域取得了突破,成功使人工智能模型能够真正解决它以前没有见过的数学问题。据说这一发展被称为Q*。不幸的是,团队没有使用足够智能的命名模型来避免看起来像脚注的东西,所以我将使用Q-Star版本。 据说Q-Star目前的数学能力相当于小学生,但预计这种能力将迅速提高。 Q-Star模型是否威胁到人类? 表面上看,一个能解决方程的AI系统似乎并不是反乌托邦梦魇的材料。要么人类去盐矿工作,要么Q-Star计算出哪四条线与2y=x+7平行。 但路透社的报告称,Q-Star研究可能指向AI的圣杯:通用人工智能(AGI)。 OpenAI中的一些人相信Q*(发音为Q-Star)可能是该公司寻找所谓通用人工智能(AGI)的一个突破,一位知情人士告诉路透社。OpenAI将AGI定义为在大多数经济价值任务中超越人类的自主系统。 据称,得益于巨大的计算资源,新模型能够解决某些数学问题,这位不愿透露姓名的人士说,因为该人士未获授权代表公司发言。尽管只在小学生水平上进行数学运算,但这种测试的成功使研究人员对Q*的未来成功非常乐观。 AGI是指一个足够智能的AI系统,能够执行人类可以执行的任何任务。如果这个目标真的实现,它将有效地导致几乎所有人类的工作被AI取代。 Altman被解雇现在可能有了解释 如果Q-Star突破确实使得开发AGI的可能性增加,且Altman未能将此事告知董事会,那么这将解释董事会关于他缺乏坦诚的评论,以及解雇的紧迫性。 然而,值得注意的是,这是——据我们所知——只有少数研究人员共享的担忧,由于大多数AI员工支持Altman对抗董事会,这表明聪明的钱(或聪明的人)似乎认为这是一种夸大的担忧。 尽管如此,保留现有的公司结构仍然是有意义的,在这种结构中,一个独立董事会——在AI商业部门没有财务投资——提供监督,并就盈利公司应该如何推进和速度做出决策。
Stable Video Diffusion最新亮相了!
今天,Stability AI推出了基于稳定扩散图像模型的首个基础视频生成模型——“稳定视频扩散”。 现已在研究预览版中发布,这一最先进的生成式人工智能视频模型是我们朝着为各种类型的每个人创建模型的旅程中的一大步。 随着这次研究版的发布,已经在GitHub仓库上提供了稳定视频扩散的代码,而运行模型所需的权重可以在Hugging Face页面上找到。关于模型技术能力的更多细节可以在研究论文中找到。 视频模型可以轻松适应各种下游任务,包括从单一图像通过在多视图数据集上微调来进行多视图合成。Stability AI计划开发一系列基于这一基础并扩展的模型,类似于围绕稳定扩散构建的生态系统。 此外,今天,你可以在这里登记我们的等候名单,以访问即将推出的新网络体验,包括文本到视频的界面。这个工具展示了稳定视频扩散在广告、教育、娱乐等多个领域的实际应用。稳定视频扩散以两种图像到视频模型的形式发布,能够在每秒3至30帧之间自定义帧率,生成14至25帧。在基础形式发布时,通过外部评估,发现这些模型在用户偏好研究中超越了领先的封闭模型。 虽然Stability AI急切地用最新的进展更新模型,但他们强调,这个模型在现阶段不适用于现实世界或商业应用。体验用户对安全和质量的见解和反馈对于完善这个模型,为最终发布做好准备至关重要。
Anthropic公司刚刚推出了Claude 2.1这个新版本!
Anthropic刚刚发布了他们的AI助手最新版本——Claude 2.1,这次升级可不一般,包括200,000个词符的上下文窗口、减少幻觉现象的发生率,以及新增的工具使用功能。那么,新晋AI小王子Claude 2.1的出现,会让你跟OpenAI说拜拜吗? Anthropic推出了Claude 2.1,相比Claude 2有了一系列改进。 这意味着什么? 200,000个词符相当于500页文本,你可以把发给前任的所有信息都塞进去。而且,Claude在利用这个巨大的上下文窗口方面也有所提升——幻觉信息的发生率降低了一半。Anthropic称这是诚实度的提高。感觉就像前任说:“亲爱的,我们复合吧,我在诚实度上有了重大提升。” Claude 2.1在输出上也更准确可靠——错误回答减少了30%,不支持的说法降低了3-4倍。简单来说,Claude会少撒谎,尽量不让你感到被操纵。 通过API访问,你现在还可以通过API访问额外的工具,不过这个功能还在测试阶段。开发者控制台还增加了一些功能:系统提示和一个用于测试提示的游乐场。 对于使用Claude API的企业用户来说,2.1版本将助手的功能提升到了处理完整文档的新水平。新的工具集成功能允许Claude根据自然语言请求直接查询数据库、发起API调用等。 Claude 2.1已在免费和专业计划中上线,但增加的上下文长度是专为专业用户准备的。