谷歌近日宣布,其旗舰生成AI套件“双子星”的生成人物图像功能将暂时搁置,公司正在更新技术以提高输出中涉及人物描绘的历史准确性。 在社交媒体平台X上的一篇帖子中,谷歌宣布了这一被描述为“暂停”的举措,写道正在努力解决与历史不准确性相关的“最近问题”。 谷歌表示:“在此期间,我们将暂停生成人物图像的功能,并将很快重新发布改进版。” 谷歌本月早些时候推出了双子星图像生成工具。然而,近日社交媒体上出现了一些不协调的历史人物图像——例如将美国开国元勋描绘成美洲印第安人、黑人或亚洲人——这导致了批评甚至是嘲笑。 驻巴黎的风险投资家迈克尔·杰克逊今天在LinkedIn上的一篇帖子中加入了批评——将谷歌的AI品牌化为“荒谬的DEI(多样性、公平性和包容性)恶搞”。 昨天,在X上的一篇帖子中,谷歌确认它“意识到”AI在一些历史图像生成描绘中产生了“不准确性”,并在一份声明中补充说:“我们正在努力立即改进这类描绘。双子星的AI图像生成确实能够生成各种人物。这通常是好事,因为世界各地的人们都在使用它。但在这里它没有达到预期的效果。” 生成AI工具根据训练数据和其他参数(如模型权重)产生输出。 这类工具更常因产生带有偏见的输出而受到批评——例如过度性别化的女性形象,或者对高地位职业角色的提示反馈白人男性形象。 谷歌早期的一个AI图像分类工具在2015年因错误将黑人男性分类为大猩猩而引起公愤。公司承诺修复此问题,但正如Wired几年后报道的,其“修复”只是一个简单的变通方法:谷歌简单地阻止了技术识别大猩猩。
Stable Diffusion 3正式发布,旨在巩固其在AI图像领域相对于Sora和Gemini的领先地位
Stability AI最近宣布推出Stable Diffusion 3(简称SD3),这是该公司最新、最强大的图像生成AI模型。虽然具体细节还未充分披露,但显然这是为了抵御OpenAI和Google最近宣布的竞争对手所带来的热潮的尝试。 虽然我们很快就会提供更技术性的分析,但目前你需要知道的是,SD3基于一种新的架构,能够在各种硬件上运行(尽管仍然需要较强的硬件支持)。SD3目前还未发布,但你可以在这里登记等待名单。 SD3采用了更新版的“扩散变换器”,这是一种在2022年首创但在2023年进行了修订并现在达到可扩展性的技术。OpenAI引人注目的视频生成器Sora似乎也是基于类似原理工作的(论文的共同作者Will Peebles后来共同领导了Sora项目)。SD3还采用了“流匹配”,这是另一种新技术,同样在不增加太多开销的情况下提高了质量。 模型套件的范围从8亿参数(低于常用的SD 1.5)到80亿参数(超过SD XL),旨在运行在各种硬件上。你可能仍然需要一块强大的GPU和一个用于机器学习工作的设置,但你不像通常使用OpenAI和Google模型那样限于API。(就其本身而言,Anthropic并没有公开专注于图像或视频生成,因此它实际上不是这次讨论的一部分。) 在X(前身为Twitter)上,Stable Diffusion的负责人Emad Mostaque指出,新模型能够进行多模态理解,以及视频输入和生成,这些都是他的竞争对手在他们的API驱动的竞争者中强调的功能。这些能力仍然是理论上的,但听起来似乎没有技术障碍阻止它们被包含在未来的发布中。 当然,比较这些模型是不可能的,因为它们都还没有真正发布,我们所依赖的只是竞争性的声明和精心挑选的示例。但Stable Diffusion有一个明确的优势:它作为进行任何类型的图像生成的首选模型在时代潮流中的存在,方法或内容上几乎没有内在的限制。(的确,一旦越过了安全机制,SD3几乎肯定会开启AI生成色情内容的新时代。) Stable Diffusion似乎想成为你不可或缺的白牌生成AI,而不是你不确定是否需要的精品生成AI。为此,该公司也在升级其工具,以降低使用门槛,尽管与公告的其余部分一样,这些改进留给了想象。 有趣的是,该公司在公告中将安全放在了首位,声明: 我们已经采取并继续采取合理步骤,防止恶意行为者滥用Stable Diffusion 3。安全从我们开始训练模型时就启动,并在测试、评估和部署过程中持续进行。为了这次早期预览,我们引入了许多安全措施。通过持续与研究人员、专家和我们的社区合作,我们期望在模型公开发布时以诚信进一步创新。 这些安全措施到底是什么?毫无疑问,预览将在一定程度上阐明它们,然后公开发布会进一步完善,或根据你对这些事情的看法而被审查。我们很快会知道更多,并且与此同时,我们将深入技术细节,以更好地理解这一新一代模型背后的理论和方法。
Phind-70B-运行速度提高4倍的同时,缩小了与GPT-4 Turbo在代码质量上的差距
近日,科技界迎来了一个激动人心的消息:Phind-70B模型正式发布,这是目前为止最大、性能最强的模型。Phind-70B能够以每秒高达80个token的速度运行,为用户在技术话题上提供高质量的答案,极大地缩短了等待时间,提升了开发者的整体用户体验。 该模型是在CodeLlama-70B的基础上,通过对额外500亿token进行微调而来,带来了显著的性能提升,并支持高达32K token的上下文窗口。 在人类评估标准HumanEval上,Phind-70B以82.3%的高分超越了最新的GPT-4 Turbo(gpt-4-0125-preview)的81.1%。而在Meta的CRUXEval数据集上,尽管Phind-70B以59%的得分略低于GPT-4报告的62%,但在实际工作负载中的表现说明了Phind-70B在代码生成领域与GPT-4 Turbo处于同一质量水平,甚至在某些任务上表现更佳。Phind-70B展现出的主动性也超过了GPT-4 Turbo,在生成详细代码示例方面表现出更少的犹豫。 得益于在NVIDIA的H100 GPU上运行TensorRT-LLM库的优化,Phind-70B的运行速度是GPT-4 Turbo的四倍,达到每秒80个以上的token。该团队正在努力进一步提高Phind-70B的推理速度。
微软放风了,OpenAI的新宠儿“Sora”即将加盟代码小助手行
最近,微软广告与网络服务部门的CEO Mikhail Parakhin 在推特上的一番互动,间接透露了OpenAI的“Sora”最终会融入到代码小助手中,不过这个过程可能需要一段时间。 这番话是在一位用户询问“Sora”是否会加入到Copilot时引出的,Parakhin的回答是:“最终会的,但这需要时间。” “Sora”是OpenAI开发的一个大型语言模型聊天机器人;你可以输入任何详细的文字提示,然后AI模型会在60秒内返回一个高度详细的视频。 将这两者结合起来,有可能为开发者创建一个强大的工具,让他们能够在工作中利用两个AI模型的能力。 OpenAI表示,“Sora”是通过一个简化视频的网络来学习的。这个网络以普通视频为起点,将其简化,只保留最重要的部分。然后,“Sora”通过学习这些简化后的视频来创建新的视频。 然而,微软似乎还在处理这一整合的技术层面问题。考虑到“索拉”几天前才对公众进行了预告,要让“Sora”在Copilot中可用还需要一些时间。值得注意的是,Parakhin的推文并没有提供“索拉”何时会与Copilot整合的具体时间表。然而,他的回答表明,微软致力于最终实现这一目标。
Google 推出Gemma:介绍全新的顶尖开放模型
去试试:http://ai.google.dev/gemma Google坚信人工智能应对每个人都有所帮助。该公司长期致力于向开放社区贡献创新,例如Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode等。最近,谷歌兴奋地推出了其新一代开放模型,旨在协助开发者和研究人员负责任地构建人工智能。 Gemma开放模型系列是一系列由谷歌DeepMind及谷歌其他团队共同开发的轻量级、最先进的开放模型。这些模型基于创建Gemini模型的相同研究和技术。Gemma的设计灵感来源于Gemini,其名称源自拉丁语“宝石”的含义。除了模型权重,谷歌还发布了支持开发者创新、促进合作并指导负责任使用Gemma模型的工具。 Gemma模型现已全球推出。其关键细节包括发布了Gemma 2B和Gemma 7B两种尺寸的模型权重,每种尺寸都提供了预训练和指令调优的变体。谷歌还提供了一个新的负责任生成人工智能工具包,为创建更安全的人工智能应用提供指导和必要工具。此外,通过JAX、PyTorch和TensorFlow提供了全面的推理和监督式微调(SFT)工具链,并通过与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成,简化了使用Gemma的过程。 Gemma模型不仅能在笔记本电脑、工作站或谷歌云上运行,而且通过Vertex AI和谷歌Kubernetes引擎(GKE)实现了简易部署。谷歌还确保了Gemma在多个人工智能硬件平台上的优化,以保证行业领先的性能。 谷歌在设计Gemma时将其AI原则置于首位,采用自动化技术从训练集中过滤掉敏感数据,并通过广泛的微调和来自人类反馈的强化学习(RLHF)确保模型的安全可靠。此外,谷歌对Gemma模型进行了全面的风险评估,包括手动红队测试和自动化对抗测试。 为了支持人工智能的创新,谷歌为开发者和研究人员提供了Gemma的免费访问权限,并鼓励使用Kaggle、Colab笔记本以及谷歌云提供的信用额度。谷歌在ai.google.dev/gemma网站上提供了更多关于Gemma的信息和快速入门指南,并期待未来几周内为多样化应用介绍Gemma模型的新变体。
马斯克最近放出大新闻,说Neuralink的一位患者在植入手术后状态良好,甚至可以用大脑移动鼠标了!
Neuralink联合创始人埃隆·马斯克最近表示,首位植入该公司脑芯片的人类现在仅凭思考就能移动鼠标光标了。”进展很好,患者似乎已经完全康复,我们目前没有发现任何不良影响。患者仅通过思考就能在屏幕上移动鼠标,”马斯克在周一的一个X Spaces活动中这样说道,据路透社报道。 这次更新是在马斯克宣布Neuralink在人体植入芯片几周后进行的。之前的更新也是在X上发布的,X是马斯克拥有的社交网络,以前叫Twitter。马斯克在昨天的聊天中表示:”我们试图通过思考来实现尽可能多的按钮点击。所以我们当前正在研究的是:你能否实现左键点击、右键点击、鼠标按下、鼠标释放… 我们想要的不仅仅是两个按钮。” Neuralink本身似乎还没有就患者的进展发表任何声明。我们今天联系了该公司,如果得到回复将更新本文。Neuralink发布信息的方式上周受到了批评,批评者为纽约大学格罗斯曼医学院医学伦理学部门负责人、生物伦理学教授Arthur Caplan和宾夕法尼亚大学医学伦理学教授Jonathan Moreno。 “通过新闻发布的科学,虽然越来越普遍,但并非科学,”Caplan和Moreno在非营利组织Hastings Center发表的一篇文章中写道。”当为人类实验买单且在结果上有巨大财务利益的人是唯一的信息来源时,基本的伦理标准还没有达到。”Caplan和Moreno承认,从法律上看,Neuralink和马斯克似乎”没问题”: 假设某种脑-计算机接口设备确实被植入了某个严重瘫痪的患者体内,由某些外科医生在某处进行,人们会期待关于这一前所未有的实验的一些正式报告。但与药物研究不同,药物研究需要在公共数据库中注册各个阶段,食品药品监督管理局并不要求早期可行性研究的设备报告。从法律角度看,马斯克的公司没问题,这一事实肯定没有逃过他公司律师的战术关注。但他们争辩说,”打开一个活人的大脑插入设备”应该伴随更多公开的细节。他们写道,存在”避免给数以千计有严重神经系统残疾的人错误希望的”伦理义务。 脑植入物可能会有导致患者状况恶化的并发症,伦理学教授指出。”我们甚至不知道如果事情出了问题或者受试者简单地想要停止时,有什么计划来移除设备,”Caplan和Moreno写道。”我们也不知道动物研究的发现是什么,这些研究证明了为什么现在开始人类第一例实验,尤其是因为这并非救命研究。” 临床试验仍待进行 Neuralink因研究中涉嫌虐待动物被批评,并在去年因违反美国交通部关于危险物质运输规则而被罚款2480美元,这是在去年对公司设施进行检查后的结果。”人们应该继续对Neuralink生产的任何设备的安全性和功能性保持怀疑,”非营利组织负责医学责任的医生委员会在上个月宣布首次植入后说。 “医生委员会继续敦促埃隆·马斯克和Neuralink转向开发非侵入性脑-计算机接口,”该组织说。”其他地方的研究人员已经取得了进展,使用这种非侵入性方法改善患者健康,这些方法不会带来手术并发症、感染或修复功能失常植入物的额外手术风险。” 2023年5月,Neuralink表示已获得食品药品监督管理局批准进行临床试验。据报道,该公司之前试图获得批准被食品药品监督管理局因安全顾虑和其他”缺陷”拒绝。9月,该公司表示正在招募志愿者,特别是那些因颈部脊髓损伤或肌萎缩侧索硬化症导致四肢瘫痪的人。Neuralink表示,首个人类临床试验PRIME(精确机器人植入脑-计算机接口)将评估其植入物和外科机器人的安全性,并评估其BCI[脑-计算机接口]初步功能,以使瘫痪人士能够通过思考控制外部设备。
马斯克最新爆料:”Grok 1.5″将加入”格洛克分析”功能,灵感竟来自《马达加斯加的企鹅》电影
最近,马斯克又在聊天中透露了关于他的xAI语言模型Grok新版本——Grok 1.5的到来。这个即将推出的版本承诺带来一系列激动人心的新功能,其中包括一个能自动概括整个讨论串和回复的“格洛克分析”按钮,让把握复杂对话变得更加简单。此外,据报道Grok 1.5还将协助用户创建帖子,有望简化内容创作过程。 Grok 1.5的发布希望在几周内就能实现。它将带来一个“格洛克分析”的按钮,能够总结整个讨论串和回复。它还将帮助人们创建帖子。 这一消息发布仅几天后,谷歌就发布了其Gemini 1.5语言模型,这引发了人们对两大AI巨头之间潜在竞争的猜测。虽然每个模型的具体功能不同,但都旨在通过先进的语言处理能力增强用户体验。 Grok 1.5可能带来的潜在好处包括: X还在与Midjourney,一个AI生成艺术平台,讨论潜在的合作可能。
Adobe 最近拉了个大招,往它的 Acrobat 和 Reader 里植入了 AI 助手帮你读PDF
Adobe 最近出了个大动作,给它的 Acrobat 和 Reader 加入了全新的 AI 助手,这个助手能用对话 AI 的能力来帮助用户理解和总结全球企业和消费者使用的数以万亿计的 PDF 文件。这一举措显示了 Adobe 想要继续在它几十年前开创的 PDF 市场上保持领先地位,尤其是在像 OpenAI 和 Anthropic 这样的初创公司带来可能具有相同功能的新 AI 系统时。 这个还在测试阶段的 AI 助手,能让用户询问 PDF 内容的问题并获得总结性的回答。它还能基于从 PDF 中提取的信息生成格式化的文本,比如演示文稿和电子邮件。Adobe 的这项新功能利用了它的专有机器学习模型,这些模型能理解 PDF 的结构和内容,从而生成文档摘要、回答问题,甚至为电子邮件、报告和演示文稿格式化信息。 对于 Adobe 庞大的用户群来说,这意味着巨大的影响。AI 助手承诺将万亿份 PDF 文档转变为互动的、响应的知识源泉。它的能力包括推荐问题、创建生成性摘要,以及提供智能引用 —— 在一个越来越关注 AI 生成内容的来源和准确性的时代,这是一个关键功能。 Adobe 强调,AI 助手不会妥协客户数据,遵守严格的数据安全协议,并要求同意任何在 AI 训练中使用文档内容的用途。这种对隐私的承诺可能在数据敏感性仍然是首要关注点的企业领域中提供了竞争优势。将 AI 整合到文档管理中最终可能重新定义生产力,特别是对于那些经常需要处理长合同、报告和研究的知识工作者。 Adobe 通过将 AI 整合到其现有平台中,不仅提升了其产品,而且更深入地融入了个人和企业的工作流程。随着公司准备在测试期结束后通过附加订阅提供 AI 助手的全部功能范围,它准备推出一个可能设定新行业标准的强大工具。这一举措可能催生了一种新的文档消费和创建方式,进一步巩固了…
Meta 发布 MMCSG (多模态智能眼镜对话数据集)
近年来,智能眼镜的热度直线上升,尤其在语音和音频应用领域,比如音乐播放和通讯,它们的优势相较于手机或是固定的智能音箱显而易见。想象一下,戴在头上的这玩意儿不仅装备了多个麦克风、摄像头和其他传感器,还能让你体验到与众不同的便捷。最吸引人的一点可能就是实时字幕功能了,想想未来还可能实现实时跨语言翻译,岂不是美滋滋? 但要实现这一切,得先攻克一系列难题,包括但不限于目标说话人的识别与定位、活动检测、语音识别和声音分离。加入其他信号,比如连续的加速度计和陀螺仪数据,结合音频数据,可能就是解决这些问题的钥匙。 为了支持这方面的研究,人们创建了MMCSG数据集。这个数据集包含了两位参与者之间自发对话的记录,两位参与者都获得了报酬,并同意他们的数据被纳入研究。其中一位参与者佩戴了可以捕捉视频、音频(配备7个麦克风)和惯性测量单元(IMU)数据(包括陀螺仪和加速度计)的智能眼镜。所有对话都经过人工注释,提供了智能眼镜佩戴者的转录、分割和标记。为了保护参与者的隐私,视频中的人脸都进行了模糊处理。 MMCSG数据集的目的是为了研究,使用需遵守我们的数据许可协议。 下载数据集: https://ai.meta.com/datasets/mmcsg-downloads/ 下载论文:Task 3 – MMCSG | CHiME Challenges and Workshops
ChatGPT的增长已经进入了瓶颈期
ChatGPT这颗曾经闪耀的AI新星,如今似乎进入了“成长的冬天”。据Similarweb这家分析公司的最新数据透露,OpenAI旗下的这位聊天机器人在过去八个月里有五个月的网络流量呈下降趋势,目前比2023年5月的巅峰时期下降了11%。而它的移动应用程序的增长速度也慢得出奇,甚至没有Snapchat在上个季度新增的用户多。 这些数据表明,OpenAI的后ChatGPT时代来得比许多人预期的还要快。尽管OpenAI最初将ChatGPT视作其GPT模型的一个演示项目,但它迅速成长为一件大事,让人们对它的潜力寄予厚望。然而,随着增长的放缓,公司必须更加努力地推进其他项目,并且思考为什么它的旗舰产品无法持续其快速的增长势头。 SimilarWeb的高级洞察经理David Carr对我说:“尽管他们吸引了很多注意力,ChatGPT仍然没有成为主流”。 让我们来看看这些数据究竟意味着什么: 2023年5月,ChatGPT的网络访问量达到了18亿次的峰值,但在夏季期间开始下滑。到了2023年8月,访问量从高峰时期下降了21%,之后就没有恢复过来。有人将夏季的下滑解释为由于学生放假的临时暂停,但在初秋的反弹之后,ChatGPT的使用量在11月下降了超过3%,12月下降了7%。到了2024年1月,它的访问量为16亿次,比峰值时期下降了11%,自2023年中旬以来增长停滞。这些数字虽然庞大,但相比之下:拥有全球3.4%搜索市场份额的Bing,在1月份收到了13亿次访问。 同时,ChatGPT的移动应用程序也并未如预期般飞速起飞。该应用程序在2023年7月以430万美国用户的身份首次亮相,但到2024年1月只增长到了630万美国用户。相比之下,Snapchat在2023年第四季度仅新增了800万日活跃用户,从4.06亿增长到了4.14亿。 OpenAI没有回应置评请求。 ChatGPT的停滞并不意味着OpenAI的结束,反而是一个进化的必要。这家研究机构可能价值1000亿美元,上周四推出了一个名为Sora的惊人视频生成模型,显示了一条前进的道路。在一个竞争激烈的AI竞赛中,Google的Gemini刚刚达到了GPT-4的能力,OpenAI将不得不持续推出新作以保持领先。Sora正是这样一种创新,当OpenAI CEO Sam Altman在X上展示其能力时,它获得了极高的评价。 尽管开发者为用户在ChatGPT平台上构建插件的梦想可能难以实现,但GPT技术仍然是OpenAI业务的核心。该公司通过出售对GPT模型的访问权限给企业,实现了约20亿美元的年化收入,使它们能够在其产品中构建特定用途的小型机器人和功能,如自然语言搜索。OpenAI还在开发AI代理,可能会接管机器并执行操作,如填写费用报告,这是一个重大推动,可能会最大化其当前技术的价值。 随着OpenAI的模型变得更好,ChatGPT也将变得更好,给它一个随时间增长的机会。公司目前正在解决ChatGPT最令人沮丧的问题之一——它的金鱼记忆——通过构建更好的回忆能力。不必在每次登录后都重新告诉机器人你是谁,对于重度用户来说应该是一种解脱。 大型、通用的聊天机器人也可能就有一个作为用户界面的上限,这是从一开始就困扰着ChatGPT的问题。如果这是极限,OpenAI应该还好,但如果它的革命性应用无法突破当前的阈值,那肯定会感到失望。