Uncategorized Archives - Page 128 of 155

NVIDIA的RTX 500和1000系列专业Ada世代笔记本GPU，让你随时随地享受AI增强的工作流程

Posted on February 26, 2024February 26, 2024 by aitrendtrackers@rengongzhineng.io

在混合工作环境和生成式AI成为新常态的今天，无论是内容创作者、研究人员还是工程师，几乎每位专业人士都需要一款强大的、AI加速的笔记本电脑，以便在移动中也能应对各行各业的重大挑战。 NVIDIA新推出的RTX 500和1000 Ada世代笔记本GPU，将在新款的高度便携移动工作站中亮相，进一步扩充基于Ada Lovelace架构的产品阵容，该阵容已包括RTX 2000、3000、3500、4000和5000 Ada世代笔记本GPU。 AI的快速采用正在推动专业设计、内容创建工作流程以及日常生产力应用的效率，这强调了拥有强大的本地AI加速能力和足够的处理能力在系统中的重要性。搭载Ada世代GPU的下一代移动工作站，包括RTX 500和1000 GPU，将包含一个神经处理单元（NPU，CPU的一部分）和一个NVIDIA RTX GPU，后者包含用于AI处理的Tensor核心。NPU有助于卸载轻量级AI任务，而GPU则为更多要求日常AI工作流程提供高达额外682 TOPS的AI性能。 GPU所提供的更高级别的AI加速对于处理一系列基于AI的任务非常有用，如进行高质量AI效果的视频会议、带AI上采样的视频流、或使用生成式AI和内容创建应用加速工作。新的RTX 500 GPU为像稳定扩散这样的生成模型提供高达14倍的生成AI性能，AI照片编辑速度提高3倍，与仅CPU配置相比，3D渲染的图形性能提高10倍，为传统和新兴工作流程带来巨大的生产力飞跃。跨行业提升专业工作流程RTX 500和1000 GPU通过AI提升了笔记本用户的工作流程，以紧凑的设计在任何地方使用。视频编辑可以用AI简化去除背景噪声等任务。图形设计师可以用AI上采样让模糊图像复活。专业人士可以在移动中使用AI进行更高质量的视频会议和流体验。对于希望利用AI进行高级渲染、数据科学和深度学习工作流程的用户，NVIDIA还提供了RTX 2000、3000、3500、4000和5000 Ada世代笔记本GPU。3D创作者可以使用AI去噪和深度学习超采样（DLSS）实时可视化光影渲染。企业可以使用类似聊天机器人的接口查询内部知识库。研究人员和科学家可以进行数据科学、AI模型训练和调优以及开发项目的实验。 NVIDIA RTX的性能与便携性基于NVIDIA Ada Lovelace架构的RTX 500和1000 GPU，为轻薄笔记本带来了最新进展，包括：可用性新的NVIDIA RTX 500和1000 Ada世代笔记本GPU将于今年春季在包括Dell Technologies、HP、Lenovo和MSI在内的全球制造合作伙伴推出的移动工作站中上市。

Google爆料2018年微软居然想把Bing卖给苹果，但因为搜索质量的问题搁浅

Posted on February 26, 2024February 26, 2024 by aitrendtrackers@rengongzhineng.io

嘿，各位网友们，今天我给你们带来的热辣八卦是来自科技界的大新闻，你们绝对想不到！据Google在本月早些时候一份法庭文件中爆料，原来在2018年，微软竟然想把它的搜索引擎Bing卖给苹果！这件事在上周五文件解封时曝光，简直是太劲爆了！这背后其实是一场关于Google是否在网络搜索广告领域拥有垄断地位的法律大战。Google为了保持其搜索引擎的独家地位，与苹果及安卓手机制造商签订了一系列关键协议。据说在2021年，Google为此花费超过260亿美元。在这场诉讼中，Google试图证明自己是公平竞争的。 Google在文件中指出，微软在2009年、2013年、2015年、2016年、2018年和2020年多次向苹果提议，希望使Bing成为苹果Safari网页浏览器的默认搜索引擎，但苹果每次都以Bing的质量问题为由拒绝了。 Google在文件中写道：“每一次，苹果都仔细比较了Bing和Google的相对质量，并得出结论，对于其Safari用户来说，Google是更优的默认选择。这就是竞争。” 美国司法部在自己的新解封文件中表示，微软在过去20年里对Bing的投入几乎达到了1000亿美元。这家Windows和Office软件制造商在2009年推出了Bing，此前曾以MSN和Windows Live品牌进行搜索尝试。如今，根据StatCounter的数据，Bing在全球市场的份额仅为3%。在第四季度，微软通过搜索和新闻广告赚取了32亿美元，而Google的搜索及其他收入总计达到了480亿美元。 Google还提到，当微软在2018年联系苹果时，强调了Bing质量的提升，并提出将Bing卖给苹果或与苹果建立一个与Bing相关的合资企业。苹果高级副总裁Eddy Cue根据文件表示：“微软在搜索质量、他们对搜索的投资等方面的表现并不突出，一切都显得较为逊色。因此，他们的搜索质量不够好，他们的投资水平与Google或微软自身可能的投资水平相比也显得不够，他们的广告组织和货币化方式也不尽人意。” 据文件显示，苹果CEO蒂姆·库克曾就对Bing的评估给苹果高管发过电邮，但具体内容在文件中被编辑掉了。 Google和微软的代表未立即回应置评请求。微软CEO萨蒂亚·纳德拉在审判中作证称，他作为CEO的每一年都在尝试看看苹果是否会对Bing成为默认搜索引擎持开放态度。 Cue作证说，“如果苹果没有从Google那里获得它所要求的巨额支付，苹果会开发自己的搜索引擎”，司法部在其文件中如此声称。据彭博社去年9月报道，引述未具名人士的话说，大约在2020年，微软高管与苹果高级副总裁Eddy Cue进行了“探索性”对话，讨论将Bing卖给苹果的可能性。

Perplexity.ai为大型语言模型（LLM）时代重新设计谷歌搜索引擎优化（SEO）模型

Posted on February 25, 2024February 25, 2024 by aitrendtrackers@rengongzhineng.io

ChatGPT自2022年11月30日发布以来，既受到了热烈的欢迎，也遭遇了不少反对声音。很快就明显地发现，人们想要向AI提出他们通常会问Google的那些问题——而ChatGPT往往无法给出答案。问题层出不穷。ChatGPT的回答过时了，不引用来源，而且经常凭空想象出新的不准确的细节。华盛顿大学计算语言学实验室的主任Emily Bender当时被引用说，AI搜索是“星际迷航幻想，你有一个无所不知的电脑，你可以问问题。”Perplexity最初希望构建一个由AI驱动的Text-to-SQL工具。但在公司的Slack频道中，开始酝酿着一些不同的东西。 Perplexity这个创业公司成立于2022年8月，意外地进入了一个赛道——然后迅速向构建一个每日更新并通过引用多个来源来响应查询的AI驱动搜索引擎冲刺。它现在每月有超过1000万用户，并且最近获得了Jeff Bezos的投资。 “我认为Google是人类迄今为止构建的最复杂的系统之一。就复杂性而言，它甚至可能超越了登月，”Perplexity.ai的联合创始人兼CTO Denis Yarats说。最初，它是一个Slack机器人Perplexity最初希望构建一个由AI驱动的Text-to-SQL工具，Yarats说，让开发人员以自然语言查询和编码SQL。但在公司的Slack频道中开始酝酿着不同的东西——一个结合了OpenAI的大型语言模型（LLMs）的聊天机器人。然后，在2022年11月下旬，ChatGPT公开发布，成为历史上增长最快的消费应用程序，在两个月内达到了1亿用户。人们向ChatGPT提出了各种问题，其中很多它都无法回答。但Yarats说，Perplexity的Slack机器人可以。 “字面上在两天内，我们创建了一个简单的网站，将其连接到我们Slack机器人的后端基础设施，并将其作为一个有趣的演示发布，”Yarats说。“老实说，它工作得并不是很好。但鉴于有这么多人喜欢它，我们意识到这里有一些东西。” 一段时间以来，Perplexity继续致力于其Text-to-SQL工具。它还创建了一个Twitter搜索工具，BirdSQL，让用户找到超级具体的推文，比如“Elon Musk发给Jeff Bezos的推文”。但AI驱动的搜索引擎脱颖而出，在几个月内成为了公司新的——也是艰巨的——使命。 AI驱动搜索如何成为可能？这引出了一个明显的问题。Perplexity，一家不到两年前由四个人创立的公司（现已发展到大约40人），是如何解决看似让AI在搜索方面表现糟糕的问题的？二十年来，失败的Google竞争者已经证明“还不错”是不够的。这就是AI提供的捷径。检索增强生成，或(RAG)，是公司努力的一个支柱。由Meta、伦敦大学和纽约大学的研究人员发明，RAG将生成性AI与一个“检索器”配对，后者可以找到并引用向量数据库中的特定数据，然后传递给“生成器”以产生响应。“我确实同意RAG[对于搜索是有用的]，”AI基础设施公司Weaviate的联合创始人兼CEO Bob van Luijt说。“[RAG]所做的是允许普通开发人员，不仅仅是在Google工作的人，能够不费太多力气就构建这些类型的AI原生应用程序。”他指出，实现RAG的资源在AI开发者资源HuggingFace上是免费可用的。这导致了广泛的采用。Weaviate使用RAG来帮助其客户在专有数据上基础知识的AI代理。Nvidia使用RAG减少ChipNeMo中的错误，这是一个旨在帮助芯片设计师的AI模型。Latimer使用它来对抗种族偏见并放大少数群体的声音。而Perplexity则将RAG用于搜索。但为了让RAG有所用处，模型必须有东西可以检索，这里Perplexity.ai采用了更传统的搜索技术。该公司使用自己设计的网络爬虫，称为PerplexityBot，来索引互联网。 “当试图在最新信息上取得优势，比如新闻……我们将无法每天或每小时重新训练一个模型，”Yarats说。但在Google的规模上爬行网络也不实际；Perplexity缺乏科技巨头的资源和基础设施。为了管理负载，Perplexity将结果分成“领域”，这些领域以不同的紧迫性进行更新。新闻网站每小时更新一次以上。不太可能快速变化的网站，则每几天更新一次。 plexity还利用了来自Transformers（BERT）的双向编码器表示，这是Google在2018年创建的一个NLP模型，反过来用来更好地理解网页。Google将BERT开源，为Perplexity等公司提供了构建它的机会。“它让你得到一个简单的排名。它不会像Google那样好，但还是不错的，”Yarats说。但二十年来，失败的Google竞争者已经证明“还不错”是不够的。这就是AI提供的捷径。 “对于Google来说，有很多约束。最大的是广告。主页的房地产非常优化。” LLMs非常擅长解析文本以找到相关信息——实际上，发现模式是它们的全部事情。这允许LLM产生对提示的有说服力的文本响应，但它也可以用来有效地解析然后呈现LLM检查的信息。你可以通过将PDF上传到ChatGPT、Google Gemini或Claude.ai自己尝试这一点。LLM可以在几秒钟内摄取文档，然后回答有关文档的问题。 Perplexity本质上对网页做同样的事情，从而根本改变了搜索的工作方式。它不试图排名网页以将最佳页面放在查询列表的顶部，而是分析来自良好排名页面索引的可用信息以找到最相关的内容并生成答案。这就是秘密武器。 “你可以把它想象成LLM做最后的排名任务，”Yarats说。“[LLMs]不关心[SEO]分数。他们只关心语义和信息。这更加无偏见，因为它基于实际的信息增益，而不是Google工程师出于任何原因优化的信号。”当然，这引出了一个问题：Google也可以做到这一点吗？ Yarats说，Perplexity意识到面对Google的困难，因此，专注于搜索的“分布头部”。Perplexity不提供图像搜索，不缓存旧网页，不允许用户将结果缩小到特定日期或时间，也不包括购物结果，仅举几个Google功能例子，这些功能很容易被视为理所当然。他还认为Google将面临的问题不在于其技术执行，而在于其现有的高度盈利的广告业务。 “对于Google来说，有很多约束，”他说。“最大的是广告。主页的房地产非常优化。你不能只说，让我们移除这个广告，我要显示一个答案代替。我们没有那个。我们可以实验。”

VideoPrism: 深入了解视频内容的基础视觉编码器

Posted on February 25, 2024February 25, 2024 by aitrendtrackers@rengongzhineng.io

在这个信息爆炸的网络世界里，各种视频如同繁星般遍布每一个角落，从日常分享到历史时刻，再到科学观察，每一段视频都在用自己独特的方式记录着这个世界。要是有合适的工具来分析这些视频，我们对周围世界的理解可能会发生翻天覆地的变化。比起静态的图片，视频提供了更为丰富的动态视觉内容，捕捉到了运动、变化以及实体间的动态关系。分析这些复杂性，以及公开可获取的视频数据的巨大多样性，需要超越传统图像理解的模型。因此，很多在视频理解方面表现最佳的方法依然依赖于为特定任务量身定做的专门模型。最近，在这一领域使用视频基础模型（ViFMs）取得了令人兴奋的进展，比如VideoCLIP、InternVideo、VideoCoCa和UMT。然而，构建一个能够处理视频数据巨大多样性的ViFM依然是一个挑战。为了构建一个能够通用视频理解的单一模型，Google 推出了“视频棱镜：视频理解的基础视觉编码器”（VideoPrism）。视频棱镜是一款设计用来处理广泛视频理解任务的ViFM，包括分类、定位、检索、字幕和问答（QA）。Google在预训练数据以及建模策略上提出了创新。Google在大规模且多样化的数据集上预训练视频棱镜：3600万高质量视频-文本对和5.82亿带有噪声或机器生成的并行文本的视频片段。Google的预训练方法是为这种混合数据设计的，旨在从视频-文本对以及视频本身学习。视频棱镜极易适应新的视频理解挑战，并且使用单一冻结模型就能达到最新的性能水平。视频棱镜是一个通用视频编码器，通过从单一冻结模型产生视频表示，它在广泛的视频理解任务上实现了最新的结果，包括分类、定位、检索、字幕和问答。 Google提供了一个庞大的预训练视频库，理想情况下，Google希望预训练数据能够代表世界上所有的视频。虽然自然大多数视频没有完美的字幕或描述，即便是不完美的文本也能提供关于视频语义内容的有用信息。在两阶段训练中，视频棱镜模型架构源自标准的视觉变换器（ViT），采用分解设计，顺序编码空间和时间信息，遵循ViViT。Google的训练方法利用了上述提到的高质量视频-文本数据和带噪声文本的视频数据。首先，Google使用对比学习来教导模型匹配视频与其文本描述，包括不完美的描述。这为匹配语义语言内容到视觉内容奠定了基础。视频棱镜的独特之处在于，Google使用了两种互补的预训练信号：文本描述和视频内的视觉内容。文本描述通常聚焦于事物的外观，而视频内容提供了关于运动和视觉动态的信息。这使得视频棱镜在需要理解外观和运动的任务中表现出色。在广泛的视频理解任务上对视频棱镜进行了广泛评估，包括视频分类和定位、视频-文本检索、视频字幕、问答和科学视频理解。视频棱镜在33个视频理解基准测试中的30个上实现了最新的性能水平——所有这些都是通过对单一冻结模型的最小调整实现的。总之，视频棱镜作为一个强大且多功能的视频编码器，为通用视频理解设定了新的标准。Google通过构建大规模多样化的预训练数据集和创新的建模技术，验证了Google的方法。视频棱镜不仅一致性地超越了强大的基线，而且其独特的泛化能力使其非常适合处理一系列真实世界的应用。鉴于其潜在的广泛用途，Google致力于在这一领域继续进一步的负责任研究，由Google的AI原则指导。Google希望视频棱镜能为AI与视频分析交叉领域的未来突破铺平道路，帮助实现ViFMs在科学发现、教育和医疗等领域的潜力。

Gemini 模型将被引入Performance Max

Posted on February 25, 2024February 25, 2024 by aitrendtrackers@rengongzhineng.io

谷歌近日宣布其性能最大化广告系列中引入了创新特性，包括融合双子星模型，旨在为广告商解锁更多连接客户的机会。性能最大化广告系列跨越谷歌所有广告库存提供服务，突显了拥有满足不同客户需求和格式的广泛创意资产的重要性。研究发现，将广告强度提升至“优秀”的广告商，其平均转化率可见增加6%。谷歌公布的几项新功能助力广告商扩展并构建高品质的创意资产，特别是通过引入双子星模型到性能最大化中。这些创新利用了人工智能的强大功能，辅助广告商创建更高效的广告系列，并以吸引消费者所需的体量、速度和多样性构建创意资产。市场营销人员和代理合作伙伴继续作为创意过程的核心，利用对客户和业务的深刻理解，指导人工智能提供正确的输入，以制作有意义且效果显著的创意。谷歌于去年11月在性能最大化中推出了基于人工智能的资产生成和图像编辑功能，现在这些功能正在全球范围内向更多语言推广。双子星模型的引入进一步提升了这些资产生成功能，包括生成长标题和即将推出的网站链接生成功能；这些新特性都将利用双子星模型复杂的推理能力来生成文本资产。随着谷歌将图像生成模型升级至专为谷歌广告优化的Imagen 2，广告商将能够通过性能最大化生成展示人物行动的生活方式图像。同样，图像编辑功能也将包括生成和添加展示人物的背景能力。如果广告商已有表现良好的现有图像，他们将能够生成类似这些图像的新选项，以进一步扩大创意想法。谷歌确保广告商完全控制其广告系列建议的所有图像，并且不允许生成具名人物的图像，包括名人和公众人物。此外，谷歌强调，广告商不能使用性能最大化或资产生成来创建促进暴力、误导或任何其他被谷歌广告政策和生成式人工智能使用指南长期禁止的内容。谷歌还使用如SynthID水印等技术，允许将图像识别为由人工智能生成。Imagen2和SynthID是谷歌DeepMind开发的技术。谷歌将继续根据其人工智能原则和实践改进这些新的生成能力，以负责任地推进创新。随着构建新资产的方法越来越多，广告强度成为提供资产多样性和相关性实时反馈的重要指标。事实上，使用资产生成功能创建性能最大化广告系列的广告商，其广告强度评为“好”或“优秀”的可能性高出63%。展望未来，资产数量和多样性在确定性能最大化广告系列的广告强度时将得到更重视。这反映了它们在帮助广告商充分利用谷歌渠道提供的多样化库存和格式中的重要性。此外，谷歌鼓励广告商从其他设计平台导入创意资产，并强化了与Canva的合作。包含至少一个视频的性能最大化广告系列广告商平均看到总转化率增加12%。谷歌即将推出的广告预览分享功能将简化创意工作流程，使代理机构或内部营销团队更易共享概念。通过这些创新和工具，谷歌旨在帮助广告商利用人工智能技术提升其性能最大化广告系列的创意质量和效果。

谷歌搜索时代是不是已经过去了？

Posted on February 25, 2024February 25, 2024 by aitrendtrackers@rengongzhineng.io

尝试在谷歌上搜索“谷歌是不是走下坡路了？”你会发现许多人坚信答案是肯定的。点击第一个蓝色链接，你会跳转到一堆Reddit上的抱怨，满满都是对谷歌搜索结果中充斥的付费广告和推销垃圾网站的不满。最近的研究表明，这种挫败感并不仅仅是对这个有着25年历史产品的美好时光的怀旧。一群来自德国的顶尖互联网学者发现，谷歌在排除误导性产品评论的网站方面遇到了困难。谷歌对Gizmodo表示，对于产品查询，垃圾结果出现得更频繁，而且它已经改进了算法以避免混乱。尽管谷歌的表现优于搜索竞争对手Bing和DuckDuckGo，但由于其掌握了世界90%以上的搜索市场，谷歌的失误被放大了。但这并不意味着它现在就可以高枕无忧。一批新的AI工具威胁要挑战它作为搜索领域领头羊的地位。 OpenAI，即ChatGPT的制造者，据报道正在开发自己的搜索产品，并为微软的Bing提供AI能力。被杰夫·贝索斯支持的AI机器人Perplexity能够从网上总结信息，并提供链接到可靠来源。在最近一轮融资后，其估值达到了5.2亿美元。谷歌是在“恶化”吗？这是“恶化”概念的发明者科里·多克托罗（Cory Doctorow）所认为的。这位互联网文化批评家在2022年创造了这个术语，用来描述成熟在线平台为了利润最大化而牺牲用户体验的衰败过程。多克托罗声称，谷歌的顶级结果已经被垃圾邮件、骗局和广告所主导。他说，那些推送无用内容的网站太容易操纵那个排名搜索结果的守护算法了。一个搜索最佳鼻毛修剪器的人可能会被充斥着的产品评论网站所淹没，这些网站对于教育人们了解最佳鼻部打理选项的承诺不如他们引导访问者前往电商平台并进行购买所获得的费用来得热心。许多实际上没有测试他们宣传的商品的评论网站，通过在其页面上包含特定关键词而向谷歌用户展示。多克托罗写道，这家公司在向监管机构保证将投入大量资源对抗垃圾邮件的同时，成为了搜索巨头。但他说，谷歌却努力确保你在不加思考的情况下选择它的产品。最近被揭露，谷歌在2021年支付给苹果和三星等公司260亿美元，以成为他们设备的默认搜索引擎。这些策略是司法部因谷歌涉嫌非法手段成为搜索引擎垄断而起诉它的部分原因，预计将在五月做出裁决。它的搜索霸主地位是否正在滑落？自从微软CEO萨提亚·纳德拉（Satya Nadella）告诉The Verge他希望“人们知道我们让[谷歌]跳舞”以来已经过去一年了，他当时正在吹嘘Bing得到的OpenAI光环。根据The Information的报道，Bing自那以后未能赢得任何新的市场份额，而谷歌一直在与OpenAI竞争中努力。谷歌在ChatGPT上线后不久就推出了自己的AI聊天机器人Bard（现在叫Gemini），并一直在尝试添加AI生成的摘要到搜索中。据报道，它一直在与TikTok合作，将搜索结果嵌入到该应用中，以及其他计划，这些计划被反垄断活动人士在本周写给DOJ的一封信中批评为扩大其搜索垄断的努力，据纽约邮报报道。放眼全局：一位谷歌发言人告诉WSJ，其反垃圾邮件系统“帮助保持搜索结果99%的清洁”，并且它经常更新其搜索工具以清除不良结果。但随着AI威胁要颠覆人们在网上获取信息的方式，它需要继续为用户提供价值。

Google宣布暂停其AI工具“Gemini”生成人物图像的功能

Posted on February 23, 2024February 23, 2024 by aitrendtrackers@rengongzhineng.io

谷歌近日宣布，其旗舰生成AI套件“双子星”的生成人物图像功能将暂时搁置，公司正在更新技术以提高输出中涉及人物描绘的历史准确性。在社交媒体平台X上的一篇帖子中，谷歌宣布了这一被描述为“暂停”的举措，写道正在努力解决与历史不准确性相关的“最近问题”。谷歌表示：“在此期间，我们将暂停生成人物图像的功能，并将很快重新发布改进版。” 谷歌本月早些时候推出了双子星图像生成工具。然而，近日社交媒体上出现了一些不协调的历史人物图像——例如将美国开国元勋描绘成美洲印第安人、黑人或亚洲人——这导致了批评甚至是嘲笑。驻巴黎的风险投资家迈克尔·杰克逊今天在LinkedIn上的一篇帖子中加入了批评——将谷歌的AI品牌化为“荒谬的DEI（多样性、公平性和包容性）恶搞”。昨天，在X上的一篇帖子中，谷歌确认它“意识到”AI在一些历史图像生成描绘中产生了“不准确性”，并在一份声明中补充说：“我们正在努力立即改进这类描绘。双子星的AI图像生成确实能够生成各种人物。这通常是好事，因为世界各地的人们都在使用它。但在这里它没有达到预期的效果。” 生成AI工具根据训练数据和其他参数（如模型权重）产生输出。这类工具更常因产生带有偏见的输出而受到批评——例如过度性别化的女性形象，或者对高地位职业角色的提示反馈白人男性形象。谷歌早期的一个AI图像分类工具在2015年因错误将黑人男性分类为大猩猩而引起公愤。公司承诺修复此问题，但正如Wired几年后报道的，其“修复”只是一个简单的变通方法：谷歌简单地阻止了技术识别大猩猩。

Stable Diffusion 3正式发布，旨在巩固其在AI图像领域相对于Sora和Gemini的领先地位

Posted on February 23, 2024February 23, 2024 by aitrendtrackers@rengongzhineng.io

Stability AI最近宣布推出Stable Diffusion 3（简称SD3），这是该公司最新、最强大的图像生成AI模型。虽然具体细节还未充分披露，但显然这是为了抵御OpenAI和Google最近宣布的竞争对手所带来的热潮的尝试。虽然我们很快就会提供更技术性的分析，但目前你需要知道的是，SD3基于一种新的架构，能够在各种硬件上运行（尽管仍然需要较强的硬件支持）。SD3目前还未发布，但你可以在这里登记等待名单。 SD3采用了更新版的“扩散变换器”，这是一种在2022年首创但在2023年进行了修订并现在达到可扩展性的技术。OpenAI引人注目的视频生成器Sora似乎也是基于类似原理工作的（论文的共同作者Will Peebles后来共同领导了Sora项目）。SD3还采用了“流匹配”，这是另一种新技术，同样在不增加太多开销的情况下提高了质量。模型套件的范围从8亿参数（低于常用的SD 1.5）到80亿参数（超过SD XL），旨在运行在各种硬件上。你可能仍然需要一块强大的GPU和一个用于机器学习工作的设置，但你不像通常使用OpenAI和Google模型那样限于API。（就其本身而言，Anthropic并没有公开专注于图像或视频生成，因此它实际上不是这次讨论的一部分。）在X（前身为Twitter）上，Stable Diffusion的负责人Emad Mostaque指出，新模型能够进行多模态理解，以及视频输入和生成，这些都是他的竞争对手在他们的API驱动的竞争者中强调的功能。这些能力仍然是理论上的，但听起来似乎没有技术障碍阻止它们被包含在未来的发布中。当然，比较这些模型是不可能的，因为它们都还没有真正发布，我们所依赖的只是竞争性的声明和精心挑选的示例。但Stable Diffusion有一个明确的优势：它作为进行任何类型的图像生成的首选模型在时代潮流中的存在，方法或内容上几乎没有内在的限制。（的确，一旦越过了安全机制，SD3几乎肯定会开启AI生成色情内容的新时代。） Stable Diffusion似乎想成为你不可或缺的白牌生成AI，而不是你不确定是否需要的精品生成AI。为此，该公司也在升级其工具，以降低使用门槛，尽管与公告的其余部分一样，这些改进留给了想象。有趣的是，该公司在公告中将安全放在了首位，声明：我们已经采取并继续采取合理步骤，防止恶意行为者滥用Stable Diffusion 3。安全从我们开始训练模型时就启动，并在测试、评估和部署过程中持续进行。为了这次早期预览，我们引入了许多安全措施。通过持续与研究人员、专家和我们的社区合作，我们期望在模型公开发布时以诚信进一步创新。这些安全措施到底是什么？毫无疑问，预览将在一定程度上阐明它们，然后公开发布会进一步完善，或根据你对这些事情的看法而被审查。我们很快会知道更多，并且与此同时，我们将深入技术细节，以更好地理解这一新一代模型背后的理论和方法。

Phind-70B-运行速度提高4倍的同时，缩小了与GPT-4 Turbo在代码质量上的差距

Posted on February 23, 2024February 23, 2024 by aitrendtrackers@rengongzhineng.io

近日，科技界迎来了一个激动人心的消息：Phind-70B模型正式发布，这是目前为止最大、性能最强的模型。Phind-70B能够以每秒高达80个token的速度运行，为用户在技术话题上提供高质量的答案，极大地缩短了等待时间，提升了开发者的整体用户体验。该模型是在CodeLlama-70B的基础上，通过对额外500亿token进行微调而来，带来了显著的性能提升，并支持高达32K token的上下文窗口。在人类评估标准HumanEval上，Phind-70B以82.3%的高分超越了最新的GPT-4 Turbo（gpt-4-0125-preview）的81.1%。而在Meta的CRUXEval数据集上，尽管Phind-70B以59%的得分略低于GPT-4报告的62%，但在实际工作负载中的表现说明了Phind-70B在代码生成领域与GPT-4 Turbo处于同一质量水平，甚至在某些任务上表现更佳。Phind-70B展现出的主动性也超过了GPT-4 Turbo，在生成详细代码示例方面表现出更少的犹豫。得益于在NVIDIA的H100 GPU上运行TensorRT-LLM库的优化，Phind-70B的运行速度是GPT-4 Turbo的四倍，达到每秒80个以上的token。该团队正在努力进一步提高Phind-70B的推理速度。

微软放风了，OpenAI的新宠儿“Sora”即将加盟代码小助手行

Posted on February 23, 2024February 23, 2024 by aitrendtrackers@rengongzhineng.io

最近，微软广告与网络服务部门的CEO Mikhail Parakhin 在推特上的一番互动，间接透露了OpenAI的“Sora”最终会融入到代码小助手中，不过这个过程可能需要一段时间。这番话是在一位用户询问“Sora”是否会加入到Copilot时引出的，Parakhin的回答是：“最终会的，但这需要时间。” “Sora”是OpenAI开发的一个大型语言模型聊天机器人；你可以输入任何详细的文字提示，然后AI模型会在60秒内返回一个高度详细的视频。将这两者结合起来，有可能为开发者创建一个强大的工具，让他们能够在工作中利用两个AI模型的能力。 OpenAI表示，“Sora”是通过一个简化视频的网络来学习的。这个网络以普通视频为起点，将其简化，只保留最重要的部分。然后，“Sora”通过学习这些简化后的视频来创建新的视频。然而，微软似乎还在处理这一整合的技术层面问题。考虑到“索拉”几天前才对公众进行了预告，要让“Sora”在Copilot中可用还需要一些时间。值得注意的是，Parakhin的推文并没有提供“索拉”何时会与Copilot整合的具体时间表。然而，他的回答表明，微软致力于最终实现这一目标。

Subscribe 订阅