白宫宣布了”第一个全政府范围内的政策,旨在减少人工智能(AI)风险并发挥其好处”。为了协调这些努力,每个联邦机构都必须指定一位具有”在AI领域显著专业知识”的首席AI官。 一些机构已经任命了首席AI官,但还没有任命的机构必须在接下来的60天内指定一位高级官员。如果已经任命为首席AI官的官员没有必要的权力来协调机构中的AI使用,他们必须被赋予额外的权力,否则必须指定新的首席AI官。 白宫建议,理想的候选人可能包括首席信息官、首席数据官或首席技术官,这是管理和预算办公室(OMB)的政策所说。 作为首席AI官,被任命者将作为AI倡议的高级顾问,监控和清点机构使用的所有AI。他们必须进行风险评估,考虑任何AI使用是否影响到”安全、保安、民权、民主自由、隐私、民主价值观、人权、平等机会、工人福祉、获取关键资源和服务的机会、机构信誉及可信度以及市场竞争”,OMB说。或许最紧迫的是,到12月1日,官员们必须纠正政府中所有不合规的AI使用,除非获得最长一年的延期。 首席AI官将看似享有大量权力和监督政府使用AI的能力。由首席AI官来制定计划,以符合最低安全标准,并与首席财务和人力资源官员合作,制定必要的预算和工作力量,使用AI来进一步每个机构的使命,并确保”公平结果”,OMB说。以下是OMB理想的简要总结: 机构被鼓励优先考虑AI的发展和采用,以公共利益和技术在理解和应对大型社会挑战中的帮助为依据,如使用AI提高政府服务的可访问性、减少食品不安全、应对气候危机、改善公共卫生、推进公平结果、保护民主和人权,并以惠及美国全国人民的方式促进经济竞争力。 首席AI官的主要责任之一是确定哪些AI使用可能影响美国公民的安全或权利。他们将通过评估AI影响、进行现实世界测试、独立评估AI、定期评估风险、适当培训员工、在必要时提供额外的人力监督,并公告任何可能对”权利或安全产生重大影响”的AI使用,OMB说。 OMB列出了几种可能影响安全的AI使用,包括控制从紧急服务到食品安全机制再到控制核反应堆的”安全关键功能”。使用AI维护选举完整性也可能影响安全,同样,使用AI处理工业废物、控制健康保险成本或检测”危险武器的存在”也是如此。 被认为可能影响权利的AI使用包括审查受保护的言论和一系列执法努力,如预测犯罪、绘制面孔或使用车牌阅读器在公共空间跟踪个人车辆。其他可能影响权利的AI使用包括”与移民相关的风险评估”、”未经明确同意复制个人的形象或声音”或检测学生作弊。 首席AI官最终将决定任何AI使用是否影响安全或权利,并必须遵守OMB的负责任AI使用的最低标准。一旦做出决定,官员们将”集中追踪”这些决定,向OMB报告任何”AI使用的条件或背景中的主要变化”。官员们还将定期召开”新的首席AI官议会以协调”全政府范围内的努力并共享创新。 随着机构推进AI使用——白宫表示,这对于”加强AI安全和安保、保护美国人的隐私、推进公平和民权、支持消费者和工人、促进创新和竞争、提升美国在全球的领导地位等”至关重要——首席AI官将成为对外公开的、对所作决定负责的人物。在这一角色中,官员必须与公众协商,并纳入”受影响社区的反馈”,通知”受到新AI使用负面影响的个人”,并保持选择退出”AI启用的决策”的选项,OMB说。 然而,OMB指出,首席AI官也有权放弃选择退出选项,”如果他们能证明人类替代方案会导致不公平的服务(例如,对受保护类别产生不同影响)或如果选择退出会给机构带来不适当的困难”。
亚马逊刚刚砸下了2.75亿美元投资人工智能初创公司Anthropic,这是迄今为止它们最大的一笔风险投资。
亚马逊正在进行其三十年历史中最大的一次外部投资,目的是在人工智能竞赛中获得优势。 这家科技巨头表示,它将再投资27.5亿美元支持位于旧金山的初创公司Anthropic,该公司广泛被视为生成式人工智能领域的领跑者。它的基础模型和聊天机器人Claude与OpenAI和ChatGPT竞争。 公司在9月宣布了最初的12.5亿美元投资,并表示当时亚马逊将投资高达40亿美元。周三的消息标志着亚马逊对该资金的第二笔投资。 亚马逊将保持在公司的少数股份,并不会拥有Anthropic的董事会席位。公司表示,这笔交易是以AI初创公司最后的估值进行的,根据一位消息人士,该估值为184亿美元。 过去一年中,Anthropic完成了五笔不同的融资交易,价值约73亿美元。该公司的产品直接与OpenAI的ChatGPT在企业和消费者世界中竞争,它由前OpenAI研究高管和员工创立。 在Anthropic推出其最新的AI模型套件Claude 3几周后,亚马逊的投资消息传出。该公司表示,其新模型中最强大的一个在行业基准测试中胜过了OpenAI的GPT-4和Google的Gemini Ultra,测试包括本科级知识、研究生级推理和基础数学。 “生成式AI有望成为我们这个时代最具变革性的技术,我们相信与Anthropic的战略合作将进一步改善我们客户的体验,我们期待未来的发展,”AWS云提供商的数据和AI副总裁Swami Sivasubramanian说。 亚马逊的这一举措是云服务提供商在AI竞赛中保持领先地位的最新支出狂潮之一。这是Anthropic资本结构在一周内的第二次更新。上周五,破产文件显示,加密货币交易所FTX与一群买家达成协议,出售其在Anthropic的大部分股份,确认了上周CNBC的报道。 根据PitchBook的数据,生成式AI一词似乎在一夜之间进入了主流和商业词汇,过去一年,这个领域爆炸性增长,2023年投资记录高达291亿美元,涉及近700笔交易。OpenAI的ChatGPT首次展示了该技术产生类人语言和创造性内容的能力。从那时起,OpenAI表示,超过92%的财富500强公司已经采用了该平台,涵盖了金融服务、法律应用和教育等行业。 像亚马逊网络服务这样的云提供商不想被抓个措手不及。 这是一种互惠关系。根据协议,Anthropic表示将使用AWS作为其主要的云提供商。它还将使用亚马逊的芯片来训练、构建和部署其基础模型。亚马逊一直在设计自己的芯片,这些芯片最终可能与Nvidia竞争。 与此同时,微软也在进行自己的支出狂潮,对OpenAI进行了高调的投资。据报道,微软对OpenAI的投资已增加到130亿美元,随着初创公司的估值超过290亿美元。微软的Azure也是OpenAI计算能力的独家提供商,这意味着初创公司的成功和新业务将回流到微软的云服务器。 谷歌也支持Anthropic,与Google Cloud达成了自己的协议。它同意投资高达20亿美元给Anthropic,包括5亿美元的现金注入,另外15亿美元将随时间投资。Salesforce也是支持者之一。 Anthropic本月早些时候宣布的新模型套件,标志着该公司首次提供“多模态”,或增加生成式AI的照片和视频功能的选项。 但多模态和越来越复杂的AI模型也导致了更多潜在风险。谷歌最近将其AI图像生成器(作为其Gemini聊天机器人的一部分)下线,因为用户发现了历史不准确和可疑的回应,这些回应在社交媒体上广泛传播。 Anthropic的Claude 3不生成图像。相反,它只允许用户上传图像和其他文档进行分析。 “当然没有任何模型是完美的,我认为这是非常重要的一点,”Anthropic联合创始人Daniela Amodei本月早些时候告诉CNBC。“我们非常努力地尝试使这些模型成为尽可能能力强大和安全的交集。当然,还是会有时候模型会偶尔捏造一些事情。” 亚马逊在Anthropic之前最大的风险投资是电动汽车制造商Rivian,其中投资了超过13亿美元。那也是一次 战略合作。 面对更多的反垄断审查,这些合作伙伴关系一直在增加。由于“七大美妙”——亚马逊、微软、苹果、Nvidia、Alphabet、Meta和Tesla——的并购数量下降,被风险投资风格的投资所抵消,根据Pitchbook的数据。 这七家科技公司在AI和机器学习的投资去年跃升至246亿美元,从2022年的44亿美元增加,与此同时,大科技的并购交易从2022年的40笔交易减少到去年的13笔。 “投资潜在的颠覆者背后有一种某种程度的偏执动机,”Pitchbook的AI分析师Brendan Burke在接受采访时说。“另一个动机是增加销售,投资于可能会使用其他公司产品的公司——它们往往更像是合作伙伴,而不是竞争对手。” 大科技在AI上的支出狂潮因这些协议的看似循环性质而受到批评。通过投资AI初创公司,包括Benchmark的Bill Gurley在内的一些观察者指责这些科技巨头将现金回流到它们的云业务中,这反过来可能会显示为收入。Gurley将其描述为一种“刺激自己收入”的方式。 美国联邦贸易委员会正在更仔细地审查这些合作伙伴关系,包括微软的OpenAI交易以及谷歌和亚马逊的Anthropic投资。有时被称为“往返交易”的行为可能是非法的——特别是如果目的是误导投资者。但亚马逊表示,这种类型的风险投资不构成往返交易。 FTC主席Lina Khan在该机构的AI技术峰会上宣布了这项调查,将其描述为对AI开发者和主要云服务提供商之间形成的投资和合作伙伴关系的“市场调查”。
x.ai刚刚宣布了Grok 1.5的发布,听说这次更新后的版本在推理能力和处理更长上下文方面都有了大幅提升
Grok-1.5这个新星,在测试中就展现了它的超凡魅力,它在MATH基准测试中得分达到了50.6%,在GSM8K基准测试中更是高达90%,这说明它能够轻松应对从小学到高中竞赛级别的各种数学问题。而在HumanEval基准测试中,它的得分为74.1%,展现了它在代码生成和问题解决能力上的娴熟。 Grok-1.5的一个亮点功能是其能够处理长达128K令牌的上下文,这大大增加了模型的记忆容量,使其能够利用来自更长文档的信息,并在维持遵循指令的能力的同时处理更复杂的提示。在针对长文本的检索能力评估(NIAH)中,Grok-1.5展示了其在处理长达128K令牌的上下文中嵌入文本的强大检索能力,实现了完美的检索结果。 Grok-1.5是基于JAX、Rust和Kubernetes的自定义分布式训练框架构建的,这套训练堆栈使X.ai的团队能够以最少的努力在大规模上原型化想法并训练新的架构。自定义的训练协调器确保了训练作业的最大可靠性和正常运行时间,能够自动检测并从训练作业中排除问题节点。在出现故障时,检查点、数据加载和训练作业重启也已优化,以最小化停机时间。 Grok-1.5即将向早期测试者开放,X.ai期待着收到反馈以帮助改进模型。随着公司逐步向更广泛的受众推出Grok-1.5,接下来的几天里还将引入几项新功能。
gpt-llm-trainer 出炉
在这个信息爆炸的时代,想要DIY一个大语言模型(LLM)?有点头疼对吧。不过,别急,有个新工具出现了,名叫“claude-llm-trainer”,由Matt Schumer亲自推出。这个工具就像是开启了作弊模式,允许你轻松创建定制的LLM。你只需要简单描述你希望模型完成的任务,剩下的就交给它了。它会利用Claude 3自动完成数据生成和模型训练的全部过程。最棒的部分?它是建立在一个开源框架上的,这意味着你可以享受到极大的灵活性。默认情况下,它会用LLaMA 2 7B模型,但如果你想尝试其他的模型,比如Mistral 7B,也是分分钟的事。 搞模型,真的是个技术活。得先搞数据集,清洗、格式化,然后选个模型,写训练代码,开搞。这还是最理想的情况呢。这个项目的初衷,就是探索一种新的实验性流程,目的是为了训练出一个高性能的任务特定模型。我们试图把所有的复杂性都给抹平,让从零到有、从想法到一个性能强劲的、训练完毕的模型变得尽可能简单。 只需输入你的任务描述,系统就能从零开始生成数据集,自动解析成正确的格式,并且为你精调LLaMA 2或GPT-3.5模型。 功能特色: https://github.com/mshumer/gpt-llm-trainer
谷歌刚刚宣布了他们的新招,专门为那些喜欢计划一点点或根本不计划的旅行者准备的SGE和Maps旅行功能
夏天的计划正在升温,谷歌为此推出了新的Maps和SGE旅行功能。 周三,谷歌宣布了在SGE(谷歌的AI驱动搜索实验平台)中创建行程计划的能力,以及在Maps中寻找推荐和自定义列表的新方式。 SGE,即搜索生成体验,是一个测试与搜索相关的生成式AI功能的平台。用户可以注册来预览谷歌对搜索未来的构想——特别是针对查询的AI生成响应。对于那些还没有选择加入的用户来说,它还没有正式上线,但谷歌已经在悄悄地向非测试者展示AI驱动的搜索结果。通过SGE的旅行计划功能,你可以要求它根据网络上包括餐厅和网站的商业档案、图片和用户评论的推荐来规划行程。 SGE的行程包括指向旅行信息来源的链接,至少它是在引用它的工作,但我们无法想象旅行博客和出版物会对SGE响应占据如此多的搜索版面感到多么高兴。对于尚未向公众开放的工具来说,剽窃及其对SEO流量的影响一直是主要关注点。但对用户而言,它在网上更容易找到信息的潜力是不可否认的。 谷歌地图的新功能也旨在帮助人们规划旅行。现在,当你搜索一个城市时,Maps会向你展示来自顶级旅行网站如孤独星球和《纽约时报》的“36小时”系列以及谷歌地图用户的“精选推荐列表”。这也适用于谷歌按“流行”,“顶级”和“珍宝”组织的餐厅列表。 当你在谷歌地图上搜索一个城市时,找到推荐列表。图片来源:谷歌对于那些致力于策划自己列表的Maps用户,现在也有新的方式来自定义他们最喜欢的地方。现在,你可以按时间顺序组织列表上的地方,并对它们进行排名,以便你在进行中更新列表。用户还可以在社交媒体上分享他们策划的列表。 SGE旅行行程在美国通过加入Search Labs可用。列表推荐将于本周开始为美国和加拿大的用户显示,列表自定义功能将于本月晚些时候在iOS和Android上全球推出。
Databricks 这回砸下重金,整整1000万美金投入了他们全新的 DBRX 生成式 AI 模型
如果你想提高你的大型科技公司的知名度,并且有1000万美元可花,你会怎么花?是投资超级碗广告,还是赞助F1车队? 你也可以选择用这笔钱训练一个生成式人工智能模型。虽然这不是传统意义上的营销,但生成式模型无疑是吸引眼球的利器——并且越来越多地成为指向供应商主要产品和服务的渠道。 看看Databricks最新公布的DBRX生成式AI模型,这可不是闹着玩的。它类似于OpenAI的GPT系列和Google的Gemini,既可以在GitHub上找到,也可以在AI开发平台Hugging Face上用于研究和商业用途,DBRX有基础版(DBRX Base)和经过特别调优的版本(DBRX Instruct),能够在公共的、自定义的或其他专有数据上运行和调整。 Databricks的Naveen Rao副总裁在接受TechCrunch采访时说:“DBRX被训练用来提供关于各种主题的有用信息。DBRX针对英语使用进行了优化和调整,但也能够进行多种语言的对话和翻译,比如法语、西班牙语和德语。” Databricks将DBRX描述为“开源”,就像Meta的Llama 2和AI初创公司Mistral的模型一样“开源”。(这些模型是否真正符合开源定义,目前还有激烈的讨论。) Databricks表示,他们花了大约1000万美元和两个月的时间来训练DBRX,并声称(引用新闻稿的话)“在标准基准测试上胜过所有现有的开源模型”。 但是,营销的问题来了——除非你是Databricks的客户,否则使用DBRX非常困难。 因为要在标准配置中运行DBRX,你需要一台至少配备四个Nvidia H100 GPU的服务器或个人电脑(或任何其他总计约320GB内存的GPU配置)。单单一个H100的成本就高达数千美元——很可能更多。这对于平均企业来说可能是小菜一碟,但对于许多开发者和独立创业者来说,这已经遥不可及了。 当然,你可以在第三方云上运行这个模型,但硬件要求依然很高——例如,Google Cloud上只有一种实例类型包含H100芯片。其他云可能成本较低,但总的来说,运行这样庞大的模型今天并不便宜。 此外,还有一些细节问题。Databricks表示,拥有超过7亿活跃用户的公司将面临“某些限制”,这与Meta对Llama 2的限制相似,所有用户必须同意条款,确保他们“负责任地”使用DBRX。(截至发稿时,Databricks尚未提供这些条款的具体内容。) Databricks提出其Mosaic AI Foundation Model产品作为解决这些障碍的管理解决方案,除了运行DBRX和其他模型外,还提供了一个用于在自定义数据上微调DBRX的训练堆栈。客户可以使用Databricks的模型服务私下托管DBRX,Rao建议,或者他们可以与Databricks合作,将DBRX部署在他们选择的硬件上。 Rao补充说:“我们专注于使Databricks平台成为定制模型构建的最佳选择,因此Databricks的最终收益是我们平台上的更多用户。DBRX是我们一流的预训练和调优平台的展示,客户可以利用这个平台从零开始构建自己的模型。这是客户开始使用Databricks Mosaic AI生成式工具的简单方法。并且,DBRX本身就非常强大,可以针对特定任务进行调整,以获得比大型封闭模型更好的性能和更经济的成本。” Databricks声称DBRX的运行速度是Llama 2的两倍,部分原因是它采用了专家混合(MoE)架构。MoE——与Mistral的新模型和Google最近宣布的Gemini 1.5 Pro共享的架构——基本上是将数据处理任务分解为多个子任务,然后将这些子任务委派给较小的、专业的“专家”模型。 大多数MoE模型有8个专家。DBRX有16个,Databricks表示这提高了质量。 然而,质量是相对的。 虽然Databricks声称DBRX在某些语言理解、编程、数学和逻辑基准测试上胜过Llama 2和Mistral的模型,但在数据库编程语言生成等小众用途之外,DBRX在大多数领域都不及目前领先的生成式AI模型,OpenAI的GPT-4。 现在,正如一些社交媒体上的人指出的,DBRX和GPT-4,后者的训练成本显著更高,非常不同——可能差异太大,不值得直接比较。将这些大型、由企业资助的模型与领域中最好的模型进行比较是重要的,但也应该指出它 们的区别,比如DBRX是“开源”的,并且针对一个明确的企业受众。 同时,也不能忽视DBRX在普通人运行起来的成本上几乎与旗舰模型如GPT-4接近,其训练数据不是公开的,它在最严格的定义上也不是开源的。 Rao承认DBRX也有其他限制,即它——像所有其他生成式AI模型一样——可能会因为Databricks在安全测试和红队操作中的工作而“幻觉”式地回答查询。因为该模型仅仅被训练以将某些词或短语与特定概念相关联,如果这些关联不完全准确,它的回应也不会总是准确的。 此外,DBRX不是多模态的,与一些较新的旗舰生成式AI模型不同,包括Gemini。(它只能处理和生成文本,不能生成图片。)我们也不知道用于训练它的具体数据来源;Rao只透露没有使用Databricks客户数据来训练DBRX。 “我们在训练DBRX时使用了来自多种来源的大量数据集。”他补充说,“我们使用了社区熟知、喜爱并每天使用的开放数据集。” 我问Rao是否有任何DBRX训练数据集是版权或许可的,或者显示出明显的偏见(例如种族偏见),但他没有直接回答,只是说:“我们对使用的数据非常小心,并进行了红队演练,以改善模型的弱点。”生成式AI模型倾向于重复训练数据,这是商业用户对于使用未经许可、版权或明显偏见数据训练的模型的一个主要担忧。在最坏的情况下,用户可能因不知不觉地将模型中的侵权或有偏见的作品纳入其项目而面临道德和法律风险。 一些训练和发布生成式AI模型的公司提供覆盖可能侵权引起的法律费用的政策。Databricks目前没有——Rao说公司正在“探索”可能提供此类支持的情景。 考虑到DBRX在其他方面的不足,这个模型似乎很难吸引除当前或潜在Databricks客户之外的人。Databricks在生成式AI领域的竞争对手,包括OpenAI,提供的技术同样甚至更加引人注目,价格也非常有竞争力。并且,许多生成式AI模型比DBRX更接近人们通常理解的开源定义。 Rao承诺Databricks将继续完善DBRX,并随着公司的Mosaic Labs R&D团队——DBRX背后的团队——探索新的生成式AI途径而发布新版本。 “DBRX在推动开源模型空间向前发展,并挑战未来的模型建造得更高效。”他说。“我们将发布变体,因为我们应用技术来提高输出质量,从可靠性、安全性和偏见方面……我们将开放模型视为一个平台,我们的客户可以利用我们的工具在其上构建定制功能。” 鉴于DBRX目前相对于其同行的位置,这是一条异常漫长的道路。
Adobe最近推出了Firefly AI的结构参考以及面向品牌的GenStudio
Adobe 最近以 Firefly AI 的结构参考和面向品牌的 GenStudio 为旗帜,加入了生成式人工智能的浪潮。这个动作象征着 Adobe 向创意界发射了一颗照明弹,为品牌和设计师们在创作旅程中照亮了一条全新的道路。 作为创意软件巨头,Adobe 在 2023 年 3 月推出了商业安全的 Firefly AI 图像生成和编辑模型,成为首批跳上生成式人工智能潮流的大公司之一。数月之后,继 Firefly 2 发布后,Adobe 现在推出了全新的 “GenStudio” 应用,旨在帮助企业用户和品牌为广告活动创建生成式人工智能资产,并将它们在线上或通过其数字分发渠道发布。 此外,Adobe 还引入了一个新功能,希望能够给予客户更多控制权——因此,给用户更多生成人工智能图像的理由。 这个被称为 “结构参考” 的新功能允许 Adobe Firefly 独立的文本到图像生成器应用的用户上传一张图像,这张图像将指导后续图像的生成,不是在风格或内容上,而是在图像的布局以及其中的物体和角色的排列上。 这些功能首次在本周举行的 Adobe Summit —— 公司年度会议上公开揭幕。会议于 2024 年 3 月 25 日至 28 日在拉斯维加斯的威尼斯会议展览中心举行。 GenStudio 设计为品牌的中心枢纽,为品牌提供一套全面的工具,用于规划市场营销/广告/促销活动,创建和管理内容,激活跨渠道的数字体验,并衡量性能。 Adobe 希望这个新应用 —— Creative Cloud 订阅应用套件的一部分 —— 能够简化和优化内容生成过程。…
微软刚刚宣布Pavan Davuluri担任新的Windows和Surface负责人
微软今天宣布任命Pavan Davuluri为新的Windows和Surface负责人。在Panos Panay去年意外离职前往亚马逊后,微软将Windows和Surface团队分拆,由两位不同的领导负责。Davuluri接管了Surface的硅片和设备工作,而Mikhail Parakhin领导了一个专注于Windows和网络体验的新团队。现在,随着Parakhin“决定探索新角色”,Windows和Surface都将由Davuluri负责。 《The Verge》获得了微软体验和设备负责人Rajesh Jha的一份内部备忘录,概述了新的Windows组织架构。微软现在再次将其Windows和设备团队合并。“这将使我们能够采取整体方法来构建跨Windows客户端和云的硅片、系统、体验和设备,为这个AI时代服务,”Jha解释说。 Davuluri于去年12月与AMD CEO Lisa Su一同上台。Pavan Davuluri现在是微软Windows和Surface团队的负责人,直接向Rajesh Jha汇报。Davuluri在微软工作了23年以上,深度参与了公司与Qualcomm和AMD合作创建自定义Surface处理器的工作。 Mikhail Parakhin现在将在过渡期间向Kevin Scott汇报,但他在微软的未来看起来不确定,而且很可能这些“新角色”将是公司外的。Parakhin在接手更广泛的Windows工程职责和对Microsoft Edge的更改之前,一直在紧密地参与Bing Chat的工作。 在Google DeepMind联合创始人、前Inflection AI CEO Mustafa Suleyman加入微软成为新AI团队CEO几天后,Windows团队发生了重大调整。微软还聘请了包括共同创始人Karén Simonyan在内的一批Inflection AI员工,Simonyan现在是微软AI的首席科学家。因此,大多数Inflection的员工加入微软AI,这被视为一次小心避开直接监管审查的人才收购。 Suleyman现在是微软AI的CEO,这是一个新团队,将负责公司面向消费者的AI产品,如Copilot、Bing和Edge。Suleyman直接向微软CEO Satya Nadella汇报,看起来他本来是设定管理Mikhail Parakhin的,但现在不再是这样了。 Jha表示,Windows团队将“与微软AI团队在AI、硅片和体验方面紧密合作”,但这些新领导人将不得不导航一些潜在的重叠领域,这会很有趣。微软AI现在负责Edge,这是Windows体验的关键部分。 以下是Rajesh Jha的备忘录全文: 我想分享有关Windows和网络体验(WWE)团队的更新,继上周的公告和创建微软AI组织之后。 Mikhail Parakhin决定探索新角色。Satya和我感谢Mikhail的贡献和领导,并感谢他为帮助微软在新AI浪潮中领先所做的一切。他将在支持WWE过渡期间向Kevin Scott汇报。 作为这一变化的一部分,我们将Windows体验和Windows + 设备团队作为体验 + 设备(E+D)部门的核心部分合并在一起。这将使我们能够采取整体方法来构建跨Windows客户端和云的硅片、系统、体验和设备,为这个AI时代服务。Pavan Davuluri将领导这个团队并继续向我汇报。Shilpa Ranganathan和Jeff Johnson及其团队将直接向Pavan汇报。Windows团队将继续与微软AI团队在AI、硅片和体验方面紧密合作。 网络体验团队将向新的微软AI组织中的Mustafa汇报。 Jordi Ribas将领导搜索、地图和平台,Andrey Proskurin、Fatima Kardar和Nick Lee向他汇报。 Rukmini Iyer将领导广告,Paul Viola和Weiqing Tu向她汇报。…
OpenAI最近推出的Sora,在NVIDIA H100上生成1分钟视频大约需要12分钟的时间
根据Factorial基金的估计,OpenAI的Sora在NVIDIA H100上每小时可以生成5分钟视频,相当于每天每个H100可以生成120分钟的视频。 报告进一步补充说,为了支持TikTok和YouTube上的创作者社区,大约需要89,000个NVIDIA H100 GPU。将TikTok和YouTube的AI生成视频生产量合并起来,每天由AI生产的视频总量达到1070万分钟。 然而,考虑到实际使用率、高峰需求和繁忙流量等因素,高峰需求时估计需要的Nvidia H100 GPU数量大约为720,000个,这比基于简化假设的初步计算显著增加。 创作者可能会生成多个候选视频,然后再选择最佳视频,导致平均每上传一个视频就有两个候选视频。这一因素也使得GPU需求翻倍。 在最近接受《华尔街日报》采访时,CTO Mira Murati分享说,OpenAI将在今年晚些时候使Sora公开可用。Sora在2月份推出时,用户对其超现实视频给予了高度评价,许多人称之为视频领域的“ChatGPT时刻”。 该模型在2月份展示,可以根据文本提示生成现实场景,不久将开放给公众使用。初步推出将主要面向视觉艺术家和电影制作人。Murati还透露了计划将声音和编辑灵活性纳入Sora生成的视频。 OpenAI正在向好莱坞推广Sora。据彭博社报道,ChatGPT的创造者已经安排了下周在洛杉矶与好莱坞工作室、媒体高管和人才经纪公司的会议,以在娱乐产业中形成合作伙伴关系,并鼓励电影制作人将其新的AI视频生成器整合到他们的作品中。
微软正在改进其AI驱动的Copilot在Microsoft Teams中的工作方式,为会议聊天、总结等引入了新的召唤助手方式
微软正在改进其AI驱动的Copilot在Microsoft Teams中的工作方式,为会议聊天、总结等引入了新的召唤助手方式。 Copilot已经能够总结Teams会议内容,但在接下来的几个月里,它将把口头转录和书面聊天结合在一起,形成单一视图,使你更容易追赶可能错过的会议。 Teams中的Copilot也在改善聊天消息的撰写功能,允许Teams用户以新的方式重写消息。“Copilot可以调整你的消息,增加一个行动号召,或者像海盗那样说话,”微软在一篇博客文章中说。“不久,你还将能够根据Teams聊天的上下文生成新消息。” 对于直接拨打到手机的传统Teams电话,智能通话回顾“将在下个季度与Teams Premium一起普遍推出”,据微软称。智能通话回顾将自动记录通话中的笔记,让你在不用尴尬记录笔记的情况下总结电话内容并查看后续行动。 所有这些对Microsoft Teams的AI改进虽然各自不大,但它们加起来让Teams中的Copilot变得更加灵活。Teams中的Copilot集成已经是微软在Office应用中AI集成的较为出色的例子之一,能够快速回顾会议内容,感谢总结,甚至能告诉你会议中何时提到了你。 除了微软在Teams中持续推动Copilot之外,微软还在Teams内部推出了新的混合会议功能,旨在改善远程和室内参与者的体验。Teams Rooms中的IntelliFrame功能的自动相机切换将在今年晚些时候推出。它将使用AI选择会议室中最佳的相机,可能是房间相机甚至是笔记本电脑。它旨在自动切换相机视图,以便远程参与者获得最佳视角,尤其是如果特定相机被遮挡的话。 扬声器识别也将在4月预览时对Teams Rooms中的任何麦克风可用,这将让你注册你的声音和面部轮廓,以便在Teams会议中正确捕获你说的任何话。 最后,微软宣布有新的运营商支持其Teams Phone Mobile功能,让你为Teams和你的移动设备拥有单一号码。“我们很高兴宣布,包括AT&T、Odido、Virgin Media O2和Vodafone UK在内的几个新合作伙伴将在今年晚些时候开始提供Teams Phone Mobile服务,”微软说。