过去几周以来的传闻终于尘埃落定,OpenAI在最新的融资轮中成功筹集了66亿美元的资金,使公司估值达到1570亿美元(比之前预期的多出70亿美元)。这次融资不仅使OpenAI估值约为其年收入的40倍,还打破了创投历史的纪录,超越了早前Elon Musk的xAI公司,其今年筹集了60亿美元,但估值仅为240亿美元。 🔑 重点内容: 正如外界所料,投资方包括NVIDIA、软银和微软,但主导这轮融资的是Thrive Capital。Thrive Capital获得了一个特别的交易条款,允许其在2025年以同样的估值再追加10亿美元投资,前提是OpenAI达到预期的收入目标。 这笔资金将帮助OpenAI成为通用人工智能(AGI)领域的领军者,并扩大计算能力。据预测,OpenAI的项目到2029年可能会创造1000亿美元的收入,相当于目前雀巢的年收入。 不过,如果OpenAI在未来两年内未能兑现其转为盈利性企业的承诺(并为CEO Sam Altman分配股权),以及取消投资者回报的上限,投资者有权收回资金。 🤔 为什么值得关注:转型为盈利性公司并取消目前投资回报率上限(现固定为原投资金额的100倍),将使OpenAI在融资方面更加自由。这可能让公司有机会进行更多长期且资本密集型的项目,例如打造自家AI芯片和数据中心,减少对NVIDIA的依赖。同时,通过签署授权协议,OpenAI可以避免法律诉讼风险并获取竞争优势。然而,OpenAI在公司内部还有许多问题需要解决,尤其是如今13位创始成员中仅剩3人还在职,员工对公司发展方向的满意度似乎并不高。
全球首家3D打印酒店
今年早些时候正式公布后,领先的3D打印建筑公司Icon目前正忙于在德州沙漠中建设其雄心勃勃的El Cosmico露营酒店项目。该项目号称是全球首家3D打印酒店,包含露营区、度假屋和共享设施,还将出售一些由知名建筑师设计的永久住宅。 该项目是Icon与知名建筑公司Bjarke Ingels Group(BIG)合作打造的,El Cosmico是对现有的El Cosmico露营酒店的大幅扩展和重新构想,位于马尔法郊外,项目面积超过60英亩(24.3公顷)。 酒店将包括引人注目的弧形和穹顶式度假住宅,其设计灵感来自周围的自然景观,还将设有帐篷区、中央游泳池和公共设施。此外,BIG还设计了一些永久住宅,最多包含四间卧室,拥有广阔的景观视野,这些住宅的售价高达229万美元起。此外,还将为当地社区提供一些经济适用的3D打印住房,其中部分是通过Icon举办的全球设计竞赛选出的。 Icon的3D打印机正在构建El Cosmico的基础结构,之后将由人工施工队完成细节部分。Icon的打印技术也曾用于Wolf Ranch和Wimberly Springs项目,采用其自主研发的Vulcan 3D打印系统。该系统通过人类操作员监督,使用一种类似水泥的专有混合材料Lavacrete,通过喷嘴一层层堆叠构建住宅的基础结构。在打印过程结束后,人工团队将负责安装屋顶、电线、窗户等其他必要设施。 BIG负责人Bjarke Ingels解释道:“我们为新El Cosmico设计的是一次过去与未来的对话。通过挑战Icon 3D打印技术的几何边界,我们设想出流畅、曲线型的建筑结构,这些结构仿佛从空旷的沙漠中自然升起。我们使用当地的沙土和色彩作为打印媒介,圆形建筑仿佛从脚下的土地中生长出来。我们很荣幸能够与El Cosmico的创始人Liz Lambert一起,重新定义沙漠奢华,将其提炼为最纯粹的形式:原始、真实,并与周围环境和谐共生。” 整个El Cosmico扩建项目预计将在2026年完工。
NVLM-D-72B:视觉与文本任务中的全能高手
Nvidia 最近发布了一款强大的开源人工智能模型,挑战了 OpenAI 和谷歌等行业巨头的专有系统。全新推出的 NVLM 1.0 系列大型多模态语言模型,以 NVLM-D-72B 为首,拥有 720 亿参数,展现了卓越的视觉和语言任务处理能力,同时也增强了纯文本任务的表现。https://huggingface.co/nvidia/NVLM-D-72B 研究人员在论文中提到:“我们推出的 NVLM 1.0 系列,作为多模态前沿语言模型,达到了视觉语言任务的最新成果,媲美主流的专有模型(如 GPT-4o)和开放模型。”Nvidia 通过公开模型权重并承诺发布训练代码,打破了将先进 AI 系统封闭的行业惯例。这一举动为研究人员和开发者提供了前所未有的尖端技术访问权限。 在多项视觉与语言任务的基准测试中,NVLM-D 模型与 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨头展开了激烈竞争,展现出其出色的性能。NVLM-D-72B 在处理复杂视觉和文本输入时表现出极强的适应性。研究人员展示了模型如何解读表情包、分析图片,并逐步解决数学问题的能力。 特别值得注意的是,NVLM-D-72B 在多模态训练后,纯文本任务的表现不降反升,关键文本基准测试的准确率平均提高了 4.3 个百分点。研究人员强调:“我们的 NVLM-D-1.0-72B 在文本专用的数学和编程测试中,表现显著优于其文本基座。” AI 社群对 Nvidia 的开源举措反应热烈。一位 AI 研究员在社交媒体上表示:“哇!Nvidia 发布了一个 72B 参数的模型,它在数学和编程测试中几乎能与 Llama 3.1 的 405B 模型媲美,还具备视觉能力?”Nvidia 开放如此强大的模型,可能会加速整个 AI 领域的研究与开发,帮助中小型组织和独立研究人员更大程度地推动 AI 进步…
微软推出了全新的 Copilot 体验
在纽约举行的活动上,微软推出了全新的 Copilot 体验,采用卡片式界面,适用于移动端、网页和 Windows 平台。 此次更新的亮点包括Copilot Vision,该功能能够视觉化解释用户环境,还有Copilot Voice,提供四种不同的语音选项进行互动。发现卡片(Discover Cards)会为用户提供个性化的内容推荐,而Copilot Daily 则通过与主流新闻机构合作,提供每日新闻和天气播报,并支持语音朗读。 Copilot 的一大突破是在 Microsoft Edge 中的集成,用户可以无需泄露个人数据的情况下总结网页内容并进行文本翻译。同时,Copilot Labs 推出了实验性功能,包括深入思考(Think Deeper),利用全新的 OpenAI 语言模型 o1,将在多平台上提供。 微软还在创意工具上带来了大幅改进,例如 Paint 和 Photos 应用都将加入生成式填充和生成式擦除功能,用户可以精确添加或移除对象,类似于 Adobe Photoshop 的功能。Photos 应用还会推出超分辨率功能,可在设备上将图像的分辨率提升至原始分辨率的八倍。 通过这次全面升级,微软的 Copilot 和 Windows 生态系统更加灵活、以用户为中心,旨在成为真正的 AI 伴侣。为纪念这一里程碑,AI 领域的 CEO 穆斯塔法·苏莱曼(Mustafa Suleyman)撰写了一篇备忘录,探讨他所谓的“技术范式转变”,即 AI 模型将更深入地理解人类的视觉和听觉体验。
OpenAI 在 2024 年的 DevDay 上发布了四项重大更新
OpenAI 在 2024 年的 DevDay 上发布了四项重大更新,重点放在提升 AI 的可访问性和降低成本上,为开发者们带来了更多实用工具。 以下是更新亮点: 实时 API:全新发布的实时 API 提供六种 AI 语音,专为应用程序中的无缝集成设计。这些语音与 ChatGPT 的不同,更加自然,适用于旅游规划、电话订购等场景,收费约为每小时 18 美元。此 API 支持实时响应,提升了多种应用中的用户体验,但开发者需明确告知使用了 AI 生成的语音。 视觉微调 API:视觉微调 API 允许开发者通过结合图像数据与文本增强 GPT-4o 的视觉理解能力。这项功能可应用于高级视觉搜索、自动驾驶中的物体识别以及精确的医学影像分析,且仅需 100 张图像即可实现。OpenAI 还强调了数据透明度,开发者可完全掌控数据的所有权与使用权,自动化安全评估确保合规。 API 中的提示缓存:提示缓存功能通过重用之前的输入 token,帮助开发者降低成本并减少延迟。这个功能对代码编辑和多轮对话特别有用,处理时间可节省多达 50%。它会自动应用于最新的 GPT-4o 和 GPT-4o mini 版本,并在提示超过 1,024 个 token 时激活,同时确保隐私保护。 API 中的模型蒸馏:OpenAI 推出的模型蒸馏技术,允许开发者利用 GPT-4o 和 o1-preview 等高级模型的输出来优化低成本模型。该集成过程简化了高性能模型的创建,比如 GPT-4o mini,且无需多种工具。关键功能包括“存储完成”用于自动生成数据集,以及“评估”用于性能测评。模型蒸馏现已开放,开发者每天可免费获得 200…
利用PDLP扩展线性规划求解能力
经典线性规划(LP)问题是计算机科学和运筹学中最基础的问题之一,广泛应用于全球经济的诸多领域,如制造业、网络等。LP已经成为数学规划的基石,并极大地推动了当今数据驱动决策的建模和算法框架的发展。如果要优化某个问题,通常可以假设LP会涉及其中。 自20世纪40年代以来,LP求解方法取得了长足的进步,其中最常用的是Dantzig提出的单纯形法和各种内点法。尽管现代商用LP求解器仍然广泛采用这些方法,但在处理非常大规模的实例时,面临着计算资源的挑战。为应对这一局限,近年来,针对大规模LP问题的一级方法(FOMs)开始受到关注。 基于此背景,推出了新的一级方法LP求解器——PDLP(基于LP的原-对偶混合梯度算法)。PDLP利用矩阵-向量乘法而非矩阵分解,大大减少了内存需求,且更适合现代计算技术如GPU和分布式系统,提供了一种可扩展的替代方案,有效解决了传统LP方法在内存和计算效率方面的不足。PDLP作为开源项目,已集成到Google的OR-Tools中。自2018年开始研发,PDLP项目于2024年7月在国际数学规划研讨会上荣获Beale-Orchard-Hays奖,这一奖项是计算优化领域的最高荣誉之一,每三年由数学优化学会颁发。 LP和一级方法的发展 当前最先进的LP求解器在扩展时面临重大挑战。其主要瓶颈在于矩阵分解带来的计算限制,尤其是在求解线性方程时: 鉴于这些局限,FOMs成为解决大规模LP问题的有力替代方案。与依赖矩阵分解的方法不同,FOMs利用梯度信息进行迭代更新,主要的计算需求是矩阵-向量乘法。这种方法仅需存储LP实例本身,避免了额外的内存开销。此外,FOMs在机器学习和深度学习领域的进步提高了其在现代计算平台上的可扩展性,使其在处理大规模和复杂的LP任务时尤为高效。 重新启动的原-对偶混合梯度法(PDHG) 原-对偶混合梯度法(PDHG)在图像处理领域广为人知。当其应用于LP时,主要的计算需求仍是矩阵-向量乘法,从而不再需要矩阵分解。这使得PDHG在大规模计算任务中效率颇高,但在LP求解中,PDHG的可靠性较低。比如在383个基准测试实例中,PDHG仅能解决113个问题,并且精度一般。 为提高PDHG在LP问题中的可靠性,开发了重新启动的PDHG方法。这种方法采用了双循环结构,当满足重新启动条件时,计算PDHG迭代的平均值,并从此平均点重新启动。通过这种策略,可以显著加快收敛速度。 PDLP的五项改进 PDLP是基于重新启动PDHG开发的软件包,通过以下五个改进大幅提高了求解效率: PDLP作为Google OR-Tools开源软件的一部分,支持Python、C++、Java和C#接口,更多使用细节可在OR-Tools文档中找到。 应用场景 PDLP的扩展性和速度提升开辟了新的应用场景,以下是三个典型案例: 更广泛的影响 自发布以来,PDLP吸引了广泛关注。其GPU实现版本cuPDLP.jl已经开源,并被商用求解器公司Cardinal Optimizer和开源求解器HiGHS分别在2024年1月和3月版本中集成。学术界也在不断拓展PDLP的理论基础,涵盖了新的分析方法、轨迹分析等领域,推动PDLP在更复杂问题上的应用。PDLP的影响力仍在持续扩大,推动了计算优化领域的新突破。
Y Combinator新创PearAI引发争议:开源许可问题让创始人和YC深陷风波
一家名为PearAI的Y Combinator初创公司在上周六通过X平台的帖子和YouTube视频推出后,立刻引发了争议,甚至波及到了Y Combinator本身。 PearAI推出的是一款AI编程编辑器。创始人Duke Pan公开承认,它是对另一项目VSCode和AI编辑器Continue的克隆,而Continue是基于Apache开源许可发布的。然而,PearAI犯了一个大错:最初他们给自己的项目加上了一个自创的闭源许可——”Pear企业许可”,而这个许可竟然是由ChatGPT生成的。 在开源界,随意更改许可证是大忌,不仅涉及法律问题,还违背了开源社区的核心精神——建立社区、共享和贡献。面对批评,Pan在周一道歉,表示现在已经将项目改为与原项目一致的Apache开源许可。 这一事件迅速发酵,周日时,讨论串已经有成千上万的评论。有些人表示祝贺,但更多人则猛烈抨击PearAI的许可问题,并指出它与其说是加入了新功能的分支,不如说是换了名字的复制品。Pan在道歉中也承认了这一点。 评论区甚至引发了X平台的社区标注,指出:“Pear实际上是Continue.dev的一个分支,是一个开源的AI代码编辑器。PearAI使用了Continue.dev的代码,并替换了所有‘Continue’的引用,让人误以为这是他们自己开发的产品。”但这个标注并不完全准确,因为PearAI在某些材料中确实提到它是Continue和VSCode的克隆。随后,X平台撤下了该标注。 Pan也为信息不透明道歉,表示他和联合创始人Nang Ang犯的最大错误之一,就是没有清楚说明这一点,尤其是在他们的产品只是基于其他项目的分支并且没有太多新功能的情况下,公开谈论这件事让他们看起来像是在偷别人的成果。他还指出,虽然确实存在抄袭的嫌疑,但PearAI的确有一些与Continue不同的功能,这些功能已在FAQ中列出。 周日,Continue团队也发表了一个含蓄的警告,称他们“很高兴看到围绕他们形成的生态系统,但开源不能被视为理所当然——它是建立在信任、对贡献和知识产权的尊重之上的运动。” Y Combinator的CEO Garry Tan也参与其中,他在X平台上为PearAI辩护,称:“不明白为什么人们要攻击一个新项目,毕竟它是Apache开源许可,而这正是开源的魅力所在。”但人们很快指出,Apache许可是在争议后才更改的。 这个项目引发的争议不仅限于许可证问题。Pan曾吹嘘他“刚辞去了Coinbase年薪27万美元的工作”来创业,尽管这与一个原创项目相去甚远。除了Continue外,PearAI还面临另一个竞争对手Cursor的挑战。 此外,YC之前已经投资了两家AI代码编辑器公司,Void和Melty,这也成为众人批评的点。对此,Tan回应道:“更多选择是好事,更多人去构建东西是好事,如果不喜欢就不用。” 还有人批评YC不应该接受PearAI这样的公司。博主Sven Schnieders指出,PearAI是“YC质量下滑的例子”,因为它不过是从另一个YC支持的公司抄袭代码的公司。 在编程社区Hacker News上,有人评论称,这次事件“反映的更多是YC的问题,而不是创始人个人的问题:比如他们的流程、尽职调查。”还有人说:“难道风投在投资项目时不需要进行任何审核,比如许可证和法律问题?” YC计划将每年两次的孵化器扩展到四次,这可能并不会缓解人们对它的质疑,而这场风波也凸显了风投对AI初创公司投资的热情,甚至可能反映了YC对于这种类型初创公司的偏爱。
Google NotebookLM重大更新:AI笔记助手新增YouTube视频和音频摘要功能
谷歌在周四宣布对其AI笔记和研究助手NotebookLM https://notebooklm.google.com/ 进行重大更新。用户现在可以通过该工具获取YouTube视频和音频文件的摘要,甚至还能生成可分享的AI音频讨论。谷歌此举旨在拓展该工具的使用场景和用户群体。NotebookLM最初是在去年I/O开发者大会上推出的项目,后来扩展到包括印度、英国在内的多个市场,几个月后更是在美国以外的200多个国家开放使用。 NotebookLM原本是专为教育工作者和学习者设计的,但现在越来越多职场人士开始使用它。谷歌实验室的高级产品经理Raiza Martin在接受采访时透露,当前用户群体已经基本对半分,一半是教育工作者和学习者,另一半则是职场专业人士。 她还提到,NotebookLM的用户间开始分享笔记,这种网络效应促使团队推出更多新功能,以期吸引不同年龄段的用户。今年早些时候,NotebookLM推出了”音频概述”功能,用户可以将文档转换为生动的音频讨论。最新更新则允许用户通过公开URL分享生成的音频概述。只需点击工具中的分享图标,即可生成可分享的链接。 另外,NotebookLM新增了对YouTube视频和音频文件的支持,用户可以通过这些文件获取视频和音频的关键要点摘要。这些新增功能扩展了工具的应用范围,让用户能够从学习会话或项目中的音频文件中提取关键信息。 Martin还表示,NotebookLM的每一个新功能都基于用户反馈,随着技术发展和用户需求变化,团队会不断调整工具的功能。NotebookLM现已在全球超过200个国家开放使用,虽然美国仍是其主要市场,但日本的用户群体正在快速增长。 对于NotebookLM可能导致的过度依赖AI、简化内容过度等问题,Martin表示团队已经意识到这些潜在风险,因此NotebookLM提供了点击引用的功能,鼓励用户回到原始内容进行深入阅读。 目前,NotebookLM仅支持网页端使用,不过Martin透露,团队计划在明年推出移动端应用,并且正在努力增加更多的输入支持和输出来源。
OpenAI寻求70亿美元融资,估值飙升至1500亿美元
根据审阅的文件显示,OpenAI正寻求更多外部投资,尽管ChatGPT引发了用户的广泛关注,但该公司仍然面临巨大的资金需求。 OpenAI在8月份的月收入达到3亿美元,比2023年初增长了1700%。该公司预计今年的年收入将达到37亿美元,明年有望飙升至116亿美元。然而,尽管收入显著增长,OpenAI预计今年将亏损约50亿美元,这主要是由于服务运行成本、员工薪资以及办公租金等开支。文件显示,这些亏损数字还不包括员工的股权补偿等其他未详细列出的支出。 OpenAI当前正在进行一轮融资,希望筹集到70亿美元的资金,并将公司估值推高至1500亿美元,这将使其成为全球估值最高的私营科技公司之一。这轮融资预计将在下周完成,正值OpenAI快速扩张、但关键高管和研究人员相继离职的关键时刻。 文件显示,尽管OpenAI的收入增长迅速,但其支出也随着用户数量的增加而水涨船高,预计公司还将在未来一年内继续筹集资金。 截至6月,OpenAI的月活跃用户数已增长至3.5亿人,其中ChatGPT的持续受欢迎度是其主要收入来源。今年ChatGPT的收入预计将达到27亿美元,相较于2023年的7亿美元大幅增长。此外,约1000万用户每月支付20美元的订阅费用,OpenAI计划年底前将此费用提高2美元,未来五年内可能上涨至44美元。 尽管收入前景广阔,OpenAI仍面临高昂的计算成本,尤其是与微软的合作。微软是OpenAI的主要投资者,已向其投资超过130亿美元,但OpenAI的大部分资金用于支付微软的云计算服务费用。 此次融资的主要投资方为Thrive Capital,该公司承诺投入7.5亿美元,并计划通过一个特殊目的实体(SPV)再筹集4.5亿美元。此外,Thrive还获得了一个独特的投资选项,可以在2025年前以相同的估值再投资10亿美元,这一特权引发了其他投资者的不满。 OpenAI近期的高管离职潮或将影响融资谈判。本周,首席技术官米拉·穆拉蒂、首席研究官鲍勃·麦格鲁和副总裁巴雷特·佐夫相继辞职,这给公司带来了一定的不确定性。 目前,OpenAI正努力从一个“封顶盈利”公司转型为全盈利企业,这一变革将对公司未来的资金结构和治理方式产生重大影响。如果在两年内未能完成这一转型,当前的资金将转化为债务。
Google AlphaChip改变了计算机芯片设计
谷歌的AI方法大大加速并优化了芯片设计,超越人类水平的芯片布局已在全球硬件中广泛应用。早在2020年,谷歌发布了一篇预印本,介绍了一种新颖的强化学习方法,用于设计芯片布局,随后发表在《自然》期刊,并开放了源代码。 如今,谷歌又发布了《自然》的补充说明,进一步阐述了这一方法及其对芯片设计领域的影响。同时,谷歌还发布了一个预训练的模型检查点,公开了模型权重,并宣布其名称为“AlphaChip”。 计算机芯片推动了人工智能(AI)的显著进展,而AlphaChip则反过来利用AI加速并优化了芯片设计。这一方法已用于设计过去三代谷歌定制AI加速器——张量处理单元(TPU)的超越人类水平的芯片布局。 AlphaChip是首批用于解决现实工程问题的强化学习方法之一。它能够在几小时内生成超越或相当于人类设计的芯片布局,而人类可能需要几周甚至几个月的时间完成类似的工作。这些布局已被全球各类芯片广泛采用,从数据中心到手机无所不包。 AlphaChip如何运作设计芯片布局并非易事,芯片由多个相互连接的模块组成,层层电路组件通过极其纤细的电线连接。同时,还有许多复杂的设计约束需要同时满足。正因为如此,芯片设计师们已经为芯片布局自动化奋斗了超过60年。 与AlphaGo和AlphaZero学习围棋、国际象棋和将棋的方式类似,AlphaChip将芯片布局视为一种“游戏”来处理。从一个空白的网格开始,AlphaChip逐个放置电路组件,直到完成所有组件的布局。根据最终布局的质量,它会获得相应的奖励。一个创新的“基于边缘”的图神经网络帮助AlphaChip理解芯片组件之间的关系,并能在不同芯片之间泛化,随着设计的增加不断提升表现。 AlphaChip自2020年发表以来,已经为每一代谷歌的TPU生成了超越人类水平的芯片布局。这些芯片使得谷歌基于Transformer架构的大规模AI模型得以大幅扩展。TPU是谷歌强大生成式AI系统的核心,包括大型语言模型Gemini、图像生成器Imagen和视频生成器Veo等。谷歌的AI加速器还为外部用户通过Google Cloud提供服务。 为了设计TPU布局,AlphaChip会先对前几代芯片模块进行训练,包括片上网络、芯片间网络、内存控制器和数据传输缓冲区等模块。这个过程称为预训练。然后,AlphaChip会在当前的TPU模块上运行,以生成高质量的布局。与以往方法不同,AlphaChip随着处理更多芯片布局任务,变得越来越快、越来越好,类似于人类专家的进步。 随着每一代TPU的发布,包括最新的第六代Trillium,AlphaChip设计的芯片布局逐步提升,显著加快了设计周期,并带来了更高性能的芯片。 AlphaChip的广泛影响AlphaChip的影响不仅限于谷歌内部,它的应用已扩展到研究界和芯片设计行业。除了专门的AI加速器TPU,AlphaChip还为Alphabet其他芯片生成了布局,比如谷歌的Axion处理器,这是谷歌首款基于Arm架构的数据中心通用CPU。 外部组织也在采用和扩展AlphaChip。全球领先的芯片设计公司联发科(MediaTek)就是其中之一,它利用AlphaChip加速了最先进芯片的开发,如用于三星手机的Dimensity旗舰5G芯片,同时在功耗、性能和芯片面积上取得了改进。 AlphaChip引发了芯片设计领域一系列基于AI的新研究,并被扩展到芯片设计的其他关键阶段,如逻辑综合和宏块选择等。 打造未来的芯片谷歌相信,AlphaChip有潜力优化芯片设计的每个阶段,从计算机架构到制造工艺。它将彻底改变日常设备中的定制硬件芯片设计,包括智能手机、医疗设备和农业传感器等。 AlphaChip的未来版本正在开发中,谷歌期待与社区携手,继续推动这一领域的革命,迎接一个芯片更快、更便宜、更节能的未来。