OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面。这款新产品在常规聊天窗口旁边打开一个独立窗口,为写作和编程项目提供工作空间。用户可以直接在Canvas中生成文本或代码,然后高亮显示部分内容,进行模型编辑。Canvas从周四开始向ChatGPT Plus和Teams用户推出测试版,下周将向企业和教育用户开放。 现在,多个AI厂商都在围绕可编辑工作空间进行布局,将其作为使用生成式AI的实际工具。ChatGPT的新界面提供的功能与Anthropic在今年6月推出的Artifacts,以及备受欢迎的编程助手Cursor类似。OpenAI加快了与竞争对手的步伐,不仅匹配现有功能,还计划推出全新的能力,以吸引更多付费用户。 目前,AI聊天机器人还无法通过单个指令完成大型项目,但它们通常可以提供不错的起点。类似Canvas这样的可编辑工作空间,允许用户修正AI生成内容中的错误,而无需完全重新生成整段代码或文字。 ChatGPT的新可编辑项目窗口让用户能够更自然地与模型协作。OpenAI产品经理Daniel Levine在与TechCrunch的演示中表示,这种方式让人们更直观地使用ChatGPT。 在演示中,Levine需要从ChatGPT的模型选择器中选择“GPT-4 with canvas”,但OpenAI表示,当ChatGPT检测到用户正在处理长文本或复杂的编程任务时,Canvas窗口会自动弹出。用户还可以通过输入“use canvas”来直接打开该项目窗口。 Levine展示了ChatGPT如何通过这些新功能帮助撰写电子邮件。用户可以先让ChatGPT生成一封电子邮件,邮件会在Canvas窗口中弹出。然后,用户可以通过滑动按钮调整文本的长短,或者高亮显示某些句子,要求ChatGPT做出修改,比如“让它听起来更友好”或加入表情符号。用户还可以要求ChatGPT将整个邮件翻译成其他语言。 对于编程项目,Canvas提供了稍微不同的功能。Levine通过指令让ChatGPT生成了一个Python API服务器,生成的代码在Canvas窗口中显示。通过按下“添加注释”按钮,ChatGPT会为代码添加行内文档解释其功能。用户还可以高亮代码的某一部分,让ChatGPT解释其含义或解答相关问题。此外,ChatGPT还推出了“代码审查”按钮,能为用户生成或自写的代码提出修改建议,用户可以选择批准、手动编辑或拒绝。如果用户批准,ChatGPT会尝试自行修复代码中的错误。 一旦Canvas功能脱离测试版,OpenAI计划将其开放给免费用户。
Author: aitrendtrackers@rengongzhineng.io
OpenAI在最新的融资轮中成功筹集了66亿美元的资金
过去几周以来的传闻终于尘埃落定,OpenAI在最新的融资轮中成功筹集了66亿美元的资金,使公司估值达到1570亿美元(比之前预期的多出70亿美元)。这次融资不仅使OpenAI估值约为其年收入的40倍,还打破了创投历史的纪录,超越了早前Elon Musk的xAI公司,其今年筹集了60亿美元,但估值仅为240亿美元。 🔑 重点内容: 正如外界所料,投资方包括NVIDIA、软银和微软,但主导这轮融资的是Thrive Capital。Thrive Capital获得了一个特别的交易条款,允许其在2025年以同样的估值再追加10亿美元投资,前提是OpenAI达到预期的收入目标。 这笔资金将帮助OpenAI成为通用人工智能(AGI)领域的领军者,并扩大计算能力。据预测,OpenAI的项目到2029年可能会创造1000亿美元的收入,相当于目前雀巢的年收入。 不过,如果OpenAI在未来两年内未能兑现其转为盈利性企业的承诺(并为CEO Sam Altman分配股权),以及取消投资者回报的上限,投资者有权收回资金。 🤔 为什么值得关注:转型为盈利性公司并取消目前投资回报率上限(现固定为原投资金额的100倍),将使OpenAI在融资方面更加自由。这可能让公司有机会进行更多长期且资本密集型的项目,例如打造自家AI芯片和数据中心,减少对NVIDIA的依赖。同时,通过签署授权协议,OpenAI可以避免法律诉讼风险并获取竞争优势。然而,OpenAI在公司内部还有许多问题需要解决,尤其是如今13位创始成员中仅剩3人还在职,员工对公司发展方向的满意度似乎并不高。
全球首家3D打印酒店
今年早些时候正式公布后,领先的3D打印建筑公司Icon目前正忙于在德州沙漠中建设其雄心勃勃的El Cosmico露营酒店项目。该项目号称是全球首家3D打印酒店,包含露营区、度假屋和共享设施,还将出售一些由知名建筑师设计的永久住宅。 该项目是Icon与知名建筑公司Bjarke Ingels Group(BIG)合作打造的,El Cosmico是对现有的El Cosmico露营酒店的大幅扩展和重新构想,位于马尔法郊外,项目面积超过60英亩(24.3公顷)。 酒店将包括引人注目的弧形和穹顶式度假住宅,其设计灵感来自周围的自然景观,还将设有帐篷区、中央游泳池和公共设施。此外,BIG还设计了一些永久住宅,最多包含四间卧室,拥有广阔的景观视野,这些住宅的售价高达229万美元起。此外,还将为当地社区提供一些经济适用的3D打印住房,其中部分是通过Icon举办的全球设计竞赛选出的。 Icon的3D打印机正在构建El Cosmico的基础结构,之后将由人工施工队完成细节部分。Icon的打印技术也曾用于Wolf Ranch和Wimberly Springs项目,采用其自主研发的Vulcan 3D打印系统。该系统通过人类操作员监督,使用一种类似水泥的专有混合材料Lavacrete,通过喷嘴一层层堆叠构建住宅的基础结构。在打印过程结束后,人工团队将负责安装屋顶、电线、窗户等其他必要设施。 BIG负责人Bjarke Ingels解释道:“我们为新El Cosmico设计的是一次过去与未来的对话。通过挑战Icon 3D打印技术的几何边界,我们设想出流畅、曲线型的建筑结构,这些结构仿佛从空旷的沙漠中自然升起。我们使用当地的沙土和色彩作为打印媒介,圆形建筑仿佛从脚下的土地中生长出来。我们很荣幸能够与El Cosmico的创始人Liz Lambert一起,重新定义沙漠奢华,将其提炼为最纯粹的形式:原始、真实,并与周围环境和谐共生。” 整个El Cosmico扩建项目预计将在2026年完工。
NVLM-D-72B:视觉与文本任务中的全能高手
Nvidia 最近发布了一款强大的开源人工智能模型,挑战了 OpenAI 和谷歌等行业巨头的专有系统。全新推出的 NVLM 1.0 系列大型多模态语言模型,以 NVLM-D-72B 为首,拥有 720 亿参数,展现了卓越的视觉和语言任务处理能力,同时也增强了纯文本任务的表现。https://huggingface.co/nvidia/NVLM-D-72B 研究人员在论文中提到:“我们推出的 NVLM 1.0 系列,作为多模态前沿语言模型,达到了视觉语言任务的最新成果,媲美主流的专有模型(如 GPT-4o)和开放模型。”Nvidia 通过公开模型权重并承诺发布训练代码,打破了将先进 AI 系统封闭的行业惯例。这一举动为研究人员和开发者提供了前所未有的尖端技术访问权限。 在多项视觉与语言任务的基准测试中,NVLM-D 模型与 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨头展开了激烈竞争,展现出其出色的性能。NVLM-D-72B 在处理复杂视觉和文本输入时表现出极强的适应性。研究人员展示了模型如何解读表情包、分析图片,并逐步解决数学问题的能力。 特别值得注意的是,NVLM-D-72B 在多模态训练后,纯文本任务的表现不降反升,关键文本基准测试的准确率平均提高了 4.3 个百分点。研究人员强调:“我们的 NVLM-D-1.0-72B 在文本专用的数学和编程测试中,表现显著优于其文本基座。” AI 社群对 Nvidia 的开源举措反应热烈。一位 AI 研究员在社交媒体上表示:“哇!Nvidia 发布了一个 72B 参数的模型,它在数学和编程测试中几乎能与 Llama 3.1 的 405B 模型媲美,还具备视觉能力?”Nvidia 开放如此强大的模型,可能会加速整个 AI 领域的研究与开发,帮助中小型组织和独立研究人员更大程度地推动 AI 进步…
微软推出了全新的 Copilot 体验
在纽约举行的活动上,微软推出了全新的 Copilot 体验,采用卡片式界面,适用于移动端、网页和 Windows 平台。 此次更新的亮点包括Copilot Vision,该功能能够视觉化解释用户环境,还有Copilot Voice,提供四种不同的语音选项进行互动。发现卡片(Discover Cards)会为用户提供个性化的内容推荐,而Copilot Daily 则通过与主流新闻机构合作,提供每日新闻和天气播报,并支持语音朗读。 Copilot 的一大突破是在 Microsoft Edge 中的集成,用户可以无需泄露个人数据的情况下总结网页内容并进行文本翻译。同时,Copilot Labs 推出了实验性功能,包括深入思考(Think Deeper),利用全新的 OpenAI 语言模型 o1,将在多平台上提供。 微软还在创意工具上带来了大幅改进,例如 Paint 和 Photos 应用都将加入生成式填充和生成式擦除功能,用户可以精确添加或移除对象,类似于 Adobe Photoshop 的功能。Photos 应用还会推出超分辨率功能,可在设备上将图像的分辨率提升至原始分辨率的八倍。 通过这次全面升级,微软的 Copilot 和 Windows 生态系统更加灵活、以用户为中心,旨在成为真正的 AI 伴侣。为纪念这一里程碑,AI 领域的 CEO 穆斯塔法·苏莱曼(Mustafa Suleyman)撰写了一篇备忘录,探讨他所谓的“技术范式转变”,即 AI 模型将更深入地理解人类的视觉和听觉体验。
OpenAI 在 2024 年的 DevDay 上发布了四项重大更新
OpenAI 在 2024 年的 DevDay 上发布了四项重大更新,重点放在提升 AI 的可访问性和降低成本上,为开发者们带来了更多实用工具。 以下是更新亮点: 实时 API:全新发布的实时 API 提供六种 AI 语音,专为应用程序中的无缝集成设计。这些语音与 ChatGPT 的不同,更加自然,适用于旅游规划、电话订购等场景,收费约为每小时 18 美元。此 API 支持实时响应,提升了多种应用中的用户体验,但开发者需明确告知使用了 AI 生成的语音。 视觉微调 API:视觉微调 API 允许开发者通过结合图像数据与文本增强 GPT-4o 的视觉理解能力。这项功能可应用于高级视觉搜索、自动驾驶中的物体识别以及精确的医学影像分析,且仅需 100 张图像即可实现。OpenAI 还强调了数据透明度,开发者可完全掌控数据的所有权与使用权,自动化安全评估确保合规。 API 中的提示缓存:提示缓存功能通过重用之前的输入 token,帮助开发者降低成本并减少延迟。这个功能对代码编辑和多轮对话特别有用,处理时间可节省多达 50%。它会自动应用于最新的 GPT-4o 和 GPT-4o mini 版本,并在提示超过 1,024 个 token 时激活,同时确保隐私保护。 API 中的模型蒸馏:OpenAI 推出的模型蒸馏技术,允许开发者利用 GPT-4o 和 o1-preview 等高级模型的输出来优化低成本模型。该集成过程简化了高性能模型的创建,比如 GPT-4o mini,且无需多种工具。关键功能包括“存储完成”用于自动生成数据集,以及“评估”用于性能测评。模型蒸馏现已开放,开发者每天可免费获得 200…
利用PDLP扩展线性规划求解能力
经典线性规划(LP)问题是计算机科学和运筹学中最基础的问题之一,广泛应用于全球经济的诸多领域,如制造业、网络等。LP已经成为数学规划的基石,并极大地推动了当今数据驱动决策的建模和算法框架的发展。如果要优化某个问题,通常可以假设LP会涉及其中。 自20世纪40年代以来,LP求解方法取得了长足的进步,其中最常用的是Dantzig提出的单纯形法和各种内点法。尽管现代商用LP求解器仍然广泛采用这些方法,但在处理非常大规模的实例时,面临着计算资源的挑战。为应对这一局限,近年来,针对大规模LP问题的一级方法(FOMs)开始受到关注。 基于此背景,推出了新的一级方法LP求解器——PDLP(基于LP的原-对偶混合梯度算法)。PDLP利用矩阵-向量乘法而非矩阵分解,大大减少了内存需求,且更适合现代计算技术如GPU和分布式系统,提供了一种可扩展的替代方案,有效解决了传统LP方法在内存和计算效率方面的不足。PDLP作为开源项目,已集成到Google的OR-Tools中。自2018年开始研发,PDLP项目于2024年7月在国际数学规划研讨会上荣获Beale-Orchard-Hays奖,这一奖项是计算优化领域的最高荣誉之一,每三年由数学优化学会颁发。 LP和一级方法的发展 当前最先进的LP求解器在扩展时面临重大挑战。其主要瓶颈在于矩阵分解带来的计算限制,尤其是在求解线性方程时: 鉴于这些局限,FOMs成为解决大规模LP问题的有力替代方案。与依赖矩阵分解的方法不同,FOMs利用梯度信息进行迭代更新,主要的计算需求是矩阵-向量乘法。这种方法仅需存储LP实例本身,避免了额外的内存开销。此外,FOMs在机器学习和深度学习领域的进步提高了其在现代计算平台上的可扩展性,使其在处理大规模和复杂的LP任务时尤为高效。 重新启动的原-对偶混合梯度法(PDHG) 原-对偶混合梯度法(PDHG)在图像处理领域广为人知。当其应用于LP时,主要的计算需求仍是矩阵-向量乘法,从而不再需要矩阵分解。这使得PDHG在大规模计算任务中效率颇高,但在LP求解中,PDHG的可靠性较低。比如在383个基准测试实例中,PDHG仅能解决113个问题,并且精度一般。 为提高PDHG在LP问题中的可靠性,开发了重新启动的PDHG方法。这种方法采用了双循环结构,当满足重新启动条件时,计算PDHG迭代的平均值,并从此平均点重新启动。通过这种策略,可以显著加快收敛速度。 PDLP的五项改进 PDLP是基于重新启动PDHG开发的软件包,通过以下五个改进大幅提高了求解效率: PDLP作为Google OR-Tools开源软件的一部分,支持Python、C++、Java和C#接口,更多使用细节可在OR-Tools文档中找到。 应用场景 PDLP的扩展性和速度提升开辟了新的应用场景,以下是三个典型案例: 更广泛的影响 自发布以来,PDLP吸引了广泛关注。其GPU实现版本cuPDLP.jl已经开源,并被商用求解器公司Cardinal Optimizer和开源求解器HiGHS分别在2024年1月和3月版本中集成。学术界也在不断拓展PDLP的理论基础,涵盖了新的分析方法、轨迹分析等领域,推动PDLP在更复杂问题上的应用。PDLP的影响力仍在持续扩大,推动了计算优化领域的新突破。
Y Combinator新创PearAI引发争议:开源许可问题让创始人和YC深陷风波
一家名为PearAI的Y Combinator初创公司在上周六通过X平台的帖子和YouTube视频推出后,立刻引发了争议,甚至波及到了Y Combinator本身。 PearAI推出的是一款AI编程编辑器。创始人Duke Pan公开承认,它是对另一项目VSCode和AI编辑器Continue的克隆,而Continue是基于Apache开源许可发布的。然而,PearAI犯了一个大错:最初他们给自己的项目加上了一个自创的闭源许可——”Pear企业许可”,而这个许可竟然是由ChatGPT生成的。 在开源界,随意更改许可证是大忌,不仅涉及法律问题,还违背了开源社区的核心精神——建立社区、共享和贡献。面对批评,Pan在周一道歉,表示现在已经将项目改为与原项目一致的Apache开源许可。 这一事件迅速发酵,周日时,讨论串已经有成千上万的评论。有些人表示祝贺,但更多人则猛烈抨击PearAI的许可问题,并指出它与其说是加入了新功能的分支,不如说是换了名字的复制品。Pan在道歉中也承认了这一点。 评论区甚至引发了X平台的社区标注,指出:“Pear实际上是Continue.dev的一个分支,是一个开源的AI代码编辑器。PearAI使用了Continue.dev的代码,并替换了所有‘Continue’的引用,让人误以为这是他们自己开发的产品。”但这个标注并不完全准确,因为PearAI在某些材料中确实提到它是Continue和VSCode的克隆。随后,X平台撤下了该标注。 Pan也为信息不透明道歉,表示他和联合创始人Nang Ang犯的最大错误之一,就是没有清楚说明这一点,尤其是在他们的产品只是基于其他项目的分支并且没有太多新功能的情况下,公开谈论这件事让他们看起来像是在偷别人的成果。他还指出,虽然确实存在抄袭的嫌疑,但PearAI的确有一些与Continue不同的功能,这些功能已在FAQ中列出。 周日,Continue团队也发表了一个含蓄的警告,称他们“很高兴看到围绕他们形成的生态系统,但开源不能被视为理所当然——它是建立在信任、对贡献和知识产权的尊重之上的运动。” Y Combinator的CEO Garry Tan也参与其中,他在X平台上为PearAI辩护,称:“不明白为什么人们要攻击一个新项目,毕竟它是Apache开源许可,而这正是开源的魅力所在。”但人们很快指出,Apache许可是在争议后才更改的。 这个项目引发的争议不仅限于许可证问题。Pan曾吹嘘他“刚辞去了Coinbase年薪27万美元的工作”来创业,尽管这与一个原创项目相去甚远。除了Continue外,PearAI还面临另一个竞争对手Cursor的挑战。 此外,YC之前已经投资了两家AI代码编辑器公司,Void和Melty,这也成为众人批评的点。对此,Tan回应道:“更多选择是好事,更多人去构建东西是好事,如果不喜欢就不用。” 还有人批评YC不应该接受PearAI这样的公司。博主Sven Schnieders指出,PearAI是“YC质量下滑的例子”,因为它不过是从另一个YC支持的公司抄袭代码的公司。 在编程社区Hacker News上,有人评论称,这次事件“反映的更多是YC的问题,而不是创始人个人的问题:比如他们的流程、尽职调查。”还有人说:“难道风投在投资项目时不需要进行任何审核,比如许可证和法律问题?” YC计划将每年两次的孵化器扩展到四次,这可能并不会缓解人们对它的质疑,而这场风波也凸显了风投对AI初创公司投资的热情,甚至可能反映了YC对于这种类型初创公司的偏爱。
Google NotebookLM重大更新:AI笔记助手新增YouTube视频和音频摘要功能
谷歌在周四宣布对其AI笔记和研究助手NotebookLM https://notebooklm.google.com/ 进行重大更新。用户现在可以通过该工具获取YouTube视频和音频文件的摘要,甚至还能生成可分享的AI音频讨论。谷歌此举旨在拓展该工具的使用场景和用户群体。NotebookLM最初是在去年I/O开发者大会上推出的项目,后来扩展到包括印度、英国在内的多个市场,几个月后更是在美国以外的200多个国家开放使用。 NotebookLM原本是专为教育工作者和学习者设计的,但现在越来越多职场人士开始使用它。谷歌实验室的高级产品经理Raiza Martin在接受采访时透露,当前用户群体已经基本对半分,一半是教育工作者和学习者,另一半则是职场专业人士。 她还提到,NotebookLM的用户间开始分享笔记,这种网络效应促使团队推出更多新功能,以期吸引不同年龄段的用户。今年早些时候,NotebookLM推出了”音频概述”功能,用户可以将文档转换为生动的音频讨论。最新更新则允许用户通过公开URL分享生成的音频概述。只需点击工具中的分享图标,即可生成可分享的链接。 另外,NotebookLM新增了对YouTube视频和音频文件的支持,用户可以通过这些文件获取视频和音频的关键要点摘要。这些新增功能扩展了工具的应用范围,让用户能够从学习会话或项目中的音频文件中提取关键信息。 Martin还表示,NotebookLM的每一个新功能都基于用户反馈,随着技术发展和用户需求变化,团队会不断调整工具的功能。NotebookLM现已在全球超过200个国家开放使用,虽然美国仍是其主要市场,但日本的用户群体正在快速增长。 对于NotebookLM可能导致的过度依赖AI、简化内容过度等问题,Martin表示团队已经意识到这些潜在风险,因此NotebookLM提供了点击引用的功能,鼓励用户回到原始内容进行深入阅读。 目前,NotebookLM仅支持网页端使用,不过Martin透露,团队计划在明年推出移动端应用,并且正在努力增加更多的输入支持和输出来源。
OpenAI寻求70亿美元融资,估值飙升至1500亿美元
根据审阅的文件显示,OpenAI正寻求更多外部投资,尽管ChatGPT引发了用户的广泛关注,但该公司仍然面临巨大的资金需求。 OpenAI在8月份的月收入达到3亿美元,比2023年初增长了1700%。该公司预计今年的年收入将达到37亿美元,明年有望飙升至116亿美元。然而,尽管收入显著增长,OpenAI预计今年将亏损约50亿美元,这主要是由于服务运行成本、员工薪资以及办公租金等开支。文件显示,这些亏损数字还不包括员工的股权补偿等其他未详细列出的支出。 OpenAI当前正在进行一轮融资,希望筹集到70亿美元的资金,并将公司估值推高至1500亿美元,这将使其成为全球估值最高的私营科技公司之一。这轮融资预计将在下周完成,正值OpenAI快速扩张、但关键高管和研究人员相继离职的关键时刻。 文件显示,尽管OpenAI的收入增长迅速,但其支出也随着用户数量的增加而水涨船高,预计公司还将在未来一年内继续筹集资金。 截至6月,OpenAI的月活跃用户数已增长至3.5亿人,其中ChatGPT的持续受欢迎度是其主要收入来源。今年ChatGPT的收入预计将达到27亿美元,相较于2023年的7亿美元大幅增长。此外,约1000万用户每月支付20美元的订阅费用,OpenAI计划年底前将此费用提高2美元,未来五年内可能上涨至44美元。 尽管收入前景广阔,OpenAI仍面临高昂的计算成本,尤其是与微软的合作。微软是OpenAI的主要投资者,已向其投资超过130亿美元,但OpenAI的大部分资金用于支付微软的云计算服务费用。 此次融资的主要投资方为Thrive Capital,该公司承诺投入7.5亿美元,并计划通过一个特殊目的实体(SPV)再筹集4.5亿美元。此外,Thrive还获得了一个独特的投资选项,可以在2025年前以相同的估值再投资10亿美元,这一特权引发了其他投资者的不满。 OpenAI近期的高管离职潮或将影响融资谈判。本周,首席技术官米拉·穆拉蒂、首席研究官鲍勃·麦格鲁和副总裁巴雷特·佐夫相继辞职,这给公司带来了一定的不确定性。 目前,OpenAI正努力从一个“封顶盈利”公司转型为全盈利企业,这一变革将对公司未来的资金结构和治理方式产生重大影响。如果在两年内未能完成这一转型,当前的资金将转化为债务。