两位哈佛学生展示了一款让人不寒而栗的智能眼镜技术演示,展示了如何利用人脸识别技术即刻获取他人身份、电话号码和住址等敏感信息。令人担忧的是,这项演示所用的都是现成的技术,比如Ray-Ban Meta智能眼镜和公共数据库。 其中一位学生AnhPhu Nguyen在网上发布了一段视频,展示了这项被称为“I-XRAY”的技术如何运作。该技术通过Meta智能眼镜的实时视频直播功能,将视频传输到Instagram,然后计算机程序监控视频并使用AI识别人脸。这些面部照片随后被输入公共数据库,进而找到姓名、住址、电话号码,甚至亲属关系。最终,信息会通过手机应用传回。 在演示中,Nguyen和Caine Ardayfio(该项目的另一位学生)通过眼镜识别了多位同学的身份、住址以及亲属信息。更令人不安的是,他们还在公共交通工具上与陌生人交谈,假装认识他们,实际是通过技术获取的个人信息。 这项技术的背后依赖于像PimEyes这样的面部搜索引擎,《纽约时报》曾形容PimEyes为“精确到令人惊讶”的工具,任何人都能使用它。这让人联想到Clearview AI,后者曾帮助执法机构通过面部识别追踪目标。Nguyen和Ardayfio的演示则是首次将这种技术与消费者产品相结合,让这款隐蔽且易于获取的设备变得更加危险。 两位学生表示,他们开发这项技术的初衷不是为了滥用,因此不会公开发布。他们的目标是引发公众对现有技术的警觉,表明这并非遥远的反乌托邦未来,而是现实中已经可以做到的事。通过大语言模型(LLMs),I-XRAY能够自动将姓名与照片关联起来,从庞大的数据源中提取信息。 智能眼镜的隐私问题由来已久,谷歌眼镜因公众担忧隐私被侵犯而遭遇了失败。尽管现在人们因智能手机、博主和TikTok等普及,已习惯了随时随地被录像,但现代智能眼镜因为外形更为低调,隐私威胁也随之增加。Ray-Ban Meta智能眼镜看起来与普通的Ray-Bans几乎无异,这虽然有助于智能眼镜的普及,但也让人更难察觉到正在被拍摄。虽然眼镜配有隐私灯,录像时会自动亮起,但在明亮的户外环境下,这个灯往往难以被察觉,特别是在拥挤的公共场所。 Meta在隐私政策中呼吁用户尊重他人的隐私,并在录像、直播或拍照时通过手势或语音控制提示他人。然而,现实情况是,不少用户可能不会遵循这些规范。 这次演示敲响了智能眼镜滥用的警钟,但也有一些措施可以保护个人隐私。Nguyen和Ardayfio提供了一些面部搜索和人物搜索数据库的退出方法。然而,完全删除你的网络信息几乎不可能,最多只能降低你的信息的可获得性。
Author: aitrendtrackers@rengongzhineng.io
埃隆·马斯克在OpenAI旧总部举办的这场AI派对
这场招募活动表面上看像是旧金山科技初创公司的常规招聘会,现场有免费食物、饮料,甚至还有通过实时编写代码生成的音乐。但现场的安保却显得格外严密:金属探测器、身份检查、保安遍布全场。这是埃隆·马斯克在OpenAI的旧总部举办的一场xAI招聘会。值得注意的是,OpenAI正巧在同一天的另一边举行了年度开发者大会。 活动在晚上8:30进入高潮,马斯克在一群保镖的护送下站上桌子,向在场的工程师们发表演讲,讲述了他创建xAI的初衷。他说xAI的目标是“创建尽可能友善的数字超级智能”,并号召在场的人加入xAI,共同开发这项技术及其应用。 马斯克还预测未来五年内,OpenAI、Anthropic、谷歌和xAI将主导人工智能领域。他还强调了xAI的速度,比较其成长过程就像SR-71“黑鸟”战机一样迅猛。活动的核心目的显然是为xAI的API寻找工程师。 当晚活动结束后,马斯克被火速带离现场,而参与者则带着披萨走入夜幕。就在这个过程中,AI领域的竞争更加激烈,xAI迅速崛起,马斯克也正在调动一切资源,争取在这一赛道上赢得主导地位。 xAI的诞生与快速扩展 xAI在2023年3月启动,最初团队汇集了来自马斯克其他公司的成员,如特斯拉和SpaceX,还包括他17岁的儿子和表亲。xAI的使命非常明确:在短短三个月内开发出足以竞争的语言模型。为了追求速度,xAI依赖外部技术,比如微软的Bing搜索和Meta的Llama模型。 截至2023年底,xAI已经发布了多款模型,虽然这些产品的背后依赖其他公司的技术,但马斯克的目标是尽快推出自家的生成器和更多功能。目前,xAI正在开发语音和搜索功能,未来用户不仅能通过Grok聊天机器人进行对话,还能获取新闻摘要和热门话题的总结。 激烈的AI人才争夺战 在AI领域,马斯克面临着激烈的人才竞争。尽管资金对他来说不是问题,但如何吸引顶尖人才是他目前的挑战。xAI的快速节奏和冒险精神吸引了一部分工程师,他们更愿意在小团队中推进项目,而不是在大公司里经历漫长的研发周期。 对于马斯克而言,打造xAI不仅是为了赚钱,更是为了击败他曾经的合作伙伴——OpenAI。通过这次招聘活动,他向硅谷的工程师们展现了自己的愿景:一个由他掌控并与世界共享的AGI(通用人工智能)。而在这场竞争中,速度和创新将是xAI取胜的关键。
在1万块H100 GPU上训练模型涉及到复杂的硬件架构和并行化策略
在使用1万块H100显卡时,目标是尽可能将网络规模和批处理大小最大化。为此,涉及多个并行化策略: 通过不断优化并行化,确保所有GPU的高效利用,最大化计算资源。 Checkpointing与计算/记忆权衡 为了执行反向传播,需要在前向计算时保存一些中间变量(如save_for_backward)。但当网络足够大时,可以选择释放这些变量,腾出内存以容纳更大的批处理量,并在需要时重新计算。类似于FSDP的技巧,可以将权重分片保存在不同GPU上,节省内存,等需要计算时再从其他GPU获取这些权重。 GPU间的快速通信 在多个GPU之间传输数据时,尽量让通信与计算并行进行。例如,当第N层完成反向传播时,第N-1层的反向传播仍在计算中,这时可以让第N层的GPU们进行梯度的all-reduce操作,从而减少等待时间。 网络拓扑结构的发现与利用 在大规模同步SGD训练中,必须快速传输大量的梯度和优化器状态。这通常涉及多个网络节点,并需要考虑复杂的网络拓扑结构。通过树状的all-reduce算法,可以将通信复杂度降低至log(n),同时尽量减少光纤连接节点间的通信延迟。 NCCL库可以智能发现网络拓扑并优化通信操作,比如all-reduce或scatter/gather。同时,网络设备(如交换机和NIC)的路由算法也需要优化,以实现负载均衡。此外,交换机的HBM内存在处理大规模通信时也非常关键,因为数据包排队时需要足够的缓存空间。 故障恢复 在拥有1万块GPU的环境中,硬件和软件故障几乎是常态。GPU、NIC、网络线缆等可能随时出问题。有些故障可以快速检测到,而有些只能通过延迟判断,比如NCCL的all-reduce操作卡住了。 另外,大规模训练时偶尔会出现内存位翻转导致的数据损坏,进而引发损失爆炸。这种现象在小规模训练中也有,但非常罕见,难以预先通过软件检测。虽然部分硬件具备内置校验功能,但像H100这样的GPU还没有这一特性。 为应对这些故障,建议频繁保存模型状态,并快速从故障中恢复。通常,模型状态会首先保存到CPU内存,然后再异步保存到磁盘或远程存储中。模型状态保存时可以分片处理,不需要每个GPU保存所有权重,而是保存一部分,其他部分可以从其他GPU的检查点中恢复。这样即使某个节点发生故障,恢复时间也会大大缩短。
OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面
OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面。这款新产品在常规聊天窗口旁边打开一个独立窗口,为写作和编程项目提供工作空间。用户可以直接在Canvas中生成文本或代码,然后高亮显示部分内容,进行模型编辑。Canvas从周四开始向ChatGPT Plus和Teams用户推出测试版,下周将向企业和教育用户开放。 现在,多个AI厂商都在围绕可编辑工作空间进行布局,将其作为使用生成式AI的实际工具。ChatGPT的新界面提供的功能与Anthropic在今年6月推出的Artifacts,以及备受欢迎的编程助手Cursor类似。OpenAI加快了与竞争对手的步伐,不仅匹配现有功能,还计划推出全新的能力,以吸引更多付费用户。 目前,AI聊天机器人还无法通过单个指令完成大型项目,但它们通常可以提供不错的起点。类似Canvas这样的可编辑工作空间,允许用户修正AI生成内容中的错误,而无需完全重新生成整段代码或文字。 ChatGPT的新可编辑项目窗口让用户能够更自然地与模型协作。OpenAI产品经理Daniel Levine在与TechCrunch的演示中表示,这种方式让人们更直观地使用ChatGPT。 在演示中,Levine需要从ChatGPT的模型选择器中选择“GPT-4 with canvas”,但OpenAI表示,当ChatGPT检测到用户正在处理长文本或复杂的编程任务时,Canvas窗口会自动弹出。用户还可以通过输入“use canvas”来直接打开该项目窗口。 Levine展示了ChatGPT如何通过这些新功能帮助撰写电子邮件。用户可以先让ChatGPT生成一封电子邮件,邮件会在Canvas窗口中弹出。然后,用户可以通过滑动按钮调整文本的长短,或者高亮显示某些句子,要求ChatGPT做出修改,比如“让它听起来更友好”或加入表情符号。用户还可以要求ChatGPT将整个邮件翻译成其他语言。 对于编程项目,Canvas提供了稍微不同的功能。Levine通过指令让ChatGPT生成了一个Python API服务器,生成的代码在Canvas窗口中显示。通过按下“添加注释”按钮,ChatGPT会为代码添加行内文档解释其功能。用户还可以高亮代码的某一部分,让ChatGPT解释其含义或解答相关问题。此外,ChatGPT还推出了“代码审查”按钮,能为用户生成或自写的代码提出修改建议,用户可以选择批准、手动编辑或拒绝。如果用户批准,ChatGPT会尝试自行修复代码中的错误。 一旦Canvas功能脱离测试版,OpenAI计划将其开放给免费用户。
OpenAI在最新的融资轮中成功筹集了66亿美元的资金
过去几周以来的传闻终于尘埃落定,OpenAI在最新的融资轮中成功筹集了66亿美元的资金,使公司估值达到1570亿美元(比之前预期的多出70亿美元)。这次融资不仅使OpenAI估值约为其年收入的40倍,还打破了创投历史的纪录,超越了早前Elon Musk的xAI公司,其今年筹集了60亿美元,但估值仅为240亿美元。 🔑 重点内容: 正如外界所料,投资方包括NVIDIA、软银和微软,但主导这轮融资的是Thrive Capital。Thrive Capital获得了一个特别的交易条款,允许其在2025年以同样的估值再追加10亿美元投资,前提是OpenAI达到预期的收入目标。 这笔资金将帮助OpenAI成为通用人工智能(AGI)领域的领军者,并扩大计算能力。据预测,OpenAI的项目到2029年可能会创造1000亿美元的收入,相当于目前雀巢的年收入。 不过,如果OpenAI在未来两年内未能兑现其转为盈利性企业的承诺(并为CEO Sam Altman分配股权),以及取消投资者回报的上限,投资者有权收回资金。 🤔 为什么值得关注:转型为盈利性公司并取消目前投资回报率上限(现固定为原投资金额的100倍),将使OpenAI在融资方面更加自由。这可能让公司有机会进行更多长期且资本密集型的项目,例如打造自家AI芯片和数据中心,减少对NVIDIA的依赖。同时,通过签署授权协议,OpenAI可以避免法律诉讼风险并获取竞争优势。然而,OpenAI在公司内部还有许多问题需要解决,尤其是如今13位创始成员中仅剩3人还在职,员工对公司发展方向的满意度似乎并不高。
全球首家3D打印酒店
今年早些时候正式公布后,领先的3D打印建筑公司Icon目前正忙于在德州沙漠中建设其雄心勃勃的El Cosmico露营酒店项目。该项目号称是全球首家3D打印酒店,包含露营区、度假屋和共享设施,还将出售一些由知名建筑师设计的永久住宅。 该项目是Icon与知名建筑公司Bjarke Ingels Group(BIG)合作打造的,El Cosmico是对现有的El Cosmico露营酒店的大幅扩展和重新构想,位于马尔法郊外,项目面积超过60英亩(24.3公顷)。 酒店将包括引人注目的弧形和穹顶式度假住宅,其设计灵感来自周围的自然景观,还将设有帐篷区、中央游泳池和公共设施。此外,BIG还设计了一些永久住宅,最多包含四间卧室,拥有广阔的景观视野,这些住宅的售价高达229万美元起。此外,还将为当地社区提供一些经济适用的3D打印住房,其中部分是通过Icon举办的全球设计竞赛选出的。 Icon的3D打印机正在构建El Cosmico的基础结构,之后将由人工施工队完成细节部分。Icon的打印技术也曾用于Wolf Ranch和Wimberly Springs项目,采用其自主研发的Vulcan 3D打印系统。该系统通过人类操作员监督,使用一种类似水泥的专有混合材料Lavacrete,通过喷嘴一层层堆叠构建住宅的基础结构。在打印过程结束后,人工团队将负责安装屋顶、电线、窗户等其他必要设施。 BIG负责人Bjarke Ingels解释道:“我们为新El Cosmico设计的是一次过去与未来的对话。通过挑战Icon 3D打印技术的几何边界,我们设想出流畅、曲线型的建筑结构,这些结构仿佛从空旷的沙漠中自然升起。我们使用当地的沙土和色彩作为打印媒介,圆形建筑仿佛从脚下的土地中生长出来。我们很荣幸能够与El Cosmico的创始人Liz Lambert一起,重新定义沙漠奢华,将其提炼为最纯粹的形式:原始、真实,并与周围环境和谐共生。” 整个El Cosmico扩建项目预计将在2026年完工。
NVLM-D-72B:视觉与文本任务中的全能高手
Nvidia 最近发布了一款强大的开源人工智能模型,挑战了 OpenAI 和谷歌等行业巨头的专有系统。全新推出的 NVLM 1.0 系列大型多模态语言模型,以 NVLM-D-72B 为首,拥有 720 亿参数,展现了卓越的视觉和语言任务处理能力,同时也增强了纯文本任务的表现。https://huggingface.co/nvidia/NVLM-D-72B 研究人员在论文中提到:“我们推出的 NVLM 1.0 系列,作为多模态前沿语言模型,达到了视觉语言任务的最新成果,媲美主流的专有模型(如 GPT-4o)和开放模型。”Nvidia 通过公开模型权重并承诺发布训练代码,打破了将先进 AI 系统封闭的行业惯例。这一举动为研究人员和开发者提供了前所未有的尖端技术访问权限。 在多项视觉与语言任务的基准测试中,NVLM-D 模型与 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨头展开了激烈竞争,展现出其出色的性能。NVLM-D-72B 在处理复杂视觉和文本输入时表现出极强的适应性。研究人员展示了模型如何解读表情包、分析图片,并逐步解决数学问题的能力。 特别值得注意的是,NVLM-D-72B 在多模态训练后,纯文本任务的表现不降反升,关键文本基准测试的准确率平均提高了 4.3 个百分点。研究人员强调:“我们的 NVLM-D-1.0-72B 在文本专用的数学和编程测试中,表现显著优于其文本基座。” AI 社群对 Nvidia 的开源举措反应热烈。一位 AI 研究员在社交媒体上表示:“哇!Nvidia 发布了一个 72B 参数的模型,它在数学和编程测试中几乎能与 Llama 3.1 的 405B 模型媲美,还具备视觉能力?”Nvidia 开放如此强大的模型,可能会加速整个 AI 领域的研究与开发,帮助中小型组织和独立研究人员更大程度地推动 AI 进步…
微软推出了全新的 Copilot 体验
在纽约举行的活动上,微软推出了全新的 Copilot 体验,采用卡片式界面,适用于移动端、网页和 Windows 平台。 此次更新的亮点包括Copilot Vision,该功能能够视觉化解释用户环境,还有Copilot Voice,提供四种不同的语音选项进行互动。发现卡片(Discover Cards)会为用户提供个性化的内容推荐,而Copilot Daily 则通过与主流新闻机构合作,提供每日新闻和天气播报,并支持语音朗读。 Copilot 的一大突破是在 Microsoft Edge 中的集成,用户可以无需泄露个人数据的情况下总结网页内容并进行文本翻译。同时,Copilot Labs 推出了实验性功能,包括深入思考(Think Deeper),利用全新的 OpenAI 语言模型 o1,将在多平台上提供。 微软还在创意工具上带来了大幅改进,例如 Paint 和 Photos 应用都将加入生成式填充和生成式擦除功能,用户可以精确添加或移除对象,类似于 Adobe Photoshop 的功能。Photos 应用还会推出超分辨率功能,可在设备上将图像的分辨率提升至原始分辨率的八倍。 通过这次全面升级,微软的 Copilot 和 Windows 生态系统更加灵活、以用户为中心,旨在成为真正的 AI 伴侣。为纪念这一里程碑,AI 领域的 CEO 穆斯塔法·苏莱曼(Mustafa Suleyman)撰写了一篇备忘录,探讨他所谓的“技术范式转变”,即 AI 模型将更深入地理解人类的视觉和听觉体验。
OpenAI 在 2024 年的 DevDay 上发布了四项重大更新
OpenAI 在 2024 年的 DevDay 上发布了四项重大更新,重点放在提升 AI 的可访问性和降低成本上,为开发者们带来了更多实用工具。 以下是更新亮点: 实时 API:全新发布的实时 API 提供六种 AI 语音,专为应用程序中的无缝集成设计。这些语音与 ChatGPT 的不同,更加自然,适用于旅游规划、电话订购等场景,收费约为每小时 18 美元。此 API 支持实时响应,提升了多种应用中的用户体验,但开发者需明确告知使用了 AI 生成的语音。 视觉微调 API:视觉微调 API 允许开发者通过结合图像数据与文本增强 GPT-4o 的视觉理解能力。这项功能可应用于高级视觉搜索、自动驾驶中的物体识别以及精确的医学影像分析,且仅需 100 张图像即可实现。OpenAI 还强调了数据透明度,开发者可完全掌控数据的所有权与使用权,自动化安全评估确保合规。 API 中的提示缓存:提示缓存功能通过重用之前的输入 token,帮助开发者降低成本并减少延迟。这个功能对代码编辑和多轮对话特别有用,处理时间可节省多达 50%。它会自动应用于最新的 GPT-4o 和 GPT-4o mini 版本,并在提示超过 1,024 个 token 时激活,同时确保隐私保护。 API 中的模型蒸馏:OpenAI 推出的模型蒸馏技术,允许开发者利用 GPT-4o 和 o1-preview 等高级模型的输出来优化低成本模型。该集成过程简化了高性能模型的创建,比如 GPT-4o mini,且无需多种工具。关键功能包括“存储完成”用于自动生成数据集,以及“评估”用于性能测评。模型蒸馏现已开放,开发者每天可免费获得 200…
利用PDLP扩展线性规划求解能力
经典线性规划(LP)问题是计算机科学和运筹学中最基础的问题之一,广泛应用于全球经济的诸多领域,如制造业、网络等。LP已经成为数学规划的基石,并极大地推动了当今数据驱动决策的建模和算法框架的发展。如果要优化某个问题,通常可以假设LP会涉及其中。 自20世纪40年代以来,LP求解方法取得了长足的进步,其中最常用的是Dantzig提出的单纯形法和各种内点法。尽管现代商用LP求解器仍然广泛采用这些方法,但在处理非常大规模的实例时,面临着计算资源的挑战。为应对这一局限,近年来,针对大规模LP问题的一级方法(FOMs)开始受到关注。 基于此背景,推出了新的一级方法LP求解器——PDLP(基于LP的原-对偶混合梯度算法)。PDLP利用矩阵-向量乘法而非矩阵分解,大大减少了内存需求,且更适合现代计算技术如GPU和分布式系统,提供了一种可扩展的替代方案,有效解决了传统LP方法在内存和计算效率方面的不足。PDLP作为开源项目,已集成到Google的OR-Tools中。自2018年开始研发,PDLP项目于2024年7月在国际数学规划研讨会上荣获Beale-Orchard-Hays奖,这一奖项是计算优化领域的最高荣誉之一,每三年由数学优化学会颁发。 LP和一级方法的发展 当前最先进的LP求解器在扩展时面临重大挑战。其主要瓶颈在于矩阵分解带来的计算限制,尤其是在求解线性方程时: 鉴于这些局限,FOMs成为解决大规模LP问题的有力替代方案。与依赖矩阵分解的方法不同,FOMs利用梯度信息进行迭代更新,主要的计算需求是矩阵-向量乘法。这种方法仅需存储LP实例本身,避免了额外的内存开销。此外,FOMs在机器学习和深度学习领域的进步提高了其在现代计算平台上的可扩展性,使其在处理大规模和复杂的LP任务时尤为高效。 重新启动的原-对偶混合梯度法(PDHG) 原-对偶混合梯度法(PDHG)在图像处理领域广为人知。当其应用于LP时,主要的计算需求仍是矩阵-向量乘法,从而不再需要矩阵分解。这使得PDHG在大规模计算任务中效率颇高,但在LP求解中,PDHG的可靠性较低。比如在383个基准测试实例中,PDHG仅能解决113个问题,并且精度一般。 为提高PDHG在LP问题中的可靠性,开发了重新启动的PDHG方法。这种方法采用了双循环结构,当满足重新启动条件时,计算PDHG迭代的平均值,并从此平均点重新启动。通过这种策略,可以显著加快收敛速度。 PDLP的五项改进 PDLP是基于重新启动PDHG开发的软件包,通过以下五个改进大幅提高了求解效率: PDLP作为Google OR-Tools开源软件的一部分,支持Python、C++、Java和C#接口,更多使用细节可在OR-Tools文档中找到。 应用场景 PDLP的扩展性和速度提升开辟了新的应用场景,以下是三个典型案例: 更广泛的影响 自发布以来,PDLP吸引了广泛关注。其GPU实现版本cuPDLP.jl已经开源,并被商用求解器公司Cardinal Optimizer和开源求解器HiGHS分别在2024年1月和3月版本中集成。学术界也在不断拓展PDLP的理论基础,涵盖了新的分析方法、轨迹分析等领域,推动PDLP在更复杂问题上的应用。PDLP的影响力仍在持续扩大,推动了计算优化领域的新突破。