谷歌正在石油资源丰富的沙特阿拉伯建设一个AI数据中心,引发了广泛关注,许多人质疑这项计划的影响及其对谷歌气候目标承诺的真实性。 🔑 关键点: 虽然谷歌和沙特公共投资基金尚未公布具体细节,但这个新的AI数据中心将支持本地的阿拉伯语AI模型研究和“沙特特定的AI应用程序”开发。 谷歌此前曾承诺不再为石油和天然气生产开发算法,并在2030年前减半碳排放。然而,尽管沙特严重依赖化石燃料,谷歌仍认为与沙特合作并不会违背其气候承诺。 沙特希望通过利用AI技术在2030年前减少对石油收入的依赖,但国有石油公司阿美(Aramco)在利用AI优化运营后,石油产量反而增长了15%。 🤔 为什么这值得关注:化石燃料是沙特经济的核心,专家认为,这个数据中心支持的“沙特特定AI应用”可能仍将集中在石油和天然气生产上,这让谷歌陷入两难:既要努力实现其气候目标,又希望在全球研究和创新方面占据一席之地。
Author: aitrendtrackers@rengongzhineng.io
OpenAI正在与台积电(TSMC)和博通(Broadcom)合作,打造自己的AI推理芯片
OpenAI正在与台积电(TSMC)和博通(Broadcom)合作,打造自己的AI推理芯片。根据路透社的报道,虽然OpenAI最初有意建立自己的晶圆厂,但由于成本和时间的限制,目前已经搁置了这一计划,转而专注于内部芯片设计。 消息人士透露,OpenAI已经与台积电达成生产协议,预计将在2026年之前推出首批定制AI芯片。不过,这一时间表可能会有变动。 自研芯片的进展 早在2023年底,就有传言称OpenAI正在考虑自制AI芯片。而2024年7月的报道首次明确了该公司正在与芯片设计师讨论开发新型AI服务器芯片的可能性。 OpenAI的CEO Sam Altman一直大力推动公司开发自有AI芯片。他曾致力于推动一个代号为“Project Tigris”的AI芯片公司,但在2023年11月经历了一场短暂的离职风波后被重新聘用。目前,OpenAI的芯片团队约有20人,去年还聘请了前Lightmatter芯片工程负责人及Google TPU负责人Richard Ho担任硬件部门负责人。 博通曾深度参与了谷歌TPU AI芯片的开发,显示出他们在AI芯片领域的丰富经验。 多样化硬件部署 除了自研芯片,OpenAI还在多样化其硬件部署。据报道,OpenAI现已开始使用AMD芯片,与现有的Nvidia GPU共同训练AI模型。这一转变部分是为了减少对Nvidia的依赖,因为Nvidia的GPU价格昂贵,且过去曾面临供不应求的问题。 与微软的合作 微软作为OpenAI最大的投资者,已经向其注资近140亿美元。今年5月,微软宣布将在其Azure云计算服务中为客户提供AMD的MI300X加速器。OpenAI将通过Azure平台访问这些AMD芯片。 微软云和AI部门执行副总裁Scott Guthrie称MI300X是“目前在Azure OpenAI中最具成本效益的GPU”。这种芯片的引入预计将为OpenAI提供更具经济效益的硬件支持。 未来展望 OpenAI的这一步棋不仅是为了控制成本,也是为了应对市场对AI计算能力日益增长的需求。通过与台积电和博通的合作,OpenAI正在为未来的AI芯片市场奠定基础,逐步实现硬件自给自足的目标。
Claude 3.5 Sonnet模型新增了PDF支持功能
在文档处理领域取得重要进展的是Anthropic,他们为Claude 3.5 Sonnet模型新增了PDF支持功能。这一突破性发展将传统文档格式与AI分析之间的距离进一步拉近,使得企业能够在现有文档基础上,充分利用先进的AI能力。 技术亮点:三阶段处理 新系统采用了多层次的处理方法,分为三个阶段: 这种集成方法使Claude 3.5 Sonnet能够处理复杂任务,例如财务报表分析、法律文件解读,以及在保持语境的情况下进行文档翻译。 实施与访问方式 目前,该功能通过以下两种渠道提供: 系统支持处理最大32 MB、最多100页的文档,确保了对各类专业文档的高效处理。这些技术要求优化了企业实际应用的场景,满足了广泛的业务需求。 未来展望与平台集成 Anthropic计划将这一功能扩展至Amazon Bedrock和Google Vertex AI平台,进一步提高用户的可访问性和技术集成能力。这种扩展显示出Anthropic致力于让更多组织在其现有技术基础设施中利用这些功能的决心。 系统的集成架构允许与Claude的其他功能无缝结合,尤其是工具使用能力,为用户在特定应用中提取信息提供了灵活性。 应用场景 PDF处理功能的加入为多个行业带来了新的可能性。金融机构可以自动化分析年报、招股说明书和投资文件,法律事务所则可简化合同审查和尽职调查流程。由于能够同时处理文本和视觉元素,这项技术在依赖数据可视化和技术文档的行业中尤其有价值。 教育机构和研究组织也能从增强的文档翻译功能中受益,实现对多语言学术论文和研究报告的无缝处理。此外,该技术能够理解图表和文本,为科学出版物和技术报告提供全面的解读。 技术规格与限制 了解系统的参数对于优化实施至关重要。当前框架有以下限制: 处理成本基于代币模型,通常每页消耗1,500至3,000个代币,且不收取额外费用。这种透明的定价模式使企业能够有效地规划实施和使用预算。 优化指南 为了最大化系统的效果,建议采取以下优化策略: 这些优化实践能提高处理效率,特别是在处理复杂或较长的文档时效果尤为显著。 结论 Claude 3.5 Sonnet的PDF处理功能为AI文档分析领域带来了显著进步。它不仅满足了复杂文档处理的需求,还保持了实际应用的可访问性。随着企业不断推进数字化,这一技术的发展,加上Anthropic的扩展计划,有望重新定义商业文档管理和分析的方式。 综合来看,系统凭借其全面的文档理解能力、明确的技术参数和优化框架,为寻求AI提升文档处理能力的组织提供了一种有前途的解决方案。
GitHub推出多模型升级和自然语言网页开发平台Spark的推出
GitHub最近的两项重大公告,标志着其开发者工具的显著进化:Copilot的多模型升级和自然语言网页开发平台Spark的推出。 首先,GitHub正在将Copilot从单一的OpenAI架构扩展到包括Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro模型。同时,GitHub Spark的发布旨在通过自然语言指令简化网页应用开发。 Copilot的增强模型支持 自从Copilot发布以来,它已经历了多次模型升级。最初,它使用的是针对编码任务优化的OpenAI Codex模型,之后又逐步引入了GPT-3.5和GPT-4等更先进的模型。此次扩展不仅加入了Anthropic和Google的模型,还在多个开发场景中提供更多的模型选择,凸显GitHub在AI辅助开发策略上的重要进步。 GitHub的CEO Thomas Dohmke在博客中表示,新的多模型支持将首先在Copilot Chat中推出,随着时间的推移,更多功能如多文件编辑、代码审查和安全自动修复等也将逐步引入不同模型的支持。这种多模型方法意味着开发者可以根据不同任务选择最合适的AI模型,从而获得更精准、更具上下文感知的代码建议。 GitHub Spark:自然语言网页开发 GitHub最令人瞩目的新工具之一是GitHub Spark,它旨在通过自然语言指令彻底改变网页应用开发。Spark的目标是简化开发流程,降低项目复杂度,让开发者可以通过简单的语言描述快速构建应用。这种方法不仅能帮助快速原型设计,还能缩短从设计到实现的时间。 对于团队和企业来说,Spark的潜力在于: Copilot登陆Apple的Xcode 此次Copilot还在Apple的Xcode上推出了公开预览版本,为iOS和macOS开发者带来了实时代码建议和生产力提升。它的集成为Swift和Objective-C的开发提供了更加智能的支持,同时还能与现有的Xcode工作流程无缝结合。 对开发者生产力的影响 GitHub的这些更新反映了行业向更智能化、自动化开发工具的趋势。通过扩展模型支持、引入自然语言开发和Xcode集成,GitHub正在全方位提升开发者的生产力。这些工具有助于减少重复代码的时间,提高解决问题的效率,并提供更多选择,帮助开发者选择最适合项目的AI模型。 未来,随着这些工具的普及,软件开发的方式可能会发生变化,包括: GitHub在AI能力上的进步,预示着开发工具的进一步演变。这些新功能和集成旨在提升开发者的能力,而不是取代他们的专业知识,从而推动更高效、更富有成效的软件开发过程。GitHub的这一全面方法,或将引领软件开发从构思到部署的重大变革。
麻省理工学院的研究人员最近开发了一种新的机器人训练方法
麻省理工学院的研究人员最近开发了一种新的机器人训练方法,既能节省时间和成本,又能提升机器人适应新任务和环境的能力。论文下载:https://arxiv.org/pdf/2409.20537 这种方法被称为异构预训练变换器(HPT),它将来自多个来源的大量多样化数据整合成一个统一的系统,相当于为生成式AI模型创建了一种共享语言。这种方法与传统的机器人训练大相径庭,后者通常需要工程师为每个机器人和任务在受控环境下收集特定数据。 MIT电气工程与计算机科学的研究生王力瑞(Lirui Wang)领导了这项研究。他指出,尽管很多人认为机器人训练数据不足是一个主要挑战,但更大的问题在于各种不同领域、模态和机器人硬件的多样性。团队的研究展示了如何有效地结合和利用这些多样化的元素。 研究团队开发了一种能够统一处理各种数据类型的架构,包括摄像头图像、语言指令和深度图。HPT采用了类似于高级语言模型的变换器模型来处理视觉和本体感受输入。 在实际测试中,该系统表现非凡——在模拟和现实场景中,其表现比传统训练方法提高了20%以上。即使在机器人面临与训练数据大相径庭的任务时,这种提升依然显著。 研究团队为预训练准备了一个令人印象深刻的数据集,包含了52个数据集,超过20万个机器人轨迹,涵盖了四个类别。这种方法让机器人能够从丰富的经验中学习,包括人类演示和模拟。 系统的一大创新在于对本体感受(机器人对自身位置和运动的感知)的处理。团队设计的架构将本体感受与视觉信息同等重要,从而实现了更复杂的灵活动作。 展望未来,团队计划提升HPT处理未标注数据的能力,类似于先进的语言模型。他们的终极愿景是创建一个可以下载并适用于任何机器人的通用机器人“大脑”,无需额外训练。 尽管目前还处于早期阶段,团队对于规模化的前景充满信心,认为这可能会引领机器人策略领域的突破,类似于大型语言模型所带来的进展。
Google推出了AI驱动的学习工具“Learn About”
Google推出了AI驱动的学习工具“Learn About”,专为美国用户提供多学科的深度探索途径。作为Google学习计划的一部分,这项实验性工具结合AI互动和结构化指引,支持用户通过文字或图片启动对话,并可选择探索个人成长、生物学、经济学、天文学等众多领域。Learn About的界面不仅提供主题起点,还提供后续建议和互动列表,使进一步的学习过程更加流畅。 其中的互动列表格外引人注目,它们呈现出不同领域的核心信息摘要,每个条目均可点击,让用户轻松深入了解相关内容。这些列表还配有高度逼真的AI生成缩略图,增加了视觉吸引力和动态感。 此外,用户可以通过点击“获取图片”等命令来精确调整内容,也可选择简化或深入了解细节,减少输入需求。Learn About支持网络连接,这意味着回复中带有来源链接,并提供“二次确认”功能,方便用户核实信息的准确性,增强了工具的可靠性。 尽管当前尚未支持语音输入,但未来的改进中很可能加入该功能以提升可访问性。总体而言,Learn About是一个用户友好且高度互动的工具,使得复杂主题的探索变得轻松高效,并具有进一步发展的潜力。
Google在代码审查工具Critique
Google在代码审查上力求减少痛点,并获得了高达97%的开发者满意度。 在Google众多内部工具中,许多前员工提到他们最怀念的就是代码审查工具Critique。不少人在社交媒体和论坛上表达了对Critique的思念,特别是它的“关注集”等功能,这些都让代码审查变得更加流畅高效。据Google的内部数据,97%的Google软件工程师对Critique感到满意。 Critique究竟是什么? Critique是Google开发的专属代码审查工具,不仅方便开发者快速审查和提交代码,还结合了AI驱动的改进功能,大大提升了生产效率。Critique的核心是结合Google的代码审查流程,通过其独特的UI设计和智能分析工具,为开发者提供了一整套便捷、清晰的代码比对与改进建议。此外,Critique还在每次评论后提供机器学习生成的修正建议,帮助开发者轻松处理修改请求。 Google代码审查的基本准则 Google有一套完善的代码审查准则,主要包括以下几方面: 在实际操作中,Google还通过研究发现,审查反馈的措辞和语气直接影响开发者的积极性。 Critique工具的流程 Critique的优势 Critique备受Google工程师喜爱的原因包括: 虽然其他公司有类似功能的代码审查工具,但Critique的个性化设计使其在Google的特定工作流程和代码库中表现卓越。Critique不会开源,但Google支持的开源工具Gerrit可以提供部分类似的功能。通过持续的研发,Google也在公开他们的研究成果,为业界提供宝贵的开发者生产力提升的经验和启发。
OpenAI推出ChatGPT搜索功能,向谷歌和微软发起竞争
OpenAI今日宣布,ChatGPT现已具备更强的网页搜索能力,能够即时查询最新的信息。这一功能显著扩展了ChatGPT的应用范围,以前的ChatGPT主要依赖截至2023年10月的GPT-4o训练数据生成回答,且具备有限的网页搜索功能。如今,对于体育、股市或实时新闻等新鲜话题,ChatGPT会自动进行网页搜索,并生成多媒体结果。用户也可以手动启动网页搜索功能,但一般情况下ChatGPT会自行判断何时需要网络信息,确保回答更加精准。OpenAI搜索产品负责人Adam Fry向《麻省理工科技评论》表示,“目标是让ChatGPT成为最智能的助手,如今它从网络中获取信息的能力得到了显著提升。”目前,这一功能已向付费用户开放。 在实例中,当用户询问当地餐厅推荐时,ChatGPT自动触发了网页搜索。虽然这项功能现阶段仅供付费用户使用,但OpenAI计划未来将其向所有用户免费开放,甚至不登录也可使用。该公司还将探索将搜索功能与语音功能及其互动平台Canvas结合,尽管这些尚未在本次发布中提供。 早在今年7月,OpenAI曾推出独立的网页搜索原型——SearchGPT,而如今该功能直接内嵌入ChatGPT中,整合了SearchGPT的优质体验。OpenAI此举意在与谷歌、微软及新创公司Perplexity等竞争者抗衡。据悉,Meta也正在开发自己的AI搜索引擎。与Perplexity类似,ChatGPT的搜索功能支持用户用自然语言交流,并生成附带来源的AI回答,方便用户深入阅读。相比之下,谷歌的AI摘要功能则是在网页顶部提供简要总结并附上传统的链接列表。 尽管如此,这些新兴工具仍难以撼动谷歌在在线搜索市场90%的份额。华盛顿大学在线搜索专家Chirag Shah认为,AI搜索确实是吸引用户的重要工具,但难以动摇谷歌的统治地位。微软试图通过Bing抢占市场,但效果并不显著。相对而言,OpenAI正着眼于打造一个全新的市场,为用户提供强大、互动性强的AI助手,未来甚至能够执行更复杂的任务。 ChatGPT的网页搜索功能也是朝这个方向迈出的一步。它可以基于用户的聊天历史进行个性化回答,使搜索内容更具上下文关联性。目前,ChatGPT搜索可以记住对话历史,持续针对同一话题进行深入探讨。此外,ChatGPT本身也具备长期记忆功能,能够记住用户的个性化信息,并在聊天中利用这些记忆,未来数月内,这一记忆功能也将逐步应用到网页搜索中。届时,用户可以获得更多个性化的搜索结果,例如“我是素食主义者”或“几天后将去纽约”这样的信息将被自动记忆,为用户提供更贴心的建议。 为了提升网页搜索能力,OpenAI与路透社、《大西洋月刊》、《世界报》、英国《金融时报》等众多媒体合作,不仅整合了这些合作伙伴的内容,也会抓取任何不屏蔽其爬虫的在线来源。莱顿大学自然语言处理教授Suzan Verberne认为,这种结合了可信信息的回答生成是一项积极发展,使用户在查询后还能提出深入的问题。然而,她也指出,AI模型依旧存在“编造”信息的风险,即便加上了网页搜索,生成的回答仍可能出现不准确的内容。此外,如果筛选来源不够严格,ChatGPT的回答中可能混入错误信息。 与此同时,哈佛大学伯克曼·克莱因中心的Benjamin Brooks在《麻省理工科技评论》的专栏文章中指出,网页搜索的AI化可能会削弱网站的流量,对网络的数字经济产生冲击。他认为,通过AI搜索,用户的浏览行为被“遮蔽”在全知的聊天机器人后,可能会减少原创内容的曝光和点击量,最终威胁网络创作者的生存。
Roboflow估算,通过使用Meta的“分割任何东西模型”(SAM),其社区累计节省了约74年的工作时间。
在Meta推出“分割任何东西模型”(SAM)之前,Roboflow的CEO Joseph Nelson回忆道,用户想要在图像中分割物体时必须仔细地逐点点击,每次都需耗费大量时间。图像分割——即标记图像中与目标对象对应的像素——是创建某些模型训练数据的重要步骤。2023年,Meta的SAM模型问世,改变了这一繁琐过程,SAM带来了交互式和自动化的分割功能,操作更灵活。2024年7月,Meta发布了SAM 2,实现了图像和视频的实时分割,进一步提升了效率。 Nelson表示,“SAM 2几乎能自动识别大多数对象的分割区域,用户在创建自定义数据集时节省了大量时间。SAM 1和SAM 2的累计应用覆盖了超过6000万个多边形,累计节省了约74年的时间。” 得益于SAM的开源特性,用户可以广泛探索其潜力,社区参与推动了SAM功能的持续改进,带来更多新用途。SAM团队积极与AI研究人员和技术社区合作,使SAM 2在精度和实用性上较SAM 1有了显著进步,充分体现了开源模式在技术发展和共享中的优势。这种协作环境不仅增加了透明度,还为创新和解决问题提供了空间,促进了技术生态的多样化。 Roboflow以“让世界更加可编程”为使命,借助SAM帮助客户实现视觉理解,从灾后恢复到实时体育赛事回放,再到保险公司利用航空影像处理理赔,SAM的应用场景不断扩大。无论用户经验如何,他们都可以通过Roboflow的工具创建和部署适用于商业和社会影响的计算机视觉应用。 用户借助Roboflow的工具,结合自身数据,能够迅速训练分类、目标检测、图像分割等模型。SAM让用户能够快速自动标注、准备和整理视觉数据集,为各类行业的创新铺平道路。Roboflow Universe拥有50多万个公开数据集,约3.5亿张用户标注的图像,为SAM这样的技术开辟了广阔前景。 Nelson指出,Roboflow的客户中有生产电动汽车的企业、运输公司、甚至冰淇淋制造商,很多都在制造和物流中应用SAM以确保产品达到标准。这些出人意料的应用证明了SAM的广泛适用性和强大影响力。 通过为机器赋予“视觉理解”能力,SAM系列模型打开了创新的大门。例如,在旧金山的Exploratorium博物馆,游客可以在显微镜下观察微生物,探索其行为背后的问题;在其他地方,SAM被用来监测鱼类种群、评估珊瑚礁修复的成效等。 Nelson总结道:“SAM改变了人们创建高质量模型的速度,Roboflow社区也在利用SAM赋予机器视觉的能力,为各类下游任务带来新可能。”
Mark Zuckerberg为何继续加大AI投资
Meta在第三季度财报电话会上宣布将继续大力投资人工智能。尽管AI支出持续上升,公司仍超过了预期,季度营收达405.9亿美元,超出市场预期的402.5亿美元。Meta CEO马克·扎克伯格表示,本季度的成功很大程度上得益于AI在各大应用和业务中的进展,公司短期内不会削减在该技术上的投入。 扎克伯格指出,AI对Meta几乎每个方面的工作都产生了积极影响,并表示AI的进步为加速公司核心业务带来了新机会。但他也提到,这些AI投资要求显著增加基础设施支出,这使得Meta预计全年资本支出将在380亿至400亿美元之间,高于此前的370亿至400亿美元预期。 今年以来,Meta在AI研发上投入巨大,特别是在GPU集群和基础设施的扩展上。财报电话会上,扎克伯格还强调了Meta AI和Llama AI模型的快速推广。尽管AI聚焦的业务推动了成本上升,Meta认为明年基础设施支出将继续加速增长。 Meta还提到,AI不仅用于产品开发,如Meta AI和智能Ray-Ban眼镜,还将被应用于内部流程优化,包括编程和内容审核等方面。CFO苏珊·李表示,AI帮助公司提高了员工的生产力,尤其是在代码编写方面,使内部运营更为高效。 Emarketer首席分析师Jasmine Enberg认为,Meta在AI上的高支出不应引起投资者恐慌,第三季度的收入数据反映了AI的回报潜力。然而,她补充称,Meta需要继续证明自己有能力承担逐渐上升的AI成本,同时保持盈利。