Google推出了AI驱动的学习工具“Learn About”,专为美国用户提供多学科的深度探索途径。作为Google学习计划的一部分,这项实验性工具结合AI互动和结构化指引,支持用户通过文字或图片启动对话,并可选择探索个人成长、生物学、经济学、天文学等众多领域。Learn About的界面不仅提供主题起点,还提供后续建议和互动列表,使进一步的学习过程更加流畅。 其中的互动列表格外引人注目,它们呈现出不同领域的核心信息摘要,每个条目均可点击,让用户轻松深入了解相关内容。这些列表还配有高度逼真的AI生成缩略图,增加了视觉吸引力和动态感。 此外,用户可以通过点击“获取图片”等命令来精确调整内容,也可选择简化或深入了解细节,减少输入需求。Learn About支持网络连接,这意味着回复中带有来源链接,并提供“二次确认”功能,方便用户核实信息的准确性,增强了工具的可靠性。 尽管当前尚未支持语音输入,但未来的改进中很可能加入该功能以提升可访问性。总体而言,Learn About是一个用户友好且高度互动的工具,使得复杂主题的探索变得轻松高效,并具有进一步发展的潜力。
Google在代码审查工具Critique
Google在代码审查上力求减少痛点,并获得了高达97%的开发者满意度。 在Google众多内部工具中,许多前员工提到他们最怀念的就是代码审查工具Critique。不少人在社交媒体和论坛上表达了对Critique的思念,特别是它的“关注集”等功能,这些都让代码审查变得更加流畅高效。据Google的内部数据,97%的Google软件工程师对Critique感到满意。 Critique究竟是什么? Critique是Google开发的专属代码审查工具,不仅方便开发者快速审查和提交代码,还结合了AI驱动的改进功能,大大提升了生产效率。Critique的核心是结合Google的代码审查流程,通过其独特的UI设计和智能分析工具,为开发者提供了一整套便捷、清晰的代码比对与改进建议。此外,Critique还在每次评论后提供机器学习生成的修正建议,帮助开发者轻松处理修改请求。 Google代码审查的基本准则 Google有一套完善的代码审查准则,主要包括以下几方面: 在实际操作中,Google还通过研究发现,审查反馈的措辞和语气直接影响开发者的积极性。 Critique工具的流程 Critique的优势 Critique备受Google工程师喜爱的原因包括: 虽然其他公司有类似功能的代码审查工具,但Critique的个性化设计使其在Google的特定工作流程和代码库中表现卓越。Critique不会开源,但Google支持的开源工具Gerrit可以提供部分类似的功能。通过持续的研发,Google也在公开他们的研究成果,为业界提供宝贵的开发者生产力提升的经验和启发。
OpenAI推出ChatGPT搜索功能,向谷歌和微软发起竞争
OpenAI今日宣布,ChatGPT现已具备更强的网页搜索能力,能够即时查询最新的信息。这一功能显著扩展了ChatGPT的应用范围,以前的ChatGPT主要依赖截至2023年10月的GPT-4o训练数据生成回答,且具备有限的网页搜索功能。如今,对于体育、股市或实时新闻等新鲜话题,ChatGPT会自动进行网页搜索,并生成多媒体结果。用户也可以手动启动网页搜索功能,但一般情况下ChatGPT会自行判断何时需要网络信息,确保回答更加精准。OpenAI搜索产品负责人Adam Fry向《麻省理工科技评论》表示,“目标是让ChatGPT成为最智能的助手,如今它从网络中获取信息的能力得到了显著提升。”目前,这一功能已向付费用户开放。 在实例中,当用户询问当地餐厅推荐时,ChatGPT自动触发了网页搜索。虽然这项功能现阶段仅供付费用户使用,但OpenAI计划未来将其向所有用户免费开放,甚至不登录也可使用。该公司还将探索将搜索功能与语音功能及其互动平台Canvas结合,尽管这些尚未在本次发布中提供。 早在今年7月,OpenAI曾推出独立的网页搜索原型——SearchGPT,而如今该功能直接内嵌入ChatGPT中,整合了SearchGPT的优质体验。OpenAI此举意在与谷歌、微软及新创公司Perplexity等竞争者抗衡。据悉,Meta也正在开发自己的AI搜索引擎。与Perplexity类似,ChatGPT的搜索功能支持用户用自然语言交流,并生成附带来源的AI回答,方便用户深入阅读。相比之下,谷歌的AI摘要功能则是在网页顶部提供简要总结并附上传统的链接列表。 尽管如此,这些新兴工具仍难以撼动谷歌在在线搜索市场90%的份额。华盛顿大学在线搜索专家Chirag Shah认为,AI搜索确实是吸引用户的重要工具,但难以动摇谷歌的统治地位。微软试图通过Bing抢占市场,但效果并不显著。相对而言,OpenAI正着眼于打造一个全新的市场,为用户提供强大、互动性强的AI助手,未来甚至能够执行更复杂的任务。 ChatGPT的网页搜索功能也是朝这个方向迈出的一步。它可以基于用户的聊天历史进行个性化回答,使搜索内容更具上下文关联性。目前,ChatGPT搜索可以记住对话历史,持续针对同一话题进行深入探讨。此外,ChatGPT本身也具备长期记忆功能,能够记住用户的个性化信息,并在聊天中利用这些记忆,未来数月内,这一记忆功能也将逐步应用到网页搜索中。届时,用户可以获得更多个性化的搜索结果,例如“我是素食主义者”或“几天后将去纽约”这样的信息将被自动记忆,为用户提供更贴心的建议。 为了提升网页搜索能力,OpenAI与路透社、《大西洋月刊》、《世界报》、英国《金融时报》等众多媒体合作,不仅整合了这些合作伙伴的内容,也会抓取任何不屏蔽其爬虫的在线来源。莱顿大学自然语言处理教授Suzan Verberne认为,这种结合了可信信息的回答生成是一项积极发展,使用户在查询后还能提出深入的问题。然而,她也指出,AI模型依旧存在“编造”信息的风险,即便加上了网页搜索,生成的回答仍可能出现不准确的内容。此外,如果筛选来源不够严格,ChatGPT的回答中可能混入错误信息。 与此同时,哈佛大学伯克曼·克莱因中心的Benjamin Brooks在《麻省理工科技评论》的专栏文章中指出,网页搜索的AI化可能会削弱网站的流量,对网络的数字经济产生冲击。他认为,通过AI搜索,用户的浏览行为被“遮蔽”在全知的聊天机器人后,可能会减少原创内容的曝光和点击量,最终威胁网络创作者的生存。
Roboflow估算,通过使用Meta的“分割任何东西模型”(SAM),其社区累计节省了约74年的工作时间。
在Meta推出“分割任何东西模型”(SAM)之前,Roboflow的CEO Joseph Nelson回忆道,用户想要在图像中分割物体时必须仔细地逐点点击,每次都需耗费大量时间。图像分割——即标记图像中与目标对象对应的像素——是创建某些模型训练数据的重要步骤。2023年,Meta的SAM模型问世,改变了这一繁琐过程,SAM带来了交互式和自动化的分割功能,操作更灵活。2024年7月,Meta发布了SAM 2,实现了图像和视频的实时分割,进一步提升了效率。 Nelson表示,“SAM 2几乎能自动识别大多数对象的分割区域,用户在创建自定义数据集时节省了大量时间。SAM 1和SAM 2的累计应用覆盖了超过6000万个多边形,累计节省了约74年的时间。” 得益于SAM的开源特性,用户可以广泛探索其潜力,社区参与推动了SAM功能的持续改进,带来更多新用途。SAM团队积极与AI研究人员和技术社区合作,使SAM 2在精度和实用性上较SAM 1有了显著进步,充分体现了开源模式在技术发展和共享中的优势。这种协作环境不仅增加了透明度,还为创新和解决问题提供了空间,促进了技术生态的多样化。 Roboflow以“让世界更加可编程”为使命,借助SAM帮助客户实现视觉理解,从灾后恢复到实时体育赛事回放,再到保险公司利用航空影像处理理赔,SAM的应用场景不断扩大。无论用户经验如何,他们都可以通过Roboflow的工具创建和部署适用于商业和社会影响的计算机视觉应用。 用户借助Roboflow的工具,结合自身数据,能够迅速训练分类、目标检测、图像分割等模型。SAM让用户能够快速自动标注、准备和整理视觉数据集,为各类行业的创新铺平道路。Roboflow Universe拥有50多万个公开数据集,约3.5亿张用户标注的图像,为SAM这样的技术开辟了广阔前景。 Nelson指出,Roboflow的客户中有生产电动汽车的企业、运输公司、甚至冰淇淋制造商,很多都在制造和物流中应用SAM以确保产品达到标准。这些出人意料的应用证明了SAM的广泛适用性和强大影响力。 通过为机器赋予“视觉理解”能力,SAM系列模型打开了创新的大门。例如,在旧金山的Exploratorium博物馆,游客可以在显微镜下观察微生物,探索其行为背后的问题;在其他地方,SAM被用来监测鱼类种群、评估珊瑚礁修复的成效等。 Nelson总结道:“SAM改变了人们创建高质量模型的速度,Roboflow社区也在利用SAM赋予机器视觉的能力,为各类下游任务带来新可能。”
Mark Zuckerberg为何继续加大AI投资
Meta在第三季度财报电话会上宣布将继续大力投资人工智能。尽管AI支出持续上升,公司仍超过了预期,季度营收达405.9亿美元,超出市场预期的402.5亿美元。Meta CEO马克·扎克伯格表示,本季度的成功很大程度上得益于AI在各大应用和业务中的进展,公司短期内不会削减在该技术上的投入。 扎克伯格指出,AI对Meta几乎每个方面的工作都产生了积极影响,并表示AI的进步为加速公司核心业务带来了新机会。但他也提到,这些AI投资要求显著增加基础设施支出,这使得Meta预计全年资本支出将在380亿至400亿美元之间,高于此前的370亿至400亿美元预期。 今年以来,Meta在AI研发上投入巨大,特别是在GPU集群和基础设施的扩展上。财报电话会上,扎克伯格还强调了Meta AI和Llama AI模型的快速推广。尽管AI聚焦的业务推动了成本上升,Meta认为明年基础设施支出将继续加速增长。 Meta还提到,AI不仅用于产品开发,如Meta AI和智能Ray-Ban眼镜,还将被应用于内部流程优化,包括编程和内容审核等方面。CFO苏珊·李表示,AI帮助公司提高了员工的生产力,尤其是在代码编写方面,使内部运营更为高效。 Emarketer首席分析师Jasmine Enberg认为,Meta在AI上的高支出不应引起投资者恐慌,第三季度的收入数据反映了AI的回报潜力。然而,她补充称,Meta需要继续证明自己有能力承担逐渐上升的AI成本,同时保持盈利。
Meta第三季度收益大幅增长,但对AI支出上升发出警示
2024年10月31日,加州——Facebook母公司Meta公布了第三季度的强劲财报,净利润同比激增35%至157亿美元,营收同比增长19%至406亿美元。尽管业绩亮眼,但公司也提醒AI支出的增加可能对未来造成压力,消息一出,Meta股价在盘后交易中下跌约3%。 Meta首席执行官马克·扎克伯格在财报电话会上表示,AI的快速发展为核心业务带来了新机会,未来几年预计将带来高回报。他补充道,公司将在AI基础设施上持续进行重大投资。Meta近年来大力投入AI领域,推出了诸如Meta AI、创作者AI、企业AI等服务。Meta AI这一助手已集成至WhatsApp、Messenger、Instagram和Facebook等应用中,帮助用户就多种主题提出问题。 扎克伯格指出,Meta的Llama模型家族正快速成为行业标准,第三季度发布的Llama 3.2包含了领先的小型设备端模型和开放源多模态模型。他还提到,Llama 4目前正在开发中,预计明年初将推出小型版本的Llama 4模型。 在AI基础设施的需求推动下,Meta的资本支出在第三季度达到了92亿美元,主要用于服务器、数据中心和网络设施。公司更新了2024年的全年资本支出预期,从370亿至400亿美元提高到380亿至400亿美元。Meta首席财务官苏珊·李表示,公司预计2025年基础设施支出将显著增长。 广告业务方面,Meta的广告收入增长18.5%,达到399亿美元,推动旗下应用的总收入达403亿美元。9月份,Meta全家族日活跃用户平均达32.9亿,同比增长5%。同时,负责虚拟现实和增强现实业务的Reality Labs实现收入2.7亿美元,同比增长29%,但运营亏损达44亿美元。 此外,Meta第三季度员工数量达到72,404人,同比增加9%。李表示,公司将继续在高回报率的人才和基础设施上投资,并预计2024年全年总支出将在960亿至980亿美元之间,略低于此前预期的960亿至990亿美元。Meta还预测第四季度营收将在450亿至480亿美元之间,若达中位数465亿美元,将实现同比增长16%。 Meta财务团队表示,核心业务的强劲势头和长期发展机会将为公司2025年的进一步增长提供动力。
微软业绩超出预期,但AI投资引发市场担忧导致股价下跌
旧金山,2024年10月31日——微软周三公布了强劲的季度财报,超出分析师预期,收入增长16%达到了656亿美元。不过,有分析提出疑问,认为公司对AI的巨额投入可能存在风险。 截至9月30日的季度中,微软的净利润达到了247亿美元,同比增长11%;每股收益也上升了10%,达到3.30美元。微软将此次业绩表现归因于云计算和人工智能业务的稳健增长。 微软CEO萨提亚·纳德拉表示:“AI驱动的转型正在改变各个角色、职能和业务流程。”他还指出,微软的AI平台和工具吸引了新客户,公司在AI领域的影响力不断增强。 微软在生成式AI领域一直处于前沿,尤其得益于与ChatGPT创造者OpenAI的合作。在AI蓬勃发展的浪潮中,微软推出了大量新AI功能,主要通过Copilot品牌,令投资者对其昂贵的技术投资充满期待。 不过,微软也提醒投资者,云业务的重要毛利率展望可能会有所降低,因为AI基础设施的投资即将大幅增加。这一消息令微软股价在盘后交易中下跌了近4%。 Emarketer高级主管Jeremy Goldman表示:“微软的最新财报表现略超预期,但结果可能让部分投资者想要更多清晰度。AI投资是本季度的真正‘不确定因素’,微软在基础设施上的投入巨大,但AI的收益还停留在承诺阶段。” 微软的Azure云计算平台表现强劲,在货币调整后,收入增长了34%。此外,公司在季度内通过派息和股票回购向股东返还了90亿美元,以提升股东价值。 在AI巨额支出的影响下,今年微软在华尔街的表现落后于其他科技巨头,涨幅仅为15%,而Meta上涨了70%,亚马逊则增长了近30%。 在游戏业务方面,微软也实现了显著增长,Xbox内容和服务收入激增61%,其中有53个百分点的增长来自于近期收购的动视暴雪。 本周二,谷歌母公司Alphabet也公布了稳健的财报,AI推动的云计算业务表现突出,预示了科技财报季的良好开局。
OpenAI RealTime API 将长对话的费用最多降低80%
在伦敦的一场开发者活动中,AI市场领军企业OpenAI宣布了一项关于RealTime API的新功能,帮助开发者节省使用成本,特别是对于开发语音聊天机器人的团队,这将是一个显著的成本削减。 OpenAI宣布,RealTime API即将加入自动缓存音频和文本输入的功能,预计可以将长对话的费用最多降低80%。这款API的核心在于支持语音助手和AI代理的开发,广泛应用于Healthify、Speak和Twilio等公司,用户可以通过语音或文字与机器人互动,甚至完成一些任务,如点餐或预约。 自今年10月初推出以来,RealTime API受到开发者的欢迎,但一些开发者反馈价格过高,特别是对于长对话的应用场景。OpenAI的API按处理的“tokens”(数据片段)收费:文本输入每百万个tokens收费5美元,输出则为20美元;音频输入每百万tokens收费100美元,输出为200美元。 Daily公司联合创始人Kwindla Kramer在社交平台X上指出了一个关键问题:RealTime API在每次新输入后会重新发送所有先前的输入和输出tokens,这使得长对话的费用成倍增长。他表示:“这就是RealTime API费用昂贵的原因——音频消耗大量tokens,而多轮对话会重复发送所有的tokens。” OpenAI API支持团队的Shaun Ralston也在X上回应了相关问题。他解释,当用户输入的内容与之前处理的音频或文本相似或相同,OpenAI可以直接调取先前的结果,无需重新处理,从而节省费用。缓存的片段将按折扣价计费,大大提高了成本效益。 通过引入缓存功能,OpenAI将文本处理的价格从每百万tokens 5美元降低至2.5美元,而音频处理的价格则从100美元降至20美元,实现了80%的降幅。这一举措将极大地减轻开发者的负担,推动更多创新型应用的落地。
苹果发布了升级版MacBook Pro,搭载最新的M4 Pro和M4 Max芯片
苹果今天低调发布了新的MacBook Pro,带来更强大的芯片和一些硬件升级。14英寸和16英寸的MacBook Pro都将搭载M4系列处理器,其中包括昨天在Mac Mini上首发的M4 Pro芯片,以及更高端的M4 Max。入门款的14英寸MacBook Pro还小幅优化了设计,增加了一个右侧的USB-C/Thunderbolt 4接口,并新增了与高端型号匹配的“暗空黑”配色。 和之前的机型一样,M4 Pro版的14英寸MacBook Pro售价从1999美元起,16英寸则从2499美元起,而它们的内存也从基础的18GB升级到了24GB。基本款的14英寸M4 MacBook Pro仍然定价1599美元,但令人欣慰的是,这次基础内存从8GB提升到了16GB。新款MacBook Pro将于11月8日正式开售,现已开放预购。 M4 Pro/Max款还首次支持Thunderbolt 5端口,继续保留SD卡槽、HDMI输出和MagSafe接口。此外,这三款MacBook Pro都配备了新款1200万像素的摄像头,支持桌面视图模式,并可选配纳米纹理显示屏,最高可达1000尼特的SDR亮度和1600尼特的HDR亮度。 虽然这些附加升级非常实用,但最大的亮点依然是芯片本身。苹果表示,M4系列芯片拥有“全球最快的CPU核心”和“业界最佳的单线程性能”。自M1以来,苹果的Mac芯片就因单核性能优异而备受好评,而M4芯片则被承诺拥有“显著提升的多线程性能”。此外,M4 Pro和M4 Max还配备更快的GPU核心,光线追踪性能翻倍,神经引擎也比M3代快了一倍,进一步提升了机器学习和AI任务的效率。 新款M4系列芯片是苹果在AI领域“大动作”的关键支柱,本周刚刚在支持的Mac、iPhone和iPad设备上推出的Apple Intelligence服务,将更好地利用这一硬件。不过,这项服务在配置较低的旧款设备上或许表现不佳——即便Apple Intelligence可追溯至2020年的M1芯片,未来的功能更新仍可能慢慢将旧机型淘汰。同时,苹果还宣布将M2和M3 MacBook Air的基础配置从8GB内存提升至16GB,起售价999美元。对于旧机型用户来说,跟上未来的功能更新可能只是时间问题。 M3代MacBook Pro展示了苹果芯片的一贯优秀表现,M3 Pro和M3 Max版性能出色,深受创意工作者的青睐,而非Pro款的14英寸M3则有些尴尬,性能和价格都难以与同系列或MacBook Air相比。然而,新增的USB端口和更优化的配置让M4款14英寸MacBook Pro显得更“Pro”了一些。看起来小小的改动,却让人对这款新机型的期待更高。
Google 第三季度季报出炉
Google 第三季度成绩斐然。公司业务表现持续强劲,尤其是最近几款产品的推出,进一步印证了公司的卓越发展势头。这一切归功于对创新的坚持,以及长期致力于人工智能的投资,既为公司带来成功,也为客户创造了巨大价值。 在人工智能领域,公司凭借独特的全栈创新策略牢牢占据领先地位,这种模式已初具规模。具体包括三个方面: 首先,是强大的AI基础设施,覆盖数据中心、芯片以及全球光纤网络;其次,由世界一流的研究团队支撑,他们在深入、技术性的AI研究上不断取得突破,推动核心模型的构建;第三,通过产品与平台的全球覆盖,触及数十亿用户,形成了良性循环。 全栈AI创新策略的实施离不开尖端基础设施的投入。公司在美国、泰国和乌拉圭等地持续投资,并加大清洁能源建设,包括与多个小型模块化反应堆达成全球首个核能采购协议,为公司提供长达24小时的无碳能源。同时,公司不断优化数据中心,提高硬件与模型的性能。例如,AI智能概览功能自测试以来,每次查询的成本已降低逾90%,并成功扩展了定制化Gemini模型的规模。此外,公司也提供多种AI加速器选项,包括NVIDIA GPU和自主研发的TPU,目前已发展到第六代“Trillium”,进一步提升效率和性能。 在AI研究方面,Google DeepMind团队持续引领行业。特别要恭贺Demis Hassabis和John Jumper因AlphaFold项目获诺贝尔化学奖,这不仅是对他们的认可,也突显了公司在AI研究领域的全球领导地位。此外,公司顶级Gemini模型具备长文本理解、多模态、智能代理等强大功能,在API调用量、用户使用量、商业应用等方面均实现快速增长。 在产品应用方面,AI技术正逐步普及。公司七款月活超过20亿的产品和平台均使用Gemini模型,例如最新加入“20亿俱乐部”的Google Maps。此外,随着开发者需求强劲,Gemini已在GitHub Copilot上线,未来将进一步扩大覆盖范围。 为了支撑三大支柱的投资,公司内部架构不断优化,Gemini应用团队现已转移至Google DeepMind,以加速新模型的部署和简化后续开发。此外,公司使用AI提升编码流程,如今有超四分之一的新代码由AI生成,助力工程师提高效率。 在搜索领域,AI智能概览、Circle to Search和Lens的新功能拓展了用户的搜索体验,增加了用户需求。这周,AI智能概览开始在一百多个国家和地区推出,月活用户超10亿。Circle to Search现已在逾1.5亿安卓设备上启用,用户使用率快速增长。Lens每月处理超过200亿次视觉搜索,成为最具增长潜力的搜索类别之一。 在Google Cloud方面,Q3营收达到114亿美元,同比增长35%。客户主要通过五种方式使用云服务,包括AI基础设施、Vertex企业AI平台、数据平台BigQuery、安全解决方案和客户参与套件等。LG AI Research和Hiscox等公司通过云服务大幅提升效率,实现了AI与数据科学的深度结合。 YouTube方面,广告和订阅收入首次突破500亿美元大关,特别是YouTube TV和NFL Sunday Ticket推动了平台订阅增长。在“Made On YouTube”活动上,公司宣布推出Veo模型,帮助YouTube Shorts创作者提升内容创作能力。 在平台和设备方面,Gemini模型在Android上深度集成,尤其在三星Galaxy设备上反响热烈。最新发布的Pixel 9系列搭载先进AI模型“Gemini Nano”,需求旺盛并荣获多项奖项。 最后,在其他业务中,Waymo在自动驾驶领域稳居技术领先地位。Waymo已实现每周超过百万英里完全自动驾驶里程,为超15万次付费行程提供服务,并与Uber和现代汽车达成了多项合作,进一步拓展自动驾驶服务。 公司对新任首席财务官Anat表示热烈欢迎,同时感谢全球员工的辛勤工作,让Alphabet在这一季度再创佳绩。