美国司法部提出了一项广泛的提议,要求谷歌剥离部分业务,这可能会成为40年来首次大型企业拆分的案例,并重塑全球最有价值的科技公司之一的结构。 司法部与多州总检察长联合在周二向美国地区法官阿米特·梅塔提交了一份32页的文件,列出了解决谷歌在搜索和搜索广告领域垄断问题的潜在补救措施。去年8月,梅塔在一项具有里程碑意义的反垄断案件中裁定谷歌败诉,这些补救措施框架提供了一系列选择,包括行为限制和更为激进的结构性调整。 司法部的提议涵盖了四个主要领域的补救措施: 搜索分发:限制或取消默认搜索协议、预装和收入共享协议。考虑通过结构性措施将Chrome、Play商店和/或Android与谷歌拆分。限制谷歌对新兴搜索技术(包括人工智能功能)的控制。实施用户教育计划,以促进用户对搜索引擎的知情选择。 数据访问与使用:要求共享谷歌的搜索索引、数据、算法和AI模型。要求在搜索结果、功能和广告排名信号方面保持透明。禁止谷歌利用因隐私问题而无法共享的数据。采取措施降低竞争对手在数据索引和存储方面的成本。 扩展搜索垄断:限制谷歌通过合同阻碍竞争对手访问网络内容,并允许出版商网站选择退出AI训练或不出现在谷歌旗下的AI产品(如AI摘要)中。 广告业务:缩减或重组谷歌的高级广告产品,包括基于AI的工具。探索单独许可谷歌广告数据流与搜索结果的选项。提高广告业务的透明度,为广告商提供详细的竞价和盈利数据。 司法部还详细说明了其关于拟议补救措施的逻辑,以及为何即便是目前收入较少的人工智能工具也应包括在内。补救措施应“考虑到替代性和未来的垄断维护形式”,并旨在“消除谷歌排他性行为对这些市场的束缚”,移除竞争壁垒,并“剥夺谷歌因违法行为所获的不正当收益”。 谷歌在周二晚间的博文中回应,称司法部的提议“激进且广泛”,并警告可能对美国的创新和消费者带来“负面的意外后果”。 投资机构伯恩斯坦的分析师在周三致客户的报告中表示,这一补救措施“范围广泛”,但“广而不深”。 他们写道:“在当前更广泛的AI竞争中,谷歌最不需要的就是因监管限制而只能单手作战。” 这一反垄断提案如果落实,可能会对科技行业及谷歌自身产生深远影响。它不仅可能重塑谷歌的商业模式,还将对未来的AI发展、数据使用和广告技术产生广泛的连锁反应。
Nvidia在AI峰会上发布了七项重大技术公告
今天,Nvidia在华盛顿特区的AI峰会上展示了其技术,旨在向首都介绍最新的AI发展。这家全球最大的AI芯片制造商在会上发布了七项重要公告,概述如下。 首先,Nvidia宣布与美国科技领军企业合作,帮助组织开发定制的AI应用,并通过最新的Nvidia NIM Agent Blueprints和Nvidia NeMo及NIM微服务,推动全球产业转型。像AT&T、Lowe’s和佛罗里达大学这样的组织已经在利用这些微服务,构建数据驱动的AI生态系统,以支持定制化生成式AI应用的开发。 此外,美国的咨询巨头,如埃森哲、德勤、Quantiphi和SoftServe,正在采用Nvidia的NIM Agent Blueprints和Nvidia NeMo及NIM微服务,协助医疗、制造、通信、金融服务和零售等领域的客户创建生成式AI代理和辅助工具。 数据和AI平台的领导者,如Cadence、Cloudera、DataStax、Google Cloud、NetApp、SAP、ServiceNow和Teradata,也正利用Nvidia NIM推进其平台的发展。Nvidia首席执行官黄仁勋表示,AI正在改变全球产业的未来,通过与美国企业、大学和政府机构合作,Nvidia将助力AI的广泛应用,推动生产力提升和经济增长。 新的NeMo微服务(包括NeMo Customizer、NeMo Evaluator和NeMo Guardrails)可以与NIM微服务结合,帮助开发者大规模整理数据、定制和评估模型,并管理响应,确保符合业务目标。这些技术可以部署在任何GPU加速的云端、数据中心或工作站上。 Nvidia的技术还应用于寻找地外智能。SETI研究所利用Nvidia技术进行快速电波爆发的实时AI搜索,以期发现可能的地外生命迹象。科学家们在今夏升级了工具,首次将AI应用于来自太空的微弱信号检测。SETI研究所的Allen望远镜阵列正在北加州用于搜寻地外智能,并研究瞬态天文现象。 此外,匹兹堡将迎来Nvidia AI技术中心,与卡内基梅隆大学和匹兹堡大学合作,建立两个联合技术中心,促进人工智能创新及学术与公共领域的合作。卡内基梅隆大学以其在自主驾驶和自然语言处理方面的领先研究闻名,而匹兹堡大学在2022年科研经费超过10亿美元,排名全美第六。 美国的医疗系统也在采用Nvidia的AI技术,从研究实验室到临床应用都能看到AI的身影。例如,国家癌症研究所利用Nvidia MonAI模型进行3D影像标注,而国家转化科学中心则使用生成式AI技术缩短新药开发的时间。 在网络安全领域,Nvidia推出的NIM Agent Blueprint为容器安全提供了解决方案,结合Nvidia Morpheus框架和数据分析工具,加速漏洞分析,并支持生成式AI应用的自动化风险评估,助力企业更好地防御潜在威胁。 最后,Nvidia宣布CUDA-X平台为Polars数据处理库提供加速,使其数据分析速度提升高达13倍,有效优化单机工作负载的开发速度和成本效率。这一进展对于需要快速迭代的AI开发来说无疑是一个重大提升。
2024年诺贝尔物理学奖得主杰弗里·辛顿教授对人工智能技术(AI)潜在的危险发出了严厉警告
2024年诺贝尔物理学奖得主、与约翰·霍普菲尔德教授共同获奖的杰弗里·辛顿教授,近日对人工智能技术(AI)潜在的危险发出了严厉警告。 在诺贝尔奖公布后的电话会议中,辛顿教授表达了对AI技术快速发展带来的深刻担忧。 “我们必须担心可能产生的不良后果,”辛顿教授警示道,并特别强调了应对AI发展过程中潜在风险的必要性。 这位因在神经网络领域的开创性工作与霍普菲尔德教授共享诺贝尔奖的计算机科学传奇人物指出,AI系统的能力正在以前所未有的速度增长。 “AI的影响将会像工业革命一样巨大。但不同的是,它并非只是超越了体力,而是增强了人类的智力。我们从未有过与比我们更聪明的事物共存的经验。AI可以提供更好的医疗服务,提升效率,极大地推动生产力的提升。然而,我们也必须担忧潜在的不良后果,尤其是这些技术可能失控的威胁。”辛顿教授如此表示。 作为AI领域的奠基者之一,辛顿教授反复强调了技术进步的双重性质。 他在肯定AI在医疗、科研以及应对气候变化等方面所具有的巨大潜力的同时,也呼吁人们保持警惕,防止技术被滥用以及应对可能的意外后果。 辛顿教授的警告出现在AI技术日益融入社会各个层面的关键时刻。 他特别指出了AI领域内伦理问题的考量和负责任发展的重要性,呼吁科学家、政策制定者和行业领袖之间加强合作,制定有效的安全保障措施。 辛顿教授的担忧反映了科学界乃至更广泛的社会对先进AI系统可能影响的持续辩论。 当被问及他使用最多的AI工具时,辛顿教授表示是ChatGPT,并坦言自己对获得2024年诺贝尔物理学奖感到非常震惊和意外。 这位诺奖得主发出的警告,由于他在科学领域的崇高地位,尤其是在刚获得科学界最高荣誉的情况下,必然会进一步推动关于AI治理和伦理的讨论。 随着全球继续应对AI技术的迅猛发展,辛顿教授的警告无疑是一个及时的提醒,提示人们在享受AI带来的巨大益处时,也必须采取主动措施,防范潜在的风险。
AI改革的双刃剑:从生成式AI到推理式AI的未来之路
I. 误读了AI的现状艺术家Reid Southen,在X平台上因坚定反对生成式AI而闻名,特别是为反AI的艺术家们发声。他为上面的拼贴图配上了一句带有末日预言意味的评论: “朋友们,他们已经走投无路了。AI公司开始提价以抵消损失。传统上,只有在你垄断市场后才会这么做。他们完了。” Southen的看法看似合理,基于以下三个原因: 来源即使是那些成功占据了可观市场份额的初创公司,如OpenAI和稍次的Anthropic,也远未实现盈利。ChatGPT是生成式AI舰队的旗舰,拥有2亿每周活跃用户(其中1100万是付费用户),但仍未为OpenAI带来足够的收入来覆盖资本支出(如购买Nvidia的GPU)和运营支出(如在微软Azure云上运行ChatGPT本身)。Anthropic的处境也不见得更好。 当公司账目亏损时,如果认为市场需求能承受价格上涨,那么提高价格似乎是合理的策略。虽然看上去像Southen所说的“绝望”,但实际上是有道理的。我打赌,付费的ChatGPT用户会愿意为这个生成“黄金令牌”的应用多掏些钱。我愿意。 但10倍?100倍?这就是Southen带着幸灾乐祸提到的数字。根据传闻,OpenAI正在考虑将订阅费用提高到每月2000美元。如果连全球1100万付费用户和一些世界上最大的资助者都不足以让你在不大幅提高价格的情况下保持竞争力,那也许你的技术根本没有市场。 这至少是如果我们遵循Southen看似合理的推论得出的结论:AI公司已经“完了”,因为它们计划以贪婪的方式大幅提高产品价格以弥补成本。 但他错了。错了两次。 首先,数字不对。OpenAI并不需要将当前收入提高100倍来实现收支平衡。也不需要10倍或5倍。 简单的计算。根据报道,“OpenAI的AI训练和推理成本今年可能达到70亿美元[加上]人员成本可能高达15亿美元。”总共是85亿美元。同时也有报道称,OpenAI的收入在2024年翻倍至34亿美元,最近更新的数字是40亿美元。两者都是未经证实但合理的估计;显然不会相差一个数量级。这意味着OpenAI的经营亏损约为45亿美元。 将收入翻倍——虽说容易但做起来难——就足够了。 筹集资金也是个办法。 这正是OpenAI的计划。新一轮融资(最高达65亿美元)可能会包括苹果和Nvidia——加上微软(OpenAI的主要资助者和受益者),形成科技巨头三强——以及阿联酋。用Bruce Wayne的话来说,OpenAI从这些朋友那里筹集到的资金,已经无需再担心其他资金来源。 所以,无论是从收入数字来看,还是考虑到OpenAI的短期融资计划,提价作为一种抵消亏损的手段都没有意义。你可以嘲笑生成式AI依然未能盈利(尽管炒作声不断),但这一假设并无解释力。 到目前为止,我只是驳斥了对OpenAI提价原因的错误分析。有没有合理的假设来解释他们为什么还会这么做? 有一个。Southen错得更深的一点是:如此昂贵的价格层级(高达四位数)揭示了AI公司——特别是OpenAI——并非“已经完蛋”,而是在“烹饪”着什么新东西。这个故事与其说是它们害怕成本倒退,不如说是它们对未来愿景充满信心。 与Southen的看法相反,这其实是个好消息——对那些能负担得起的人来说。 II. 好老派的生成式AI 当我写这篇文章的初稿时,”Strawberry”还是个传闻。如今,它作为OpenAI o1模型系列的实体化,揭示了一种新的AI范式。我曾为此写过一篇7000字的文章,所以这里就不再详细展开了。只想提前说一下,这些公司在“烹饪”的东西已经准备好上桌,我本打算提出的假设已经得到证实。 在解释o1,首个“能推理的AI”如何改变商业方程式之前,让我们回到ChatGPT。 ChatGPT的训练和运行成本虽然昂贵,但还不算太离谱。它也是一个原始工具,就像它的同类一样。没人会为如今的GPT-4、Claude或Gemini支付每月2000美元——这些聊天机器人有时能知道一些事实,半数时间解决不了简单的谜题,而且在孩子都能通过的任务上会犯下令人难以置信的愚蠢错误。如果你学会如何在它们的缺陷和创作者的夸大其词中航行,它们确实有用,但它们是不完整的、不完美的、尚未成熟的技术。 那么聊天机器人和“推理者”之间有什么关系呢?Chatbot是通向通用AI(AGI,人类水平AI)的第一阶段。不论你是否相信AGI的可行性,或是否相信它会很快到来,企业无疑正朝着这个目标迈进。随着他们前进,走过的地形也在改变,语言、推理、代理、发明……事实证明,OpenAI上周发布的o1模型将他们从基础的生成式AI带到了推理式AI的生物群系。 OpenAI o1虽然还不完美——在前辈失败的地方它也经常摔跟头——但不能仅凭它的当前局限来忽视它。变化不在于实用性,而在于理论。与ChatGPT不同,o1模型需要时间来回答。因为它在“思考”。它不再仅仅是一个聊天机器人。它的存在开启了所谓的“推理范式”。 OpenAI o1超越了生成式AI的标签。它超越了ChatGPT。 我们必须重新构建我们对AI是什么、能做什么的整体认知。要将这一点传达给普通大众并不容易,因为AI社区在很大程度上未能清晰区分生成式AI和更广泛的AI领域。现在我们被一种不必要的同义化所束缚,许多人简化地认为:AI = 生成式AI = ChatGPT。随着新的推理范式的确立,这对大多数人来说将是一个惊喜。 虽然经过了两年令人疯狂的时间,但从现在起,生成式AI将不再是最前沿的技术。我们对AI的假设、预测以及对其现在和未来的乐观想法突然变得过时了——包括这些工具总是会变得越来越便宜的错误推论。 III. 新产品,新定价 一些目光短浅的人将OpenAI提价的传闻解读为一种绝望的举动,认为他们是为了弥补现有产品的成本。他们用了一个传统的科学发现框架来理解这件事,这就是Reid Southen最初误读新闻的原因:这与现有产品或现有范式无关。 需要澄清的是,基于GPT-4的ChatGPT——你过去两年一直在使用的工具——随着时间的推移仍将变得更便宜,而不是更贵。这是趋势,并且将继续下去。基础设施和训练后的优化会减少运营成本,从而使每个 字的价格接近零。 但o1是不同的。它可能会解决一些没人能解决的问题,比如如何减少宇宙中的净熵量。当然,我是在开玩笑。不过,它可能会解决一些稍微简单点的问题,就像谷歌DeepMind的AlphaFold所做的那样。即使o1无法做到,它的继任者——基于相同范式的模型——也可能解决。这会更昂贵,但也更有价值。这才是OpenAI定价部门关心的事情。这也是为什么Sam Altman——也很快会有Dario Amodei和Demis Hassabis——打算以四位数的订阅费来出售这种技术(如果我们幸运的话,可能是三位数的订阅费)。 具体而言,我认为OpenAI可能提到高达每月2000美元的价格(我不认为这是对所有用户的要求)的原因是:价格层级可能会根据用户希望模型在每个问题上花费的时间来定义。它可能就这么简单。你需要五分钟来调试一个中等规模的程序吗?那可能是每月50美元(或其按需付费的等价物)。假设你是一名遗传学家,正在研究一些模糊的基因疾病联系,并且需要半小时来处理一个特别复杂的案例。这可能是每月300美元。然后是每月1000美元或2000美元,专为那些最具挑战性的任务。 细节尚未尘埃落定,但已有的暗示已刻在地面上。这——一个新范式,一个新产品,一个新定价——才是正确的解读。 IV. 停留在过去时态 除了对AI业务和进展的表面分析错误,Reid Southen犯了一个更严重的错误。让我在这一部分分享一个警示故事。 他和他的同行们认为AI不会走得太远。无论是出于法律原因、资金短缺还是技术障碍,他们从未预料到OpenAI能够实现类似于o1的成就——或者说是ChatGPT的成就。他们这些年来一直深陷于轻视AI的态度中,无法看到批评之外的未来。如果你像他们一样,我告诉你,这种情况还会再次发生。并且会一再发生。是时候纠正航向了。 是的,现有的AI工具确实有不足之处,但从静态的角度去判断技术从来不会有好结果。我不愿意承认,但某种意义上,技术的二阶效应甚至能够救赎那些最让人讨厌的炒作。汽车最初只是“无马车”,而现在世界的城际基础设施大部分是高速公路,运输物流围绕它们的需求和可能性展开。抄写员试图保护他们的技艺、他们的生计。但是,没有印刷机,你现在又会在哪里?肯定不会在阅读这篇文章。…
Tiktok进入AI广告
TikTok最近推出了一个名为Smart+的AI驱动广告工具,旨在帮助广告商优化广告效果,提升投资回报率(ROI)。这个工具可以从广告创意开发到受众定位和优化的各个环节,协助广告商做出更明智的决策。 Smart+提供了灵活的自动化选项,广告商可以选择哪些AI功能来优化他们的广告活动,而不必完全依赖平台的算法。然而,尽管AI工具如Smart+可能提升广告效果,但由于缺乏背景理解,过度展示广告可能会影响品牌声誉。
2024 诺贝尔物理学奖颁给AI领域的John Hopfield , Geoffrey Hinton
美国科学家约翰·霍普菲尔德(John Hopfield)和英裔加拿大人杰弗里·辛顿(Geoffrey Hinton)于2024年10月获得诺贝尔物理学奖,表彰他们在机器学习领域的开创性发现与发明,这些成就为人工智能(AI)热潮奠定了基础。 这项技术被誉为在尖端科学发现到行政管理优化等各个领域具有革命性潜力,但同时也引发了对人类可能被自己创造的智能机器超越的担忧。辛顿,被广泛称为人工智能的“教父”,在去年辞去了谷歌的工作,以便更自由地讨论他所开创技术的潜在风险。他在加州的一家酒店通过电话向诺贝尔新闻发布会表示:“我们没有与比自己更聪明的东西共存的经验。这项技术在医疗等方面可能带来巨大的好处,但我们也需要警惕一些潜在的负面后果,尤其是这些智能系统失控的威胁。” 霍普菲尔德,现年91岁,是普林斯顿大学的名誉教授,他创造了一种联想记忆系统,可以存储和重建图像及其他数据模式。瑞典皇家科学院在颁奖时称:“今年的两位物理学诺贝尔奖得主使用物理学工具开发了今天强大机器学习技术的基础。” 现年76岁的辛顿,出生于英国,现在是多伦多大学的名誉教授,他发明了一种能够自动发现数据属性并执行任务的算法,比如在图片中识别特定元素。尽管辛顿在2023年意识到计算机可能比人类更早变得聪明,并因此离开谷歌,但他仍认为谷歌在技术发展过程中非常负责任。 辛顿还表达了对自己部分研究的遗憾,但他表示自己当时基于已有信息做出了选择,并补充道:“如果再遇到同样的情况,我还是会做出同样的决定。但我担心这些系统最终可能会比我们更智能,甚至接管控制权。” 对于机器学习及其他人工智能形式的担忧,诺贝尔物理学奖委员会主席艾伦·穆恩斯(Ellen Moons)表示:“尽管机器学习带来了巨大的益处,但其快速发展也引发了对未来的担忧。我们全人类必须共同承担起责任,确保这项技术能够被安全且道德地使用,造福人类。” 霍普菲尔德的父母都是物理学家,他曾在2019年获得本杰明·富兰克林物理学奖时表示,从未考虑过成为其他职业,因为科学家和工程师“才是真正理解世界的人”。他始终对“意识如何从机器中产生”这一问题感到着迷。 诺贝尔物理学奖被认为是全球物理学领域的最高荣誉,与诺贝尔文学奖、和平奖等一起,由阿尔弗雷德·诺贝尔设立,至今已有百余年历史。
OpenAI 的视频生成项目负责人之一 Tim Brooks 最近宣布离职,并将加入 Google DeepMind
OpenAI 的视频生成项目负责人之一 Tim Brooks 最近宣布离职,并将加入 Google DeepMind。Brooks 曾与 William Peebles 一同负责开发 OpenAI 的视频生成器 Sora,他在 X 平台(原推特)上发文表示,自己将加入 Google 的 AI 研究部门 DeepMind,专注于视频生成技术和“世界模拟器”的研究。 Brooks 表示,他在 OpenAI 度过了两年非常精彩的时光,感谢与他合作的所有富有激情和善意的同事。Google DeepMind 的 CEO Demis Hassabis 在回复中欢迎 Brooks 加入,并表示 Brooks 将帮助把“世界模拟器的长期梦想变为现实”。 尽管“世界模拟器”这个词还比较模糊,DeepMind 最近发布的 Genie 模型就展示了类似的应用。这种技术可以通过合成图像、真实照片甚至草图生成可操作的虚拟世界,应用场景涵盖游戏、电影内容的生成,以及训练可直接部署在现实中的智能体。 Brooks 是最早参与 Sora 开发的研究人员之一,并帮助启动了该项目。尽管 Sora 目前尚未发布,外界报道称其开发过程遇到了技术瓶颈,使其在与 Luma、Runway 等竞争对手的比拼中处于劣势。根据 The Information 的报道,早期版本的 Sora 在生成一段一分钟的视频时,需要超过 10 分钟的处理时间。OpenAI 目前正在训练一个改进版的…
Facebook 正式推出了一项专为 Z 世代设计的全新改版
Facebook 正在努力吸引更多年轻用户,想让他们少花点时间在 TikTok、Instagram 等社交平台上,转而多用 Facebook。为此,母公司 Meta 在上周五宣布了一系列针对这个“老牌”社交平台的更新,重点将放在本地社区信息、视频和 Facebook 群组等内容上。同时,Meta 还对 Meta AI、Facebook Dating 和 Messenger 等产品进行了升级。 最引人注目的是,Facebook 这次改版将更多关注娱乐功能,意图与 TikTok 等应用竞争。这次更新还强调了 Facebook 在本地社区中更实用的功能。除了买卖群组外,Facebook 还成了许多本地群组的交流中心,特别是在天灾面前。例如,最近受飓风 Helene 影响的州就充分利用了该平台进行沟通协调。随着气候变化,类似的灾害应急群组可能会越来越常见。 这些更新正值 Facebook 品牌影响力下降之际,早在 2021 年,公司就更名为 Meta,将重心从其核心社交应用转向了元宇宙。而 Facebook 的用户群体日渐老龄化,年轻人也不再像从前那样蜂拥注册。 这种情况在美国尤为明显。皮尤研究中心数据显示,截至去年,只有 33% 的美国青少年还在用 Facebook,而 2014 年这一比例是 71%。 不过,Meta 依然抱有希望,因为公司发现一些 20 多岁的年轻人还是在使用 Facebook 的特定功能,比如 Facebook 群组和 Marketplace。《纽约时报》甚至专门报道了后者,指出新一代用户把 Facebook 当作二手交易平台,而不是社交工具。 今天发布的一系列更新正是顺应了这一趋势,目的是让 Facebook 成为那些想要与本地社区建立联系或寻求娱乐的人更容易上手的平台,而不再是单纯的好友社交网络。 Facebook…
分词的艺术:为AI拆解文本
什么是分词? 在计算机科学中,我们将像英语和中文这样的人类语言称为“自然语言”,而与计算机交互的语言,如汇编语言(Assembly)和LISP,则被称为“机器语言”,这些语言遵循严格的语法规则,几乎没有任何解读的余地。计算机擅长处理高度结构化的机器语言,但在人类语言的复杂性面前往往表现不佳。 语言,尤其是文本,构成了我们大部分的交流和知识存储。例如,互联网上的大部分内容都是文本。像ChatGPT、Claude和Llama这样的大型语言模型是通过处理海量的文本数据训练而成的,这些文本数据几乎涵盖了互联网上所有可用的文本,使用了复杂的计算技术。然而,计算机并不直接处理文字或句子,它们依赖于数字运算。那么,如何填补人类语言与机器理解之间的鸿沟呢? 这就是自然语言处理(NLP)发挥作用的地方。NLP是一个结合了语言学、计算机科学和人工智能的领域,旨在让计算机理解、解释和生成人类语言。不管是将文本从英语翻译成法语,还是总结文章,亦或是进行对话,NLP使得机器能够从文本输入中生成有意义的输出。 在NLP中,处理原始文本的第一个关键步骤是将其转换为计算机能够有效处理的格式,这个过程被称为分词(tokenization)。分词是将文本拆分为较小的、易于管理的单位,称为“词元”(tokens),这些词元可以是单词、子词,甚至是单个字符。以下是分词的典型工作流程: 文本标准化 我们来看看这两句话: 从表面上看,这两句话传达的含义相似。然而,计算机在处理这些句子时,尤其是在分词或编码时,可能会因为一些微小的差异而导致完全不同的结果,例如: 这些差异会显著影响算法如何解释文本。例如,没有撇号的“Isnt”可能无法被识别为“is not”的缩写,像“ã”这样的特殊字符也可能会被误解或引起编码问题。 因此,文本标准化是NLP中的一个重要预处理步骤,它能够减少不相关的变异性,确保输入模型的数据保持一致。这是特征工程的一种形式,目的是消除那些对任务无关紧要的差异。 一种简单的文本标准化方法包括: 通过这些步骤,前面的两个句子可以标准化为: 通过标准化文本,我们能够减少那些可能混淆计算模型的差异,从而使模型能够更加专注于句子之间的实际差异,例如“was gazing at”和“gazed at”之间的区别,而不是标点符号或大小写的不同。 分词 在文本标准化之后,NLP中的下一个关键步骤就是分词。分词是将标准化后的文本拆分成称为词元的小单位。这些词元是模型理解和生成人类语言的构建块。分词的目的是为向量化做好准备,即将每个词元转换为机器能够处理的数值表示。 常见的分词方法有三种: 输出: 输出: 输出: 子词分词为模型提供了更多的灵活性,它不仅能处理常见的词汇,还能通过分解罕见的单词来保留语义信息,帮助模型更有效地理解上下文。 总结 分词是自然语言处理中为计算模型准备文本数据的基础步骤。通过理解和实施适当的分词策略,我们可以使模型更加高效地处理和生成人类语言。这为进一步探索单词嵌入(word embeddings)和语言建模(language modeling)等高级主题奠定了基础。
一项研究表明,只需一滴干血,新的检测技术或许可以在几分钟内发现癌症
一项新型的AI检测技术或许未来能够通过一小滴干血快速准确地检测三种主要癌症。 在初步实验中,该工具成功区分了已确诊的胰腺癌、胃癌或结直肠癌患者与未患癌症的人群,而且分析仅需几分钟。研究人员表示,通过检测血液中的某些化学物质,该测试的准确率在82%到100%之间。 这项新工具利用人工智能中的机器学习技术,分析血液样本中的代谢产物(也称为代谢物)。这些代谢物存在于血液中的血清部分,作为“生物标志物”,可以帮助识别体内是否存在癌症。 对于这些血液中的生物标志物进行筛查,被认为是早期诊断癌症的潜在方法。当疾病处于早期阶段时,存活率更高,患者往往没有明显症状。尽管胰腺癌、结直肠癌和胃癌是全球最致命的癌症之一,目前仍没有单独的血液测试可以准确诊断这些疾病,医生通常依赖影像学或手术来发现癌组织。 值得注意的是,这种新测试理论上只需要不到0.05毫升的血液。该测试的开发者,来自中国的科学家们在《自然可持续性》期刊上发表了他们的研究成果。 相比液态血液,干血血清的采集、储存和运输成本更低,设备要求也更简单。虽然测试前景光明,但要真正应用到临床还有很长的路要走。专家表示,这类测试可能还需要数年才能广泛应用于患者。 在此次研究中,科学家进行了多项概念验证测试,展示了该工具在区分癌症患者和健康血液捐献者方面的准确性。同时,研究显示,干血样本的检测效果与传统液态血液检测相当。例如,在一次实验中,利用干血斑检测胰腺癌的准确率为81.2%,而使用液态血液的准确率为76.8%。 目前,美国食品药品监督管理局仅批准了一个生物标志物CA19-9用于胰腺癌的检测,其准确率约为80%,但对无症状患者的检测率仅为13%,因此早期筛查效果有限。 研究人员表示,如果该测试被广泛应用于癌症筛查项目,特别是在中国农村地区,可能将胰腺癌、胃癌和结直肠癌的未确诊比例降低20%至50%。 尽管初步研究令人振奋,但专家认为要验证该工具的效果,仍需要更多的大规模测试,尤其是在多样化的人群中进行。此外,当前的研究仅限于已经确诊癌症的患者,尚未作为真正的诊断工具进行测试。 这种血液测试未来可能需要经过大量的临床试验和严格的监管审查,才能正式投入使用。然而,专家一致认为,该工具的潜力巨大。通过进一步开发,它不仅有望应用于其他癌症的早期检测,还可能用于监测已确诊患者的病情发展。对于那些生活在资源有限的偏远地区的患者,干血的优势将显得尤为重要。到2030年,全球约75%的癌症死亡病例预计将发生在低收入和中等收入国家,这项技术可能会改善这些地区的医疗检测可及性。