近年来,大型语言模型(LLMs)逐渐被用于为用户提供问答服务。然而,尽管应用广泛,LLMs在面对知识密集型问题时,常常会出现事实性错误,甚至生成虚构内容(即无法验证的描述)。特别是当问题需要最新信息或涉及较为冷门的事实时,LLMs的表现尤为不理想。例如,当用户询问“最新款谷歌Pixel手机的功能有哪些?”时,LLMs可能会给出过时或不准确的信息。 为了应对这些问题,检索增强生成(RAG)应运而生,成为一种有望改善这一现状的解决方案。RAG通过利用外部知识库检索相关文档,并将检索到的信息融入生成的内容中,从而有效减少了知识密集型任务中的事实错误。然而,处理较长文档时,复杂的推理任务可能导致显著的延迟。尽管一些研究已探索延长LLMs上下文长度的路径,但如何在延长的上下文中实现扎实的推理仍是一个尚未解决的挑战。因此,在RAG系统中,如何在效率与效果之间找到平衡已成为一个核心研究焦点。 在《Speculative RAG: 通过草稿机制增强检索增强生成》一文中 (https://arxiv.org/pdf/2407.08223),研究者提出了一种新框架,通过引入一个更小的专用RAG起草模块,来分担主要模型的计算负担。该模块经过针对RAG任务的微调,旨在作为现有通用模型的高效且稳健的RAG组件。 Speculative RAG采用了草稿生成的方法,与推测解码类似。推测解码通过使用较小的模型同时快速生成多个候选内容,再与基础模型并行验证,从而加速了自回归模型的推理过程。研究表明,Speculative RAG在多个基准测试中均表现出了显著的精度提升和延迟减少。 Speculative RAG的工作原理 Speculative RAG包含两个核心部分:(1)专用的RAG起草器,(2)通用的RAG验证器。首先,基础模型的检索模块从知识库中检索相关文档。然后,Speculative RAG将计算负担分配给专用的RAG起草器,这是一种专门用于处理检索文档的小型模型,主要负责基于文档快速生成回答和推理内容。这样,通用验证器只需关注验证这些草稿答案的准确性,而无需逐一深入审查冗余的文档。 例如,在回答“谁在1980年电影《九到五》中饰演Doralee Rhodes?”时,检索模块会从知识库中获取多个相关文档。接着,Speculative RAG起草器会根据不同的文档子集并行生成多个草稿答案。由于检索的文档可能包含关于1980年电影和2010年音乐剧《九到五》的信息,通用RAG验证器会计算每个草稿的生成概率,并根据准确性赋予其信心分数。最终,验证器选出与1980年电影相关的草稿作为最终答案。 实验结果 Speculative RAG在多个公共RAG基准测试中展现了其高效性和准确性。研究人员使用Mistral-7B模型作为专用起草器,并通过Open Instruct数据集和Contriever-MS MARCO等文档对其进行微调。此外,Mixtral-8x7B模型作为通用验证器,不需要进一步训练。在TriviaQA、MuSiQue、PubHealth和ARC-Challenge数据集上,Speculative RAG的表现均优于标准RAG系统。在PubHealth数据集上,Speculative RAG的准确率比最佳基线系统Mixtral-Instruct-8x7B高出12.97%。 延迟的显著改善 由于RAG系统需要处理大量检索文档,延迟是一个关键挑战。在实验中,Speculative RAG通过并行草稿生成,大幅减少了延迟时间。例如,在PubHealth数据集上,Speculative RAG的延迟比标准RAG系统减少了51%。 总结 Speculative RAG通过将RAG任务分解为起草和验证两步,显著提升了生成内容的质量和速度。它利用专用起草器生成多个候选答案,再由通用模型进行验证,最终实现了精度提升高达12.97%,并将延迟减少了51%。Speculative RAG为通过任务分解提高RAG性能提供了新的思路。
Author: aitrendtrackers@rengongzhineng.io
AI辅助癌症诊断取得了显著进展
在过去的一年里,AI辅助癌症诊断取得了显著进展,越来越多的医生开始测试、使用并将AI助手融入日常医疗实践中。 皮肤癌领域也不例外,未来AI诊断工具有望在这一领域广泛应用。那么,AI在皮肤癌诊断中的作用是什么呢?2024年,斯坦福医学院的研究人员进行了一项研究,比较了医生在有和没有深度学习AI辅助的情况下诊断皮肤癌的表现。在实验环境中,未使用AI辅助的医生平均敏感度为74.8%,而使用AI辅助的医生敏感度达到了81.1%。 有趣的是,AI对各个层次的医疗专业人员都有帮助,其中非皮肤科医生的提升最为显著。 AI如何推动行为改变 癌症在年轻人中呈上升趋势。根据《英国医学杂志肿瘤学》的一项研究,全球50岁以下癌症确诊人数在过去三十年里增加了近80%。在过去十年里,黑色素瘤皮肤癌的发病率增加了近四成(38%),西班牙的发病率在此期间也稳步上升了2.4%。 早期发现皮肤癌治疗相对简单,预后非常乐观。但由于忙碌的生活和其他琐事,越来越少的人去检查,导致诊断和治疗延误,严重影响了生存率。很多人即使发现问题,也往往会等到与医生交谈。根据Bupa最新的“对数字医疗的态度”研究,仅有9%的人会立即去找专业人士检查他们担心的痣。 然而,同样的研究表明,如果人们可以通过AI驱动的手机应用在自己方便的时间检查痣,这一比例会增加到33%。这表明新兴技术能够显著推动医疗行为的积极改变,并改善潜在严重疾病的临床结果。 Bupa推出居家皮肤科检测工具 Bupa看到了AI的广泛应用前景,正积极探索其在提升患者护理、提高运营效率以及帮助客户过上更健康生活中的作用。Bupa深知,客户不仅希望在生病时得到帮助,更希望在日常生活中得到持续的健康支持。 因此,Bupa推出了Blua,一项在200多个国家可用的数字医疗服务。Blua提供三大创新医疗服务,极大提升了便利性和可及性。这包括虚拟咨询服务,让客户可以随时随地与健康专家沟通;数字健康管理计划,帮助客户主动管理健康;以及远程医疗服务,如药物配送和居家监测设备。 在西班牙,Blua还提供居家皮肤科评估服务。客户如果对皮肤病变感到担忧,可以用智能手机拍摄高分辨率照片并上传至Blua。通过AI技术,这些照片会与数据库中的数百万张皮肤病变图像进行比对,以检查是否有恶性迹象。 该工具的算法可以识别302种不同的皮肤病理。如果AI工具检测到有问题,系统会提醒客户预约医生进行进一步检查,以便采取预防措施。 医疗的未来在于早期发现 数字医疗和AI将共同发挥关键作用,消除阻碍人们及时检查健康问题的障碍,推动能够拯救生命的积极行为改变。这就是为什么Blua在当今快节奏的世界中尤为重要。通过虚拟咨询和居家检测,这些技术赋予人们优先关注健康的能力,而无需牺牲宝贵时间。
GeekOut time: Exploring Complex SQL Queries with Natural Language Using Text2SQL.ai and the Chinook Database
The world of databases is becoming more accessible thanks to tools that convert natural language into SQL. One such tool is Text2SQL.ai, which simplifies querying databases by allowing users to input queries in plain English and automatically generating the corresponding SQL commands. This can be particularly helpful for users who may not be familiar with…
OpenAI o1模型系列 vs GPT
如果从OpenAI的新o1模型系列中得到一个重要启示的话——允许我在这里表现一下热情——那就是一个新的范式正在诞生。一个关于推理的新范式,一个关于扩展的新范式,一个关于AI的新范式。 ChatGPT和GPT-4将继续存在,但它们再也不会是OpenAI的“宠儿”。我们正在进入一个新的阶段,一个新的时代。公司的资源和努力将主要集中在探索、扩展和成熟这个新的范式上,这个范式更像是一个GPT-3时刻(“等等,AI怎么能做到这些?”),而不是ChatGPT时刻(“所有人都受邀参加派对!”)。 为了全面解读这个转变,我们需要很多答案: 但我们不要操之过急,这些都是困难的问题,也是有趣的问题。首先,我想回顾一下OpenAI的公告:o1-preview和o1-mini。我将为你总结这些新内容,它们的技能、基准表现,以及我收集到的许多正面和负面示例。(这些模型在ChatGPT网站上对所有Plus和Team用户开放,o1-preview每周限制30条消息,o1-mini限制50条消息,所以快去使用吧。记住:保持提示简单。) 然后,我会探讨这个新范式的含义以及我认为即将发生的事情。我将用我的想法和评论来点缀整个讨论,既支持也反对OpenAI对这个新范式的叙述。 这是篇很长的文章,但它涵盖了未来几年将会产生巨大影响的许多事情(提前道歉,我有很多脚注,但那是你会找到“真知灼见”的地方,我把它们从正文中剥离出来,免得有些人不在乎细节)。 OpenAI o1模型系列 vs GPT 理解新事物的最好方法是将它与现有的最接近的相对物进行比较。对于o1来说,这个相对物就是GPT。o1与GPT的不同之处可以通过这个图表最好地展示出来: 首先,模型通过从互联网上的大量数据中进行训练(预训练)。然后,它经过微调以对齐行为、提高性能(后训练)。最后,用户使用它进行推理,如在网站上向ChatGPT提问(推理)。 在o1之前,大多数计算资源都用于让模型吞噬大量数据(“越大越好”的范式)。GPT-2有15亿参数,GPT-3有1750亿参数,而GPT-4有1.76万亿参数。在四年内增长了三个数量级。GPT-4需要更多的计算资源,因为它更大,这也使它“更聪明”。然而,AI公司逐渐意识到,他们还需要在后训练上投入更多资源,以改善模型的行为。 推理(Inference)是一个完全不同的层面。首先,2亿人每周都在使用你的AI模型,这成本很高。你只需训练一次模型,但用户会数百万甚至数十亿次地使用它。其次,在技术上存在一些难题,它之前无法让模型根据查询的复杂程度动态分配计算资源。ChatGPT无论是回答“2加2等于几”还是“解决黎曼假设”,所用的计算资源几乎是一样的。(当然,它在后者上会失败,甚至在前者上也可能出错)。换句话说,无论问题多么复杂,聊天机器人都会立即开始回答。回答得越快越好。 但人类并不是这样工作的,所以研究人员意识到,他们需要找到一种方法,让模型在推理阶段能够分配更多资源去“思考”复杂的查询。这就是o1模型所做的事情。通过一种强化学习机制(稍后会详细说明),它学会了推理,能够花费更多资源去为需要这种方式的问题提供慢而深思熟虑的答案。这也是人类的思考方式——对于简单的问题,我们反应迅速;对于复杂的问题,我们花费更多时间。 尽管这并非完美的类比,但说这些新一代的模型能够像人类一样实时推理,并非完全不合理。 这就是为什么OpenAI称这个新阶段为“推理范式”,而之前的阶段则被称为“预训练范式”。(我不确定这些标签会不会被长期使用,但目前我会遵循它们)。 o1的基准性能表现 为了连接o1的表现与上面的讨论,我将分享OpenAI在评估博客中给出的最重要的图表: 左边的图表显示了在训练时性能随着计算资源增加而提升的情况。可以看到,随着计算资源的增多,性能呈线性增长。这代表了旧的“预训练范式”:你训练得越多,模型表现越好。 右边的图表显示了推理阶段性能随着计算资源增加而提升的情况。令人震惊的是,这里的性能提升幅度与左图中的相似,甚至更大。这表明,给模型更多计算资源用于推理,它的表现会显著提升。 简而言之,通过增加数据量来提高训练时的性能可以在推理阶段通过给模型更多时间思考来换取相似的提升。不仅如此,推理阶段通过增加计算资源来提升性能的效果,甚至比训练时增加计算资源的效果还要显著。这意味着新范式让AI模型能够解决更复杂的问题,而且它们不需要再变大来变得更“聪明”——你只需给它们更多时间思考就足够了。 我们可以在将新模型与GPT-4o进行对比时清楚看到这一点。例如,o1(正式版尚未发布)和o1-preview在一些基准测试上的表现都优于GPT-4o,尤其是在推理能力较强的小型模型(如o1-mini)上,表现尤为突出。 o1模型的实际应用表现 OpenAI分享了一些在数学竞赛、编程竞赛和科学问题上的表现数据。比如,o1在美国数学邀请赛(AIME)中的排名接近全美前500名,在编程竞赛Codeforces中处于89%的得分率,还在物理、化学和生物等领域超过了人类博士级别的准确率。 这些结果都非常令人印象深刻。无论是数学、编程,还是科学领域,o1在所有这些基准测试中都大幅领先于GPT-4o及其他现有的大型语言模型。 不仅如此,一些研究人员和测试者也对o1-preview给出了正面评价。例如,研究员Colin Fraser(以对AI公司持怀疑态度而闻名)表示,他对o1-preview比预期更为满意;教授Ethan Mollick帮助o1-preview解决了一个难题,表明它在解决复杂问题上表现出色。 尽管如此,o1-preview并不是完美的模型。正如OpenAI CEO Sam Altman指出的那样,o1仍然存在许多局限性,特别是在一些简单任务上可能会犯错,比如回答草莓中有几个字母“R”这种问题时,它并非每次都能答对。 o1的推理机制 那么,o1到底是如何进行推理的呢?OpenAI解决了两个技术挑战: 换句话说,o1模型结合了OpenAI的GPT模型的语言能力和DeepMind的AlphaGo系列中的强化学习机制,形成了一种全新的AI推理范式。这种推理能力是通过链式思维(Chain of Thought)来实现的,模型可以逐步解决问题,分解复杂步骤,并在犯错时进行自我纠正。 尽管我们目前对o1的具体实现细节还知之甚少,但可以肯定的是,OpenAI已经开启了一个新的AI推理时代。 总结 o1系列模型标志着AI领域进入了推理范式的新时代。通过强化学习和链式思维机制,o1能够在推理阶段花费更多时间和计算资源来解决复杂问题,并显著提升了模型的性能。虽然它在某些简单任务上仍然存在瑕疵,但总体而言,它在数学、科学和编程等领域的表现令人瞩目,并为AI的未来发展打开了新的大门。 随着OpenAI继续完善这一新范式,未来的AI模型将在解决复杂问题、进行深度推理方面有更多的潜力。虽然这一新技术目前还处于预览阶段,但其未来发展值得期待。
再看OpenAI发布的两款重要的新预览模型:o1-preview和o1-mini
OpenAI今天发布了两款新的预览模型:o1-preview和o1-mini(尽管名字有“mini”,它也是预览版),此前传闻代号为“strawberry”。这些模型不仅仅是GPT-4o的升级版,它们在成本和性能上做出了重大权衡,以提升“推理”能力。 专为链式思维训练 OpenAI的官方说明总结得很好:“我们开发了一系列新的AI模型,这些模型在回答前会花更多时间思考。”这种思维方式类似于“链式思维”(chain of thought)的模式——即逐步思考的技巧,社区从2022年5月的论文《大型语言模型是零样本推理者》中开始探索。 OpenAI在《学习使用LLM推理》文章中解释了这些新模型的训练方式: 这意味着新模型在处理复杂提示时表现更好,尤其是当任务需要反复思考和调整策略时。 API文档中的细节 从API文档中可以发现一些有趣的细节和权衡: 此外,文档建议在使用检索增强生成(RAG)时,尽量减少额外的上下文信息,以防止模型过度复杂化响应。 隐藏的推理令牌 推理令牌在API中不可见,尽管用户为其付费。OpenAI解释称,隐藏这些令牌有助于模型遵循安全规则,并且防止竞争对手复制他们在推理方面的研究成果。 实例 在链式思维部分,OpenAI提供了一些实例,例如生成Bash脚本、解决填字游戏以及计算复杂化学溶液的pH值。这些例子展示了模型如何在ChatGPT界面中展示推理步骤,但并不包括原始推理令牌,而是使用了更加易懂的方式进行概括。 目前,社区还在寻找GPT-4o无法解决但o1-preview表现优异的提示示例。不过,当找到合适的提示时,o1的表现让人感到非常惊艳。 未来展望 这些新模型的最佳应用场景仍需时间探索。预计大部分应用仍将使用GPT-4o,但新模型让我们看到了LLM在解决复杂任务方面的新可能性。未来,其他AI实验室也可能开发类似的模型,专门用于链式思维推理。
Google推出Data Commons解决AI“幻觉”
Google推出的DataGemma模型填补了大型语言模型(Large Language Models, LLMs)与现实世界数据之间的鸿沟,通过利用Data Commons知识图谱来提升LLM回应的真实性与可信度。 虽然LLM革新了人们与信息互动的方式,但确保它们的回应基于可验证的事实仍是一个重大挑战。现实世界中的知识往往分散在多个来源中,每个来源都有不同的数据格式、模式和API,这使得访问和整合变得困难。缺乏这种事实基础会导致模型“幻觉”——即生成错误或误导性信息。打造负责任且值得信赖的AI系统是Google研究的核心目标,解决LLM中的幻觉问题对于实现这一目标至关重要。 Google今天发布了DataGemma,这是一组实验性的开源模型,旨在通过将LLM与Google Data Commons庞大的现实世界统计数据结合来应对幻觉问题。Data Commons已具备自然语言界面,DataGemma正是利用这一现有接口,以自然语言作为“API”,让用户可以直接问诸如“加州的就业行业有哪些?”或“有哪些国家的森林面积在增加?”这样的问题,而无需编写传统的数据库查询语句。借助Data Commons,Google克服了不同数据模式和API带来的复杂性,实际上提供了一个统一的“外部数据源API”。 Data Commons:事实性AI的基础 Data Commons是Google公开的知识图谱,包含全球超过2500亿个数据点,涵盖数十万个统计变量。这些数据来自联合国、世界卫生组织、卫生部、统计局等可信机构,涉及经济、气候变化、健康和人口等多个领域。这一庞大的数据仓库不断扩展其全球覆盖范围,为构建更加可靠和有依据的AI提供了坚实的基础。 DataGemma将LLM与现实世界数据相连接 Gemma系列是轻量级的开源模型家族,基于与Google Gemini模型相同的研究和技术构建。DataGemma通过利用Data Commons中的知识扩展了Gemma家族的能力,从而增强了LLM的事实性与推理能力。通过创新的数据检索技术,DataGemma帮助LLM从可信机构获取数据(包括政府、国际组织和非政府组织),减少幻觉的风险,提升模型输出的可信度。 与传统方法不同,使用DataGemma不需要掌握底层数据集的具体模式或API。它通过Data Commons的自然语言接口直接发出问题,而关键在于训练LLM知道何时提问。为此,Google使用了两种不同的方法:检索交错生成(RIG)和检索增强生成(RAG)。 检索交错生成(RIG) 这种方法对Gemma 2模型进行微调,使其在生成回应时能识别出其中的统计数据,并通过调用Data Commons进行验证。相当于模型对自己的回答进行“复查”。 RIG的工作流程如下: RIG方法的优势在于不改变用户的查询,能在各种情境下有效运作,但LLM并不会保留来自Data Commons的更新数据,导致后续的推理或查询无法反映新信息。 检索增强生成(RAG) RAG方法在LLM生成文本之前,首先从Data Commons检索相关信息,为其回应提供事实基础。然而,由于广泛查询返回的数据可能包含大量跨多个年份的数据表,因此RAG需要利用Gemini 1.5 Pro模型的长上下文窗口,来处理如此大量的数据输入。 RAG的工作流程如下: RAG的优点在于随着LLM模型的进化,其生成的响应也会更加准确。缺点是修改用户的提示词可能会导致使用体验不够直观,且效果取决于查询Data Commons的质量。 参与构建有据可依的AI未来 虽然DataGemma是向前迈出的重要一步,Google认识到这一领域仍处于早期阶段。Google邀请研究人员、开发者以及对负责任AI感兴趣的各方一起探索DataGemma,共同推动这项技术的发展。通过将LLM与Data Commons中的现实世界数据结合,未来的AI不仅会更加智能,还会建立在事实和证据的基础之上。 对于想要深入了解DataGemma研究背景的人员,可以参考Google的研究论文。此外,Google希望研究人员能够超越Data Commons的具体实现,扩展这项技术至其他知识图谱格式。 准备好开始了吗?可以从Hugging Face或Kaggle下载DataGemma模型(RIG、RAG),并通过Google提供的快速入门笔记本探索它的功能。https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
OpenAI正式推出了全新的o1-preview系列,专注于解决复杂问题
OpenAI正式推出了全新的o1-preview系列,专注于解决复杂问题,并于9月12日开始提供。新模型在科学、编程和数学领域表现出色,能够应对比以往更难的任务。 这一系列的AI模型经过特别训练,在回答问题前会花更多时间进行思考。它们可以像人类一样,推理复杂任务并解决难题。这次的发布仅是预览版,未来会不断推出更新和改进。同时,正在开发中的下一个版本也在进行评估。 这些模型的工作原理类似于人类解决问题的思维方式,通过训练,它们学会优化思考过程,尝试不同的策略,并能认识到自己的错误。在测试中,下一版本的模型在物理、化学和生物等高难度基准任务中的表现类似于博士生。在国际数学奥林匹克(IMO)的模拟考试中,GPT-4o仅解决了13%的问题,而这个新模型的得分达到了83%。在编程能力的评估中,新模型在Codeforces竞赛中达到了89%的水平。详细信息可在技术研究报告中查看。 虽然这个早期模型暂时没有像ChatGPT一样的功能,比如浏览网页或上传文件和图片,但在复杂推理任务方面,这无疑是AI能力的一次重大飞跃。因此,OpenAI将这一系列重新命名为o1,并将计数器重置为1。 在安全方面,OpenAI采用了新的安全训练方法,利用这些模型的推理能力,使其更加遵守安全和对齐准则。通过推理安全规则,它们能够更有效地应用这些规定。在一个严苛的绕过安全测试中,GPT-4o的得分仅为22(满分100),而o1-preview模型的得分达到了84。详细信息可在系统卡片和研究报告中阅读。 为匹配新模型的能力,OpenAI加强了安全工作,包括与联邦政府的合作,采用了最佳的红队测试和董事会级别的审查流程。此外,OpenAI还与美国和英国的AI安全研究所签订了正式协议,并为这些机构提供了研究版模型的早期访问权限,以便为未来模型的研究、评估和测试建立流程。 这些新模型的推理能力对于解决科学、编程、数学等领域的复杂问题尤为有用。例如,o1可以帮助医疗研究人员注释细胞测序数据,帮助物理学家生成量子光学所需的复杂数学公式,并为各领域的开发者构建和执行多步骤工作流程。
DeepSeek-V2.5 最好的开源LLM?
在AI时代,组织如何准备迎接技术变革? 中国量化对冲基金“飞高资本管理”旗下的AI分支DeepSeek,正式推出了最新版本的模型——DeepSeek-V2.5。这是一个在前代模型基础上进行增强的版本,整合了DeepSeek-V2-0628和DeepSeek-Coder-V2-0724的功能。 2024年9月6日发布的这个新模型,集成了通用语言处理和编码功能,成为一个功能强大的工具。据第三方研究人员测试和观察,DeepSeek-V2.5目前被认为是开源领域中最先进的大语言模型(LLM)之一。它现已在Hugging Face平台上开放,用户可以通过网页或API无缝访问。 这一版本的发布正值另一场争议中,HyperWrite公司创始人兼CEO马特·舒默于9月5日宣称其模型Reflection 70B是“全球最强的开源AI模型”,这一内部基准测试结果却遭到了独立研究者和更广泛AI社区的质疑,目前尚未有研究者能够重现这些数据。 功能和性能大幅提升 DeepSeek-V2.5针对写作、指令执行和高级编码等任务进行了优化,特别注重与人类偏好的对齐。通过一系列的改进,模型在几乎所有基准测试中均表现优异。 尤其值得一提的是,DeepSeek-V2.5引入了函数调用功能,使其能够更高效地与外部工具进行交互,扩展了模型在实时天气报告、翻译服务和编写算法代码等领域的应用。 CNRS的AI/ML/数据工程师Maziyar Panahi在社交平台X上称赞该模型是“全球最佳的开源LLM”,并表示对此前模型并未引起更多关注感到意外,认为其性能突破性极高。 DeepSeek的巅峰之作 据《金融时报》报道,DeepSeek的母公司飞高资本是拥有超过10,000台[Nvidia] A100处理器的六家中国公司之一,而这些计算资源正被充分用于推动开源AI研究的进步。 DeepSeek-V2.5在自然语言处理(NLP)和编程任务上表现出色,内部测试和外部评估显示,模型在以下关键指标中名列前茅: 在语言对齐方面,DeepSeek-V2.5在中国的内部评估中,表现优于GPT-4o mini和ChatGPT-4o-latest。 AI观察员Shin Megami Boson也表示,他在一项模仿研究生级别的Google-Proof Q&A基准测试中,DeepSeek-V2.5超越了Meta的Llama 3-70B Instruct和Llama 3.1-405B Instruct,但略逊于OpenAI的GPT-4o mini、Claude 3.5 Sonnet和OpenAI的GPT-4o。 广泛的应用与商业前景 DeepSeek-AI已在Hugging Face上以MIT许可证的变体开源了DeepSeek-V2.5,开发者和组织可以自由使用这一模型,甚至在商业环境中使用,但需遵守某些限制。许可证允许全球范围内的非独占、免版税的版权和专利权使用,包括分发、复制和再授权的权利,但禁止军事用途、生成虚假信息以及利用模型对特定群体的漏洞。 这一举措表明了DeepSeek-AI致力于将先进的AI能力民主化。企业可以将该模型应用于自动化客户支持、内容生成、软件开发和数据分析等各种任务。 为了在本地运行DeepSeek-V2.5,用户需要拥有BF16格式设置和80GB的GPU(8块GPU才能完全发挥模型的性能)。该模型在大规模推理和小批量本地部署方面都进行了高度优化。 DeepSeek-V2.5的架构创新之一是多头潜在注意力(MLA),它通过减少KV缓存来显著提高推理速度,同时保持模型的性能不受影响。这种压缩技术不仅提高了计算资源的利用率,也使模型在资源消耗上更为经济。 DeepSeek-V2.5树立了开源大语言模型的新标准,结合尖端技术创新和实际应用场景,成为企业和开发者的理想选择。
Mistral AI发布了Pixtral 12B
法国人工智能初创公司Mistral AI近日发布了Pixtral 12B,这是一款能够处理图像和文本的先进模型。随着该模型的推出,Mistral AI正式加入了日益增长的多模态AI系统行列,其他知名的多模态AI系统还包括Anthropic的Claude、OpenAI的GPT-4o和谷歌的Gemini。 顾名思义,Pixtral 12B拥有120亿个参数,并配备了一个4亿参数的视觉适配器,使其不仅能处理文本输入,还能够“读取”图像。这个新模型是在Mistral之前推出的仅能处理文本的Nemo 12B模型基础上进行升级的。新功能允许用户通过URL或base64编码上传图像,其中后者将图像转换为类似JSON文件的字符串,AI模型能够解码这些字符串并将其还原为图像。Pixtral 12B可以处理多种任务,如为图片生成标题、统计图片中的物体数量,以及回答有关图像内容的常见问题。 Apache 2.0许可下发布 Mistral的开发者关系负责人Sophia Yang透露,该模型将很快在Le Chat和Le Platforme上线,这意味着任何拥有用户账号的人都可以免费试用该聊天机器人或API功能。Mistral AI已经在GitHub和Hugging Face上发布了Pixtral 12B的代码和参数,鼓励开发者下载、优化并进一步训练该模型。 Pixtral 12B模型大小为24 GB,开源且在宽松的Apache 2.0许可下免费提供。这与Mistral其他一些模型,如Mistral 7B、Mixtral 8x22B、Mistral Nemo和Mistral Embed,所使用的许可一致。而该公司推出的其他模型如Mistral Large则受到研究许可或非生产许可的限制,禁止商业用途,仅限于科研。 对训练数据来源的担忧 大语言模型(LLM),尤其是多模态模型,通常从互联网或社交媒体获取训练数据,其中很多信息涉及版权问题。有些内容是未经上传者许可的情况下被用于训练AI模型的。Mistral AI的美国竞争对手OpenAI曾广泛利用Reddit等论坛训练自己的模型,起初并未支付任何费用,之后才与这些平台达成协议。此举一度引发用户的抵制,但最终并未产生实质影响。 一年内估值近60亿欧元 法国初创公司Mistral AI在最近的融资轮中达成了目标,筹集了6亿欧元。公司目前的估值接近60亿欧元——对于一家成立仅一年的公司来说,这无疑是一个惊人的数字。 根据《金融时报》的报道,最新融资中包含了4.68亿欧元的股权融资和1.32亿欧元的债务融资,使该公司的总估值达到5.8亿欧元。
SpaceX首次商业太空行走
周二凌晨,SpaceX的猎鹰9号火箭成功发射,搭载着将尝试首次商业太空行走的团队,并将在50年来飞往最远的太空高度。此次名为“Polaris Dawn”的任务于美国东部时间早晨5:23从NASA肯尼迪航天中心发射,原定时间因恶劣天气多次推迟。任务的第一天接近尾声时,SpaceX的“龙”飞船将达到1,400公里(870英里)的轨道高度,这是自1972年阿波罗17号登月任务以来,人类飞行的最高点,也是国际空间站轨道高度的三倍。 四名船员将穿越高能量的范艾伦辐射带,这里辐射水平远高于较低轨道。在这一阶段,他们将进行研究,深入了解辐射对人体的影响。任务指挥官贾里德·艾萨克曼(Jared Isaacman)上个月在新闻发布会上表示:“我们能从这个环境中学到很多关于人类健康的科学知识。如果我们未来能够抵达火星,还希望能健康地回来与大家分享经验,因此在这个环境中获得一些辐射暴露非常值得。” 此次任务的船员包括艾萨克曼,他是Shift4 Payments的创始人;任务飞行员斯科特·波蒂特(Scott “Kidd” Poteet),一位退役的美国空军中校;以及两名SpaceX员工——任务专家萨拉·吉利斯(Sarah Gillis),她是一名工程师兼宇航员培训师,和任务专家安娜·梅农(Anna Menon),她是SpaceX的医疗主管,同时还负责公司飞行任务的控制。 任务第三天,船员将把“龙”飞船的高度降至约700公里(435英里),他们将在此尝试非政府宇航员进行的首次太空行走。四人将穿上由SpaceX设计的舱外活动服,打开飞船舱门,虽然只有艾萨克曼和吉利斯会走出飞船,进行大约15到20分钟的太空行走。两人将通过系在飞船上的安全绳保持与飞船的连接,并通过船体上的手柄固定自己,避免漂浮在太空中。 此次任务的太空服设计具有重要意义,因为SpaceX的长期目标是建立火星人类殖民地,未来成百上千的人可能会穿着类似的太空服。此外,任务还将测试龙飞船与SpaceX星链(Starlink)卫星之间的通信技术,这将为飞船内提供Wi-Fi,为未来前往月球或火星的任务打下可靠的通信基础。 这次任务是艾萨克曼“Polaris计划”的三项任务中的第一项,第三次任务计划成为SpaceX星舰的首次载人发射。艾萨克曼在三年前曾参与Inspiration4私人太空任务,也是由SpaceX执行的。此次发射后,艾萨克曼向SpaceX表示感谢:“没有你们14,000名员工的努力,我们不可能踏上这段旅程。” 在为期五天的太空任务结束后,船员将返回地球,并在佛罗里达州附近海域溅落。