苹果公司推出了一款名为Ferret-UI 2的全新AI系统 https://huggingface.co/spaces/jadechoghari/ferret-demo ,具备跨设备读取和控制应用程序的能力,支持iPhone、iPad、安卓设备、网络浏览器和Apple TV。该系统在UI元素识别测试中获得了89.73的高分,远超GPT-4o的77.73分,不仅在文本和按钮识别等基础任务上有显著提升,在复杂操作方面也表现出色。 Ferret-UI 2能够理解用户意图,而非依赖具体的点击坐标。举个例子,当用户输入“请确认您的输入”时,系统能识别出相关按钮,而不需要精确的定位数据。这项技术得益于苹果研究团队使用GPT-4o的视觉能力生成的高质量训练数据,从而帮助系统更好地理解UI元素之间的空间关系。 该系统采用自适应架构,在多个平台上识别UI元素。其内置算法可根据不同平台的需求自动平衡图像分辨率和处理需求,既保留信息又有效率。测试结果显示,Ferret-UI 2在跨平台上表现良好,特别是使用iPhone数据训练的模型在iPad上实现68%的准确率,在安卓设备上达到71%。但系统在移动设备与电视或网页接口之间的转换上遇到了一些困难,研究人员认为这是由屏幕布局差异引起的。 此外,苹果测试了多种语言模型,其中Llama-3表现最佳,但体积更小的Gemma-2B也取得了不错的成绩。Llama和Gemma版本的Ferret UI模型目前可在Hugging Face平台获取,配有演示版本。与此同时,微软发布了一款名为OmniParser的开源工具,可以将屏幕内容转换为结构化数据,这也展示了业内对UI理解AI技术的关注。 苹果还发布了一个名为CAMPHOR的框架,通过多AI代理协作来完成复杂任务。结合Ferret-UI 2,该技术有望使Siri等语音助手在未来实现更复杂的任务,例如通过语音命令查找并预订餐厅,进一步提升用户体验。 Ferret-UI 2的推出意味着苹果在打造能够自然理解和操作人类UI界面的AI系统方面迈出了重要一步,为智能交互技术树立了新的标杆。
Author: aitrendtrackers@rengongzhineng.io
Google DeepMind的研究人员提出了Talker-Reasoner框架
AI智能体在应对各种任务时,常需要不同的速度、推理和规划能力。理想情况下,智能体应能区分何时使用直觉记忆,何时利用更复杂的推理能力。然而,设计能根据任务需求正确执行的智能系统仍是一项挑战。 在一项最新论文中,Google DeepMind的研究人员提出了Talker-Reasoner框架,这是一个受人类“双系统”思维模型启发的智能体架构。该框架旨在为AI智能体找到不同推理方式之间的最佳平衡,以实现更顺畅的用户体验。 人类与AI的系统1和系统2思维 诺贝尔奖得主丹尼尔·卡尼曼的“双系统”理论表明,人类的思维由两个不同的系统驱动。系统1是快速、直觉且自动的,负责我们的快速判断,例如应对突发事件或识别熟悉的模式。系统2则缓慢、深思熟虑且分析性强,负责复杂问题的解决、规划和推理。 这两个系统并非完全独立,而是相互影响。系统1生成直觉和初步判断,系统2对这些判断进行评估,并在认可后将其整合为明确的信念和选择。这种互动使人类能够灵活地应对从日常生活到复杂问题的多种情境。 目前,大多数AI智能体主要依赖系统1模式,擅长模式识别、快速反应和重复性任务。然而,在需要多步骤规划、复杂推理和战略性决策的场景中,AI往往难以胜任,这正是系统2思维的强项。 Talker-Reasoner框架 DeepMind提出的Talker-Reasoner框架赋予AI智能体系统1和系统2的能力。它将智能体分为“Talker”(对话者)和“Reasoner”(推理者)两个模块。 研究人员写道:“Talker专注于生成自然且连贯的对话,而Reasoner专注于多步骤规划和基于环境信息进行推理。” 这两个模块通过共享记忆系统进行交互。Reasoner更新其信念和推理结果,Talker则从中检索信息以指导互动。这种异步通信方式允许Talker维持对话的连续性,即使Reasoner在后台进行较长时间的计算。 研究人员解释道:“这类似于行为科学中的双系统方法,系统1始终在线,而系统2只在需要时启动。Talker始终保持环境互动,Reasoner则仅在Talker需要时或通过记忆读取信念更新。” Talker-Reasoner框架应用于AI辅导 研究人员在睡眠辅导应用中测试了Talker-Reasoner框架。该AI教练通过自然语言与用户互动,提供个性化的睡眠改善指导。这种应用需要快速、情感共鸣的对话和基于知识的深思熟虑的推理。 在此应用中,Talker组件负责对话,提供情感支持并引导用户完成辅导过程的不同阶段。Reasoner则维护用户的睡眠问题、目标、习惯和环境的信念状态,并基于这些信息生成个性化建议和多步骤计划。这一框架同样适用于客户服务和个性化教育等其他应用场景。 未来研究方向 DeepMind研究人员指出,未来研究的一项重点是优化Talker与Reasoner的交互。理想情况下,Talker应能自动判断何时需要Reasoner的介入,以减少不必要的计算,提高整体效率。 另一方向是扩展框架,使其整合多个Reasoner,每个Reasoner专注于不同类型的推理或知识领域。这样可以使智能体更好地应对复杂任务,提供更全面的支持。
Google推出新的医疗基础工具CT Foundation:适用于3D CT体积影像的研究工具
CT Foundation(https://github.com/Google-Health/imaging-research/tree/master/ct-foundation)是一个面向3D CT体积影像的基础工具,基于Google在胸部X射线、皮肤病和数字病理学方面的技术,进一步扩展到3D成像领域。近年来,开发人员和研究人员在构建AI应用方面取得了显著进展。Google Research通过提供用于放射学、数字病理和皮肤病学的易用嵌入式API,帮助AI开发者以更少的数据和计算资源训练模型。但这些应用主要集中在2D成像,而实际诊断中,医生通常依赖3D影像做出复杂的判断。以CT扫描为例,这是一种常见的3D医疗成像技术,每年仅在美国就有超过7000万次CT扫描,主要用于肺癌筛查、神经系统急诊评估、心脏和创伤成像,以及异常X光检查后的进一步检查。然而,由于CT影像具有体积特性,比2D X光更复杂、耗时且需要更大计算和存储资源。 通常情况下,CT扫描数据以标准DICOM格式的2D图像序列存储,然后重新组合成3D体积用于观察或进一步分析。Google于2018年开发了一个低剂量胸部CT影像的肺癌检测研究模型,并在之后改进模型,将其应用于多种临床工作流程,并与欧洲的Aidence公司和印度的Apollo Radiology International合作,将模型投入生产。基于多模态头部CT影像的研究,Google早前在Med-Gemini中描述了自动报告生成的研究成果。 基于Google在3D医学影像模型训练方面的经验,以及CT在诊断医学中的重要性,Google设计了CT Foundation,使研究人员和开发者能够更加轻松地构建适用于不同身体部位的CT影像模型。CT Foundation是一个新发布的医疗影像嵌入工具,它可以将CT体积影像输入转化为信息丰富的数值嵌入,用于快速训练模型。此模型仅供研究使用,不可用于患者护理或诊断治疗。开发者和研究人员可申请免费获取CT Foundation API的访问权限。Google还提供了一个示例代码笔记本,展示如何使用公开的NLST数据进行肺癌检测模型的训练。 CT Foundation的工作原理 CT Foundation能够处理DICOM格式的CT体积影像,并生成1,408维的嵌入向量,汇总重要的器官、组织及异常信息。CT Foundation API自动处理原始DICOM图像,将切片排序、合成为体积影像、进行模型推理并返回CT嵌入结果,免去用户的预处理步骤。用户可以将这些嵌入向量用于分类模型(如逻辑回归、多层感知器)训练,在较少数据下实现高性能,同时显著降低计算资源消耗。 CT Foundation基于VideoCoCa(视频-文本模型)设计,该模型从2D CoCa(对比描述生成模型)延伸而来,专为2D图像与文本的高效迁移学习。Google首先训练了一个专用的医学影像2D CoCa模型,将其作为VideoCoCa的基础,再使用轴向CT切片与放射学报告共同训练VideoCoCa模型。 CT Foundation的评估 为测试CT Foundation的实用性和泛化能力,Google在七个分类任务中评估其数据效率,包括头部、胸部和腹盆部的异常检测任务,涵盖脑出血、胸部和心脏钙化、肺癌预测、腹部病灶、肾结石和腹主动脉瘤等。除了肺癌预测和脑出血任务外,其他任务的标签均通过放射学报告自动提取。肺癌预测任务使用了来自NLST的2年内癌症确诊数据,脑出血任务则由放射科医生标注。Google利用不同大小的训练数据集,评估嵌入向量在多层感知器模型上的数据高效性,使用AUC(ROC曲线下面积)作为评估指标,AUC范围为0.0–1.0,其中1.0为完美模型,0.5为随机猜测。 此外,Google还通过一个更通用的任务展示了CT Foundation在工作流应用中的实用性:身体部位分类。该任务目标是识别CT扫描的解剖区域。此任务的评估指标为八种不同检查类型的分类准确性:头/颈部、颈部、脊柱、心脏、血管造影、胸部、腹部/骨盆及四肢。 嵌入向量仅1,408维,模型训练仅需CPU即可完成,并可在Colab Python笔记本中操作。即便在训练数据有限的情况下,除一个任务外,其余均能达到超过0.8的AUC。 总结 伴随CT Foundation的发布,Google提供了一个Python笔记本,帮助用户处理CT体积影像,进行模型训练和评估。CT Foundation以其高数据效率和低计算设计,使快速原型开发和研究成为可能,即使资源有限的情况下亦能应用。自动化处理DICOM格式数据的特性,也大大简化了CT建模流程,适合新手和经验丰富的研究人员和开发者。Google期待看到该工具在研究和开发领域的应用,也欢迎社区反馈CT Foundation的性能和应用案例。
为什么迈尔斯·布伦迪奇离开 OpenAI,下一步计划是什么
自从2015年OpenAI发布以来,迈尔斯·布伦迪奇一直热情支持OpenAI的使命。即便如此,迈尔斯还是做出离开这家理想公司的决定,希望能有更多时间专注于整个AI行业的核心议题,保持独立性,并自由发表见解。他宣布将创建或加入一个非营利组织,专注于AI政策研究和倡导。他的研究方向涵盖AI进展的评估和预测、前沿AI的安全与监管、AI的经济影响、有益AI应用的加速、计算资源治理以及“AI宏观战略”等方面。 为什么选择离开OpenAI? 迈尔斯离开的原因主要在于,他希望从行业外部影响AI的发展。他提到,内部发布限制影响了他的研究效率,此外他希望摆脱在政策讨论中的利益冲突,客观地提出独立见解。迈尔斯认为,在外部继续他的AGI(通用人工智能)准备工作,更有助于其对OpenAI及行业的政策研究,尤其是关注如何管理和部署更高级的AI能力。 未来的研究兴趣 迈尔斯的研究主要聚焦以下六个领域: 如何保持独立性? 迈尔斯计划保持研究的独立性,并与不同背景的行业、学术、民间和政府组织保持建设性互动。他提到,尽管OpenAI愿意提供资金、API积分和模型访问,但他将慎重考虑这些支持可能带来的独立性影响。此外,他表示愿意与各种不同观念的人合作,以展现更全面的AI政策观点。
Genmo发布了开源Mochi-1视频生成模型作为“研究预览”版本
生成式AI的竞争正在加剧,视频生成成为当前的核心战场之一,而Genmo正在以不同的方式切入这一领域。Genmo发布了其Mochi-1视频生成模型作为“研究预览”版本,并采用Apache 2.0开源许可证,使其在技术上更为开放,用户可以对其进行二次开发或重组。https://github.com/genmoai/models Mochi-1完全免费,用户可以在Genmo网站上直接尝试。开源属性还意味着该模型未来将登陆多种生成式AI平台,甚至有望在游戏PC上运行。随着视频生成领域的竞争激烈,不同服务各有所长,如Haiper提供的模板、Kling和Hailuo的逼真效果,或Pika Labs和Dream Machine的趣味特效,Genmo则专注于为开源领域带来最先进的技术。 Genmo的CEO Paras Jain表示,视频“运动”是模型评估的关键指标。他解释说,早期的视频生成模型有种“动态照片”的效果,但视频应以运动为主,Genmo团队为此进行了大量投资。这款模型虽小,但采用了一种全新的异步处理方式,通过100亿参数的变压器扩散模型,实现了强大的性能。 为了确保视频生成的准确性,Mochi-1仅使用视频数据进行训练,而非混合视频、图像和文本的传统方法,这种方法提升了模型对物理原理的理解。同时,Genmo团队也在提示语理解上投入巨大,以确保模型能准确生成符合用户需求的视频。 目前,Mochi-1的预览版视频分辨率被限制在480p。虽然清晰度有限,但Genmo希望这款模型能成为“开源领域的佼佼者”。Mochi-1不仅强调提示词的准确性,还通过类比OpenAI的DALL-E 3,利用视觉语言模型进行输出评估,以确保视频生成质量。 在众多竞争者中,Mochi-1并不是唯一的开源视频生成模型。AI公司Rhymes本周也发布了Allegro模型,这款模型支持15帧/秒、720p分辨率的视频生成。尽管Mochi-1的清晰度稍低,仅支持24帧/秒和420p,但其开源特性和运动表现使其在视频生成市场中独具优势。 目前,这些模型还无法在普通笔记本电脑上运行,但正如Jain所言,开源的优势在于未来可能通过优化让这些模型在低功率设备上运行,实现离线视频生成的潜力。
IBM刚刚发布了第三代Granite大型语言模型
IBM刚刚发布了第三代Granite大型语言模型(LLM),其中核心包括Granite 3.0 2B Instruct和Granite 3.0 8B Instruct模型。作为开放源码模型,这些模型采用了Apache 2.0许可证,特别适用于在IBM watsonx AI平台上使用时免于法律责任风险。IBM强调,这些模型在12种人类语言和116种编程语言上进行了广泛的训练,共处理超过12万亿个令牌。Instruct模型意味着这些模型可以更准确地理解并执行指令。 企业用途及扩展能力Granite 3.0系列专为企业任务优化,支持文本总结、信息提取、代码编写和解释性文档创建等任务。这些模型还可用于实体抽取和检索增强生成(RAG),显著提升文本生成的准确性。预计到2024年底,这些模型将支持文档理解、图表解释,甚至能够解答有关图形界面的产品屏幕问题。 新增的“代理型”用例让Granite 3.0具备自主识别需求、使用工具并在设定范围内自主行动的能力。例如在虚拟助手、客户服务和决策支持中,这些模型无需人工干预即可完成复杂任务。此外,IBM还推出了新的“推测解码器”,即Granite 3.0 8B Accelerator,这一功能可通过预测未来词汇来加速文本生成过程,推测解码速度可提高一倍。 在未来几周内,Granite 3.0的上下文长度将从4000个扩展到128,000个令牌,这对于长对话、RAG任务及代理型用例至关重要。同时,IBM还计划在年底前为Granite 3.0模型添加视觉输入,扩展其应用范围。 网络安全和未来发展IBM的Granite 3.0模型在多个网络安全基准测试中表现优异,尤其在与Llama 3.1 8B Instruct和Mistral 7B Instruct的对比中显示出优势。IBM Research的团队在模型训练数据的筛选上投入大量研究,并开发了用于评估Granite模型网络安全性的专有基准。 未来IBM还将发布“专家混合架构”小型高效模型,如1B参数的Granite 3.0 1B A400M和3B参数的Granite 3.0 3B A800M。此架构将模型划分为多个专门子网络,以提升效率,同时仅在推理中使用少量参数,以实现更高效的边缘计算和CPU服务器部署。 Granite Guardian模型的安全保障为确保输入和输出的安全,IBM还推出了Granite Guardian 3.0模型,用于检测潜在风险输入如越狱攻击,同时监控输出的偏见、公平性和暴力内容。Guardian模型在RAG流程中能检测到回答是否基于提供的上下文,若不符合则标记为异常。IBM计划到2025年将Granite Guardian模型规模缩小至1到4亿参数,以便更广泛应用于边缘设备、医疗、教育和金融领域。 持续更新和未来展望Granite 3.0模型以其高性能和开放源码的灵活性在竞争中脱颖而出。IBM未来将增加JSON结构化提示等开发者友好功能,同时保持定期更新,使模型始终处于技术前沿。IBM对Granite系列模型的长期规划表明了其在推动AI技术创新方面的雄心。
OpenAI计划于2024年12月前推出其最新的AI模型“Orion”
据The Verge的最新报道,OpenAI计划在12月推出下一代前沿AI模型“Orion”。与上两次发布的GPT-4o和o1不同,这次Orion不会一上来就通过ChatGPT广泛开放使用,而是先为一些紧密合作的公司提供使用权限,帮助它们打造各自的产品和功能。 消息人士还透露,微软内部工程师正准备在11月就将Orion部署到Azure云平台。作为OpenAI在GPT-4后的继任者,Orion的定位不一般,但目前尚不确定是否会以GPT-5之名对外发布。发布计划仍有变数,随时可能延迟。对于此事,OpenAI和微软均未予置评。 据悉,一位OpenAI高管曾透露,Orion的算力可能高达GPT-4的100倍,这使它有别于OpenAI在9月发布的o1推理模型。OpenAI的长远目标是融合各大语言模型(LLM),最终打造出具备“通用人工智能”(AGI)潜力的超级模型。据悉,OpenAI早前已使用代号为“草莓”的o1模型生成的合成数据来训练Orion。今年9月,OpenAI团队还在内部举办了一场庆祝活动,庆贺Orion训练完成,恰好与OpenAI CEO Sam Altman在X平台上的神秘发言相呼应。他曾在帖子中写道“期待冬季星座即将升起”,暗指Orion星座从11月到次年2月最为清晰。 此时推出新模型对OpenAI意义重大。公司刚刚获得创纪录的66亿美元融资,但需转换为营利性实体,未来变数增加。同时,公司内部人员变动频繁,首席技术官Mira Murati、首席研究官Bob McGrew和后期训练副总裁Barret Zoph已宣布离职。
前Anchor联合创始人推出AI驱动教育平台Oboe,获400万美元种子投资
曾将上一家初创公司卖给Spotify的两位联合创始人,Nir Zicherman和Michael Mignano,正携手展开一个全新项目:一家名为Oboe的AI驱动教育初创公司,已获得400万美元的种子投资。这家公司旨在像他们之前的创业项目Anchor那样,帮助更多人轻松制作播客,而这次他们希望通过AI技术、音频和视频的结合,打造一个用户友好的界面,帮助人们扩展知识,推动教育普及。 Zicherman表示:“这个想法其实我们已经谈了很久,因为我们都认为教育领域存在一个巨大的机会,远超出很多人的想象。” 在2023年10月离开Spotify后,Zicherman短暂休息了一段时间,随后便开始组建小团队,重拾创业热情,回归创业初期那种亲力亲为的状态。他从自己在Spotify的工作中获得了灵感,特别是在开发Spotify的有声书业务并将其扩展到更多市场的经历。 Zicherman指出:“我当初对有声书感兴趣的一个主要原因是,它让更多人能够接触到优质内容,尤其是教育类内容,并让这些内容更加普及。” Oboe的使命延续了这个目标,但并不是通过有声书的形式实现。相反,团队设想了一款能够让更多人参与“主动学习之旅”的产品,通过AI技术为用户量身定制课程内容,并优化课程的呈现方式,使学习更加个性化。 这款产品将在多个平台上提供,类似于现有的在线学习服务,包含本地应用程序。与其他学习平台不同,Oboe将通过AI实现差异化,AI不仅能定制课程内容,还能提供互动体验。比如,AI生成的语音将成为产品的一部分,而Oboe的后端架构结合机器学习技术,将根据用户的学习方式逐步优化内容呈现。 考虑到AI技术存在生成虚假信息的风险,Oboe将致力于确保内容的准确性和高质量,打造可扩展的教育平台。Zicherman透露,Oboe虽然会依赖一些第三方基础AI模型,但团队也正在内部进行大量工作,以优化其数据架构,实现个性化课程。 “这款产品绝不仅仅是现有大型语言模型的简单包装,”Zicherman说道,“它背后有很多复杂的技术。” 此外,Oboe还将通过多种格式提供学习内容。当用户无法查看屏幕时,比如在跑步或开车时,可以通过音频学习;而在其他时间,用户则可以通过视频、应用程序或网站进行互动学习。 最初,Oboe将重点关注少数几个学习领域,比如自学编程或为大学生提供课堂外的补充材料。这些课程主要针对K12阶段以上的学习者,但Oboe的最终目标是实现“让人类变得更聪明”的使命——虽然这看似是一个极其宏大的目标。未来,Oboe计划进入K12教育、职业技能提升以及娱乐性学习领域,比如学习新乐器。(有趣的是,Oboe不仅是一种管弦乐器,也是日语中“学习”一词的词根。) Oboe总部位于纽约,目前尚未透露更多产品细节。不过,Zicherman和Mignano已经吸引到了一些投资者的支持,其中包括曾与他们在Anchor项目中合作过的投资人。Mignano将继续担任Lightspeed的全职合伙人,同时在Oboe的董事会中担任重要角色,支持Zicherman担任CEO。 Mignano告诉TechCrunch:“作为Oboe的联合创始人,Nir和我密切合作,为公司制定初期战略和产品方向。Lightspeed的合伙人非常支持我同时担任投资者和创始人,毕竟我们有很多投资者自己也曾创办或孵化过公司。” Oboe的400万美元种子轮融资由Eniac Ventures领投——该公司也是Anchor种子轮的领投方。其他投资者包括Haystack、Factorial Capital、Homebrew、Offline Ventures,以及Scott Belsky、Kayvon Beykpour、Nikita Bier、Tim Ferriss和Matt Lieber等天使投资人。
本周苹果发布的iOS 18.2更新,已经带来了备受期待的ChatGPT集成功能
在今年六月的WWDC上,苹果通过其AI平台Apple Intelligence展示了一系列强大的AI更新,吊足了人们的胃口。最近,这些功能逐步通过iOS更新向公众推出。 下周,苹果将正式发布首批AI功能的更新,包括AI驱动的写作工具、图片清理、文章摘要功能,以及重新设计的Siri,作为iOS 18.1更新的一部分。不过,本周苹果发布的iOS 18.2更新,已经带来了备受期待的ChatGPT集成功能!遗憾的是,这些功能目前仅在beta版中可用,公众用户还需等待一段时间。 ChatGPT将用于增强Siri的功能,当Siri检测到某个问题或任务过于复杂(如规划旅行行程或查找食谱)时,它会在获得用户许可后,将任务自动转交给ChatGPT。此外,ChatGPT还将为苹果的视觉智能工具提供支持,该工具类似于Google Lens,能够使用设备的摄像头识别文字、物体和标志,并将其翻译成不同语言、执行特定任务(如保存电话号码到联系人)并提供相关信息。 除了ChatGPT的集成,苹果还推出了表情符号生成器Genmoji,用户可以根据描述性提示或照片创建个性化的表情符号。此外,苹果的AI图像生成器Image Playground也将内置于Messages、Pages和Keynote等应用中,允许用户根据文本提示或照片创建图像。Image Wand功能也将同时发布,用户可以用它删除照片中的物体,将草图转化为艺术作品,并清理手写笔记。 这些AI更新让用户的创作和生活更加智能化,也展现了苹果在AI领域不断推进的步伐。
六款最佳的本地LLM工具
运行大型语言模型(LLM)如ChatGPT和Claude通常需要将数据发送到由OpenAI和其他AI模型提供商管理的服务器。虽然这些服务是安全的,但一些企业为了更高的隐私保护,倾向于将数据完全离线保存。 本文将介绍六款开发者可以用于本地运行和测试LLM的工具,这些工具确保数据不会离开本地设备,类似于端到端加密对隐私的保护方式。 为什么要使用本地LLM? 像LM Studio这样的工具不收集用户数据或追踪用户操作,允许所有聊天数据保存在本地机器上,而不与AI/ML服务器共享。 六款最佳的本地LLM工具 根据具体使用场景,可以选择以下几款离线LLM应用程序。有些工具完全免费用于个人和商业用途,另一些可能需要为商业使用提出申请。以下是适用于Mac、Windows和Linux的六大最佳工具。 1. LM Studio LM Studio可以运行任何gguf格式的模型文件,支持来自Llama 3.1、Phi 3、Mistral和Gemma等提供商的模型文件。下载应用程序后,LM Studio会展示顶级LLM供下载测试,还可以通过搜索栏筛选特定模型。 LM Studio主要功能 使用LM Studio的好处免费用于个人用途,无需API密钥即可连接OpenAI的Python库。支持在一台设备上运行多个模型,并提供美观易用的界面。 2. Jan Jan是一个开源的ChatGPT版本,专为离线使用而设计。它允许用户在不连接网络的情况下运行Llama或Mistral等流行模型,还可以连接远程API如OpenAI。 Jan主要功能 3. Llamafile Llamafile由Mozilla支持,旨在通过快速的CPU推理和无需网络访问的方式让AI变得更为普及。它将LLM转换为多平台的可执行文件格式(ELF)。 Llamafile主要功能 使用Llamafile的好处完全离线运行,适合需要快速处理长文本和大文档的场景。 4. GPT4ALL GPT4ALL以隐私和安全为核心设计,不需要互联网即可运行LLM。它支持Mac、Windows和Ubuntu。 GPT4ALL主要功能 5. Ollama Ollama允许用户无需连接API即可轻松创建本地聊天机器人,支持大量模型库,且无需支付订阅费用。 Ollama主要功能 6. LLaMa.cpp LLaMa.cpp是众多本地LLM工具(如Ollama)的底层技术,支持在各种硬件上进行高效的本地推理。 LLaMa.cpp主要功能 本地LLM的应用场景本地运行LLM适合需要更高隐私性、不便联网或信号不佳的场景。例如,在远程医疗环境中,可以离线处理患者文档,避免上传到任何AI API。 结论 选择并使用本地LLM工具有多种优势,不仅可以节省费用,还能确保数据隐私。在如LLM Studio和Jan这样的图形用户界面工具中,开发者无需订阅服务即可配置和实验LLM模型。而命令行工具如Ollama和LLaMa.cpp则适合那些希望深入研究和测试模型的用户。