AI TrendTrackers

IBM刚刚发布了第三代Granite大型语言模型

Posted on October 26, 2024October 26, 2024 by aitrendtrackers@rengongzhineng.io

IBM刚刚发布了第三代Granite大型语言模型（LLM），其中核心包括Granite 3.0 2B Instruct和Granite 3.0 8B Instruct模型。作为开放源码模型，这些模型采用了Apache 2.0许可证，特别适用于在IBM watsonx AI平台上使用时免于法律责任风险。IBM强调，这些模型在12种人类语言和116种编程语言上进行了广泛的训练，共处理超过12万亿个令牌。Instruct模型意味着这些模型可以更准确地理解并执行指令。企业用途及扩展能力Granite 3.0系列专为企业任务优化，支持文本总结、信息提取、代码编写和解释性文档创建等任务。这些模型还可用于实体抽取和检索增强生成（RAG），显著提升文本生成的准确性。预计到2024年底，这些模型将支持文档理解、图表解释，甚至能够解答有关图形界面的产品屏幕问题。新增的“代理型”用例让Granite 3.0具备自主识别需求、使用工具并在设定范围内自主行动的能力。例如在虚拟助手、客户服务和决策支持中，这些模型无需人工干预即可完成复杂任务。此外，IBM还推出了新的“推测解码器”，即Granite 3.0 8B Accelerator，这一功能可通过预测未来词汇来加速文本生成过程，推测解码速度可提高一倍。在未来几周内，Granite 3.0的上下文长度将从4000个扩展到128,000个令牌，这对于长对话、RAG任务及代理型用例至关重要。同时，IBM还计划在年底前为Granite 3.0模型添加视觉输入，扩展其应用范围。网络安全和未来发展IBM的Granite 3.0模型在多个网络安全基准测试中表现优异，尤其在与Llama 3.1 8B Instruct和Mistral 7B Instruct的对比中显示出优势。IBM Research的团队在模型训练数据的筛选上投入大量研究，并开发了用于评估Granite模型网络安全性的专有基准。未来IBM还将发布“专家混合架构”小型高效模型，如1B参数的Granite 3.0 1B A400M和3B参数的Granite 3.0 3B A800M。此架构将模型划分为多个专门子网络，以提升效率，同时仅在推理中使用少量参数，以实现更高效的边缘计算和CPU服务器部署。 Granite Guardian模型的安全保障为确保输入和输出的安全，IBM还推出了Granite Guardian 3.0模型，用于检测潜在风险输入如越狱攻击，同时监控输出的偏见、公平性和暴力内容。Guardian模型在RAG流程中能检测到回答是否基于提供的上下文，若不符合则标记为异常。IBM计划到2025年将Granite Guardian模型规模缩小至1到4亿参数，以便更广泛应用于边缘设备、医疗、教育和金融领域。持续更新和未来展望Granite 3.0模型以其高性能和开放源码的灵活性在竞争中脱颖而出。IBM未来将增加JSON结构化提示等开发者友好功能，同时保持定期更新，使模型始终处于技术前沿。IBM对Granite系列模型的长期规划表明了其在推动AI技术创新方面的雄心。

OpenAI计划于2024年12月前推出其最新的AI模型“Orion”

Posted on October 25, 2024October 25, 2024 by aitrendtrackers@rengongzhineng.io

据The Verge的最新报道，OpenAI计划在12月推出下一代前沿AI模型“Orion”。与上两次发布的GPT-4o和o1不同，这次Orion不会一上来就通过ChatGPT广泛开放使用，而是先为一些紧密合作的公司提供使用权限，帮助它们打造各自的产品和功能。消息人士还透露，微软内部工程师正准备在11月就将Orion部署到Azure云平台。作为OpenAI在GPT-4后的继任者，Orion的定位不一般，但目前尚不确定是否会以GPT-5之名对外发布。发布计划仍有变数，随时可能延迟。对于此事，OpenAI和微软均未予置评。据悉，一位OpenAI高管曾透露，Orion的算力可能高达GPT-4的100倍，这使它有别于OpenAI在9月发布的o1推理模型。OpenAI的长远目标是融合各大语言模型（LLM），最终打造出具备“通用人工智能”（AGI）潜力的超级模型。据悉，OpenAI早前已使用代号为“草莓”的o1模型生成的合成数据来训练Orion。今年9月，OpenAI团队还在内部举办了一场庆祝活动，庆贺Orion训练完成，恰好与OpenAI CEO Sam Altman在X平台上的神秘发言相呼应。他曾在帖子中写道“期待冬季星座即将升起”，暗指Orion星座从11月到次年2月最为清晰。此时推出新模型对OpenAI意义重大。公司刚刚获得创纪录的66亿美元融资，但需转换为营利性实体，未来变数增加。同时，公司内部人员变动频繁，首席技术官Mira Murati、首席研究官Bob McGrew和后期训练副总裁Barret Zoph已宣布离职。

前Anchor联合创始人推出AI驱动教育平台Oboe，获400万美元种子投资

Posted on October 24, 2024October 25, 2024 by aitrendtrackers@rengongzhineng.io

曾将上一家初创公司卖给Spotify的两位联合创始人，Nir Zicherman和Michael Mignano，正携手展开一个全新项目：一家名为Oboe的AI驱动教育初创公司，已获得400万美元的种子投资。这家公司旨在像他们之前的创业项目Anchor那样，帮助更多人轻松制作播客，而这次他们希望通过AI技术、音频和视频的结合，打造一个用户友好的界面，帮助人们扩展知识，推动教育普及。 Zicherman表示：“这个想法其实我们已经谈了很久，因为我们都认为教育领域存在一个巨大的机会，远超出很多人的想象。” 在2023年10月离开Spotify后，Zicherman短暂休息了一段时间，随后便开始组建小团队，重拾创业热情，回归创业初期那种亲力亲为的状态。他从自己在Spotify的工作中获得了灵感，特别是在开发Spotify的有声书业务并将其扩展到更多市场的经历。 Zicherman指出：“我当初对有声书感兴趣的一个主要原因是，它让更多人能够接触到优质内容，尤其是教育类内容，并让这些内容更加普及。” Oboe的使命延续了这个目标，但并不是通过有声书的形式实现。相反，团队设想了一款能够让更多人参与“主动学习之旅”的产品，通过AI技术为用户量身定制课程内容，并优化课程的呈现方式，使学习更加个性化。这款产品将在多个平台上提供，类似于现有的在线学习服务，包含本地应用程序。与其他学习平台不同，Oboe将通过AI实现差异化，AI不仅能定制课程内容，还能提供互动体验。比如，AI生成的语音将成为产品的一部分，而Oboe的后端架构结合机器学习技术，将根据用户的学习方式逐步优化内容呈现。考虑到AI技术存在生成虚假信息的风险，Oboe将致力于确保内容的准确性和高质量，打造可扩展的教育平台。Zicherman透露，Oboe虽然会依赖一些第三方基础AI模型，但团队也正在内部进行大量工作，以优化其数据架构，实现个性化课程。 “这款产品绝不仅仅是现有大型语言模型的简单包装，”Zicherman说道，“它背后有很多复杂的技术。” 此外，Oboe还将通过多种格式提供学习内容。当用户无法查看屏幕时，比如在跑步或开车时，可以通过音频学习；而在其他时间，用户则可以通过视频、应用程序或网站进行互动学习。最初，Oboe将重点关注少数几个学习领域，比如自学编程或为大学生提供课堂外的补充材料。这些课程主要针对K12阶段以上的学习者，但Oboe的最终目标是实现“让人类变得更聪明”的使命——虽然这看似是一个极其宏大的目标。未来，Oboe计划进入K12教育、职业技能提升以及娱乐性学习领域，比如学习新乐器。（有趣的是，Oboe不仅是一种管弦乐器，也是日语中“学习”一词的词根。） Oboe总部位于纽约，目前尚未透露更多产品细节。不过，Zicherman和Mignano已经吸引到了一些投资者的支持，其中包括曾与他们在Anchor项目中合作过的投资人。Mignano将继续担任Lightspeed的全职合伙人，同时在Oboe的董事会中担任重要角色，支持Zicherman担任CEO。 Mignano告诉TechCrunch：“作为Oboe的联合创始人，Nir和我密切合作，为公司制定初期战略和产品方向。Lightspeed的合伙人非常支持我同时担任投资者和创始人，毕竟我们有很多投资者自己也曾创办或孵化过公司。” Oboe的400万美元种子轮融资由Eniac Ventures领投——该公司也是Anchor种子轮的领投方。其他投资者包括Haystack、Factorial Capital、Homebrew、Offline Ventures，以及Scott Belsky、Kayvon Beykpour、Nikita Bier、Tim Ferriss和Matt Lieber等天使投资人。

本周苹果发布的iOS 18.2更新，已经带来了备受期待的ChatGPT集成功能

Posted on October 24, 2024October 24, 2024 by aitrendtrackers@rengongzhineng.io

在今年六月的WWDC上，苹果通过其AI平台Apple Intelligence展示了一系列强大的AI更新，吊足了人们的胃口。最近，这些功能逐步通过iOS更新向公众推出。下周，苹果将正式发布首批AI功能的更新，包括AI驱动的写作工具、图片清理、文章摘要功能，以及重新设计的Siri，作为iOS 18.1更新的一部分。不过，本周苹果发布的iOS 18.2更新，已经带来了备受期待的ChatGPT集成功能！遗憾的是，这些功能目前仅在beta版中可用，公众用户还需等待一段时间。 ChatGPT将用于增强Siri的功能，当Siri检测到某个问题或任务过于复杂（如规划旅行行程或查找食谱）时，它会在获得用户许可后，将任务自动转交给ChatGPT。此外，ChatGPT还将为苹果的视觉智能工具提供支持，该工具类似于Google Lens，能够使用设备的摄像头识别文字、物体和标志，并将其翻译成不同语言、执行特定任务（如保存电话号码到联系人）并提供相关信息。除了ChatGPT的集成，苹果还推出了表情符号生成器Genmoji，用户可以根据描述性提示或照片创建个性化的表情符号。此外，苹果的AI图像生成器Image Playground也将内置于Messages、Pages和Keynote等应用中，允许用户根据文本提示或照片创建图像。Image Wand功能也将同时发布，用户可以用它删除照片中的物体，将草图转化为艺术作品，并清理手写笔记。这些AI更新让用户的创作和生活更加智能化，也展现了苹果在AI领域不断推进的步伐。

六款最佳的本地LLM工具

Posted on October 24, 2024October 24, 2024 by aitrendtrackers@rengongzhineng.io

运行大型语言模型（LLM）如ChatGPT和Claude通常需要将数据发送到由OpenAI和其他AI模型提供商管理的服务器。虽然这些服务是安全的，但一些企业为了更高的隐私保护，倾向于将数据完全离线保存。本文将介绍六款开发者可以用于本地运行和测试LLM的工具，这些工具确保数据不会离开本地设备，类似于端到端加密对隐私的保护方式。为什么要使用本地LLM？像LM Studio这样的工具不收集用户数据或追踪用户操作，允许所有聊天数据保存在本地机器上，而不与AI/ML服务器共享。六款最佳的本地LLM工具根据具体使用场景，可以选择以下几款离线LLM应用程序。有些工具完全免费用于个人和商业用途，另一些可能需要为商业使用提出申请。以下是适用于Mac、Windows和Linux的六大最佳工具。 1. LM Studio LM Studio可以运行任何gguf格式的模型文件，支持来自Llama 3.1、Phi 3、Mistral和Gemma等提供商的模型文件。下载应用程序后，LM Studio会展示顶级LLM供下载测试，还可以通过搜索栏筛选特定模型。 LM Studio主要功能使用LM Studio的好处免费用于个人用途，无需API密钥即可连接OpenAI的Python库。支持在一台设备上运行多个模型，并提供美观易用的界面。 2. Jan Jan是一个开源的ChatGPT版本，专为离线使用而设计。它允许用户在不连接网络的情况下运行Llama或Mistral等流行模型，还可以连接远程API如OpenAI。 Jan主要功能 3. Llamafile Llamafile由Mozilla支持，旨在通过快速的CPU推理和无需网络访问的方式让AI变得更为普及。它将LLM转换为多平台的可执行文件格式（ELF）。 Llamafile主要功能使用Llamafile的好处完全离线运行，适合需要快速处理长文本和大文档的场景。 4. GPT4ALL GPT4ALL以隐私和安全为核心设计，不需要互联网即可运行LLM。它支持Mac、Windows和Ubuntu。 GPT4ALL主要功能 5. Ollama Ollama允许用户无需连接API即可轻松创建本地聊天机器人，支持大量模型库，且无需支付订阅费用。 Ollama主要功能 6. LLaMa.cpp LLaMa.cpp是众多本地LLM工具（如Ollama）的底层技术，支持在各种硬件上进行高效的本地推理。 LLaMa.cpp主要功能本地LLM的应用场景本地运行LLM适合需要更高隐私性、不便联网或信号不佳的场景。例如，在远程医疗环境中，可以离线处理患者文档，避免上传到任何AI API。结论选择并使用本地LLM工具有多种优势，不仅可以节省费用，还能确保数据隐私。在如LLM Studio和Jan这样的图形用户界面工具中，开发者无需订阅服务即可配置和实验LLM模型。而命令行工具如Ollama和LLaMa.cpp则适合那些希望深入研究和测试模型的用户。

Python 3.13的推出巩固AI和ML发展的程序语言王者地位

Posted on October 24, 2024October 24, 2024 by aitrendtrackers@rengongzhineng.io

Python 3.13 最近正式发布，带来了大量重要更新。作为机器学习、数据科学和人工智能领域最广泛使用的编程语言，Python一直在不断演变，以满足这些领域日益增长的需求。此次发布的Python 3.13包含了多个旨在提升性能和开发效率的改进，标志着该语言在ML和AI项目中的重要里程碑。Python在这些领域占据主导地位，主要归功于其简洁的语法、丰富的库支持以及庞大的社区。然而，随着人工智能领域的不断扩展，对更高效的Python代码需求变得愈加迫切。 Python 3.13 引入了实验性功能，如无GIL多线程执行和即时编译（JIT），这些功能可以显著提高机器学习训练和推理等计算密集型任务的性能。以下是此次更新中最重要的几点，帮助开发者更轻松地了解新版本的改进内容： 1. 实验性的无GIL多线程支持 (PEP 703) Python的全局解释器锁（GIL）一直以来都是多线程处理中的一个重大瓶颈，尤其在需要并行计算的任务中。GIL限制了多个原生线程同时执行Python字节码，这对于依赖CPU的大规模机器学习模型训练任务造成了性能瓶颈。虽然Python支持多线程，但由于GIL的存在，实际上在任何时刻只有一个线程在运行解释器。自由线程化执行的引入Python 3.13 引入了实验性的无GIL执行支持，这意味着Python现在可以真正支持多线程。通过去除GIL，Python能够在多个核心上同时运行多个线程，从而大幅提升多线程应用的执行速度。机器学习工作负载的好处 2. 即时编译器 (JIT) 的引入 (PEP 744) 即时编译器通过在程序执行时将部分代码编译为机器语言来提升性能，而不是像传统的提前编译方式。这使得代码执行速度更快，尤其适用于机器学习和AI等计算密集型任务。传统解释与JIT编译的差异对ML和AI开发的影响 3. 增强的类型系统 Python 3.13在类型系统方面也做出了多项改进，帮助开发者编写更加清晰、易维护且类型安全的代码。这对大型机器学习项目尤为有用，因为清晰的类型定义有助于避免运行时错误。 4. “asyncio” 的改进 Python 3.13为asyncio模块带来了几项重要更新，提升了并发和任务管理的能力。对于需要实时数据处理或模型推断的AI和ML环境来说，这些改进至关重要。 TaskGroup增强 5. 标准库增强 Python 3.13中的标准库也做出了若干更新，为机器学习和AI开发工作流带来了极大便利。 6. 安全性与可靠性改进 Python 3.13引入了多项安全性更新，确保AI应用能够在分布式环境中更安全、可靠地运行。例如，SSL的默认安全配置得到了增强，使网络通信更加安全。 7. 平台支持更新 Python 3.13显著扩展了对平台的支持，首次正式支持iOS和Android设备。这对于希望将AI模型部署到移动设备的开发者来说是一个重大利好。 WebAssembly支持Python 3.13加强了对WebAssembly的支持，允许Python代码在浏览器中运行，打开了客户端机器学习应用的新可能性。 8. 发布周期更新 Python 3.13扩展了发布支持周期，延长了完整支持期至两年，这为长期项目提供了更大的稳定性，特别适用于AI模型的生产部署。如果你从事机器学习和人工智能领域的开发，现在正是探索Python 3.13新特性的好时机。测试无GIL多线程和JIT编译器，看看它们如何提升你的工作负载。

AI的未来：科技进步如何避免加剧全球不平等

Posted on October 24, 2024October 24, 2024 by aitrendtrackers@rengongzhineng.io

著名的人工智能研究人员对通用人工智能（AGI）的到来有着截然不同的预测，时间范围从“未来几年”到“可能永远不会发生”不等。同时，经济学家对人工智能的潜在影响也意见不一：有些人预期AI将带来持续加速的生产力增长，而另一些人则预计AI只会带来较为温和的提升。不过，大多数专家一致认为，尽管科技进步可能充满希望，但并不能保证每个人都会从中受益。不幸的是，尽管一些知名的AI研发机构声称确保AI惠及所有人是其核心目标或指导原则之一，然而在AI治理方面，真正投资于促进包容性未来的领域却少之又少。鉴于当前AI领域的不确定性，这种现象似乎可以理解：AI对劳动力市场和不平等的影响仍然充满未知，因此很难设计出有效的干预措施。然而，未来几十年AI与不平等之间的相互作用，至少有一些因素可以预测。如果能够关注这些因素，我们将有机会让“AI惠及每个人”不再只是一个空想。由于AI的发展主要由私营部门推动，因此它深受全球经济激励结构的影响。如果说可以对这些经济体的未来做出相对确定的预测，那么其中一个显而易见的因素就是人口结构。高收入国家的人口正迅速老龄化，且没有移民的情况下人口将减少，而低收入和中等偏下收入国家的人口则将在本世纪持续增长，原因是出生率远高于死亡率。那么，这与AI有什么关系呢？AI开发集中在老龄化严重的国家，因此其发展路径将受到这些国家现实需求和激励的驱动。在这些国家，劳动年龄人口与退休人口的比例正在大幅下降，使得维持养老金计划和控制医疗成本变得越来越困难。为了保持退休人口的生活水平和总体经济活力，这些国家将寻找扩充有效劳动力的途径，无论是通过人力还是人工智能。增加退休年龄可以带来一些有限的（但很可能不受欢迎的）效果，而更大规模的劳动力补充则可能通过移民实现。然而，维持劳动年龄人口与退休人口的比例不变，意味着高收入国家需要大幅增加移民数量。尽管广泛的反移民情绪使这一前景看似不太可能，但如果人们面临养老金减少和医疗成本上升的压力，舆论可能会迅速发生变化。如果高收入国家的移民政策仍然过于严格，未来几十年我们可能会看到通过AI填补劳动力空缺的经济激励大幅增强。表面上看，人口减少和职位空缺似乎不会加剧不平等，但如果AI的引入伴随着利益分配不均、就业不稳定、对工人过度监控，以及对劳动技能的数字化却缺乏相应补偿，那么不平等问题将加剧。即使AI取代劳动力的努力在发达国家取得了良好进展，这也可能加深国家之间的贫富差距。在21世纪的大部分时间里，低收入国家的人口将继续年轻化和增长，而这些国家迫切需要的不是替代劳动的技术，而是有益的就业机会。问题在于，虽然某些国家发明的机器是为了解决劳动力短缺问题，但这些技术往往会迅速传播到那些失业率高且大部分劳动人口从事非正式工作的国家。于是我们可以看到，自助服务终端出现在南非的餐馆和印度的机场，取代了这些国家本已稀缺的正规就业岗位。在这样的世界中，许多有利于全球发展的AI应用可能会相对滞后于那些节省劳动力的项目。例如，开发应对气候变化、预测自然灾害或提供个性化教育的AI项目，可能会让位于那些专注于降低零售、酒店和交通行业劳动力成本的项目。要确保AI不仅仅为富裕国家服务，还能帮助解决贫困国家的需求，政府、开发银行和慈善机构需要进行更大规模、更有针对性的投资。而目前，这类投资的资金规模相对较小，AI正沿着一条“默认”路径前进，而这条路径距离包容性发展目标相去甚远。不过，默认并不等于命运。我们可以选择将更多的公共研发力量引向应对全球紧迫挑战，例如加速绿色转型和改善教育成果。我们也可以增加对低收入国家AI开发中心的投资和支持。制定有助于增加劳动力流动性的政策，将有助于在国家之间创造更平衡的劳动年龄人口分布，减轻促使商业AI替代就业的经济压力。如果我们什么都不做，那么扭曲的激励机制将继续塑造这一强大技术，带来深远的负面后果，不仅是对低收入国家而言，更是对所有人。

世界首例利用捐赠细胞的疗法成功缓解自身免疫疾病

Posted on October 23, 2024October 23, 2024 by aitrendtrackers@rengongzhineng.io

中国的两名男性和一名女性在接受了经过生物工程和CRISPR基因编辑的免疫细胞治疗后，其严重的自身免疫疾病已进入缓解状态。这三名患者是全球首批使用捐赠者免疫细胞（而非自体细胞）进行治疗的自身免疫疾病患者。这一突破标志着这种治疗方式向大规模生产迈出了重要一步。其中一位患者是57岁的上海人龚先生，他患有系统性硬化症，这种疾病会影响结缔组织，导致皮肤僵硬和器官损伤。他表示，在接受治疗三天后，皮肤开始变得松弛，手指和嘴巴的活动能力也有所恢复。两周后，他便重返工作岗位。龚先生表示，在接受治疗一年多后，他依然感觉良好。这种被称为嵌合抗原受体（CAR）T细胞的工程化免疫细胞，在治疗血液癌症方面展现出了巨大的潜力，美国已经批准了多款产品。同时，这种疗法在治疗自身免疫疾病方面也展现了希望，例如系统性红斑狼疮和多发性硬化症等，在这些疾病中，免疫系统会攻击自身组织。然而，现有的CAR-T疗法通常依赖患者自体免疫细胞，使得治疗过程既昂贵又耗时。为了提高效率，研究人员开始探索使用捐赠的免疫细胞来制造CAR-T疗法。如果成功，这一方法将使制药公司能够规模化生产，从而大幅降低成本和缩短生产时间。来自清华大学的免疫学家林欣表示，一个捐赠者的细胞可以为100多人提供治疗，而不是每个患者都需要定制疗法。这项临床试验由上海海军军医大学的风湿病学家徐虎吉领导，研究结果发表在《细胞》杂志上。治疗六个月后，患者的病情仍处于缓解状态。徐教授表示，已有另外24名患者接受了这种疗法，结果大多是积极的。 CAR-T细胞疗法通常从患者体内提取T细胞，经过工程化处理后再回输。而此次，研究人员从一位21岁的女性捐赠者体内提取T细胞，并通过CRISPR技术编辑这些细胞，以避免捐赠的细胞攻击受体，同时防止受体的免疫系统排斥捐赠细胞。研究人员表示，尽管短期内疗效显著，但仍需长期观察疗效是否持久。

Anthropic推出了一个颠覆性的功能——AI操作电脑

Posted on October 23, 2024October 23, 2024 by aitrendtrackers@rengongzhineng.io

今天，Anthropic公司正式推出升级版Claude 3.5 Sonnet和全新模型Claude 3.5 Haiku。升级后的Claude 3.5 Sonnet在各方面性能上都有显著提升，尤其在编码领域，其表现已领先于其他AI模型。而Claude 3.5 Haiku的表现也不遑多让，它的表现与此前最大的Claude 3 Opus相当，但速度更快、成本更低，与上一代Haiku性能相似。与此同时，Anthropic还推出了一个颠覆性的功能——AI操作电脑，现已在API上进入公测阶段。开发者可以让Claude像人类一样使用电脑，能够“看”屏幕、移动光标、点击按钮、输入文字。Claude 3.5 Sonnet是首个公开测试阶段支持这一功能的AI模型，目前仍处于实验阶段，偶尔操作还不够流畅、容易出错。Anthropic旨在通过开发者的反馈不断完善这一功能。 Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等公司已开始利用Claude 3.5 Sonnet的电脑操作能力，完成需要数十甚至上百步的复杂任务。例如，Replit正利用其UI导航能力，开发一项关键功能，用于在应用程序构建过程中进行评估。现在，升级版Claude 3.5 Sonnet已经对所有用户开放，开发者可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI进行构建。而全新的Claude 3.5 Haiku将在本月晚些时候发布。 Claude 3.5 Sonnet：行业领先的软件工程能力升级后的Claude 3.5 Sonnet在多个行业基准测试中表现优异，特别是在编码和工具使用任务中表现突出。在编码方面，其在SWE-bench Verified中的表现从33.4%提升到49.0%，超越了所有公开可用的模型，包括专门设计用于代理编码的系统和推理模型。同时，它在TAU-bench工具使用任务中的表现也有所提升，从零售领域的62.6%提升至69.2%，在更具挑战性的航空领域则从36.0%上升到46.0%。 GitLab对该模型进行了DevSecOps任务测试，发现其推理能力提升了约10%，并且没有增加延迟，非常适合用于多步骤的软件开发流程。Cognition也使用Claude 3.5 Sonnet进行自主AI评估，发现其编码、规划和问题解决能力相比前一代有了显著改善。而The Browser Company则在使用该模型进行网页自动化工作流程时，发现它的表现优于之前测试过的所有模型。此外，Claude 3.5 Sonnet的部署前测试还由美国AI安全研究所（US AISI）和英国安全研究所（UK AISI）联合进行，确保其安全性能符合Anthropic的《责任扩展政策》中的ASL-2标准。 Claude 3.5 Haiku：速度与性价比的完美结合 Claude 3.5 Haiku是Anthropic最新、速度最快的模型，与Claude 3 Haiku相比，虽然成本相同、速度相似，但在各个方面都有提升，甚至在许多智能基准测试中超过了Claude 3 Opus。它在编码任务上的表现尤为突出，例如在SWE-bench…

Perplexity 推出了一项全新的功能——内部知识搜索和Spaces

Posted on October 22, 2024October 22, 2024 by aitrendtrackers@rengongzhineng.io

Perplexity 推出了一项全新的功能——内部知识搜索和Spaces，旨在提升用户的研究效率，并为团队提供更强大的协作工具。内部知识搜索：从网络到工作空间，Perplexity 覆盖所有信息多年来，Perplexity的用户一直要求能够在网络内容之外，搜索内部文件。现在，Perplexity Pro和Enterprise Pro用户可以同时在公共网络和内部知识库中进行搜索，将不同来源的信息无缝整合，加快获取答案的速度。一些企业客户已经率先使用了这一功能，例如： Perplexity首席执行官Aravind Srinivas表示：“在相关业务背景下搜索网络信息从未如此简单。Perplexity将内外部数据整合在一个平台上，为企业带来了巨大的生产力提升。” Spaces：你的AI驱动的研究与协作中心 Perplexity还推出了Spaces，这是一个支持团队合作的AI驱动平台，团队成员可以在这里共同研究、组织信息。无论是进行项目研究、创建客户提案，还是学生团队制作学习指南，Spaces 都可以根据具体需求深度定制。在Spaces中，用户可以： Spaces为团队提供全面的访问控制，确保所有研究和文件在团队内部保持安全。对于Enterprise Pro用户，所有文件和搜索结果默认不参与AI训练。Pro用户也可以在设置中选择退出AI训练。即将推出的第三方数据集成不久后，Enterprise Pro 用户还可以使用Crunchbase和FactSet的数据集成，进一步扩展知识库。这将允许用户同时搜索公共网络、内部文件和专有数据集，更多第三方集成也在开发中。 Perplexity 正在打造一个全面、快速、准确的研究平台，成为任何组织的综合知识中心。了解更多并注册Enterprise Pro，请访问 Perplexity官网。

Subscribe 订阅