AI TrendTrackers

Gemini 2.0可能会在12月发布

Posted on October 28, 2024October 28, 2024 by aitrendtrackers@rengongzhineng.io

Gemini 2.0可能会在12月发布，预计带来整体性能提升。与此同时，有传言称ChatGPT-5也可能同期推出。尽管OpenAI CEO Sam Altman此前称ChatGPT-5的消息为“假新闻”，但现在已有报道称Google的Gemini 2.0或将于未来几个月上线。根据《The Verge》和9to5Google的报道，Google上次进行重大Gemini升级是在今年2月推出的Gemini 1.5版本。Gemini不仅是Google AI聊天机器人系列的名字，也是背后的核心模型代号。尽管此次报告未具体说明Gemini 2.0的改进内容，但以往升级经验来看，用户可期待更智能的回复、更快的处理速度、更长的输入支持，以及更稳定的推理和编码能力。不过，报道指出，Gemini 2.0的性能提升可能不如开发者最初预期，反映出所有大型语言模型（LLM）目前普遍面临的技术挑战。如果Google和OpenAI真的在年底前推出AI模型升级，将进一步印证科技巨头们在人工智能上的投入力度，争取在这场AI竞赛中领跑。近期已有多项新AI工具面世，包括视频生成、图像生成升级和个性化搜索功能等。同时，iPhone用户也将在下周首次体验Apple Intelligence的AI增强功能。然而，大家仍在等待Google在I/O大会上展示的下一代Project Astra AI助手的正式发布。Project Astra结合了多种输入输出方式，旨在提供更自然、智能的交互体验，或将成为未来AI助手的全新标杆。

别再盯着AI图像生成器了，一位“自主AI艺术家”刚在苏富比拍卖行赚了35.16万美元！

Posted on October 28, 2024October 28, 2024 by aitrendtrackers@rengongzhineng.io

人们常说，尽管AI图像生成器在发展，仍需要人类的创意介入，AI不可能完全取代艺术家。然而，“全自主AI艺术家”Botto刚刚在苏富比拍出351,600美元的作品，似乎打破了这一传统观念。自2021年“艺术生涯”开始以来，Botto的作品已累计售出超400万美元。这位非人类艺术家不仅生成自己的创意作品，还通过一个拥有15,000成员的社区BottoDAO进行筛选，由他们决定每周哪些作品被铸成NFT，这一过程也反过来影响了Botto的创作“口味”。 Botto由德国艺术家Mario Klingemann和软件开发团队ElevenYellow共同构思。Botto至今已有“创世纪”、“间隙”以及“时空回声”等艺术阶段，并在苏富比推出了《阈限的梦境》等作品。此次名为“超然舞台：Botto，一位去中心化的AI艺术家”的展览共售出六幅NFT作品，超出预期价格。由于AI作品无法获得版权，NFT链上身份验证显得尤为重要，这赋予购买者对“原始版本”的拥有权。 Botto的合作者Simon Hudson表示：“三年时间对艺术史来说不算长，但在我们的计算未来中，这几乎可以视为‘瞬间’。Botto的展览‘超然舞台’将成为这一AI艺术实体真正意义浮现的早期信号。”苏富比数字艺术主管Michael Bouhanna则评论称：“‘超然舞台’不仅是Botto历程中的重要里程碑，还突显了AI对艺术的变革潜力。Botto通过集体参与，挑战了传统艺术创作的观念，向人机协作的未来迈进。” 尽管NFT市场在2022年泡沫破裂后有所冷却，但像Botto这样的AI艺术家可能为这一市场带来新的活力。不过，这种需求是否可持续还有待观察——是人们出于新奇才购买，还是这类机器人创作的作品有真正的市场价值？目前，AI艺术依然在品牌推广中引发争议。爱尔兰交通局最近发布的AI万圣节艺术作品就因“AI标签”遭遇网友批评，说明了公众对AI艺术的复杂情绪。

谷歌推出了全新AI代理—Jarvis！

Posted on October 28, 2024October 28, 2024 by aitrendtrackers@rengongzhineng.io

预计今年12月推出的Jarvis将大显身手，助力企业完成开发、客户关系管理（CRM）、企业资源计划（ERP）等多项任务。据《The Information》报道，Google正致力于开发Jarvis，这款AI系统基于其全新语言模型Gemini 2.0，支持用户在Chrome浏览器上自动化操作，如进行研究、购物等。它不仅具备读取和理解截图的功能，还能生成文本并模拟用户操作，为企业和个人用户带来更多便利。目前，AI自动化市场已引入多方竞争者。除Google外，Anthropic和OpenAI等公司也在开发类似技术，推动Agentic AI领域的创新。Anthropic的最新功能“计算机使用”能力可让开发者通过Claude 3.5 Sonnet与Anthropic API进行交互，AI能阅读和解释屏幕内容、输入文本、移动光标、点击按钮，并在窗口和应用间切换。这种高效自动化的方式远优于传统的流程自动化（RPA），为用户操作电脑开辟了全新路径。虽然Jarvis看似面向普通消费者，但其浏览器端的操作能力对企业用户同样适用，特别是在依赖网页端的开发、工作流和自动化管理等领域。业界传言，Google可能比Anthropic更早具备基于截图的坐标识别能力，表明该公司早已在AI自动化领域进行深入探索。与此同时，OpenAI也在研发类似功能，有消息称其内部已有一项名为“Tools”的功能，与Anthropic的技术理念如出一辙。此外，Meta也在缩小其语言模型的尺寸，以实现智能手机兼容性，而微软则在其Copilot中新增了“Vision”功能，可以识别图像并回答相关问题。苹果也在通过Apple Intelligence更新，让Siri具备更强的自动化能力。综上，AI驱动的自动化操作技术正逐渐改变人们的计算机交互方式，Jarvis和其他系统的推出或将掀起新一轮自动化浪潮，为用户带来前所未有的操作效率和智能体验。

苹果全新推出的Ferret-UI 2 AI系统，能够在iPhone、iPad、安卓设备以及Apple TV上操控应用程序，实现跨平台的智能交互

Posted on October 28, 2024October 28, 2024 by aitrendtrackers@rengongzhineng.io

苹果公司推出了一款名为Ferret-UI 2的全新AI系统 https://huggingface.co/spaces/jadechoghari/ferret-demo ，具备跨设备读取和控制应用程序的能力，支持iPhone、iPad、安卓设备、网络浏览器和Apple TV。该系统在UI元素识别测试中获得了89.73的高分，远超GPT-4o的77.73分，不仅在文本和按钮识别等基础任务上有显著提升，在复杂操作方面也表现出色。 Ferret-UI 2能够理解用户意图，而非依赖具体的点击坐标。举个例子，当用户输入“请确认您的输入”时，系统能识别出相关按钮，而不需要精确的定位数据。这项技术得益于苹果研究团队使用GPT-4o的视觉能力生成的高质量训练数据，从而帮助系统更好地理解UI元素之间的空间关系。该系统采用自适应架构，在多个平台上识别UI元素。其内置算法可根据不同平台的需求自动平衡图像分辨率和处理需求，既保留信息又有效率。测试结果显示，Ferret-UI 2在跨平台上表现良好，特别是使用iPhone数据训练的模型在iPad上实现68%的准确率，在安卓设备上达到71%。但系统在移动设备与电视或网页接口之间的转换上遇到了一些困难，研究人员认为这是由屏幕布局差异引起的。此外，苹果测试了多种语言模型，其中Llama-3表现最佳，但体积更小的Gemma-2B也取得了不错的成绩。Llama和Gemma版本的Ferret UI模型目前可在Hugging Face平台获取，配有演示版本。与此同时，微软发布了一款名为OmniParser的开源工具，可以将屏幕内容转换为结构化数据，这也展示了业内对UI理解AI技术的关注。苹果还发布了一个名为CAMPHOR的框架，通过多AI代理协作来完成复杂任务。结合Ferret-UI 2，该技术有望使Siri等语音助手在未来实现更复杂的任务，例如通过语音命令查找并预订餐厅，进一步提升用户体验。 Ferret-UI 2的推出意味着苹果在打造能够自然理解和操作人类UI界面的AI系统方面迈出了重要一步，为智能交互技术树立了新的标杆。

Google DeepMind的研究人员提出了Talker-Reasoner框架

Posted on October 27, 2024October 27, 2024 by aitrendtrackers@rengongzhineng.io

AI智能体在应对各种任务时，常需要不同的速度、推理和规划能力。理想情况下，智能体应能区分何时使用直觉记忆，何时利用更复杂的推理能力。然而，设计能根据任务需求正确执行的智能系统仍是一项挑战。在一项最新论文中，Google DeepMind的研究人员提出了Talker-Reasoner框架，这是一个受人类“双系统”思维模型启发的智能体架构。该框架旨在为AI智能体找到不同推理方式之间的最佳平衡，以实现更顺畅的用户体验。人类与AI的系统1和系统2思维诺贝尔奖得主丹尼尔·卡尼曼的“双系统”理论表明，人类的思维由两个不同的系统驱动。系统1是快速、直觉且自动的，负责我们的快速判断，例如应对突发事件或识别熟悉的模式。系统2则缓慢、深思熟虑且分析性强，负责复杂问题的解决、规划和推理。这两个系统并非完全独立，而是相互影响。系统1生成直觉和初步判断，系统2对这些判断进行评估，并在认可后将其整合为明确的信念和选择。这种互动使人类能够灵活地应对从日常生活到复杂问题的多种情境。目前，大多数AI智能体主要依赖系统1模式，擅长模式识别、快速反应和重复性任务。然而，在需要多步骤规划、复杂推理和战略性决策的场景中，AI往往难以胜任，这正是系统2思维的强项。 Talker-Reasoner框架 DeepMind提出的Talker-Reasoner框架赋予AI智能体系统1和系统2的能力。它将智能体分为“Talker”（对话者）和“Reasoner”（推理者）两个模块。研究人员写道：“Talker专注于生成自然且连贯的对话，而Reasoner专注于多步骤规划和基于环境信息进行推理。” 这两个模块通过共享记忆系统进行交互。Reasoner更新其信念和推理结果，Talker则从中检索信息以指导互动。这种异步通信方式允许Talker维持对话的连续性，即使Reasoner在后台进行较长时间的计算。研究人员解释道：“这类似于行为科学中的双系统方法，系统1始终在线，而系统2只在需要时启动。Talker始终保持环境互动，Reasoner则仅在Talker需要时或通过记忆读取信念更新。” Talker-Reasoner框架应用于AI辅导研究人员在睡眠辅导应用中测试了Talker-Reasoner框架。该AI教练通过自然语言与用户互动，提供个性化的睡眠改善指导。这种应用需要快速、情感共鸣的对话和基于知识的深思熟虑的推理。在此应用中，Talker组件负责对话，提供情感支持并引导用户完成辅导过程的不同阶段。Reasoner则维护用户的睡眠问题、目标、习惯和环境的信念状态，并基于这些信息生成个性化建议和多步骤计划。这一框架同样适用于客户服务和个性化教育等其他应用场景。未来研究方向 DeepMind研究人员指出，未来研究的一项重点是优化Talker与Reasoner的交互。理想情况下，Talker应能自动判断何时需要Reasoner的介入，以减少不必要的计算，提高整体效率。另一方向是扩展框架，使其整合多个Reasoner，每个Reasoner专注于不同类型的推理或知识领域。这样可以使智能体更好地应对复杂任务，提供更全面的支持。

Google推出新的医疗基础工具CT Foundation：适用于3D CT体积影像的研究工具

Posted on October 27, 2024October 27, 2024 by aitrendtrackers@rengongzhineng.io

CT Foundation(https://github.com/Google-Health/imaging-research/tree/master/ct-foundation)是一个面向3D CT体积影像的基础工具，基于Google在胸部X射线、皮肤病和数字病理学方面的技术，进一步扩展到3D成像领域。近年来，开发人员和研究人员在构建AI应用方面取得了显著进展。Google Research通过提供用于放射学、数字病理和皮肤病学的易用嵌入式API，帮助AI开发者以更少的数据和计算资源训练模型。但这些应用主要集中在2D成像，而实际诊断中，医生通常依赖3D影像做出复杂的判断。以CT扫描为例，这是一种常见的3D医疗成像技术，每年仅在美国就有超过7000万次CT扫描，主要用于肺癌筛查、神经系统急诊评估、心脏和创伤成像，以及异常X光检查后的进一步检查。然而，由于CT影像具有体积特性，比2D X光更复杂、耗时且需要更大计算和存储资源。通常情况下，CT扫描数据以标准DICOM格式的2D图像序列存储，然后重新组合成3D体积用于观察或进一步分析。Google于2018年开发了一个低剂量胸部CT影像的肺癌检测研究模型，并在之后改进模型，将其应用于多种临床工作流程，并与欧洲的Aidence公司和印度的Apollo Radiology International合作，将模型投入生产。基于多模态头部CT影像的研究，Google早前在Med-Gemini中描述了自动报告生成的研究成果。基于Google在3D医学影像模型训练方面的经验，以及CT在诊断医学中的重要性，Google设计了CT Foundation，使研究人员和开发者能够更加轻松地构建适用于不同身体部位的CT影像模型。CT Foundation是一个新发布的医疗影像嵌入工具，它可以将CT体积影像输入转化为信息丰富的数值嵌入，用于快速训练模型。此模型仅供研究使用，不可用于患者护理或诊断治疗。开发者和研究人员可申请免费获取CT Foundation API的访问权限。Google还提供了一个示例代码笔记本，展示如何使用公开的NLST数据进行肺癌检测模型的训练。 CT Foundation的工作原理 CT Foundation能够处理DICOM格式的CT体积影像，并生成1,408维的嵌入向量，汇总重要的器官、组织及异常信息。CT Foundation API自动处理原始DICOM图像，将切片排序、合成为体积影像、进行模型推理并返回CT嵌入结果，免去用户的预处理步骤。用户可以将这些嵌入向量用于分类模型（如逻辑回归、多层感知器）训练，在较少数据下实现高性能，同时显著降低计算资源消耗。 CT Foundation基于VideoCoCa（视频-文本模型）设计，该模型从2D CoCa（对比描述生成模型）延伸而来，专为2D图像与文本的高效迁移学习。Google首先训练了一个专用的医学影像2D CoCa模型，将其作为VideoCoCa的基础，再使用轴向CT切片与放射学报告共同训练VideoCoCa模型。 CT Foundation的评估为测试CT Foundation的实用性和泛化能力，Google在七个分类任务中评估其数据效率，包括头部、胸部和腹盆部的异常检测任务，涵盖脑出血、胸部和心脏钙化、肺癌预测、腹部病灶、肾结石和腹主动脉瘤等。除了肺癌预测和脑出血任务外，其他任务的标签均通过放射学报告自动提取。肺癌预测任务使用了来自NLST的2年内癌症确诊数据，脑出血任务则由放射科医生标注。Google利用不同大小的训练数据集，评估嵌入向量在多层感知器模型上的数据高效性，使用AUC（ROC曲线下面积）作为评估指标，AUC范围为0.0–1.0，其中1.0为完美模型，0.5为随机猜测。此外，Google还通过一个更通用的任务展示了CT Foundation在工作流应用中的实用性：身体部位分类。该任务目标是识别CT扫描的解剖区域。此任务的评估指标为八种不同检查类型的分类准确性：头/颈部、颈部、脊柱、心脏、血管造影、胸部、腹部/骨盆及四肢。嵌入向量仅1,408维，模型训练仅需CPU即可完成，并可在Colab Python笔记本中操作。即便在训练数据有限的情况下，除一个任务外，其余均能达到超过0.8的AUC。总结伴随CT Foundation的发布，Google提供了一个Python笔记本，帮助用户处理CT体积影像，进行模型训练和评估。CT Foundation以其高数据效率和低计算设计，使快速原型开发和研究成为可能，即使资源有限的情况下亦能应用。自动化处理DICOM格式数据的特性，也大大简化了CT建模流程，适合新手和经验丰富的研究人员和开发者。Google期待看到该工具在研究和开发领域的应用，也欢迎社区反馈CT Foundation的性能和应用案例。

为什么迈尔斯·布伦迪奇离开 OpenAI，下一步计划是什么

Posted on October 26, 2024October 26, 2024 by aitrendtrackers@rengongzhineng.io

自从2015年OpenAI发布以来，迈尔斯·布伦迪奇一直热情支持OpenAI的使命。即便如此，迈尔斯还是做出离开这家理想公司的决定，希望能有更多时间专注于整个AI行业的核心议题，保持独立性，并自由发表见解。他宣布将创建或加入一个非营利组织，专注于AI政策研究和倡导。他的研究方向涵盖AI进展的评估和预测、前沿AI的安全与监管、AI的经济影响、有益AI应用的加速、计算资源治理以及“AI宏观战略”等方面。为什么选择离开OpenAI？迈尔斯离开的原因主要在于，他希望从行业外部影响AI的发展。他提到，内部发布限制影响了他的研究效率，此外他希望摆脱在政策讨论中的利益冲突，客观地提出独立见解。迈尔斯认为，在外部继续他的AGI（通用人工智能）准备工作，更有助于其对OpenAI及行业的政策研究，尤其是关注如何管理和部署更高级的AI能力。未来的研究兴趣迈尔斯的研究主要聚焦以下六个领域：如何保持独立性？迈尔斯计划保持研究的独立性，并与不同背景的行业、学术、民间和政府组织保持建设性互动。他提到，尽管OpenAI愿意提供资金、API积分和模型访问，但他将慎重考虑这些支持可能带来的独立性影响。此外，他表示愿意与各种不同观念的人合作，以展现更全面的AI政策观点。

Genmo发布了开源Mochi-1视频生成模型作为“研究预览”版本

Posted on October 26, 2024October 26, 2024 by aitrendtrackers@rengongzhineng.io

生成式AI的竞争正在加剧，视频生成成为当前的核心战场之一，而Genmo正在以不同的方式切入这一领域。Genmo发布了其Mochi-1视频生成模型作为“研究预览”版本，并采用Apache 2.0开源许可证，使其在技术上更为开放，用户可以对其进行二次开发或重组。https://github.com/genmoai/models Mochi-1完全免费，用户可以在Genmo网站上直接尝试。开源属性还意味着该模型未来将登陆多种生成式AI平台，甚至有望在游戏PC上运行。随着视频生成领域的竞争激烈，不同服务各有所长，如Haiper提供的模板、Kling和Hailuo的逼真效果，或Pika Labs和Dream Machine的趣味特效，Genmo则专注于为开源领域带来最先进的技术。 Genmo的CEO Paras Jain表示，视频“运动”是模型评估的关键指标。他解释说，早期的视频生成模型有种“动态照片”的效果，但视频应以运动为主，Genmo团队为此进行了大量投资。这款模型虽小，但采用了一种全新的异步处理方式，通过100亿参数的变压器扩散模型，实现了强大的性能。为了确保视频生成的准确性，Mochi-1仅使用视频数据进行训练，而非混合视频、图像和文本的传统方法，这种方法提升了模型对物理原理的理解。同时，Genmo团队也在提示语理解上投入巨大，以确保模型能准确生成符合用户需求的视频。目前，Mochi-1的预览版视频分辨率被限制在480p。虽然清晰度有限，但Genmo希望这款模型能成为“开源领域的佼佼者”。Mochi-1不仅强调提示词的准确性，还通过类比OpenAI的DALL-E 3，利用视觉语言模型进行输出评估，以确保视频生成质量。在众多竞争者中，Mochi-1并不是唯一的开源视频生成模型。AI公司Rhymes本周也发布了Allegro模型，这款模型支持15帧/秒、720p分辨率的视频生成。尽管Mochi-1的清晰度稍低，仅支持24帧/秒和420p，但其开源特性和运动表现使其在视频生成市场中独具优势。目前，这些模型还无法在普通笔记本电脑上运行，但正如Jain所言，开源的优势在于未来可能通过优化让这些模型在低功率设备上运行，实现离线视频生成的潜力。

IBM刚刚发布了第三代Granite大型语言模型

Posted on October 26, 2024October 26, 2024 by aitrendtrackers@rengongzhineng.io

IBM刚刚发布了第三代Granite大型语言模型（LLM），其中核心包括Granite 3.0 2B Instruct和Granite 3.0 8B Instruct模型。作为开放源码模型，这些模型采用了Apache 2.0许可证，特别适用于在IBM watsonx AI平台上使用时免于法律责任风险。IBM强调，这些模型在12种人类语言和116种编程语言上进行了广泛的训练，共处理超过12万亿个令牌。Instruct模型意味着这些模型可以更准确地理解并执行指令。企业用途及扩展能力Granite 3.0系列专为企业任务优化，支持文本总结、信息提取、代码编写和解释性文档创建等任务。这些模型还可用于实体抽取和检索增强生成（RAG），显著提升文本生成的准确性。预计到2024年底，这些模型将支持文档理解、图表解释，甚至能够解答有关图形界面的产品屏幕问题。新增的“代理型”用例让Granite 3.0具备自主识别需求、使用工具并在设定范围内自主行动的能力。例如在虚拟助手、客户服务和决策支持中，这些模型无需人工干预即可完成复杂任务。此外，IBM还推出了新的“推测解码器”，即Granite 3.0 8B Accelerator，这一功能可通过预测未来词汇来加速文本生成过程，推测解码速度可提高一倍。在未来几周内，Granite 3.0的上下文长度将从4000个扩展到128,000个令牌，这对于长对话、RAG任务及代理型用例至关重要。同时，IBM还计划在年底前为Granite 3.0模型添加视觉输入，扩展其应用范围。网络安全和未来发展IBM的Granite 3.0模型在多个网络安全基准测试中表现优异，尤其在与Llama 3.1 8B Instruct和Mistral 7B Instruct的对比中显示出优势。IBM Research的团队在模型训练数据的筛选上投入大量研究，并开发了用于评估Granite模型网络安全性的专有基准。未来IBM还将发布“专家混合架构”小型高效模型，如1B参数的Granite 3.0 1B A400M和3B参数的Granite 3.0 3B A800M。此架构将模型划分为多个专门子网络，以提升效率，同时仅在推理中使用少量参数，以实现更高效的边缘计算和CPU服务器部署。 Granite Guardian模型的安全保障为确保输入和输出的安全，IBM还推出了Granite Guardian 3.0模型，用于检测潜在风险输入如越狱攻击，同时监控输出的偏见、公平性和暴力内容。Guardian模型在RAG流程中能检测到回答是否基于提供的上下文，若不符合则标记为异常。IBM计划到2025年将Granite Guardian模型规模缩小至1到4亿参数，以便更广泛应用于边缘设备、医疗、教育和金融领域。持续更新和未来展望Granite 3.0模型以其高性能和开放源码的灵活性在竞争中脱颖而出。IBM未来将增加JSON结构化提示等开发者友好功能，同时保持定期更新，使模型始终处于技术前沿。IBM对Granite系列模型的长期规划表明了其在推动AI技术创新方面的雄心。

OpenAI计划于2024年12月前推出其最新的AI模型“Orion”

Posted on October 25, 2024October 25, 2024 by aitrendtrackers@rengongzhineng.io

据The Verge的最新报道，OpenAI计划在12月推出下一代前沿AI模型“Orion”。与上两次发布的GPT-4o和o1不同，这次Orion不会一上来就通过ChatGPT广泛开放使用，而是先为一些紧密合作的公司提供使用权限，帮助它们打造各自的产品和功能。消息人士还透露，微软内部工程师正准备在11月就将Orion部署到Azure云平台。作为OpenAI在GPT-4后的继任者，Orion的定位不一般，但目前尚不确定是否会以GPT-5之名对外发布。发布计划仍有变数，随时可能延迟。对于此事，OpenAI和微软均未予置评。据悉，一位OpenAI高管曾透露，Orion的算力可能高达GPT-4的100倍，这使它有别于OpenAI在9月发布的o1推理模型。OpenAI的长远目标是融合各大语言模型（LLM），最终打造出具备“通用人工智能”（AGI）潜力的超级模型。据悉，OpenAI早前已使用代号为“草莓”的o1模型生成的合成数据来训练Orion。今年9月，OpenAI团队还在内部举办了一场庆祝活动，庆贺Orion训练完成，恰好与OpenAI CEO Sam Altman在X平台上的神秘发言相呼应。他曾在帖子中写道“期待冬季星座即将升起”，暗指Orion星座从11月到次年2月最为清晰。此时推出新模型对OpenAI意义重大。公司刚刚获得创纪录的66亿美元融资，但需转换为营利性实体，未来变数增加。同时，公司内部人员变动频繁，首席技术官Mira Murati、首席研究官Bob McGrew和后期训练副总裁Barret Zoph已宣布离职。

Subscribe 订阅