aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

OpenAI或将发布新版Sora视频生成器，支持多种生成方式

Posted on December 9, 2024December 9, 2024 by aitrendtrackers@rengongzhineng.io

据OpenAI高管查德·尼尔森在伦敦C21Media活动上的发言（经由鲁德·范德林登报道），OpenAI计划推出其Sora视频生成器的更新版本。这款全新的工具将支持三种生成方式：文本生成视频、文本与图像生成视频，以及文本与视频生成视频，最大支持一分钟的视频长度。近期的API泄露信息进一步验证了此前的传闻：新版本Sora将更加高效，生成速度显著提升。据悉，这款工具的发布可能会安排在OpenAI十二月的冬季促销活动期间，最快或将在下周一亮相。此外，有传言称OpenAI可能会在此次活动中同步发布GPT-4.5以及为GPT-4o引入全新的图像生成功能。届时，这些升级将为创作者和开发者提供更多创新机会，进一步巩固OpenAI在生成式人工智能领域的领先地位。

为什么帕特·基辛格并不适合英特尔

Posted on December 9, 2024December 9, 2024 by aitrendtrackers@rengongzhineng.io

自帕特·基辛格在2021年接任英特尔首席执行官以来，这家芯片巨头的战略和领导层就备受外界关注。基辛格以技术能力和卓越的管理才华著称，但他是否是英特尔危机时刻的正确选择，始终存在争议。在分析他的领导方式和英特尔的文化现状后，越来越多的人认为，他可能不是这家公司目前最需要的领导者。英特尔曾是技术创新的代名词，但近年来却不断遭遇困境。从对新兴技术的忽视，到公司文化的僵化，英特尔需要一位能够正视这些问题并彻底改革的领导者。然而，基辛格的决策和领导风格却进一步暴露了这家公司的深层问题。英特尔的问题可以追溯到其企业文化。作为一家在x86架构领域取得巨大成功的公司，英特尔的辉煌过去成为了它最大的负担。长期的市场主导地位让英特尔形成了一种企业文化，这种文化包括对新技术缺乏耐心，对市场变化的迟钝反应，以及对合作伙伴和客户的信任危机。这种文化遗留下的最明显问题之一，就是对创新项目的频繁“扼杀”。英特尔经常在其核心业务之外启动创新项目，但这些项目往往在尚未完全成熟时就被放弃。例如，英特尔在移动处理器和离散显卡领域的失败，很大程度上是因为公司没有对这些早期项目进行足够的支持和迭代。基辛格的到来没有解决这些文化问题，反而加剧了它们。他在谈及自己的职业生涯时，常常将自己的角色描述为拯救者，而将失败归因于他不在场的时期或其他人做出的错误决定。例如，他曾声称，如果他当时留在英特尔，Larrabee显卡项目不会失败，并大胆表示英伟达的市值可能只有现在的四分之一。这种言论不仅低估了英伟达的技术优势和市场策略，也忽视了Larrabee本身存在的严重问题，包括产品不可用和软件支持不足。这样的叙述反映出了一种对失败的回避和对自身局限性的缺乏认知。基辛格的决策也让人对他的战略眼光产生质疑。他宣布了一个雄心勃勃的目标，要在四年内完成五个制造工艺节点的升级。然而，这一计划对于一个在10纳米工艺上经历过严重延迟的公司来说，显得过于激进。在此基础上，他还选择继续向股东支付股息，而不是将这些资金用于技术研发和市场扩展。这一选择被认为是典型的“和平时期”的行为，而不是一家处于危机中的公司所应采取的果断行动。英特尔的内部文化问题在与合作伙伴的关系中也表现得尤为明显。以Oxide公司与英特尔在Tofino交换芯片上的合作为例。Tofino是一款具有强大可编程能力的芯片，曾被认为是英特尔在网络领域的一次创新尝试。然而，尽管Tofino团队展示了极大的潜力和专业性，但英特尔高层在基辛格领导下的战略转向让这一项目最终被放弃。这一决定不仅让合作伙伴失去了信任，也进一步削弱了英特尔的市场声誉。Oxide公司最终不得不寻找替代方案，这也凸显了英特尔在关键技术领域的不确定性。值得注意的是，英特尔的这些问题并非不可逆转。公司仍然拥有强大的技术基础和丰富的人才储备，但要想重新赢得市场的信任，必须从根本上解决企业文化的问题。这包括承认过去的错误，倾听客户和合作伙伴的声音，以及对创新项目给予更多的耐心和资源支持。虽然基辛格拥有卓越的管理才能和丰富的行业经验，但他在面对英特尔复杂的文化问题和市场挑战时显得力不从心。他的领导方式未能推动英特尔从根本上转型，而是让公司在过去的辉煌与当前的困境之间徘徊不前。对于这样一家需要彻底改革的公司来说，基辛格可能并不是最佳的领导者。英特尔的未来取决于它能否打破文化的枷锁，真正拥抱市场的变化和技术的创新。

X推出新AI图像生成器Aurora：更接近真实的创作效果

Posted on December 9, 2024December 9, 2024 by aitrendtrackers@rengongzhineng.io

12月8日消息，部分用户在埃隆·马斯克旗下社交平台X上短暂体验到了由xAI人工智能模型Grok支持的全新图像生成器Aurora。这款新工具以接近真实的图像生成能力，展示了比其前身Flux模型更卓越的表现。 Aurora的首次亮相：图像质量显著提升周六，一些X用户发现他们的Grok系统暂时切换到了Aurora模型。尽管Aurora尚未全面上线，但其逼真的生成效果引起了广泛关注。有用户对比发现，Aurora的生成能力与DALL·E 3等顶级模型旗鼓相当，甚至在细节处理上更胜一筹。虽然Aurora的测试版本仅限少数用户体验，但与Flux模型相比，其图像生成水平已经取得了显著突破，尤其是在细节和逼真度方面。例如，Aurora生成了雷·罗曼诺和亚当·桑德勒在情景喜剧片场的图像，以及马斯克与OpenAI首席执行官山姆·阿尔特曼拳击的画面。更高的自由度与潜在争议根据TechCrunch的报道，Aurora测试版本与Flux模型一样，创作限制较少。在短暂测试中，有用户生成了包括迪士尼版权角色米奇老鼠和其他名人形象在内的图片。一些报道甚至提到Aurora可以生成“血腥版特朗普”的图像，但拒绝生成裸露内容。而Flux版本在此前测试中曾拒绝生成暴力场景。这些宽松的限制引发了对Aurora潜在争议的讨论。虽然技术质量令人惊艳，但Aurora的生成能力可能需要更严格的管理，以避免滥用和法律风险。在线用户评价：技术突破但仍有改进空间在X平台上，部分用户对Aurora的生成效果给予了高度评价，但也指出了一些不足之处。例如，尽管Aurora的图像整体逼真，但某些部分仍显现出人工智能生成的痕迹，比如手臂和手指比例不协调，以及皮肤和面部特征的“过于光滑”。 AI创业公司Extropic创始人兼“有效加速主义”运动支持者吉洛姆·维尔登（线上名为Based Beff Jezos）表示，“X AI半夜两点随便发布了市面上最强图像模型之一……xAI团队真是与众不同。”对此，马斯克回复称：“这只是测试版，后续改进会非常快。” 未来展望尽管Aurora目前仅是测试版，其技术表现已经令人期待。马斯克和xAI团队的快速开发能力表明，Aurora可能会很快推出更新迭代，并向更广泛的用户群体开放。但随着AI生成技术的飞速发展，其道德与法律监管问题也将成为不可忽视的挑战。 X平台和xAI团队尚未对Aurora的广泛发布时间表或进一步细节发表官方评论。

适合语言模型推理的NVIDIA图形处理器：全面指南

Posted on December 8, 2024December 8, 2024 by aitrendtrackers@rengongzhineng.io

大型语言模型正在推动人工智能技术的快速发展，例如GPT-4和BERT等模型，对计算资源的需求极为庞大。选择合适的图形处理器（GPU）是优化性能和控制成本的关键，不同用户在选择时需要根据实际需求在性能与预算之间找到平衡。以下是针对不同应用场景的图形处理器推荐，以及挑选时需要重点关注的关键参数解析。关键参数解析高性能图形处理器推荐 NVIDIA H200 NVIDIA H100 NVIDIA A100 NVIDIA RTX 6000 Ada Generation NVIDIA L40 预算友好型图形处理器推荐 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada Generation NVIDIA Titan RTX NVIDIA RTX 3080 和 NVIDIA RTX 3090 NVIDIA T4 总结在选择图形处理器时，根据项目规模、模型复杂度以及预算限制，找到最适合的解决方案是实现高效人工智能任务的关键。

Meta 宣布了其最新的生成式 AI 模型——Llama 家族的新成员：Llama 3.3 70B

Posted on December 7, 2024December 7, 2024 by aitrendtrackers@rengongzhineng.io

Meta 宣布了其最新的生成式 AI 模型——Llama 家族的新成员：Llama 3.3 70B。 https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct 在 X 平台的发布帖子中，Meta 生成式 AI 副总裁 Ahmad Al-Dahle 表示，Llama 3.3 70B 尽管参数更小，但性能已经达到 Meta 最大模型 Llama 3.1 405B 的水平，且成本更低。他写道：“通过利用最新的后训练技术，这款模型显著提升了核心性能，同时大幅降低了使用成本。” Al-Dahle 还分享了一张对比图，显示 Llama 3.3 70B 在多项行业基准测试中表现优异，包括 MMLU（评估语言理解能力的测试）。这款模型在数学、通识知识、指令执行以及应用程序操作等方面都实现了性能升级。据 Meta 发言人介绍，Llama 3.3 70B 可从 AI 开发平台 Hugging Face 以及 Llama 官方网站下载，适用于多种商业和非商业用途。开放与限制并存 Meta 一直致力于通过“开放”模型来占据 AI 领域的领先地位，Llama 系列成为其核心战略之一。尽管 Llama 并非完全开放，例如每月用户超过 7…

OpenAI 的 AI 强化微调新技术，可能会改变科学家使用模型的方式

Posted on December 7, 2024December 7, 2024 by aitrendtrackers@rengongzhineng.io

在 OpenAI 的“12 天 AI”活动中，第二天的重点转向企业级 AI 的升级，相较首日推出的 OpenAI o1 模型，显得更具针对性但少了些许炫目。此次，OpenAI 宣布了“强化微调”（Reinforcement Fine-Tuning, RFT）的推出计划。这是一种专为开发者设计的模型定制技术，特别适合复杂任务的需求。通过开发者提供的数据集和评估标准，RFT 可以帮助平台训练专用 AI，无需后期投入大量昂贵的强化学习成本。这种方式，简单来说，就是优化 AI 的推理能力，让其反应更精准、更贴近实际应用。 OpenAI 的直播演示展示了 RFT 在法律和科学领域的潜力。例如，汤森路透利用 RFT 打造的 CoCounsel AI 助手，以及伯克利实验室使用 RFT 研究罕见遗传病的项目。不过，对普通 ChatGPT 用户来说，这些商业合作短期内可能看不到直接影响。企业与消费者的平衡对普通用户来说，别急着失望。尽管第二天活动重点偏向企业领域，但 OpenAI 很可能会在“12 天 AI”期间交替发布消费者相关的内容，以覆盖更广的用户需求。或许在接下来的几天，消费者期待的更新会陆续到来。至少，这次直播结束时的幽默段子比首日更有趣。OpenAI 提到，无人驾驶汽车在旧金山很流行，连圣诞老人都计划打造一辆无人驾驶的雪橇。唯一的问题是，雪橇总是撞到树上。为什么？因为他忘了“松（pine）调”自己的模型。TechRadar 的编辑还晒出了 ChatGPT 为这个笑话生成的配图，效果更直观。看来，未来几天的内容值得期待，企业与消费者之间的平衡或许会带来更多意想不到的惊喜。

Open AI 推出 ChatGPT Pro

Posted on December 6, 2024December 6, 2024 by aitrendtrackers@rengongzhineng.io

随着人工智能（AI）的不断进步，其将能够解决日益复杂且关键的问题。但与此同时，支持这些强大功能所需的计算资源也在大幅增加。推出ChatGPT Pro计划为了应对这一挑战，ChatGPT Pro计划正式上线，每月订阅费用为200美元。这个计划为用户提供对OpenAI最先进模型和工具的扩展访问权限，包括以下功能：未来，ChatGPT Pro还将引入更多强大且计算密集型的生产力功能，为研究人员、工程师等需要高级智能的专业人士提升工作效率，站在AI发展的最前沿。更强计算能力，应对更高难度问题 ChatGPT Pro的核心亮点是o1 Pro模式，它在解决复杂问题时提供更长时间的推理，确保回答的可靠性和准确性。外部专家测试表明，o1 Pro模式在数据科学、编程和案例法分析等领域表现尤为卓越。在数学、科学和编程等具有挑战性的ML基准测试中，o1 Pro模式表现明显优于其他版本：更严格的可靠性评估为了凸显o1 Pro模式在可靠性上的优势，评估采用了更严格的“4/4可靠性”标准：只有在四次尝试中都答对问题才算通过。如何使用Pro模式？ Pro用户可以通过模型选择器启用o1 Pro模式并直接提问。由于o1 Pro模式需要更长时间来生成答案，ChatGPT会显示进度条，并在用户切换到其他对话时发送应用内通知，确保用户能随时查看结果。 ChatGPT Pro计划让用户能够利用AI更强大的计算能力，解决复杂问题，探索AI的无限潜力。如果你是一名需要研究级智能的专业人士，这一计划将是你不可或缺的得力助手。

Google推出 PaliGemma 2

Posted on December 6, 2024December 6, 2024 by aitrendtrackers@rengongzhineng.io

自定义先进的视觉AI曾经是一项复杂且资源密集的任务，但现在已经截然不同。今年五月，PaliGemma横空出世，成为Gemma家族的首款视觉语言模型，这标志着高性能视觉AI向大众更进一步。如今，PaliGemma 2正式亮相，作为下一代可调视觉语言模型，它将强大的视觉能力推向新高度。 https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48 PaliGemma 2有何独特之处？ 1. 性能规模多样化PaliGemma 2提供多种模型规格（3B、10B、28B参数）和分辨率选项（224px、448px、896px），让任务性能优化更加灵活，适应不同需求。 2. 长篇图像描述不止于简单的物体识别，PaliGemma 2生成的图像描述细致且富有语境感，不仅涵盖图像中的动作和情感，还能描述整体场景故事。 3. 开辟新领域技术报告表明，PaliGemma 2在化学公式识别、乐谱识别、空间推理和胸片报告生成等方面表现卓越，为视觉AI的应用打开了全新局面。升级到PaliGemma 2对现有用户来说十分便捷，作为替换方案，它无需大幅修改代码便能带来显著性能提升。同时，PaliGemma 2的灵活性使得针对特定任务和数据集的微调更加高效，帮助用户实现个性化定制。详细了解PaliGemma 2的工作原理以及模型参数和分辨率选择方法，请参考技术报告。 PaliGemma的成功基础自从推出以来，Gemma家族迅速发展成了一个充满活力的生态系统——“Gemmaverse”。数以万计的模型和应用诞生于这个社区，展现了用户的创新潜力。比如，ColPali在视觉文档检索上的突破，RoboFlow的微调技术，以及实时物体跟踪的进展，均彰显了Gemmaverse的无限可能。立即入门PaliGemma 2 如何开始？ Gemma团队非常期待大家用PaliGemma 2创造出更惊艳的成果！加入充满活力的Gemma社区，在Gemmaverse中分享作品，共同探索AI的无限潜力。用户的反馈和贡献将成为推动创新的重要动力。

英国药品与健康产品管理局五项医疗科技成功入选其“AI安全锁”计划（AI Airlock）

Posted on December 5, 2024December 5, 2024 by aitrendtrackers@rengongzhineng.io

英国药品与健康产品管理局（MHRA）近日宣布，五项医疗科技成功入选其“AI安全锁”计划（AI Airlock）。这一项目旨在优化人工智能医疗设备的监管流程，加速其在英国国家医疗服务体系（NHS）中的安全引入，从而惠及有需要的患者。什么是“AI安全锁”？根据MHRA的定义，“AI安全锁”是一种“沙盒”环境，类似于实验性框架，帮助制造商确定如何收集真实世界的证据以支持设备的监管审批。与传统医疗设备不同，AI模型具备持续学习和进化的能力，这使得安全性和有效性的证据建立更加复杂。“AI安全锁”通过虚拟环境提供监管支持，既让开发者了解实际挑战，也为NHS在更广范围内采用创新AI技术铺平道路。创新医疗科技登场此次入选的技术涵盖癌症、慢性呼吸系统疾病及放射学诊断领域。它们有望提升医疗的精准度与效率，为诊断工具和患者护理带来革命性变化。以下是五项入选技术的亮点：突破性的AI监管探索 MHRA医疗技术监管改革负责人Laura Squire表示：“新型AI医疗设备能提升医疗决策精准度、节省时间并提高效率，从而改善患者和NHS的整体结果。但我们需要确保这些设备在整个生命周期内的安全性和性能稳定。” 政府官员也对这一计划给予高度评价。卫生部国务部长Karin Smyth指出，该项目是政府10年健康计划的一部分，将NHS从传统模式向数字化转型推进了一大步。科学部长Lord Vallance也称此项目为“良好监管推动新兴科技发展”的典范。展望未来 MHRA计划在2025年发布首批试点成果，这些数据将影响未来的医疗设备监管政策，为开发AI技术的制造商提供更清晰的路径。这一系列努力不仅提高了透明度，还助力英国成为全球医疗技术创新的中心。正如Lord Darzi健康和护理审查中提到的，NHS正面临“关键状态”，AI技术可能是其实现可持续发展的关键路径之一。而“AI安全锁”正是向AI医疗革命迈出的重要一步。尽管此次入选并不等于监管批准，但这些技术已在应对医疗挑战方面展现出巨大潜力。在监管框架的严格审视下，这些解决方案或将在未来数年内证明其价值，为NHS带来前所未有的变革。

DeepMind，推出了Genie 2

Posted on December 5, 2024December 5, 2024 by aitrendtrackers@rengongzhineng.io

DeepMind，谷歌旗下的AI研究机构，最近推出了一款名为 Genie 2 的模型，这款工具可以生成“无限”种类的可玩3D世界。https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/ Genie 2 是 DeepMind 在今年早些时候发布的 Genie 模型的升级版。它能够根据单张图像和文本描述（例如“一个可爱的类人机器人在森林中”），实时生成互动场景。类似于 Fei-Fei Li 所属公司 World Labs 和以色列初创企业 Decart 开发的模型，Genie 2 专注于创造独特的虚拟空间。 DeepMind 声称，Genie 2 可以生成“极其丰富多样”的3D世界，用户可以通过鼠标或键盘在这些世界中进行跳跃、游泳等互动操作。该模型经过视频训练，具备模拟物体交互、动画、光影、物理效果、反射以及“NPC”行为的能力。 AAA级游戏画质的秘密？Genie 2 的许多模拟效果堪比 AAA 游戏。这或许与其训练数据中包含了流行游戏的试玩视频有关。然而，出于竞争或其他原因，DeepMind 并未透露具体的数据来源细节。毕竟，数据采集方法可能涉及知识产权问题。有观点质疑，作为 Google 的子公司，DeepMind 是否利用 YouTube 的使用条款，未经授权地将平台上的视频用作训练数据？这些问题或许最终需要法院来裁定。 “瞬间记忆”的技术突破Genie 2 可生成各种视角（如第一人称、等距视图）的连续世界，时间最长约1分钟，大多数场景持续10到20秒。与其他类似模型相比，Genie 2 的优势在于能够记住屏幕外的场景，并在需要时准确重现。例如，模型可以区分键盘按键的作用，“知道方向键应该移动机器人，而不是树木或云朵。” 许多世界模型（例如 Decart 的 Minecraft 模拟器 Oasis）常出现低分辨率、布局记忆混乱等问题。而 Genie 2 在模拟一致性和细节上表现更加出色，这让其更适合作为研究和创意工具，而非真正的游戏开发工具。 AI创造新边界，开发者态度复杂DeepMind 将 Genie 2 定位为一种研究和原型工具，可用于快速生成交互式环境或测试…

Subscribe 订阅