12月8日消息,部分用户在埃隆·马斯克旗下社交平台X上短暂体验到了由xAI人工智能模型Grok支持的全新图像生成器Aurora。这款新工具以接近真实的图像生成能力,展示了比其前身Flux模型更卓越的表现。 Aurora的首次亮相:图像质量显著提升 周六,一些X用户发现他们的Grok系统暂时切换到了Aurora模型。尽管Aurora尚未全面上线,但其逼真的生成效果引起了广泛关注。有用户对比发现,Aurora的生成能力与DALL·E 3等顶级模型旗鼓相当,甚至在细节处理上更胜一筹。 虽然Aurora的测试版本仅限少数用户体验,但与Flux模型相比,其图像生成水平已经取得了显著突破,尤其是在细节和逼真度方面。例如,Aurora生成了雷·罗曼诺和亚当·桑德勒在情景喜剧片场的图像,以及马斯克与OpenAI首席执行官山姆·阿尔特曼拳击的画面。 更高的自由度与潜在争议 根据TechCrunch的报道,Aurora测试版本与Flux模型一样,创作限制较少。在短暂测试中,有用户生成了包括迪士尼版权角色米奇老鼠和其他名人形象在内的图片。一些报道甚至提到Aurora可以生成“血腥版特朗普”的图像,但拒绝生成裸露内容。而Flux版本在此前测试中曾拒绝生成暴力场景。 这些宽松的限制引发了对Aurora潜在争议的讨论。虽然技术质量令人惊艳,但Aurora的生成能力可能需要更严格的管理,以避免滥用和法律风险。 在线用户评价:技术突破但仍有改进空间 在X平台上,部分用户对Aurora的生成效果给予了高度评价,但也指出了一些不足之处。例如,尽管Aurora的图像整体逼真,但某些部分仍显现出人工智能生成的痕迹,比如手臂和手指比例不协调,以及皮肤和面部特征的“过于光滑”。 AI创业公司Extropic创始人兼“有效加速主义”运动支持者吉洛姆·维尔登(线上名为Based Beff Jezos)表示,“X AI半夜两点随便发布了市面上最强图像模型之一……xAI团队真是与众不同。”对此,马斯克回复称:“这只是测试版,后续改进会非常快。” 未来展望 尽管Aurora目前仅是测试版,其技术表现已经令人期待。马斯克和xAI团队的快速开发能力表明,Aurora可能会很快推出更新迭代,并向更广泛的用户群体开放。但随着AI生成技术的飞速发展,其道德与法律监管问题也将成为不可忽视的挑战。 X平台和xAI团队尚未对Aurora的广泛发布时间表或进一步细节发表官方评论。
Author: aitrendtrackers@rengongzhineng.io
适合语言模型推理的NVIDIA图形处理器:全面指南
大型语言模型正在推动人工智能技术的快速发展,例如GPT-4和BERT等模型,对计算资源的需求极为庞大。选择合适的图形处理器(GPU)是优化性能和控制成本的关键,不同用户在选择时需要根据实际需求在性能与预算之间找到平衡。以下是针对不同应用场景的图形处理器推荐,以及挑选时需要重点关注的关键参数解析。 关键参数解析 高性能图形处理器推荐 NVIDIA H200 NVIDIA H100 NVIDIA A100 NVIDIA RTX 6000 Ada Generation NVIDIA L40 预算友好型图形处理器推荐 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada Generation NVIDIA Titan RTX NVIDIA RTX 3080 和 NVIDIA RTX 3090 NVIDIA T4 总结 在选择图形处理器时,根据项目规模、模型复杂度以及预算限制,找到最适合的解决方案是实现高效人工智能任务的关键。
Meta 宣布了其最新的生成式 AI 模型——Llama 家族的新成员:Llama 3.3 70B
Meta 宣布了其最新的生成式 AI 模型——Llama 家族的新成员:Llama 3.3 70B。 https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct 在 X 平台的发布帖子中,Meta 生成式 AI 副总裁 Ahmad Al-Dahle 表示,Llama 3.3 70B 尽管参数更小,但性能已经达到 Meta 最大模型 Llama 3.1 405B 的水平,且成本更低。 他写道:“通过利用最新的后训练技术,这款模型显著提升了核心性能,同时大幅降低了使用成本。” Al-Dahle 还分享了一张对比图,显示 Llama 3.3 70B 在多项行业基准测试中表现优异,包括 MMLU(评估语言理解能力的测试)。这款模型在数学、通识知识、指令执行以及应用程序操作等方面都实现了性能升级。据 Meta 发言人介绍,Llama 3.3 70B 可从 AI 开发平台 Hugging Face 以及 Llama 官方网站下载,适用于多种商业和非商业用途。 开放与限制并存 Meta 一直致力于通过“开放”模型来占据 AI 领域的领先地位,Llama 系列成为其核心战略之一。尽管 Llama 并非完全开放,例如每月用户超过 7…
OpenAI 的 AI 强化微调新技术,可能会改变科学家使用模型的方式
在 OpenAI 的“12 天 AI”活动中,第二天的重点转向企业级 AI 的升级,相较首日推出的 OpenAI o1 模型,显得更具针对性但少了些许炫目。 此次,OpenAI 宣布了“强化微调”(Reinforcement Fine-Tuning, RFT)的推出计划。这是一种专为开发者设计的模型定制技术,特别适合复杂任务的需求。通过开发者提供的数据集和评估标准,RFT 可以帮助平台训练专用 AI,无需后期投入大量昂贵的强化学习成本。这种方式,简单来说,就是优化 AI 的推理能力,让其反应更精准、更贴近实际应用。 OpenAI 的直播演示展示了 RFT 在法律和科学领域的潜力。例如,汤森路透利用 RFT 打造的 CoCounsel AI 助手,以及伯克利实验室使用 RFT 研究罕见遗传病的项目。不过,对普通 ChatGPT 用户来说,这些商业合作短期内可能看不到直接影响。 企业与消费者的平衡对普通用户来说,别急着失望。尽管第二天活动重点偏向企业领域,但 OpenAI 很可能会在“12 天 AI”期间交替发布消费者相关的内容,以覆盖更广的用户需求。或许在接下来的几天,消费者期待的更新会陆续到来。 至少,这次直播结束时的幽默段子比首日更有趣。OpenAI 提到,无人驾驶汽车在旧金山很流行,连圣诞老人都计划打造一辆无人驾驶的雪橇。唯一的问题是,雪橇总是撞到树上。为什么?因为他忘了“松(pine)调”自己的模型。TechRadar 的编辑还晒出了 ChatGPT 为这个笑话生成的配图,效果更直观。 看来,未来几天的内容值得期待,企业与消费者之间的平衡或许会带来更多意想不到的惊喜。
Open AI 推出 ChatGPT Pro
随着人工智能(AI)的不断进步,其将能够解决日益复杂且关键的问题。但与此同时,支持这些强大功能所需的计算资源也在大幅增加。 推出ChatGPT Pro计划 为了应对这一挑战,ChatGPT Pro计划正式上线,每月订阅费用为200美元。这个计划为用户提供对OpenAI最先进模型和工具的扩展访问权限,包括以下功能: 未来,ChatGPT Pro还将引入更多强大且计算密集型的生产力功能,为研究人员、工程师等需要高级智能的专业人士提升工作效率,站在AI发展的最前沿。 更强计算能力,应对更高难度问题 ChatGPT Pro的核心亮点是o1 Pro模式,它在解决复杂问题时提供更长时间的推理,确保回答的可靠性和准确性。外部专家测试表明,o1 Pro模式在数据科学、编程和案例法分析等领域表现尤为卓越。 在数学、科学和编程等具有挑战性的ML基准测试中,o1 Pro模式表现明显优于其他版本: 更严格的可靠性评估 为了凸显o1 Pro模式在可靠性上的优势,评估采用了更严格的“4/4可靠性”标准:只有在四次尝试中都答对问题才算通过。 如何使用Pro模式? Pro用户可以通过模型选择器启用o1 Pro模式并直接提问。由于o1 Pro模式需要更长时间来生成答案,ChatGPT会显示进度条,并在用户切换到其他对话时发送应用内通知,确保用户能随时查看结果。 ChatGPT Pro计划让用户能够利用AI更强大的计算能力,解决复杂问题,探索AI的无限潜力。如果你是一名需要研究级智能的专业人士,这一计划将是你不可或缺的得力助手。
Google推出 PaliGemma 2
自定义先进的视觉AI曾经是一项复杂且资源密集的任务,但现在已经截然不同。今年五月,PaliGemma横空出世,成为Gemma家族的首款视觉语言模型,这标志着高性能视觉AI向大众更进一步。如今,PaliGemma 2正式亮相,作为下一代可调视觉语言模型,它将强大的视觉能力推向新高度。 https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48 PaliGemma 2有何独特之处? 1. 性能规模多样化PaliGemma 2提供多种模型规格(3B、10B、28B参数)和分辨率选项(224px、448px、896px),让任务性能优化更加灵活,适应不同需求。 2. 长篇图像描述不止于简单的物体识别,PaliGemma 2生成的图像描述细致且富有语境感,不仅涵盖图像中的动作和情感,还能描述整体场景故事。 3. 开辟新领域技术报告表明,PaliGemma 2在化学公式识别、乐谱识别、空间推理和胸片报告生成等方面表现卓越,为视觉AI的应用打开了全新局面。 升级到PaliGemma 2对现有用户来说十分便捷,作为替换方案,它无需大幅修改代码便能带来显著性能提升。同时,PaliGemma 2的灵活性使得针对特定任务和数据集的微调更加高效,帮助用户实现个性化定制。 详细了解PaliGemma 2的工作原理以及模型参数和分辨率选择方法,请参考技术报告。 PaliGemma的成功基础 自从推出以来,Gemma家族迅速发展成了一个充满活力的生态系统——“Gemmaverse”。数以万计的模型和应用诞生于这个社区,展现了用户的创新潜力。比如,ColPali在视觉文档检索上的突破,RoboFlow的微调技术,以及实时物体跟踪的进展,均彰显了Gemmaverse的无限可能。 立即入门PaliGemma 2 如何开始? Gemma团队非常期待大家用PaliGemma 2创造出更惊艳的成果!加入充满活力的Gemma社区,在Gemmaverse中分享作品,共同探索AI的无限潜力。用户的反馈和贡献将成为推动创新的重要动力。
英国药品与健康产品管理局五项医疗科技成功入选其“AI安全锁”计划(AI Airlock)
英国药品与健康产品管理局(MHRA)近日宣布,五项医疗科技成功入选其“AI安全锁”计划(AI Airlock)。这一项目旨在优化人工智能医疗设备的监管流程,加速其在英国国家医疗服务体系(NHS)中的安全引入,从而惠及有需要的患者。 什么是“AI安全锁”? 根据MHRA的定义,“AI安全锁”是一种“沙盒”环境,类似于实验性框架,帮助制造商确定如何收集真实世界的证据以支持设备的监管审批。与传统医疗设备不同,AI模型具备持续学习和进化的能力,这使得安全性和有效性的证据建立更加复杂。“AI安全锁”通过虚拟环境提供监管支持,既让开发者了解实际挑战,也为NHS在更广范围内采用创新AI技术铺平道路。 创新医疗科技登场 此次入选的技术涵盖癌症、慢性呼吸系统疾病及放射学诊断领域。它们有望提升医疗的精准度与效率,为诊断工具和患者护理带来革命性变化。以下是五项入选技术的亮点: 突破性的AI监管探索 MHRA医疗技术监管改革负责人Laura Squire表示:“新型AI医疗设备能提升医疗决策精准度、节省时间并提高效率,从而改善患者和NHS的整体结果。但我们需要确保这些设备在整个生命周期内的安全性和性能稳定。” 政府官员也对这一计划给予高度评价。卫生部国务部长Karin Smyth指出,该项目是政府10年健康计划的一部分,将NHS从传统模式向数字化转型推进了一大步。科学部长Lord Vallance也称此项目为“良好监管推动新兴科技发展”的典范。 展望未来 MHRA计划在2025年发布首批试点成果,这些数据将影响未来的医疗设备监管政策,为开发AI技术的制造商提供更清晰的路径。这一系列努力不仅提高了透明度,还助力英国成为全球医疗技术创新的中心。 正如Lord Darzi健康和护理审查中提到的,NHS正面临“关键状态”,AI技术可能是其实现可持续发展的关键路径之一。而“AI安全锁”正是向AI医疗革命迈出的重要一步。 尽管此次入选并不等于监管批准,但这些技术已在应对医疗挑战方面展现出巨大潜力。在监管框架的严格审视下,这些解决方案或将在未来数年内证明其价值,为NHS带来前所未有的变革。
DeepMind,推出了Genie 2
DeepMind,谷歌旗下的AI研究机构,最近推出了一款名为 Genie 2 的模型,这款工具可以生成“无限”种类的可玩3D世界。https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/ Genie 2 是 DeepMind 在今年早些时候发布的 Genie 模型的升级版。它能够根据单张图像和文本描述(例如“一个可爱的类人机器人在森林中”),实时生成互动场景。类似于 Fei-Fei Li 所属公司 World Labs 和以色列初创企业 Decart 开发的模型,Genie 2 专注于创造独特的虚拟空间。 DeepMind 声称,Genie 2 可以生成“极其丰富多样”的3D世界,用户可以通过鼠标或键盘在这些世界中进行跳跃、游泳等互动操作。该模型经过视频训练,具备模拟物体交互、动画、光影、物理效果、反射以及“NPC”行为的能力。 AAA级游戏画质的秘密?Genie 2 的许多模拟效果堪比 AAA 游戏。这或许与其训练数据中包含了流行游戏的试玩视频有关。然而,出于竞争或其他原因,DeepMind 并未透露具体的数据来源细节。毕竟,数据采集方法可能涉及知识产权问题。有观点质疑,作为 Google 的子公司,DeepMind 是否利用 YouTube 的使用条款,未经授权地将平台上的视频用作训练数据?这些问题或许最终需要法院来裁定。 “瞬间记忆”的技术突破Genie 2 可生成各种视角(如第一人称、等距视图)的连续世界,时间最长约1分钟,大多数场景持续10到20秒。与其他类似模型相比,Genie 2 的优势在于能够记住屏幕外的场景,并在需要时准确重现。例如,模型可以区分键盘按键的作用,“知道方向键应该移动机器人,而不是树木或云朵。” 许多世界模型(例如 Decart 的 Minecraft 模拟器 Oasis)常出现低分辨率、布局记忆混乱等问题。而 Genie 2 在模拟一致性和细节上表现更加出色,这让其更适合作为研究和创意工具,而非真正的游戏开发工具。 AI创造新边界,开发者态度复杂DeepMind 将 Genie 2 定位为一种研究和原型工具,可用于快速生成交互式环境或测试…
Amazon Nova
亚马逊推出全新顶尖基础模型Amazon Nova,以行业领先的性能为客户提供前沿智能解决方案。 从自主研发的Inferentia和Trainium芯片,到Amazon Bedrock上的一流基础模型,再到像Rufus和Alexa这样的AI驱动体验,亚马逊致力于通过生成式AI(Gen AI)技术为消费者、商家、广告商和企业带来切实价值,简化生活中的每一步。 Amazon Nova:AI发展的新里程碑 作为亚马逊AI旅程的下一步,Amazon Nova代表了新一代的基础模型(FMs)。这套模型不仅能够处理文本,还支持图片和视频输入,用户可借助其强大的生成式AI应用理解视频、图表和文档,甚至生成多媒体内容。 亚马逊人工通用智能高级副总裁Rohit Prasad表示:“Amazon Nova旨在帮助内部和外部开发者应对构建应用的挑战,为用户提供高效的智能内容生成,同时在延迟、成本效益、定制化、信息溯源以及多步骤任务处理能力上取得显著进展。” Amazon Nova 模型家族 Amazon Nova在Amazon Bedrock中提供以下几款核心模型: 提升客户体验 Amazon Nova 模型覆盖 200 种语言,支持文本、图片、视频等多种形式的输入,专为与客户现有系统无缝对接设计。Amazon Nova Micro、Lite 和 Pro在Amazon Bedrock中比同类最优模型便宜75%以上,同时响应速度最快。 通过 Amazon Bedrock 的单一 API,客户可以轻松测试和评估Amazon Nova模型,选择最适合的应用模型。这些模型还支持个性化微调,客户可使用自己标注的数据(文本、图像或视频),让模型学习最相关的信息,并通过Amazon Bedrock训练出专属的定制化模型。 此外,模型支持知识蒸馏,可将强大“教师模型”的特定知识传递给更小型、更高效的模型。这种方法让模型运行速度更快、成本更低,同时保持高准确性。 Nova模型与Amazon Bedrock知识库集成,优化了检索增强生成(RAG)功能,确保模型回答准确且基于客户专属数据。 创意内容生成与智能广告 Amazon Nova Canvas 和 Reel 模型为创意内容生成开辟了新天地。例如,Amazon Nova Reel能够将单张图片转化为动态视频广告,帮助广告商提升内容质量。亚马逊广告数据显示,使用这些工具的品牌能够平均增加5倍的产品广告,且每个产品的图像广告数量翻倍。 一个虚构的“意大利面之城”广告案例中,使用Amazon Nova Reel生成的视频展示了由意大利面和香料构建的奇幻城市街景,为品牌提供了生动且创新的宣传方式。 更强的视频理解与描述能力 Amazon Nova Pro…
“AI教母”李飞飞的新突破:从单张图片生成互动3D世界
李飞飞领导的AI初创公司World Labs近日发布了首个项目的“早期预览版”。这套AI系统依托空间智能技术,能够从单张图片生成一个完全可交互的3D“视频游戏式”世界。更令人惊喜的是,用户无需下载额外软件,只需通过网页浏览器即可体验。 在项目演示中,World Labs以爱德华·霍普的名画《夜游者》(Nighthawks)为例,将这幅静态作品转化为一个可以自由探索的3D世界。用户不仅可以移动视角和缩放细节,还能在虚拟场景中自由漫步。这一技术的独特之处在于生成的场景具有高度的一致性和互动性,无论用户从哪个角度观察,场景始终遵循物理规则,视觉效果真实自然。 此外,这套系统还支持实时修改功能。用户能够直接调整场景中的光影效果,添加动态动画,甚至使用景深等电影级特效。这种灵活的编辑能力将为游戏开发者和影视制作人带来无限的创作可能。 虽然目前系统仍处于早期阶段,存在用户活动范围有限、渲染细节不够完美等小问题,但World Labs计划于2025年正式发布这项技术,主要面向游戏和影视行业。通过这项创新,原本需要耗费多年时间和高昂预算才能完成的互动式虚拟世界,将在短时间内轻松实现,为中小型创意团队提供了更多机会。这一突破标志着沉浸式创作新时代的到来。