OpenAI最近发布了一篇博文,不仅为自己辩护,还放出了马斯克与联合创始人Ilya Sutskever、Greg Brockman、Sam Altman,以及前董事会成员Shivon Zilis之间的一些新短信内容。 博文中的一句话相当刺眼:“靠打官司是无法实现通用人工智能(AGI)的。”这显然是针对马斯克的。AGI是Altman承诺即将实现的目标。文中还提到:“我们高度尊重马斯克的成就,也感激他对OpenAI早期的贡献,但他应该选择在市场上竞争,而不是通过法庭解决。这对于保持美国在人工智能领域的全球领导地位至关重要。OpenAI的使命是确保AGI惠及全人类,我们过去如此,将来也会坚定不移地以使命为驱动。希望马斯克能够认同这一目标,继续秉持推动他本人取得成功的创新和自由市场竞争的价值观。” 新披露的消息显示,2017年7月,Brockman曾告诉Zilis,马斯克在一次会议中表示,非营利模式在初期确实是正确的选择,但“可能现在不太合适了”。同月,Brockman又给马斯克发短信,描述了OpenAI未来的路线:“1. 研究型非营利(2017年底前) 2. 研究+硬件型营利(2018年起) 3. 政府项目(时间未知)。” 博文还揭露了马斯克试图操纵公司局势的细节。他曾尝试担任OpenAI的CEO并获得公司多数控制权。尽管在一次电话中,马斯克表示自己“不在乎股权”,但他也提到需要“积累800亿美元为在火星建立城市做准备”。此外,马斯克还提议将OpenAI并入特斯拉,这一计划早已被披露过。然而,当联合创始人拒绝这一提议(Brockman和Sutskever坦言担心权力斗争)后,马斯克选择了辞职。 据博文描述,辞职后,马斯克在一次全员会议上向团队道别,并鼓励他们“追寻我们看到的筹集每年数十亿美元资金的道路”。他还透露自己将专注于特斯拉的高级人工智能研究,认为特斯拉是唯一可能获得这种资金支持的“载体”。 在马斯克计划收购推特期间,他曾给Altman发信息,表达对OpenAI新估值20亿美元的不满。他写道:“我几乎提供了全部种子轮、A轮和大部分B轮融资。这简直是钓鱼换饵。” 几个月后,马斯克创立了自己的AI公司xAI,与OpenAI展开竞争。 部分短信内容此前已出现在马斯克针对OpenAI及其合作伙伴微软提起的诉讼中。这起诉讼最初于2024年3月提起,指控OpenAI背离了其“为公众利益开发AI”的非营利使命。马斯克随后在2024年6月撤回诉讼,但又在同年8月重新提起。 OpenAI此次发布的内容,显然是针对马斯克对Altman权力集中的指控,试图用证据表明马斯克才是早期试图掌控公司的那一方。
Author: aitrendtrackers@rengongzhineng.io
OpenAI 正式赋予 ChatGPT 通过视频实时与用户互动的能力
OpenAI 正式赋予 ChatGPT 通过视频实时与用户互动的能力。这项备受期待的功能在七个月前首次被公开提及,如今终于在直播活动中揭开神秘面纱。 通过新推出的视频选项,ChatGPT 可以利用智能手机的摄像头识别物体并根据屏幕内容进行交互。举例来说,用户可以请求 ChatGPT 协助回复打开的应用中的消息,或者获取实时指导,例如学习如何冲泡一杯咖啡。 这项视频功能将从周四起逐步向付费的 ChatGPT Plus 和 Pro 用户开放,而企业和教育用户将在明年一月获得这一功能的使用权限。 自两年前推出 ChatGPT 引领文本聊天机器人投资热潮以来,OpenAI 及其竞争对手持续扩展所谓的多模态功能,这些功能可以响应音频、图像和视频输入。此类服务让数字助手更具互动性和吸引力,进一步提升用户体验。 此次发布是 OpenAI 为期 12 天的直播产品活动中的一部分。此前,OpenAI 已通过系列发布会推出了更高价的 ChatGPT Pro 订阅选项,并宣布逐步推出一款名为 Sora 的 AI 视频生成工具。这些动态进一步凸显 OpenAI 在人工智能领域的雄心与创新能力。
当一位开发者“失业”后如何重返职场
人生的转折点总是来得猝不及防。这位开发者曾在职业生涯中转战多个领域,从体育理疗师到技术作家,再到自由开发者,但在经历了各种职业尝试后,他发现自己陷入了一种奇怪的“职业不可雇佣状态”。 从开发者到“失业者”的奇异旅程 故事从 2004 年他开始职业开发生涯讲起,但到了 2019 年,他因对 React 16.8 的钩子特性感到兴奋,重新燃起了对编程的热情。几个月内,他成了一位 React 专家,并通过技术博客赢得了远程开发工作的机会。然而,事情很快变得复杂: 结果,招聘经理和技术猎头对他的履历感到困惑,他无法找到一份全职的开发工作,尤其是在新冠疫情初期,技术市场陷入冻结。 开发者“不可雇佣”的陷阱 他指出了几个让自己“不可雇佣”的关键因素: 如何重返职场并实现职业逆袭 尽管经历了各种挫折,这位开发者依然凭借自己的毅力,逐步扭转了局势。他分享了自己的成功经验: 最终,他通过一次完美契合的技术面试,拿下了一份薪资可观的全职开发工作。 职业反思与经验分享 这段经历让他明白了以下几点: 结语:从低谷到巅峰 最终,这位开发者通过专注、努力和不断学习,不仅重新找回了职业方向,还在技术领域获得了稳定的高薪职位。他的故事不仅是对开发者职业发展的启发,更是对每个职场人士的提醒:专注于你的核心技能,始终为自己的职业未来做好规划。
Cerebras 推出 CePO,填补推理与规划能力的关键空白
人工智能技术的快速发展在自然语言理解与生成领域取得了显著进步,但面对复杂推理、长期规划以及需要深度上下文理解的优化任务时,仍显得力不从心。目前,像 OpenAI 的 GPT-4 和 Meta 的 Llama 等模型在语言建模方面表现优异,但在高级规划和推理任务上的局限性,制约了它们在供应链优化、财务预测和动态决策等领域的应用。对于需要精准推理和规划的行业,现有模型要么表现不足,要么需要大量的微调,从而导致效率低下。 为解决这一问题,Cerebras 推出了 CePO (Cerebras Planning and Optimization),一个专为增强 Llama 系列模型的推理与规划能力而设计的 AI 框架。CePO 将优化算法与 Llama 的语言建模能力相结合,从而能够处理以往需要多个工具协同完成的复杂推理任务。 https://cerebras.ai/blog/cepo CePO 的技术亮点:内嵌规划能力,告别外部优化引擎CePO 的核心创新在于直接将规划能力嵌入到 Llama 模型中。这种方式无需借助外部优化引擎,使模型能够独立完成多步骤问题的推理,权衡复杂条件,并自主决策。这一特性使 CePO 特别适用于物流、医疗规划以及需要高度精准和适应能力的自主系统。 技术层面上,CePO 为 Llama 模型增加了专门的推理与规划层。通过强化学习和高级约束求解技术,CePO 实现了卓越的长期决策能力。此外,它采用了 神经-符号方法,将神经网络学习与符号推理相结合,实现了适应性与可解释性的平衡。同时,动态记忆模块支持模型在实时规划任务中快速响应变化场景,有效提升了性能。 CePO 的关键技术特性包括: 显著优势:简化流程,提升效率CePO 带来的优势主要体现在以下几个方面: 初步成果与洞察:突破传统 AI 的限制在初步基准测试中,CePO 展现了卓越的效果。例如,在物流规划任务中,其路径效率提升了 30%,同时计算开销降低了 40%。在医疗排班方面,相较传统 AI 系统,CePO 提高了 25% 的资源利用率。 早期用户反馈也证明了 CePO 的高适应性和易用性,大幅减少了设置时间和微调需求。尤其在药物研发和政策建模等探索性领域,CePO…
Project Astra, Mariner 和 Jules
Project Astra:AI 助手在现实世界中的多模态理解能力自 I/O 大会推出 Project Astra 后,这款 AI 助手已经在 Android 手机上进行了可信测试者的试用。通过反馈,团队不仅进一步了解了通用 AI 助手的实际运作方式,还探讨了其在安全性和伦理方面的潜在影响。基于 Gemini 2.0 的最新版本带来了多项升级: 公司计划将这些能力扩展到 Google 产品中,例如 Gemini 应用和其他设备形式,如智能眼镜。目前,一小组测试者将开始试用支持 Astra 的原型眼镜。 Project Mariner:AI 助手帮你完成复杂任务Project Mariner 是基于 Gemini 2.0 的早期研究原型,探索人机交互的未来,其起点是浏览器操作。通过实验性 Chrome 扩展,这个助手可以理解屏幕上的像素、文本、代码、图像和表单等元素,并据此完成任务。 在 WebVoyager 基准测试中,Mariner 在端到端网页任务的表现达到了 83.5%,创下新的技术记录。尽管目前任务完成速度较慢且不够准确,但技术正在快速进步。 为了安全负责地开发这一功能,团队采取了多项保障措施,比如 Mariner 仅能在浏览器的活动标签页内操作,并在执行敏感操作(如购物)前要求用户确认。目前,可信测试者正在通过 Chrome 扩展对其进行测试,公司也与网络生态系统展开了相关讨论。 Jules:为开发者打造的 AI 助手团队还在探索 AI 助手如何为开发者提供支持,通过 Jules,一个集成到 GitHub 工作流中的实验性代码助手实现。这款助手能在开发者的指导下分析问题、制定计划并执行代码,为长期目标打造跨领域的高效 AI 助手迈出了重要一步。更多详细信息已发布在开发者博客中。 游戏及其他领域中的…
Gemini 2.0 Flash
过去一年,人工智能领域取得了令人瞩目的进展。如今,备受期待的 Gemini 2.0 系列首款模型正式发布,这就是实验版本的 Gemini 2.0 Flash。作为技术的前沿之作,这款模型以低延迟和卓越性能成为核心主力。 此外,借助 Gemini 2.0 的原生多模态能力,一系列研究原型也同步亮相,展示了代理研究的新边界。 Gemini 2.0 Flash:速度与实力并存Gemini 2.0 Flash 是对大受欢迎的 1.5 Flash 的全面升级,其性能在保持极快响应速度的同时大幅提升。更惊人的是,它在关键基准测试中不仅超越了 1.5 Pro,速度还提升了一倍。这一版本还加入了多项新功能,支持多模态输入如图像、视频和音频的同时,还能生成多模态输出,包括原生生成的图文混合内容和可调整的多语种语音合成(TTS)。更强大的是,它还能原生调用工具,如 Google 搜索、代码执行,以及第三方用户定义功能。 为开发者准备的详细对比图清楚展示了 Gemini 各版本的能力。公司目标是以安全且高效的方式将模型交到用户手中。过去一个月里,开发者已经接触到了早期实验版本的 Gemini 2.0,并给予了非常积极的反馈。 目前,Gemini 2.0 Flash 作为实验模型通过 Gemini API 向开发者开放,可以在 Google AI Studio 和 Vertex AI 中使用,支持多模态输入和文本输出。而 TTS 和原生图像生成功能,则优先向早期合作伙伴提供。明年一月,更多模型尺寸版本将全面上线。 为帮助开发者构建动态、互动式应用,还推出了全新 Multimodal Live API,支持实时音频和视频流输入,并可结合多个工具使用。更多关于 Gemini 2.0 Flash 和 Multimodal Live…
iOS 18.2 今天正式推送更新,带来了备受瞩目的 ChatGPT 集成以及更多 Apple Intelligence 工具
苹果正式发布了 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2,这些更新带来了许多全新的 Apple Intelligence 功能,包括 Image Playground、Genmoji 和与 ChatGPT 的集成。然而,尽管苹果在新闻稿中表示更新现已推出,许多用户尚未在非测试设备上看到更新。如有体验到更新,欢迎留言分享。 主要新功能亮点 其他新功能 总结 此次 iOS 18.2 和相关系统更新不仅提升了用户体验,还在人工智能与日常工具的结合上迈出了重要一步。从个性化创意工具到增强的语音助手,Apple Intelligence 的新功能无疑将为用户带来更智能、更高效的使用体验。随着语言支持和功能的进一步扩展,这些新技术将吸引更多全球用户的关注和使用。
Sora 正式登场
Sora 正式登场!这款革新性视频生成模型已结束研究预览阶段,并上线成为独立产品。用户现可通过 Sora.com 体验全新版本的 Sora Turbo,其性能较今年 2 月发布的初版显著提升,并已向 ChatGPT Plus 和 Pro 用户开放使用。 从文本到视频:Sora 的全新界面与功能 Sora 的最新版本不仅速度更快,还配备了专门设计的新界面,为用户带来更加丰富的功能体验: 此外,Sora 将实时更新功能,让用户可以快速探索 AI 视频创作的可能性。 订阅与使用计划 Sora 目前已包含在 ChatGPT Plus 订阅中,用户无需额外费用即可生成每月最多 50 个 480p 分辨率视频,或较少数量的 720p 视频。对于需求更高的用户,Pro 计划提供 10 倍的使用量、更高的分辨率支持以及更长的视频时长。此外,团队正开发针对不同用户需求的定制化定价方案,预计将于明年初推出。 技术限制与未来规划 尽管 Sora Turbo 性能提升显著,但仍存在物理模拟不够真实、复杂动作长时间生成能力不足等问题。团队正在努力优化技术,使其更加高效和经济适用。 作为负责任技术推广的一部分,Sora 的每个生成视频都带有 C2PA 元数据,用于标识视频来源。默认情况下,所有视频均添加可见水印。此外,Sora 内置了搜索工具,可通过技术属性验证内容是否来自 Sora,从而提升透明性。 安全与规范 当前版本已采取多项措施以减少滥用风险: 详细的安全政策和监控措施可参考系统卡片中的说明。 无限创意的未来 Sora 的推出标志着 AI 视频生成进入一个全新时代。它不仅为创作者提供了全新的表达方式,也为视频叙事探索了更多可能性。无论是讲述个人故事,还是推动创意边界,Sora…
Hugging Face推出了全新文本生成推理引擎 (TGI) v3.0
Hugging Face推出了全新文本生成推理引擎 (TGI) v3.0,这一版本的性能堪称惊艳:在处理长提示词时,其速度比vLLM快了13倍!这一突破为自然语言处理(NLP)领域的长文本生成带来了划时代的效率提升,同时通过零配置部署让开发者使用起来更加便捷。用户仅需输入一个Hugging Face模型ID,即可享受强大的性能改进。 重大升级亮点: TGI v3.0在多个核心指标上实现了质的飞跃。首先,它的单GPU token处理能力提升了三倍,同时显著减少了内存占用。例如,使用单个NVIDIA L4 GPU(24GB),运行Llama 3.1-8B模型时可以处理多达30,000个token,相比vLLM的同类设置,容量直接翻了三倍。此外,优化后的数据结构进一步加速了提示词上下文的检索,大幅缩短了长对话场景中的响应时间。 技术亮点 性能测试与应用场景 在实际测试中,TGI v3.0展现出强大的能力: 行业意义 Hugging Face的这一技术突破,不仅提升了长文本生成的效率,还显著降低了NLP应用的开发门槛。其零配置模式为更多开发者打开了高性能NLP的大门,即便没有专业的优化经验,也能轻松部署复杂的AI应用。 结语 TGI v3.0无疑为文本生成技术树立了新的标杆。凭借在token处理、内存管理等方面的突破性创新,开发者现在可以以更少的硬件资源实现更快、更大规模的AI应用。随着NLP应用需求的不断增长,像TGI这样的工具将在应对规模和复杂性挑战中扮演关键角色。Hugging Face的这一发布,不仅展示了卓越的工程创新,还表明现代AI系统对高效工具的迫切需求正推动整个行业向前发展。
谷歌周一重磅发布了一款全新量子计算芯片“Willow”
谷歌宣布了全新量子芯片“Willow”的问世,这款芯片凭借多项性能指标的突破性表现,成为量子计算领域的重要里程碑。谷歌表示,“Willow”在量子计算纠错和运算速度上实现了两大突破,标志着量子计算机向实际应用迈出了关键一步。 量子纠错历史性突破:误差率随规模扩大反而减少 量子计算的主要挑战之一是纠错问题。传统上,量子比特(qubits)在增加数量时会导致误差率提高,从而削弱系统的量子特性。然而,“Willow”改变了这一现状。通过最新的量子纠错技术,研究团队在3×3、5×5到7×7的量子比特阵列测试中,每次都成功将误差率减半,达到了所谓的“阈值以下”水平。这是量子纠错领域近30年来的重大突破,也是构建实用量子计算机的基础条件。 更令人兴奋的是,“Willow”实现了实时纠错,在超导量子系统中完成了首次超越“平衡点”的演示,即整个量子比特阵列的寿命超过了单个量子比特。这一成果不仅证明纠错技术的有效性,也表明量子计算系统的整体性能正在显著提高。 超越时间极限:10万亿年运算缩短至5分钟 “Willow”在量子计算基准测试中再次展现实力。团队使用了“随机电路采样”(RCS)这一量子计算标准测试,结果显示,“Willow”在不到五分钟内完成了目前最先进超级计算机需要10万亿年才能完成的任务。用更通俗的说法,这相当于10的25次方年——一个远超宇宙年龄的数字。此成就被认为是量子计算多宇宙并行运算理论的有力证明。 顶尖硬件性能与设计 “Willow”芯片诞生于谷歌位于圣塔芭芭拉的尖端量子芯片制造工厂,这里是全球为数不多的专用量子硬件制造设施之一。从芯片架构设计到制造和校准,团队始终专注于系统性能的全面优化。相比以往,Willow的量子比特数量达到105个,且量子比特的关键性能指标,如激发保留时间(T1),已接近100微秒,相较上一代芯片提升了5倍。 未来展望:从实验到实际应用 接下来的目标是实现首个“有用的超越经典”的量子计算实验,即能在实际应用中超越经典计算机的能力。此前的研究分为两种类型:一种是基准测试,证明量子计算机的性能超越传统计算机;另一种是量子系统的科学模拟,尽管科学意义重大,但仍在经典计算机的可及范围内。谷歌希望通过“Willow”,将这两种能力结合,真正迈入解决实际问题的商业化时代。 广泛影响与开放合作 量子计算被视为未来科技的关键支柱。谷歌还特别提到量子技术将对AI等领域产生深远影响,例如加速训练数据的收集、优化学习模型、以及模拟量子效应主导的复杂系统等。这些应用不仅包括药物研发和电池设计,还可能推动核聚变等新能源的突破。 谷歌也呼吁更多的研究人员、工程师和开发者参与进来,利用其开放资源和在线课程,共同开发能够解决未来挑战的量子算法。Willow的出现不仅预示着量子计算技术的飞跃,也为人类应对未来最复杂的问题铺平了道路。