最近,微软广告与网络服务部门的CEO Mikhail Parakhin 在推特上的一番互动,间接透露了OpenAI的“Sora”最终会融入到代码小助手中,不过这个过程可能需要一段时间。 这番话是在一位用户询问“Sora”是否会加入到Copilot时引出的,Parakhin的回答是:“最终会的,但这需要时间。” “Sora”是OpenAI开发的一个大型语言模型聊天机器人;你可以输入任何详细的文字提示,然后AI模型会在60秒内返回一个高度详细的视频。 将这两者结合起来,有可能为开发者创建一个强大的工具,让他们能够在工作中利用两个AI模型的能力。 OpenAI表示,“Sora”是通过一个简化视频的网络来学习的。这个网络以普通视频为起点,将其简化,只保留最重要的部分。然后,“Sora”通过学习这些简化后的视频来创建新的视频。 然而,微软似乎还在处理这一整合的技术层面问题。考虑到“索拉”几天前才对公众进行了预告,要让“Sora”在Copilot中可用还需要一些时间。值得注意的是,Parakhin的推文并没有提供“索拉”何时会与Copilot整合的具体时间表。然而,他的回答表明,微软致力于最终实现这一目标。
Author: aitrendtrackers@rengongzhineng.io
Google 推出Gemma:介绍全新的顶尖开放模型
去试试:http://ai.google.dev/gemma Google坚信人工智能应对每个人都有所帮助。该公司长期致力于向开放社区贡献创新,例如Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode等。最近,谷歌兴奋地推出了其新一代开放模型,旨在协助开发者和研究人员负责任地构建人工智能。 Gemma开放模型系列是一系列由谷歌DeepMind及谷歌其他团队共同开发的轻量级、最先进的开放模型。这些模型基于创建Gemini模型的相同研究和技术。Gemma的设计灵感来源于Gemini,其名称源自拉丁语“宝石”的含义。除了模型权重,谷歌还发布了支持开发者创新、促进合作并指导负责任使用Gemma模型的工具。 Gemma模型现已全球推出。其关键细节包括发布了Gemma 2B和Gemma 7B两种尺寸的模型权重,每种尺寸都提供了预训练和指令调优的变体。谷歌还提供了一个新的负责任生成人工智能工具包,为创建更安全的人工智能应用提供指导和必要工具。此外,通过JAX、PyTorch和TensorFlow提供了全面的推理和监督式微调(SFT)工具链,并通过与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成,简化了使用Gemma的过程。 Gemma模型不仅能在笔记本电脑、工作站或谷歌云上运行,而且通过Vertex AI和谷歌Kubernetes引擎(GKE)实现了简易部署。谷歌还确保了Gemma在多个人工智能硬件平台上的优化,以保证行业领先的性能。 谷歌在设计Gemma时将其AI原则置于首位,采用自动化技术从训练集中过滤掉敏感数据,并通过广泛的微调和来自人类反馈的强化学习(RLHF)确保模型的安全可靠。此外,谷歌对Gemma模型进行了全面的风险评估,包括手动红队测试和自动化对抗测试。 为了支持人工智能的创新,谷歌为开发者和研究人员提供了Gemma的免费访问权限,并鼓励使用Kaggle、Colab笔记本以及谷歌云提供的信用额度。谷歌在ai.google.dev/gemma网站上提供了更多关于Gemma的信息和快速入门指南,并期待未来几周内为多样化应用介绍Gemma模型的新变体。
马斯克最近放出大新闻,说Neuralink的一位患者在植入手术后状态良好,甚至可以用大脑移动鼠标了!
Neuralink联合创始人埃隆·马斯克最近表示,首位植入该公司脑芯片的人类现在仅凭思考就能移动鼠标光标了。”进展很好,患者似乎已经完全康复,我们目前没有发现任何不良影响。患者仅通过思考就能在屏幕上移动鼠标,”马斯克在周一的一个X Spaces活动中这样说道,据路透社报道。 这次更新是在马斯克宣布Neuralink在人体植入芯片几周后进行的。之前的更新也是在X上发布的,X是马斯克拥有的社交网络,以前叫Twitter。马斯克在昨天的聊天中表示:”我们试图通过思考来实现尽可能多的按钮点击。所以我们当前正在研究的是:你能否实现左键点击、右键点击、鼠标按下、鼠标释放… 我们想要的不仅仅是两个按钮。” Neuralink本身似乎还没有就患者的进展发表任何声明。我们今天联系了该公司,如果得到回复将更新本文。Neuralink发布信息的方式上周受到了批评,批评者为纽约大学格罗斯曼医学院医学伦理学部门负责人、生物伦理学教授Arthur Caplan和宾夕法尼亚大学医学伦理学教授Jonathan Moreno。 “通过新闻发布的科学,虽然越来越普遍,但并非科学,”Caplan和Moreno在非营利组织Hastings Center发表的一篇文章中写道。”当为人类实验买单且在结果上有巨大财务利益的人是唯一的信息来源时,基本的伦理标准还没有达到。”Caplan和Moreno承认,从法律上看,Neuralink和马斯克似乎”没问题”: 假设某种脑-计算机接口设备确实被植入了某个严重瘫痪的患者体内,由某些外科医生在某处进行,人们会期待关于这一前所未有的实验的一些正式报告。但与药物研究不同,药物研究需要在公共数据库中注册各个阶段,食品药品监督管理局并不要求早期可行性研究的设备报告。从法律角度看,马斯克的公司没问题,这一事实肯定没有逃过他公司律师的战术关注。但他们争辩说,”打开一个活人的大脑插入设备”应该伴随更多公开的细节。他们写道,存在”避免给数以千计有严重神经系统残疾的人错误希望的”伦理义务。 脑植入物可能会有导致患者状况恶化的并发症,伦理学教授指出。”我们甚至不知道如果事情出了问题或者受试者简单地想要停止时,有什么计划来移除设备,”Caplan和Moreno写道。”我们也不知道动物研究的发现是什么,这些研究证明了为什么现在开始人类第一例实验,尤其是因为这并非救命研究。” 临床试验仍待进行 Neuralink因研究中涉嫌虐待动物被批评,并在去年因违反美国交通部关于危险物质运输规则而被罚款2480美元,这是在去年对公司设施进行检查后的结果。”人们应该继续对Neuralink生产的任何设备的安全性和功能性保持怀疑,”非营利组织负责医学责任的医生委员会在上个月宣布首次植入后说。 “医生委员会继续敦促埃隆·马斯克和Neuralink转向开发非侵入性脑-计算机接口,”该组织说。”其他地方的研究人员已经取得了进展,使用这种非侵入性方法改善患者健康,这些方法不会带来手术并发症、感染或修复功能失常植入物的额外手术风险。” 2023年5月,Neuralink表示已获得食品药品监督管理局批准进行临床试验。据报道,该公司之前试图获得批准被食品药品监督管理局因安全顾虑和其他”缺陷”拒绝。9月,该公司表示正在招募志愿者,特别是那些因颈部脊髓损伤或肌萎缩侧索硬化症导致四肢瘫痪的人。Neuralink表示,首个人类临床试验PRIME(精确机器人植入脑-计算机接口)将评估其植入物和外科机器人的安全性,并评估其BCI[脑-计算机接口]初步功能,以使瘫痪人士能够通过思考控制外部设备。
马斯克最新爆料:”Grok 1.5″将加入”格洛克分析”功能,灵感竟来自《马达加斯加的企鹅》电影
最近,马斯克又在聊天中透露了关于他的xAI语言模型Grok新版本——Grok 1.5的到来。这个即将推出的版本承诺带来一系列激动人心的新功能,其中包括一个能自动概括整个讨论串和回复的“格洛克分析”按钮,让把握复杂对话变得更加简单。此外,据报道Grok 1.5还将协助用户创建帖子,有望简化内容创作过程。 Grok 1.5的发布希望在几周内就能实现。它将带来一个“格洛克分析”的按钮,能够总结整个讨论串和回复。它还将帮助人们创建帖子。 这一消息发布仅几天后,谷歌就发布了其Gemini 1.5语言模型,这引发了人们对两大AI巨头之间潜在竞争的猜测。虽然每个模型的具体功能不同,但都旨在通过先进的语言处理能力增强用户体验。 Grok 1.5可能带来的潜在好处包括: X还在与Midjourney,一个AI生成艺术平台,讨论潜在的合作可能。
Adobe 最近拉了个大招,往它的 Acrobat 和 Reader 里植入了 AI 助手帮你读PDF
Adobe 最近出了个大动作,给它的 Acrobat 和 Reader 加入了全新的 AI 助手,这个助手能用对话 AI 的能力来帮助用户理解和总结全球企业和消费者使用的数以万亿计的 PDF 文件。这一举措显示了 Adobe 想要继续在它几十年前开创的 PDF 市场上保持领先地位,尤其是在像 OpenAI 和 Anthropic 这样的初创公司带来可能具有相同功能的新 AI 系统时。 这个还在测试阶段的 AI 助手,能让用户询问 PDF 内容的问题并获得总结性的回答。它还能基于从 PDF 中提取的信息生成格式化的文本,比如演示文稿和电子邮件。Adobe 的这项新功能利用了它的专有机器学习模型,这些模型能理解 PDF 的结构和内容,从而生成文档摘要、回答问题,甚至为电子邮件、报告和演示文稿格式化信息。 对于 Adobe 庞大的用户群来说,这意味着巨大的影响。AI 助手承诺将万亿份 PDF 文档转变为互动的、响应的知识源泉。它的能力包括推荐问题、创建生成性摘要,以及提供智能引用 —— 在一个越来越关注 AI 生成内容的来源和准确性的时代,这是一个关键功能。 Adobe 强调,AI 助手不会妥协客户数据,遵守严格的数据安全协议,并要求同意任何在 AI 训练中使用文档内容的用途。这种对隐私的承诺可能在数据敏感性仍然是首要关注点的企业领域中提供了竞争优势。将 AI 整合到文档管理中最终可能重新定义生产力,特别是对于那些经常需要处理长合同、报告和研究的知识工作者。 Adobe 通过将 AI 整合到其现有平台中,不仅提升了其产品,而且更深入地融入了个人和企业的工作流程。随着公司准备在测试期结束后通过附加订阅提供 AI 助手的全部功能范围,它准备推出一个可能设定新行业标准的强大工具。这一举措可能催生了一种新的文档消费和创建方式,进一步巩固了…
Meta 发布 MMCSG (多模态智能眼镜对话数据集)
近年来,智能眼镜的热度直线上升,尤其在语音和音频应用领域,比如音乐播放和通讯,它们的优势相较于手机或是固定的智能音箱显而易见。想象一下,戴在头上的这玩意儿不仅装备了多个麦克风、摄像头和其他传感器,还能让你体验到与众不同的便捷。最吸引人的一点可能就是实时字幕功能了,想想未来还可能实现实时跨语言翻译,岂不是美滋滋? 但要实现这一切,得先攻克一系列难题,包括但不限于目标说话人的识别与定位、活动检测、语音识别和声音分离。加入其他信号,比如连续的加速度计和陀螺仪数据,结合音频数据,可能就是解决这些问题的钥匙。 为了支持这方面的研究,人们创建了MMCSG数据集。这个数据集包含了两位参与者之间自发对话的记录,两位参与者都获得了报酬,并同意他们的数据被纳入研究。其中一位参与者佩戴了可以捕捉视频、音频(配备7个麦克风)和惯性测量单元(IMU)数据(包括陀螺仪和加速度计)的智能眼镜。所有对话都经过人工注释,提供了智能眼镜佩戴者的转录、分割和标记。为了保护参与者的隐私,视频中的人脸都进行了模糊处理。 MMCSG数据集的目的是为了研究,使用需遵守我们的数据许可协议。 下载数据集: https://ai.meta.com/datasets/mmcsg-downloads/ 下载论文:Task 3 – MMCSG | CHiME Challenges and Workshops
ChatGPT的增长已经进入了瓶颈期
ChatGPT这颗曾经闪耀的AI新星,如今似乎进入了“成长的冬天”。据Similarweb这家分析公司的最新数据透露,OpenAI旗下的这位聊天机器人在过去八个月里有五个月的网络流量呈下降趋势,目前比2023年5月的巅峰时期下降了11%。而它的移动应用程序的增长速度也慢得出奇,甚至没有Snapchat在上个季度新增的用户多。 这些数据表明,OpenAI的后ChatGPT时代来得比许多人预期的还要快。尽管OpenAI最初将ChatGPT视作其GPT模型的一个演示项目,但它迅速成长为一件大事,让人们对它的潜力寄予厚望。然而,随着增长的放缓,公司必须更加努力地推进其他项目,并且思考为什么它的旗舰产品无法持续其快速的增长势头。 SimilarWeb的高级洞察经理David Carr对我说:“尽管他们吸引了很多注意力,ChatGPT仍然没有成为主流”。 让我们来看看这些数据究竟意味着什么: 2023年5月,ChatGPT的网络访问量达到了18亿次的峰值,但在夏季期间开始下滑。到了2023年8月,访问量从高峰时期下降了21%,之后就没有恢复过来。有人将夏季的下滑解释为由于学生放假的临时暂停,但在初秋的反弹之后,ChatGPT的使用量在11月下降了超过3%,12月下降了7%。到了2024年1月,它的访问量为16亿次,比峰值时期下降了11%,自2023年中旬以来增长停滞。这些数字虽然庞大,但相比之下:拥有全球3.4%搜索市场份额的Bing,在1月份收到了13亿次访问。 同时,ChatGPT的移动应用程序也并未如预期般飞速起飞。该应用程序在2023年7月以430万美国用户的身份首次亮相,但到2024年1月只增长到了630万美国用户。相比之下,Snapchat在2023年第四季度仅新增了800万日活跃用户,从4.06亿增长到了4.14亿。 OpenAI没有回应置评请求。 ChatGPT的停滞并不意味着OpenAI的结束,反而是一个进化的必要。这家研究机构可能价值1000亿美元,上周四推出了一个名为Sora的惊人视频生成模型,显示了一条前进的道路。在一个竞争激烈的AI竞赛中,Google的Gemini刚刚达到了GPT-4的能力,OpenAI将不得不持续推出新作以保持领先。Sora正是这样一种创新,当OpenAI CEO Sam Altman在X上展示其能力时,它获得了极高的评价。 尽管开发者为用户在ChatGPT平台上构建插件的梦想可能难以实现,但GPT技术仍然是OpenAI业务的核心。该公司通过出售对GPT模型的访问权限给企业,实现了约20亿美元的年化收入,使它们能够在其产品中构建特定用途的小型机器人和功能,如自然语言搜索。OpenAI还在开发AI代理,可能会接管机器并执行操作,如填写费用报告,这是一个重大推动,可能会最大化其当前技术的价值。 随着OpenAI的模型变得更好,ChatGPT也将变得更好,给它一个随时间增长的机会。公司目前正在解决ChatGPT最令人沮丧的问题之一——它的金鱼记忆——通过构建更好的回忆能力。不必在每次登录后都重新告诉机器人你是谁,对于重度用户来说应该是一种解脱。 大型、通用的聊天机器人也可能就有一个作为用户界面的上限,这是从一开始就困扰着ChatGPT的问题。如果这是极限,OpenAI应该还好,但如果它的革命性应用无法突破当前的阈值,那肯定会感到失望。
全新芯片闪亮登场,人工智能计算速度将迈入光速时代
宾夕法尼亚大学的工程师们最近大显神通,研发出了一款革命性的新芯片,这不是普通的芯片哦,它用光波而不是电来完成那些让AI变聪明的复杂数学计算。想想看,这意味着什么?这意味着电脑的处理速度将大大加速,同时还能省下一大笔电费。 这块硅光子(SiPh)芯片的设计灵感来自于Benjamin Franklin Medal Laureate和H. Nedwill Ramsey教授Nader Engheta的开创性研究。他们用纳米级别的材料操纵技术,在光——通信的最快方式——的帮助下进行数学计算,并且这还是基于硅的平台,没错,就是那个用来大规模生产电脑芯片的便宜且丰富的元素。 光波与物质的互动可能是突破今天电脑芯片局限性的一条途径,这些局限性基本上还是停留在1960年代计算革命初期芯片的原理上。 在《自然·光子学》杂志上发表的一篇论文中,Engheta的团队和电气及系统工程副教授Firooz Aflatouni的团队共同描述了这款新芯片的研发过程。 Engheta说:“我们决定联手。”他们利用Aflatouni的研究小组在纳米级硅器件方面的领先地位。 他们的目标是开发一个平台,用于执行向量-矩阵乘法,这是神经网络发展和功能中的核心数学操作,神经网络是当今AI工具的计算架构。 Engheta解释说,他们没有使用高度均匀的硅晶片,而是“让硅变薄,比如说到150纳米”,但这种变薄只发生在特定区域。这种高度的变化——而不需要添加任何其他材料——提供了一种控制光通过芯片传播的方法,因为高度的变化可以分布以引起光以特定模式散射,让芯片能够以光速进行数学计算。 由于生产芯片的商业铸造厂的限制,Aflatouni说,这种设计已经准备好用于商业应用,并且可能适用于图形处理单元(GPU),随着开发新AI系统的广泛兴趣,对GPU的需求已经急剧上升。 Aflatouni表示:“他们可以将硅光子平台作为一个附加组件,然后你可以加速训练和分类。” 除了更快的速度和更少的能耗外,Engheta和Aflatouni的芯片还具有隐私优势:因为许多计算可以同时进行,所以不需要在计算机的工作内存中存储敏感信息,这使得由这种技术驱动的未来计算机几乎不可能被黑客攻破。 Aflatouni说:“没有人可以黑进一个不存在的内存来访问你的信息。” 其他共同作者还包括宾夕法尼亚大学工程学院的Vahid Nikkhah、Ali Pirmoradi、Farshid Ashtiani和Brian Edwards。
Groq 首秀:一个闪电般基于LPU的 AI 答案引擎
去试试感觉下这个闪电般的速度 Groq Groq家的LPU可不走寻常路,它抛弃了大家熟悉的GPU那套SIMD(单指令多数据)模式。别看GPU玩并行处理玩得飞起,拿来渲染图形啥的有几百个核心呢,但LPU呢,它是专为AI计算打造,能够提供确定性的性能表现。 而且呢,LPU在能源效率上也超给力,它通过减少管理多线程的开销,避免核心利用率低下,因此在每瓦特的计算量上能做得更好,堪称环保小能手。 Groq的LPU潜力无限,无论是聊天机器人互动、个性化内容生成,还是机器翻译等基于大型语言模型的应用,都有望因此而性能飙升,价格更亲民。特别是在NVIDIA的A100和H100那么抢手的情况下,它可能成为一个不错的替代选择。 说到Groq的创立,还得提它的大佬Jonathan Ross。2016年,他搞起了这家公司,而且哦,他可是Google TPU(张量处理单元)项目的发起人,一开始还只是他的业余项目呢。后来他在Google X的Rapid Eval Team混过一阵,最终决定自己出来搞Groq。
Meta 最近搞的LLM软件测试让人眼前一亮
“Meta 使用大型语言模型自动优化单元测试”(https://arxiv.org/abs/2402.09171) 这篇论文介绍了 Meta 的 TestGen-LLM 工具,这是一个利用大型语言模型(LLMs)来自动优化人类编写的测试的工具。该工具确保生成的测试类通过一系列过滤器,以保证相对原始测试套件的显著改进,并减少与 LLM 幻觉相关的问题。文中讨论了在 Instagram 和 Facebook 平台的 Meta 测试马拉松中部署 TestGen-LLM 的情况,并展示了令人鼓舞的结果。在专注于 Instagram 的 Reels 和 Stories 产品的评估中,75% 的 TestGen-LLM 测试用例成功构建,57% 可靠通过,测试覆盖率增加了25%。论文强调了在 diff 时间部署测试的有效性,因为它为工程师提供了现有测试和审核中的代码的完整上下文。通过测试马拉松的经验获得了关于 diff 时间部署模式的见解,揭示了这项技术在现实世界场景中的表现。最初是手动完成的,但在后续事件中自动化了,为 Instagram 测试马拉松构建 TestGen-LLM diffs 取得了有希望的结果。在第一次 Instagram 测试马拉松中,36名工程师提交了105个单元测试 diffs,其中16个由 TestGen-LLM 生成。值得注意的是,一个 diff 因测试用例中缺乏断言而被拒绝。结果各不相同,一些 diffs 通过覆盖以前未触及的方法和文件显著提高了覆盖率。最大的覆盖率改进来自于一个覆盖了多个新文件和 A/B 测试守门员的 diff。在相关工作方面,基于大型语言模型的软件工程(LLMSE)领域的软件测试生成已被广泛研究。虽然以前的文献回顾证实了基于 LLM 的测试生成方法的普遍性,但本文因其专注于扩展现有测试类并报告工业规模部署的结果而脱颖而出。总的来说,这篇论文通过 diff 时间部署策略,为使用 LLM 在 Meta…