埃隆·马斯克周一公开支持美国最具争议的人工智能政策提案之一,支持加州法案1047号。这项法案要求大型AI模型在使用前必须进行安全测试。尽管此法案遭到科技巨头如马克·安德森和OpenAI的强烈批评,认为其规定模糊且负担过重,可能会对开源模型产生寒蝉效应,但法案作者、民主党州参议员斯科特·维纳表示,他的目的是防止不法分子利用AI制造生物武器等对人类造成灾难性伤害。 马斯克在社交平台X(原Twitter)上表示,支持该法案是个“艰难的决定,可能会让一些人不满”,但他认为该法案应该通过。这一表态正值提案的关键时刻,该法案必须在本周末前通过州议会,才能递交至州长加文·纽森的桌前。 马斯克强调:“过去20多年,我一直主张对AI进行监管,就像对任何可能对公众构成风险的产品或技术进行监管一样。” 作为特斯拉、X和SpaceX的负责人,马斯克此前曾呼吁主要AI实验室暂停训练新的超强AI系统,但最近他逐渐接受了生成式AI的趋势。X平台近期推出了一款名为Grok的工具,允许用户通过文本提示生成并发布计算机生成的图像,这已经引发了有关虚假信息和深度伪造在社交媒体泛滥的担忧。 马斯克的立场使他与硅谷的强大力量,以及国会中的一些民主党议员站在对立面,后者最近几周纷纷反对该法案——其中包括众议员佐伊·洛夫格伦、罗·卡纳和前议长南希·佩洛西。 此外,马斯克的支持也使民主党参议员维纳陷入尴尬局面。维纳曾与马斯克就保护LGBTQ青少年隐私的立法问题进行过激烈辩论。
Anthropic打破行业惯例,公开AI系统提示,引发透明化新潮流
在AI行业中,Anthropic公司率先发布了其聊天机器人Claude的系统提示,涵盖了Claude 3 Opus、Claude 3.5 Sonnet和Claude 3.5 Haiku等模型。这些提示引导着AI模型该如何回复用户,规定了其回复的基调和禁忌内容。 最新的系统提示(2023年7月12日发布)明确指出,三种模型均不得:打开URL链接或视频;识别或命名图片中的任何人类;以及在回复中使用诸如“当然”或“绝对”等填充词。 Claude 3.5 Sonnet的知识库更新于4月,而Claude 3 Opus和Claude 3.5 Haiku则在2023年8月进行了更新,这意味着这些模型可以使用各自更新日期前后的数据来回答问题。 如果模型无法回答某个问题,因为相关信息难以在互联网上找到,它们不会道歉,而是会警告用户,尽管它们会尽量提供准确的回答,但也可能会出现“幻觉”信息。 目前,其他AI公司(如OpenAI、Google、Meta和Mistral)都没有公开其系统提示,原因可能是出于竞争考虑,或是为了防止黑客利用提示注入来绕过模型的限制。许多人认为,Anthropic此举是为了展示自己更透明和更具伦理责任感,这可能会引发其他公司跟进。
苹果机器人计划:能否成为智能家居的破局者?
苹果正在悄悄布局机器人领域,希望通过这一新方向不仅在消费者家中占据一席之地,还能为其产品线增添全新维度。与此同时,Meta正准备推出更便宜的Quest设备,苹果也在尝试新的Vision Pro销售策略,而App Store负责人则因公司重组即将离职。 苹果的机器人梦想:从桌面设备开始 近年来,苹果高层在思考如何推出全新产品时,遇到了一些挑战:公司的设备几乎已经融入了消费者生活的每个角落。从iPhone、iPad、Mac到Apple TV机顶盒,人们依赖这些设备获取信息和娱乐;AirPods和Beats耳机则为耳朵带来极致的音频体验;Apple Watch也让用户可以随时关注健康状况。而苹果的Vision Pro则试图改变用户看待世界的方式。 尽管苹果可以不断改进这些现有设备,比如让它们更轻薄、提高电池寿命或加快处理速度,但要创造出一款具有革命性的新产品却越来越难。苹果的自动驾驶汽车项目在今年早些时候宣告失败,但这个项目让公司开始思考一个新问题:如果苹果的产品能够自己“动”起来,会怎样? 自动驾驶汽车的梦想虽然破灭了,但它的本质其实就是一个大型滚动机器人。这种核心技术可以应用于其他领域。早在2020年,苹果就开始探索机器人技术,希望让设备具备移动能力。这一探索至今仍在进行。 桌面机器人或将面世 苹果目前正在研发的测试产品代号为J595,是一款桌面设备。它结合了大屏幕显示器、摄像头和带有机械臂的底座,预计这款设备可能会在2026年或2027年问世。未来,苹果或许还会推出移动机器人,甚至在人形机器人领域发力,预计会在下个十年内实现。 苹果相信,机器人技术可以解决许多生活中的小麻烦。例如,当你在厨房忙碌时,设备可以自动将屏幕转向你,帮助你查阅菜谱或进行视频通话。未来的苹果机器人甚至可能承担起家务活,如装洗衣机或清洗餐具。 然而,距离这些梦想成真还有很长的路要走。目前,市面上的机器人设备价格昂贵,智能化程度有限,功能也不够丰富。此外,许多消费者可能还没有准备好迎接机器人进入日常生活。苹果在技术研发上将面临巨大的成本压力,消费者购买时也会望而却步。 前景广阔,但挑战重重 苹果的机器人工作由技术副总裁凯文·林奇负责,他此前领导了公司的自动驾驶汽车项目。如今,他将这支团队的焦点转向了机器人技术。为了赋予未来的机器人设备更多个性,苹果还在开发一种基于生成式AI的新型人机界面,旨在取代Siri成为机器人设备的核心助手。 尽管苹果机器人项目前景广阔,但行业内外仍有不少质疑声。汽车项目的失败让人不禁怀疑,苹果是否有能力在机器人领域取得成功。此外,苹果在增强现实眼镜等领域的开发也曾遇到过挫折。目前尚不清楚苹果是否有足够的决心将机器人产品推向市场,但如果苹果真的想要找到新的方式融入消费者的生活,机器人技术可能会是下一个突破口。 结语 苹果的机器人计划无疑为公司未来的发展提供了一个全新方向。虽然前路充满挑战,但如果苹果能够克服技术障碍并将产品成功推向市场,机器人有望成为苹果在智能家居领域的制胜法宝。未来的家庭生活是否会因为苹果的机器人变得更加便捷,值得我们拭目以待。
研究发现:大多数AI文本检测器远没有宣传的那么可靠
从对“深入探讨”的可疑癖好,到立场摇摆不定的意见,有些明显的迹象可能会让读者觉得一篇文章是AI生成的。然而,要完全准确地辨别AI文本生成,目前对开发者来说仍是个棘手的问题。 许多AI文本检测系统可以被简单的技巧轻松打败,比如在文本中加入一个不寻常的符号。它们可能在某些类型的内容上表现出色,比如学生论文,但在其他类型的内容上却表现不佳,比如新闻文章。而那些可以稳定识别AI生成内容的检测器,也有可能会把人类创作的作品误认为是机器所为。 宾夕法尼亚大学的研究人员的一项研究揭示了这些发现,并对目前市场上AI文本检测器的一些广告宣传提出了质疑。研究作者提出了一种新的评估方法,旨在通过一个包含1000万篇文章的标准化基准数据集来量化这些工具的有效性。这个数据集涵盖了新闻文章、博客、食谱等内容,并提供了一个公开的排行榜来对检测器进行排名。 “我们希望为AI检测器的评估贡献一个系统化的方法,这样当有人声称他们的创新比现有技术更好时,我们就能验证它确实如此,” 宾夕法尼亚大学计算机与信息科学教授兼研究作者Chris Callison-Burch在接受Tech Brew采访时表示。 自2019年OpenAI发布GPT-2以来,尤其是在ChatGPT风靡全球的这两年,专家们对由大型语言模型(LLM)生成的海量文本带来的风险越来越担忧。这些担忧也逐渐成为现实,从教师对AI生成的论文束手无策,到学术研究被垃圾信息淹没,再到骗子利用AI进行大规模诈骗。 然而,若没有准确的检测工具,人们甚至难以了解问题的全貌。OpenAI去年放弃了早期尝试的AI文本分类器,理由是“准确率低”。各种尝试为AI生成的文本加上水印的做法也未见成效。 Callison-Burch指出,尽管许多初创公司声称其检测器的准确率高达99%,但实际上,这个问题比看上去复杂得多。 研究团队列举了许多绕过检测器的方法,包括用相似形状的同形异义字替换某些字符,或者用英式拼写替换某些单词。他们还发现,检测器通常在它们训练过的文本类型上表现最好,比如,训练于ChatGPT的检测器可能难以处理Anthropic的Claude生成的文本,而训练于新闻文章的工具可能在识别食谱时表现不佳。 Callison-Burch提到,至少有一家初创公司已经在其检测器中加入了防护措施,尽管如此,他对排行榜上一些检测器的表现感到鼓舞。 他总结道:“这有点像猫捉老鼠的游戏,或者说是一场军备竞赛。随着LLM越来越强大,它们变得越来越难以被检测到。但对检测的需求比以往任何时候都更加明显。”
Mozilla对今天发布的开源AI新定义感到兴奋,并认为这是向前迈出的重要一步
Mozilla对今天发布的开源AI新定义感到兴奋,并认为这是向前迈出的重要一步。 过去的一年里,越来越多的人开始意识到开源AI对社会的好处。早在去年10月,众多支持者就签署了声明,强调开放性和透明性是AI安全和保障的关键要素。今年2月,Mozilla与哥伦比亚全球政治研究所召集了AI专家,探讨开源AI如何推动社会发展的核心目标。政策制定者也在逐步拥抱开源AI,美国国家电信和信息管理局(NTIA)最近发布了一份重要报告,支持AI的开放性。甚至像Google、微软、苹果和Meta这样的公司,也开始对其AI系统的某些部分开放。 随着对开源AI的关注日益增加,建立对开源AI的共识变得尤为重要。定义开源AI的标准,包括需要共享的内容以及在何种条件下共享,这一点非常关键。如果缺乏明确的标准,可能导致开源AI的混乱局面:公司随意贴上“开源”标签,即使他们的产品并非真正开源;民间团体无法获得必要的AI组件来进行测试和问责;政策制定者也可能制定无法应对这一复杂问题的法规。 最近,开源倡议组织(OSI)发布了新的开源AI定义草案,标志着互联网发展的一个关键时刻。这一时刻是经过两年多的对话、讨论和参与后形成的。这不仅重新定义了“开源”在AI领域的含义,还关乎科技未来的发展及其对社会的影响。 早在1998年,OSI发布的原始开源定义不仅仅是一组指导原则,更像是一个关于软件开发新方式的宣言。这个定义奠定了开放系统的基础,如今已经成为现代互联网的支柱。从Linux到Apache,开源项目推动了创新、协作和竞争,使互联网成长为一个多样化且充满活力的生态系统。通过确保软件可以自由使用、修改和共享,最初的开源运动不仅扩大了技术的可及性,还打破了准入壁垒,促进了创新文化和透明度,同时使软件更安全,减少了网络攻击的风险。 这一新定义是为开源AI讨论带来清晰度和严谨性的关键一步。它引入了类似现有定义的二元化“开源”定义。尽管这是定义开源AI的众多方法之一,但它为开发者、倡导者和监管者提供了明确的标准,特别是在不同工作场景中。这一定义具体指出,开源AI的核心在于自由使用、研究、修改和共享AI系统,并且强调了获取关键组件的重要性,例如用于训练的数据、AI开发的源代码以及AI模型本身的信息。 此外,这一定义还尝试解决AI模型训练数据共享的复杂问题。定义承认在实践中共享完整的训练数据集可能具有挑战性,因此避免了将大量潜在的开源AI开发排除在“开源”之外。为推动这一领域的发展,Mozilla和Eleuther AI召集专家,制定了支持AI训练的开源数据集的最佳实践,并计划很快发布一篇论文,推广AI训练数据更广泛可用的规范。 尽管有人可能对OSI定义的某些方面存有异议,例如对训练数据的处理方式,并且定义可能需要随着时间的推移进行改进,但该定义经过一年多的利益相关者参与,已经为开源AI的讨论奠定了重要的参考点。例如,该定义将成为打击“开源洗白”现象的有力工具,这种现象正变得越来越普遍——非开源模型(甚至像Meta的Llama 3这样仅部分开源的模型)被宣传为领先的“开源”选项,却没有真正为公共资源做出贡献。研究人员表明,“开源洗白”对创新、研究以及公众对AI的理解有着显著影响。 这一努力展现了开源社区的最佳状态——通过公开讨论,解决分歧,承认不足,并共同完善这个定义,建设出更好的成果。它有效地涵盖了开源社区一直在努力处理的许多关键开放性要素,如不仅仅关注模型权重的开放性,还包括更广泛的模型组件、文档和许可方式。而封闭源代码的生态系统则是在秘密中运作,访问受限,大型科技公司在幕后交换计算资源和人才。相比之下,人们更倾向于选择即便不完美但始终透明的开源方式。 许多支持者热切期待继续与OSI和更广泛的开源社区合作,进一步明确开源AI的讨论,并持续为社会释放开源AI的潜力。
Google Imagen 3上线
谷歌最新发布了Imagen 3版本,这是一款AI文本生成图像的工具,目前已在美国用户中开放。根据VentureBeat的报道,这款工具可以通过谷歌的AI Test Kitchen进行体验。据说,与之前的模型相比,Imagen 3能生成更精细的细节、更加丰富的光照效果,并减少了干扰图像的瑕疵。 谷歌最早在5月的I/O大会上宣布了这款更新后的Imagen 3工具,但似乎直到最近几天才通过其Vertex AI平台正式向公众开放。上周一些Reddit用户已经开始尝试使用Imagen 3,而谷歌在本周二发布了一篇关于该工具的研究论文。 与其他AI图像生成器类似,Imagen 3可以根据用户的提示生成精美的图像。用户还可以通过突出显示某个部分并描述所需更改,来对图像进行编辑。 虽然Imagen 3的生成能力相当强大,比如轻松生成类似经典游戏角色的图像,但它还是有一些限制。这个工具不会生成公众人物的图像,例如泰勒·斯威夫特,也不会生成武器图像。尽管如此,只要描述得足够巧妙,用户还是可以绕过这些限制,生成类似于受版权保护的角色图像。 例如,有人成功生成了与索尼克和马里奥相似的图像,而另一个人则创造了类似米老鼠的角色。此外,Imagen 3还可以生成公司标志,比如苹果、梅西百货、好时巧克力,甚至是谷歌的标志,这在某些用户的图像中都得以展现。 尽管Imagen 3有一定的内容限制,但与埃隆·马斯克旗下X平台上的AI图像生成器Grok相比,这些限制显得相当温和。Grok常常用于生成各种疯狂的内容,包括涉及毒品、暴力以及公众人物的争议性图像。 不过,谷歌的AI工具也不是没有问题。今年早些时候,谷歌曾停止允许人们使用其Gemini AI聊天机器人生成图像,因为有用户发现它生成了一些历史上不准确的图像。
Perplexity AI第四季度开始投放广告
人工智能初创公司Perplexity AI因涉嫌从媒体平台抄袭内容而引发争议,计划在其搜索应用中于第四季度开始投放广告。据CNBC报道,这家公司正通过宣传资料推销其应用的覆盖范围和日益增长的使用量。据悉,该应用已被下载超过两百万次,每月处理超过2.3亿次查询,仅美国的查询量在过去一年增长了八倍。 今年4月,Perplexity获得新一轮融资,估值超过10亿美元,相比三个月前翻了一倍。不过,随着该应用的流行,关于其内容来源方式的担忧也随之增加。今年6月,福布斯报道,该平台曾出现未经引用福布斯的抄袭内容,页面底部仅标注了一个小“F”标志。数周后,Wired也指出Perplexity抄袭了其报道,称一家“几乎肯定与Perplexity相关的IP地址”在三个月内访问了其母公司网站超过800次。 在回应这些指控时,Perplexity表示,已对其“Pages”功能的引用方式进行了修改,并更新了生成内容中对出处的直接引用。上个月,该公司推出了一个收益共享模式,让出版商通过该搜索引擎赚钱。当用户通过引用某篇文章的问题产生广告收入时,Perplexity会与出版商分享部分收益。 包括《财富》、《时代》、《企业家》、德州论坛报、《明镜周刊》和WordPress在内的多个媒体平台已率先加入该公司的“出版商计划”。Perplexity的首席商务官Dmitry Shevelenko在7月份接受CNBC采访时表示,如果一篇回答中引用了同一家出版商的三篇文章,合作伙伴将获得“三倍的收益分成”。他还透露,公司自今年1月起便开始研发该功能,目标是年底前吸引30家出版商加入。 至于广告投放,Perplexity将采用每千次展示费用(CPM)模式。据一位知情人士透露,CPM价格将超过50美元,而根据搜索营销公司Semrush的数据,桌面广告的CPM通常约为2.50美元,移动视频广告的费率大约为11.10美元。 Perplexity的宣传材料显示,其主要广告类别包括科技、健康与制药、艺术与娱乐、金融以及食品饮料等。广告商可以赞助答案下的“相关问题”,也可以购买显示在生成答案右侧的展示广告。 此外,数据显示,超过八成的Perplexity用户拥有本科学历,三成用户处于“高层管理职位”,65%的用户属于“高收入白领职业”,如医学、法律和软件工程等。 人工智能辅助搜索被投资者视为对谷歌的重大威胁,因为它有可能改变用户获取在线信息的方式。去年引发生成式AI热潮的OpenAI,最近推出了名为SearchGPT的搜索引擎。而谷歌也不甘落后,今年5月推出了搜索中的“AI概览”功能,允许用户在结果顶部看到答案的快速摘要
微软探索全新多语言高质量Phi-3.5语言模型:引领AI新高度
微软发布了三款全新的Phi 3.5模型,分别是Phi-3.5-mini-instruct(38亿参数)、Phi-3.5-MoE-instruct(419亿参数)和Phi-3.5-vision-instruct(41.5亿参数)。这三款模型分别针对基本/快速推理、更强大的推理以及视觉(图像和视频分析)任务进行了优化。https://huggingface.co/microsoft 这些模型已在Hugging Face平台上发布,开发者可以免费下载、使用,并根据需要进行微调。值得注意的是,所有模型都采用微软品牌的MIT许可,这意味着开发者可以自由进行商业用途和修改,无需受到任何限制。 令人惊叹的是,这三款模型在多个第三方基准测试中表现出接近最先进水平,甚至在某些情况下超越了谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,甚至是OpenAI的GPT-4o。结合其开放的许可条款,微软因此在社交媒体平台X上获得了广泛赞誉。 接下来,让我们简要回顾一下这些新模型,根据它们在Hugging Face上的发布说明进行分析。 Phi-3.5 Mini Instruct:优化计算资源受限环境 Phi-3.5 Mini Instruct模型是一款轻量级的AI模型,拥有38亿参数,专为遵循指令和支持128k上下文长度的任务而设计。这款模型非常适合那些需要强大推理能力但受限于内存或计算资源的场景,包括代码生成、数学问题解决和逻辑推理任务。 尽管模型体积小巧,但Phi-3.5 Mini Instruct在多语言和多轮对话任务中的表现仍然相当出色,相较于其前代产品有显著提升。在多项基准测试中表现接近最先进水平,并在长上下文代码理解的RepoQA基准测试中超过了其他类似规模的模型,如Llama-3.1-8B-instruct和Mistral-7B-instruct。 Phi-3.5 MoE:微软的“专家混合”模型 Phi-3.5 MoE模型代表微软首次推出的“专家混合”(Mixture of Experts)模型类别,结合了多种不同模型类型,每个子模型专门处理不同任务。该模型拥有42亿激活参数,支持128k上下文长度,为高需求应用提供可扩展的AI性能。 值得注意的是,Phi-3.5 MoE在各种推理任务中表现出色,尤其是在代码、数学和多语言理解方面,经常在特定基准测试中超越更大规模的模型。它在5次测试的MMLU(大规模多任务语言理解)基准测试中也表现出色,在STEM、人文、社会科学等多个学科领域都超过了GPT-4o mini。 MoE模型的独特架构使其在处理多语言的复杂AI任务时保持高效。 Phi-3.5 Vision Instruct:先进的多模态推理 这三款模型的最后一款是Phi-3.5 Vision Instruct模型,它将文本和图像处理能力结合在一起,特别适合执行图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。与其他Phi-3.5系列模型一样,Vision Instruct支持128k上下文长度,使其能够处理复杂的多帧视觉任务。 微软指出,该模型是使用合成和过滤过的公开数据集训练的,重点放在高质量、推理密集型数据上。 新Phi三人组的训练 Phi-3.5 Mini Instruct模型使用512个H100-80G GPU在10天内处理了3.4万亿个token进行训练,而Vision Instruct模型则使用256个A100-80G GPU在6天内处理了5000亿个token。 至于Phi-3.5 MoE模型,由于其专家混合架构,它使用了512个H100-80G GPU,在23天内处理了4.9万亿个token。 开源MIT许可 所有三款Phi-3.5模型都以MIT许可发布,展现了微软对开源社区的支持。该许可允许开发者自由使用、修改、合并、发布、分发、再授权或销售该软件副本。 许可还包含免责声明,指出该软件“按原样”提供,不附带任何形式的保证。微软和其他版权持有者不对因使用该软件而产生的任何索赔、损害或其他责任负责。 微软发布Phi-3.5系列标志着多语言和多模态AI开发的一个重大进展。通过在开源许可下提供这些模型,微软赋予开发者将最先进的AI功能集成到其应用中的能力,促进了商业和研究领域的创新。
Amazon Q:提升软件升级效率的新助手
对于软件开发团队来说,更新基础软件是一项枯燥却关键的任务。这项工作并不像开发新功能那样令人兴奋,也不会让人觉得自己在推动用户体验的进步。因此,通常这种任务要么被团队讨厌,要么被推迟,或者两者兼而有之。 为了给这个沉重的工作带来一些亮光,Amazon推出了一个名为Q的生成式AI助手,专门帮助软件开发团队。最近,Q引入了一项全新的代码转换功能,并成功应用于Amazon内部系统,特别是处理迫切需要的Java升级任务。以下是一些成果总结: 这一切都说明了,通过利用Amazon Q,大型企业在处理基础软件维护任务时可以获得巨大的效率提升。对Amazon来说,这项技术已经彻底改变了工作方式,不仅内部团队计划进一步使用这项代码转换功能,Q团队也计划开发更多的转换功能,供开发者们使用。
AWS CEO:AI重塑软件工程师角色:从编程到创新的转变
AI正在颠覆各个行业,软件工程也不例外。 根据Business Insider获取的一段六月炉边谈话的泄露录音,亚马逊云服务(AWS)首席执行官Matt Garman向员工表示,AI正在改变软件工程师的工作性质,甚至会重新定义他们的工作职责。 Garman在录音中说道:“如果往前看24个月,或者某个时间点——我无法精确预测——很有可能大多数开发者不再编写代码。” 他还补充说,明年的开发者角色将与2020年大不相同。 Garman在AWS工作了近二十年,并于6月3日正式接任CEO一职。他早在2006年就加入了AWS,当时AWS全球销售团队只有三个人。 在谈话中,Garman表示,创新将取代编程,这意味着开发者需要更多地考虑最终产品。 他说:“这意味着我们每个人都必须更加了解客户的需求以及我们真正想要构建的最终产品,因为这将成为工作的核心,而不是坐下来写代码。” 目前,AWS拥有大约13万名员工。今年4月,该公司裁掉了销售、营销和全球服务部门的数百名员工。 高盛集团的首席信息官Marco Argenti在四月也表达了类似的观点——仅有技术技能不足以应对AI的发展。 为了跟上技术的步伐,Argenti建议未来的工程师,包括他在读大学的女儿,在学习工程的同时,也应该学习哲学。Argenti认为,哲学能够为工程师提供推理能力和思维框架,帮助他们应对AI,识别AI的幻觉,并质疑其输出结果。