近年来,计算机视觉技术由于像COCO这样的综合基准数据集的推动而取得了飞速发展。但是,自COCO面世近十年后,其作为现代AI模型基准的适用性正受到质疑。其标注可能包含早期计算机视觉研究中的偏见和细微差别。随着模型在COCO数据集上的表现逐渐趋于平稳,人们担心过度拟合数据集的特定特征,可能限制了其在现实世界中的应用性。 下载: COCONut: Modernizing COCO Segmentation 为了使COCO分割现代化,研究人员在本文中提出了COCONut——一种全新的、大规模的通用分割数据集。与之前创建大型数据集时常常为了扩展而牺牲标签精度不同,COCONut提供了383K张由人工验证的掩码标记图像。想象一下手工标注数百万个图像中的物体,这将需要数年时间!COCONut通过一个创新的辅助人工标注流程解决了这一挑战,该流程利用神经网络来增强人工标注者的工作效率。 这一流程包括四个关键阶段:机器生成预测、人工检查和编辑、掩码生成/精细化以及专家质量验证。在每个阶段,不同的神经模型分别处理“物体”(可数对象)和“非物体”(无定形区域)类,以确保标注的高质量。 但这个辅助人工流程是如何实际运作的呢?在第一阶段,边界框检测器和掩码分割器分别为“物体”和“非物体”类生成初步提议。人工标注者随后检查这些提议,并根据需要编辑或新增提议。精细化后的框和点被送入不同的模块生成最终的分割掩码。最后,专家标注者验证这些掩码的随机样本,重新标记任何不符合严格质量标准的掩码。 为了扩大数据集规模的同时保持质量,研究人员构建了一个数据引擎。它使用标注数据反复训练神经网络,为标注流程生成更优的提议。这一正向反馈循环,加上来自其他数据集的额外图像,最终形成了包含358K张图像和475万个掩码的COCONut-L分割。 研究人员进行了全面分析,将COCONut的标注与纯人工标注进行了比较。他们的专家标注者在“物体”和“非物体”掩码上展现了高度一致性。与此同时,辅助人工流程显著加快了“物体”类的标注速度。COCONut分为三种规模——COCONut-S(118K张图像)、COCONut-B(242K张图像)和COCONut-L(358K张图像,带475万个掩码)。量化结果显示,随着训练集规模从COCONut-S扩展到COCONut-L,各种神经架构的表现都有所改善。 有趣的是,尽管较大的伪标签数据集带来的收益有限,但在完全由人工标注的COCONut-B上训练带来了最显著的性能提升。这强调了人工标注 数据对于训练强大的分割模型的重要性。 COCONut代表了COCO基准现代化的重大进步。凭借其精心人工验证的标注和严格策划的25K图像验证集(COCONut-val),它有望成为评估当代分割模型的更具挑战性的测试平台。COCONut的开源发布为开发更能力强大、更公正的计算机视觉系统铺平了道路,这些系统适用于现实世界的场景。
Author: aitrendtrackers@rengongzhineng.io
AI法庭革命:如何一款名为JusticeText的程序在威斯康星州的一起性侵案中揭示了警方的不当行为
上一年7月25号,在美国威斯康星州的戴恩县,一个看起来平平无奇的刑事案件引爆了一场法律风暴。这不仅仅是因为案件本身,而是因为辩护律师用上了一项黑科技——人工智能。想象一下,这是一部现实版的《少数派报告》。 让我们先来说说这位辩护律师杰萨·尼科尔森·戈茨,她在为自己的客户辩护,这位不幸的灵魂被控在2021年的一次Tinder约会后犯有性侵罪行。就在庭前动议阶段,杰萨的搭档发现了一个问题:主调查官在使用身体摄像头时,似乎有点左支右绌。根据部门的政策,他应该全程佩戴摄像头的。 于是,杰萨索要了与调查相关的录像,警方交出了40小时的视频。通常这种海量数据的倾倒在审判前夕才会发生,对于资源不足的辩护律师来说,这简直是噩梦。但这次不同,因为杰萨使用了JusticeText——一个由两位芝加哥大学计算机科学系毕业生开发的AI程序。这个程序可以快速转录并标记摄像头的音频数据,将长时间的工作压缩到几分钟内完成。 尽管JusticeText没有找到直接证明客户无辜的证据,但它确实揭示了警方的一些问题,特别是一些“明显且可能的有利证据被销毁”的迹象。当杰萨在JusticeText分析的视频中看到调查员对证人说“我尽量说得含糊一些,因为我不想这被记录下来”时,她感到震惊。这段对话后来成了案件被驳回的关键。 法官在3月8日的裁决中提到,由于调查官的行为,被告的辩护权益受到了无法挽回的损害,因此决定驳回这起案件。杰萨·尼科尔森·戈茨因此感叹道:“如果没有JusticeText,审判就会如期进行,而不是被推迟并最终驳回。这彻底改变了我处理发现阶段材料的方式,因为现在我对外面的一切都充满了好奇。” 这就是在现代法律斗争中,AI如何成为一名不可或缺的战士。而这只是个开始,许多类似JusticeText的程序正在被开发和使用,未来的法庭对决可能将更多依赖这些智能工具。
波士顿动力全新电动版Atlas机器人亮相,引领实际应用新篇章
近日,波士顿动力公司在其液压动力的Atlas机器人“退休”后,推出了全新的电动版Atlas,该机器人预计将投入实际应用中。An Electric New Era for Atlas | Boston Dynamics 波士顿动力,这家坐落在美国波士顿的工程与机器人设计巨头,早在2013年就发布了6.2英尺高的Atlas人形机器人。这些年来,我们经常能在视频里看到液压Atlas在假装的建筑工地上跳跃、舞蹈,甚至扔工具包。 时隔十一年,波士顿动力宣布Atlas机器人可以“轻松一下”退休了。取而代之的是全新的电动版Atlas。这一代的Atlas头部装有环形灯,身体部件可旋转,不仅更强壮、更灵巧,也更加敏捷。 虽然外形似人,新Atlas在执行任务时的移动方式却追求效率最大化,不受人类动作范围的限制。 新版Atlas的目标是承担那些单调、肮脏甚至危险的任务。为了测试并迭代Atlas的应用,波士顿动力将与合作伙伴共同研发,首批合作伙伴为现代汽车。 正如公司在博客中所言:“现代汽车团队正在打造下一代汽车制造能力,这将成为新Atlas应用的完美试验场。在接下来的几个月乃至几年里,我们很激动能展示这款世界上最动态的人形机器人的真正能力——无论是在实验室、工厂还是我们的生活中。” 此外,电动Atlas将在液压版的基础上进行扩展,例如,波士顿动力表示将探索多种新的抓取器变体,以满足客户环境中预期的多样化操控需求。 新Atlas还将配备新的人工智能和机器学习工具,如增强学习和计算机视觉,使其能够高效适应复杂的实际情况。 波士顿动力表示:“我们有一个强大的机器学习专家团队正在塑造我们的产品,我们准备立即将有影响力的人工智能推向市场……随着Atlas的发展,这一切将变得更好、更快。”
微软推出VASA-1:通过单张图片和音频创造逼真人脸,技术前景与潜在风险并存
微软研究人员开发了名为VASA的新系统,该系统能够仅使用一张图片和一段音频就创造出逼真的会说话的人脸。VASA-1是基于此框架构建的第一个模型,能够产生精确同步的唇动、自然的头部动作和面部表情,这些都有可能在各种应用中创造更加引人入胜和逼真的体验。 VASA-1的功能不仅仅是将唇部动作与音频匹配。它能够捕捉广泛的情感、细微的面部差异和自然的头部动作,使生成的面孔显得更加可信。此外,用户还可以控制生成视频的内容,比如指定角色的凝视方向、感知距离乃至情绪状态。 最棒的是,该系统还设计有处理意外输入的能力。尽管VASA-1没有针对艺术照片、歌声或非英语语音进行训练,但它仍然可以使用这些输入生成视频。 VASA-1之所以能实现这种现实感,是通过将面部特征、3D头部位置和面部表情分离开来处理。这种“解耦”为视频生成中这些方面的独立控制和编辑提供了可能。 VASA-1的研究团队还强调了其实时效率。该系统能够以高帧率产生高分辨率视频(512×512像素),在离线模式下,其生成帧率为每秒45帧,而在线生成的帧率为每秒40帧。 虽然承认这项技术可能被滥用的潜力,研究人员还是强调了VASA-1的积极应用,包括增强教育体验、帮助有沟通障碍的人士,以及提供陪伴或治疗支持。 然而,我对这项研究论文的时机提出质疑。我认为鉴于人们在社交媒体上会轻信见到的任何东西,这项技术可能会在选举期间被严重滥用,其发布时间本可以推迟。此外,我发现这项技术与谷歌的VLOGGER非常相似。
Meta推动全球AI助手革命:Llama 3引领技术前沿,Meta AI助手全面融入社交媒体平台
ChatGPT引领了AI聊天机器人的浪潮,而Meta则决心在这场竞赛中胜出。 为此,去年9月推出的Meta AI助手现已整合进Instagram、Facebook、WhatsApp和Messenger的搜索栏,并将直接出现在Facebook主要信息流中。你仍然可以在Meta应用的消息收件箱中与它聊天。现在,首次通过独立网站Meta.ai进行访问也成为可能。 为了使Meta的助手有希望成为真正的ChatGPT竞争对手,其底层模型必须同样优秀,甚至更胜一筹。这也是为什么Meta同时宣布推出Llama 3,其下一代基础开源模型。Meta表示,Llama 3在关键基准测试中胜过同类竞争模型,在诸如编码等任务上表现更佳。今天发布的两个较小的Llama 3模型已经整合在Meta AI助手中,并向外部开发者开放,而一个更大、多模态的版本将在未来几个月推出。 Meta的目标是让Meta AI成为“全球人们可以自由使用的最智能AI助手”,CEO马克·扎克伯格告诉我。“有了Llama 3,我们基本上认为我们已经实现了这一目标。” 在美国和其他几个国家,你将开始在更多地方看到Meta AI,包括Instagram的搜索栏。Meta AI助手是我所知的唯一一个集成了来自Bing和Google的实时搜索结果的聊天机器人——Meta将决定何时使用哪个搜索引擎来回答问题。其图像生成能力也已升级,能够在你输入时即时生成动画(本质上是GIF)和高分辨率图像。此外,当你首次打开聊天窗口时,一个受Perplexity启发的提示建议面板旨在“揭示通用聊天机器人能做什么”,Meta的生成AI负责人Ahmad Al-Dahle说。 虽然到目前为止它只在美国可用,但Meta AI现在正在向澳大利亚、加拿大、加纳、牙买加、马拉维、新西兰、尼日利亚、巴基斯坦、新加坡、南非、乌干达、赞比亚和津巴布韦等国的英语用户推出,未来还将覆盖更多国家和语言。这与扎克伯格提出的真正全球AI助手的设想还有距离,但这一更广泛的发布使Meta AI离最终触及公司超过30亿的日活跃用户又近了一步。 有人可能会说这是无耻的抄袭。但很明显,扎克伯格认为Meta庞大的规模加上其快速适应新趋势的能力,是其竞争优势。他正用同样的策略在Meta AI上进行投资,将其推广到各处。 “我不认为今天有很多人在谈论主要AI助手时会想到Meta AI,”他承认。“但我认为这是我们真正开始向很多人介绍它的时刻,我预计它将成为一个相当重要的产品。” 今天,Meta正在向外部开发者推出两个开源的Llama 3模型,有一个80亿参数模型和一个700亿参数模型,这两个模型都将在所有主要的云提供商上可用。(从非常高的层次来看,参数决定了模型的复杂性及其从训练数据中学习的能力。) Llama 3是一个展示AI模型快速扩展的好例子。去年发布的Llama 2最大版本有700亿参数,而即将推出的大版本Llama 3将有超过4000亿参数,扎克伯格说。Llama 2在2万亿标记上训练,而大版本的Llama 3则有超过15万亿标记。(OpenAI尚未公开确认GPT-4的参数数量或标记。) Llama 3的一个关键焦点是显著减少其错误拒绝,即模型声称无法回答实际上是无害的提示的次数。扎克伯格举的一个例子是要求它制作一杯“杀手玛格丽塔”。另一个例子是我在去年的一次采访中给他的,当时Meta AI的最早版本不会告诉我如何分手。 Meta还没有最终决定是否将4000亿参数版本的Llama 3开源,因为它仍在训练中。扎克伯格对于出于安全原因不开源的可能性并不看重。 “我不认为我们或其他领域的人在明年工作的任何东西真的处于那种风险的水平,”他说。“所以我相信我们能够开源。”
台积电在第一季度就给大家来了个惊喜,因为AI芯片的需求大爆发,他们的收入和利润都超出了市场预期
最近,台积电公布了2024年第一季度的财报,喜报连连啊!他们的收入和利润不仅超出了市场预期,还让人看到了芯片行业的新高度。第一季度,台积电的净收入达到了惊人的5926.4亿新台币(约合188.7亿美元),净利润也高达2254.9亿新台币。这些数字的背后,是对3纳米和5纳米技术强劲需求的支撑,特别是在AI应用领域的使用需求激增,因为现在的AI,比如ChatGPT和它的中文兄弟们,正火得一塌糊涂。 台积电不仅是全球最大的先进处理器生产商,还和Nvidia、苹果这些大佬是好基友。他们的CEO C.C. Wei信心满满地表示,2024年将是一个健康增长的年份,得益于技术领先和客户基础的扩大。他还特别提到,几乎所有的AI创新者都在与台积电合作,以满足对节能计算力的巨大需求,预计来自服务器AI处理器的收入将在今年翻倍。 不过,就在台积电财报飘红的同时,台湾上个月还发生了25年来最强的地震,幸好台积电的发言人表示,初步检查其建设现场一切正常,虽然有些晶圆受损需要报废,但预计第二季度大部分生产都能恢复,对收入的影响微乎其微。 而在美国,台积电的亚利桑那子公司也拿到了最高达66亿美元的政府资金初步批准,用于建造世界上最先进的半导体。看来,无论是地震还是竞争,台积电都稳如老狗,未来十年,芯片市场的春天还将继续,让我们拭目以待吧!
亚马逊Bedrock凭借Anthropic的开创性Claude 3系列扩展了AI产品组合
亚马逊网络服务(AWS)宣布将Anthropic的Claude 3系列模型整合到其Amazon Bedrock服务中。此举显著扩展了其AI能力,并向客户提供Claude 3系列的完整套件——Opus、Sonnet和Haiku——作为托管服务。Amazon Bedrock是第一个也是唯一一个普遍向客户提供这些模型的服务。 Anthropic的Claude 3系列在AI技术上取得了重大进展。其旗舰模型,Claude 3 Opus,被认为是市场上表现最优的基础模型,超越了OpenAI的GPT-4等著名模型,在推理、数学和编码能力上有所领先。据Anthropic称,Claude 3 Sonnet和Claude 3 Haiku也带来了相当大的改进。Sonnet的速度是前代的两倍,而Haiku是目前市场上最快、最紧凑的模型,提供了性价比高的解决方案,而不牺牲性能。 这些模型的独特之处在于它们的高级智能,表现出近乎人类的响应能力和较前代产品更高的准确率。Claude 3系列AI模型在遵循复杂指令和坚持特定品牌声音指南方面具有卓越的能力,非常适合面向客户的应用程序。此外,这些模型在产生适合自然语言分类和情感分析的格式输出方面也具有高度的熟练度,极大地扩展了它们在各个行业的应用性。 将Claude 3添加到Amazon Bedrock的生成AI模型名单中,该名单已经包括来自AI21实验室、Cohere、Meta、Mistral AI、Stability AI和亚马逊自身的贡献,显著增强了客户可选择的范围。这使得企业能够更精确地根据自己的需求定制AI解决方案,推动各个领域的创新并转变用户体验。 包括辉瑞、西门子和达美航空在内的全球各行业的大公司已经在利用这些能力来自动化任务、创造新的用户界面以及加速研究和开发工作。Claude 3系列中的视觉启用模型进一步丰富了这一产品系列,使其能够处理和分析各种数据格式和视觉资产,如图表、图形和照片。 主要要点:
现代商业中首席人工智能官(CAIO)的角色与影响
首席人工智能官(CAIO)角色在许多企业的C级行政团队中迅速崛起,这标志着人工智能(AI)在商业领域中的重要性日益增强。CAIO的主要职责是塑造和推动组织的AI战略,这包括制定并执行利用AI改善产品、服务和运营效率的计划。CAIO的使命是确保AI部署技术上可靠,与更广泛的商业目标一致,并遵守相关法规。 CAIO的独特贡献和职责 CAIO在这些领域的专注对于将AI整合到核心业务流程中,并确保其部署增加可持续和道德的价值至关重要。 CAIO在各行各业的战略相关性 这些例子强调了CAIO在利用AI促进创新和战略增长方面的关键作用。 CAIO与CTO的角色和责任 CAIO(首席人工智能官)的主要聚焦是跨越业务运营的AI战略整合,关键职责包括制定AI战略、管理AI实施、确保AI伦理和合规。CAIO的战略影响专注于利用AI推动业务创新和效率,而他们的技术专长在于AI、机器学习和数据分析方面的深入知识。 相较之下,CTO(首席技术官)的主要聚焦是对组织整个技术景观的监督,关键职责包括领导技术计划、管理IT基础设施、确保技术创新和安全。CTO的战略影响更广泛地关注将技术计划与商业目标相对齐,他们的技术专长覆盖多个技术领域的广泛知识。 确定是否需要CAIO 决定一个组织是否需要CAIO涉及几个考虑因素。关键因素包括AI整合的规模、受AI影响的运营流程的复杂性以及AI对公司未来的战略重要性。对于大量投资AI的公司或那些由AI技术迅速变革的行业,任命CAIO对于维持竞争优势和确保统一的AI战略执行至关重要。 结论 总之,CAIO角色在利用AI的变革力量方面起着至关重要的作用。随着组织越来越认识到AI推动创新和运营效率的潜力,CAIO的专业知识变得不可或缺。CAIO能够在技术可能性与商业需求之间架起桥梁,同时导航道德和合规的风景线,这使得这一角色在当今AI驱动的商业环境中至关重要。对于将AI作 为核心战略组成部分的组织应评估任命专门的CAIO来领导他们的AI计划的好处。
Meta因露骨AI图片陷入困境
近日,Meta的独立监督委员会启动了对Meta AI内容政策及其行动的调查,此举源于两张露骨的AI生成图片在Facebook和Instagram上的发布。 Meta目前通过AI和人工审核相结合的方式来检测其平台上的露骨AI内容,并且最近宣布计划将“由AI制作”标签扩展到更多内容上,以提供更多清晰度并防止深度伪造对公众造成伤害。然而,监督委员会的介入是为了调查Meta围绕AI生成的深度伪造内容的执法政策是否有效以及是否一致。 “委员会选择这些案例来评估Meta的政策及其执法实践在处理露骨AI生成图像方面是否有效。” 在Meta的平台上发现了什么样的露骨AI内容呢? 首起事件发生在印度,一位Instagram用户报告了一张涉及公众人物的露骨AI生成图像,请求Meta将其删除。Meta未能做到这一点,并且在48小时后该请求自动关闭。用户对Meta的决定提出上诉,但请求再次被关闭,图片仍留在Instagram上。随后,用户将此图像报告给了监督委员会,Meta迅速删除了该图像,并称其“违反了社区关于欺凌和骚扰的标准”。总结:Meta需要两次报告,以及一次向委员会的报告才将露骨的AI图像删除。 第二起事件发生在美国,Meta的系统检测到Facebook上一个公众人物的AI生成露骨图像,并立即将其删除。Meta对这两起事件的处理方式的不同令人关注——尤其是两张图像都违反了Meta的AI内容政策——这也解释了为什么委员会要介入调查。 “委员会认为探索Meta的政策及执法实践在解决这一问题上是否有效很重要。”委员会目前正在调查这两个案件(他们已请求公众在4月30日前发表评论),并将在几周内发布决定。在这两个案例中,Meta现已删除了露骨内容,委员会为了保护涉事个人免受进一步骚扰,不会公开他们的姓名。
Reka Core:引领AI新纪元的多模态语言模型
Reka 最新推出的多模态语言模型“Reka Core”可谓是技术界的一股清流,这款堪比行业顶尖模型的前沿产品,不仅在多模态理解(包括图像、视频和音频)方面表现出色,而且还能处理更复杂的编码和代理工作流任务。Reka Core 在经过数千GPU几个月的训练后,已经展现出与 OpenAI、Anthropic 和 Google 等巨头抗衡的能力。 尝试: https://chat.reka.ai/auth/login 在独立第三方的多模态人类评估中,Reka Core 在视频任务上超过了 Gemini Ultra,在语言任务上则与其他前沿模型不相上下。更令人印象深刻的是,Reka Core 不仅支持多种语言,还能精准回忆更多信息,显示出卓越的推理能力。 此外,Reka 还与 Snowflake、Oracle 和 AI 新加坡等全球技术平台和政府机构建立了合作关系,这些合作伙伴将帮助将 Reka Core 引入市场,让更多用户享受到这些先进的 AI 功能。Reka 的目标不仅是推动技术的发展,更是通过其全面的多模态模型,为电子商务、社交媒体、数字内容及视频游戏、医疗保健和机器人技术等行业提供支持,拓宽客户的应用场景。 Reka Core 的推出标志着公司在实现其使命方面迈出了重要的一步。未来,Reka 期待通过持续的训练和优化,进一步突破性能界限,同时也欢迎新的合作伙伴加入这一旅程,共同开启 AI 新纪元。 此外,Reka 还与 Snowflake、Oracle 和 AI 新加坡等全球技术平台和政府机构建立了合作关系,这些合作伙伴将帮助将 Reka Core 引入市场,让更多用户享受到这些先进的 AI 功能。Reka 的目标不仅是推动技术的发展,更是通过其全面的多模态模型,为电子商务、社交媒体、数字内容及视频游戏、医疗保健和机器人技术等行业提供支持,拓宽客户的应用场景。 Reka Core 的推出标志着公司在实现其使命方面迈出了重要的一步。未来,Reka 期待通过持续的训练和优化,进一步突破性能界限,同时也欢迎新的合作伙伴加入这一旅程,共同开启 AI 新纪元。