探索可控学习(CL):提升信息检索系统的可靠性与适应性 可控学习(Controllable Learning,CL)正在成为可信机器学习的重要组成部分。它强调确保学习模型满足预定义目标并适应不断变化的需求,无需重新训练。本文将深入探讨可控学习的方法和应用,特别是中国人民大学研究人员在信息检索(IR)系统中的应用。 可控学习的定义与重要性 可控学习被正式定义为学习系统无需重新训练即可适应各种任务需求的能力。这种适应性确保了学习模型能够满足用户的具体需求和目标,从而增强系统的可靠性和有效性。CL的重要性在于它能够应对IR应用中信息需求的动态和复杂性,在这种应用中,情境和需求可能频繁变化。 可控学习的分类 CL的分类基于以下几个方面: 用户中心的控制 用户中心的控制使用户能够积极地塑造其推荐体验。这包括修改用户资料、互动和偏好,以直接影响推荐系统的输出。技术如UCRS和LACE使用户能够管理其资料和互动,确保推荐符合其不断变化的偏好。 平台中介的控制 平台中介的控制涉及平台施加的算法调整和基于政策的限制。这种方法旨在通过平衡多重目标(如准确性、多样性和用户满意度)来增强推荐过程。像ComiRec和CMR这样的技术利用超网络动态生成参数,以适应不同用户偏好和环境变化,确保量身定制的推荐体验。 可控学习的实施技术 在学习系统中实施控制的各种技术包括: 在信息检索中的应用 在IR中的可控学习尤其有价值,因为用户信息需求复杂且不断变化。CL技术的适应性确保了学习模型可以动态调整以适应不同的任务描述,提供个性化和相关的搜索结果而无需大量重新训练。这种适应性增强了用户满意度和IR应用中的系统性能。 结论 对可控学习的综述突显了其在确保可信和适应性机器学习系统中的关键作用。通过提供CL方法、应用和挑战的全面概述,它为对可信机器学习和信息检索未来感兴趣的研究人员、从业者和政策制定者提供了宝贵的资源。
特斯拉即将推出的Model Y(代号“Juniper”)曝光,配备前保险杠摄像头,预计2025年上市
特斯拉即将推出的Model Y:代号“Juniper”的更新版本即将问世 何时发布 尽管埃隆·马斯克之前曾提到,代号“Juniper”的新版Model Y不会在2024年推出,但Reddit用户JacklJack拍摄到了一辆被覆盖的Model Y照片。 类似于“Highland”项目的Model 3,新版Model Y在美国德克萨斯州Giga工厂和加州Fremont工厂附近被发现测试车辆。最近在加州帕萨迪纳也发现了一辆被覆盖的Model Y。 从新版Model 3的时间线来看,新版Model Y原型车的推出似乎预示着它将在2025年初至中期发布。新版Model 3的工程测试车辆在北美首次亮相后约6-8个月内在中国推出,随后几个月在北美上市。如果Project Juniper的时间线类似,那么我们很快就能在北美道路上看到更多的工程测试车辆。 预计这款车将首先在中国发布,随后在北美和欧洲上市。虽然新版Model 3的性能版本直到2024年4月才推出,而长续航版本已在北美上市数月,但特斯拉是否会采用相似策略,先推出新版Model Y的长续航版本再发布性能版本,目前还不清楚。 前保险杠摄像头 对于新版Model 3配备前保险杠摄像头的猜测很多,但迄今为止只有Cybertruck包括了保险杠摄像头和摄像头清洗装置。预计新版Model S和Model X也会添加下保险杠摄像头,但这些版本尚未上市。 目前尚不清楚为什么特斯拉在新版Model 3上没有安装新摄像头,尽管保险杠已经重新设计,工厂也在重新工具化。然而,根据新版Model Y的间谍照片,它看起来可能成为特斯拉第二款包括保险杠摄像头的车辆。TeslaNewswire分享了一张增加亮度的Model Y照片,似乎显示了新的前保险杠摄像头,位置与Cybertruck非常相似,也与早期包含保险杠摄像头的Model 3原型车类似。 目前尚不确定这款额外的摄像头是否会进入量产版本,但至少特斯拉正在考虑将其添加到另一款车型中。 马斯克的回应 埃隆·马斯克在X(前Twitter)上回复Sawyer Merritt,重申新版Model Y不会在今年发布。他还要求大家不要暗示它会发布,因为这会影响当前车辆的销售。 可能的升级 虽然新版Model Y在北美的发布可能还需要一年时间,但更新后的Model Y Juniper有可能配备Hardware 5传感器和计算机。埃隆·马斯克估计HW5(现称为AI5)大约在12-18个月后投入生产。新版Model Y可能是首款搭载新FSD(全自动驾驶)套件的车辆。 当然,新版Model 3的所有升级也可能会应用到Model Y上——包括新的前后保险杠、新的自适应前照灯、增加的续航里程、环境照明、新颜色、新扬声器和更好的动态性能。综合所有这些改进,再加上已经是2023年最畅销的车型,特斯拉的这款新车无疑会成为市场上的一大热门。
OpenAI与Thrive Global推出Thrive AI Health:AI驱动的健康教练应用
OpenAI和Thrive Global正在联手推出Thrive AI Health,一款由AI驱动的健康教练应用。 这意味着什么? Thrive AI Health将是一款高度个性化的AI健康教练。这个教练将基于同行评审的科学研究进行训练,并遵循Thrive的行为改变技巧(称为Microsteps)。它将利用你的医疗数据、日常习惯和偏好,提供实时的、量身定制的提示,旨在改善你的”五大健康要素”:睡眠、饮食、运动、压力管理和社交联系。 一些细节: 为什么这对你重要? 目前,只有少数富裕人士能够享受私人教练和生活教练的服务。但慢性疾病不会区分人群,它们在某些人口中尤为严重。这个健康教练旨在通过提供行为教练,让更多人能够改善健康行为。 大多数关于AI在医疗保健中帮助的讨论都集中在药物发现上,但这次的尝试则是基于你的个人偏好和需求,推动行为改变。社交媒体已经引入了基于个人数据的行为改变,现在这种改变将对我们有利。 Thrive AI Health通过利用AI的力量,为更多人提供个性化的健康建议和行为指导,帮助人们更好地管理健康,减轻慢性病的负担。随着AI在各个领域的应用不断扩大,这一创新举措有望彻底变革我们的健康管理方式。 人工智能助力健康革命:通过行为改变改善健康 目前有多达1.29亿美国人至少患有一种重大慢性病,年均4.1万亿美元的医疗支出中有90%用于治疗这些身心健康问题。这种财务和个人负担预计还会增加。 我们知道这种状况不可持续,但有解决办法,因为健康结果不仅仅由医疗护理或基因决定。行为改变可以成为预防疾病和优化治疗的神奇药物。 行为改变与AI的结合 尽管行为改变很难实现,但通过高度个性化,AI在解决这一问题上具有独特优势。AI在医学领域的科学进展速度已经大大加快——在药物开发、诊断和癌症等疾病研究方面提供了突破性进展。实际上,OpenAI与Color Health合作开发了一款AI副驾驶,帮助医生进行癌症筛查和制定治疗计划。 然而,人类不仅仅是医学档案。我们的健康深受五个基础日常行为的影响:睡眠、饮食、运动、压力管理和社会联系。AI可以通过超个性化显著改善这些行为。 Thrive AI Health:个性化健康教练 这些理念是Thrive AI Health背后的驱动力。OpenAI Startup Fund和Thrive Global联合资助了这一公司,旨在开发定制化的超个性化AI健康教练。这款教练将以移动应用的形式提供,并集成到Thrive Global的企业产品中。它将根据最佳的同行评审科学和Thrive的行为改变方法进行训练,包括Microsteps,即累积形成健康习惯的小日常行为。它还会基于用户选择分享的个人生物特征、实验室和其他医学数据进行训练。教练将学习用户在五个行为方面的偏好和模式:什么条件能让你获得高质量的睡眠;你喜欢和不喜欢哪些食物;你最有可能何时、如何进行步行、运动和拉伸;以及最有效的减压方式。结合超强的长期记忆,你将拥有一个完全整合的个人AI教练,它能实时提供独特的提醒和建议,帮助你采取行动改善日常行为,提高健康水平。 实际应用 想象一下,作为一个忙碌的专业人士,你患有糖尿病,难以管理血糖水平,经常因为繁忙的日程错过餐食和锻炼。个性化的AI健康教练可以在你需要时提醒你服药,建议快速健康的餐食,并鼓励你在工作间隙进行短暂的运动。 目前,大多数健康建议虽然重要,但都很泛泛:你的患者门户可能会自动提醒你接种流感疫苗或进行乳房X线检查,或是你的智能手表提示你呼吸或站立。而AI健康教练可以提供非常精确的个性化建议:下午第三杯汽水换成加柠檬的水;在下午3:15接孩子放学后进行10分钟的散步;晚上10点开始放松程序,因为你第二天早上6点要起床赶飞机。 拓展与公平 使用AI这种方式还可以扩大和普及通过改善日常习惯带来的生命救助效益,解决日益严重的健康不平等问题。拥有更多资源的人已经了解行为改变的力量,有私人教练、厨师和生活教练的帮助。但由于慢性疾病(如糖尿病和心血管疾病)在不同人群中的分布不均,超个性化的AI健康教练可以帮助更多人更容易地进行健康行为改变。例如,它可以推荐一种健康且便宜的食谱,快速用少量食材替代快餐晚餐。 结语 健康不仅仅发生在医生的诊室里。正如新政建设了物质基础设施以改变国家一样,AI将成为一个更有效的健康系统的重要组成部分,持续支持人们的日常健康。这不仅对我们的身体健康有影响,对我们的心理和情感健康也同样重要。当我们感到疲惫和压力时,更容易选择那些能快速带来愉悦但不健康的选项,如无休止的刷屏或情绪化饮食。通过个性化的提示和实时建议,帮助我们改善睡眠,减少糖分和超加工食品的摄入,增加日常运动,降低压力,并加强社交联系,AI可以帮助我们更好地做出有益于心理健康的选择。它还可以根据我们的健康信息,提出激励和启发我们的建议。 关于AI的讨论大多集中在它能为我们节省多少时间和提高多少效率。但AI可以远不止于此,它可以根本性地改善我们的健康寿命和总体寿命。 行为可以滋养我们的健康和完整的人性,这是我们长期以来感兴趣的话题。Arianna撰写了几本关于这一主题的书籍。在建立OpenAI的过程中,Sam学会了优先考虑这五个基础行为,包括充足睡眠、健康饮食、锻炼、亲近自然和冥想。这帮助他更好地应对压力和焦虑,能够在风暴中保持冷静。 AI驱动的诊断已经减少了错误率并改善了患者的结果。现在,通过将AI聚焦于促进健康行为,利用其处理数十亿数据点的能力,我们掌握了一种强大的积极改变工具,确保技术为我们的健康服务,而不是与之对抗。激励机制是超级力量。到目前为止,这些激励机制主要被用来引发愤怒和增加压力。但通过创造新的激励机制,Thrive AI Health可以让用户的个人数据真正为他们自己所用,帮助我们做出更好的决策,过上更健康的生活。 通过AI驱动的个性化行为改变,我们有机会最终扭转慢性病的趋势。实现这一愿景需要协作。政策制定者需要创建一个促进AI创新的监管环境,同时保护隐私。医疗提供者需要将AI整合到他们的实践中,同时确保这些工具符合严格的安全和有效性标准。个人需要通过AI教练充分管理自己的日常健康,并确保这些技术可靠,且他们的个人健康数据将得到负责任的处理。这种集体努力,伴随着强有力的隐私和安全保障,可以彻底改变医疗保健,为全球数百万人带来福祉。
在AI驱动的世界中,RouteLLM:智能路由,优化AI资源
在AI驱动的世界中,RouteLLM:智能路由,优化AI资源 在如今的AI驱动世界中,优化人工智能的使用至关重要。不同的AI系统在能力和成本上各不相同,迫切需要智能管理解决方案。RouteLLM正是这样一个创新框架,它通过动态路由用户查询到最合适的AI模型,确保既经济高效又能提供高质量的响应。 什么是RouteLLM? RouteLLM就像AI查询的交通控制器。当用户提交问题时,RouteLLM会评估其复杂性,并将其引导至适当的AI模型——要么是更强大且昂贵的模型,要么是更简单且便宜的模型。 解决的问题 使用高性能AI处理每一个查询,就像为简单问题(如“今天的天气怎么样?”)咨询天才教授一样——既不必要又昂贵。相反,依赖基础AI处理复杂查询效率低下。RouteLLM通过智能匹配查询和合适的AI模型,优化成本和响应质量。 RouteLLM的工作原理 现实世界的例子 考虑一个利用RouteLLM进行客户支持的电商平台。对于诸如“我的订单在哪里?”这样的简单问题,RouteLLM会将查询引导至基础AI。而对于诸如“我收到了一件损坏的商品。如何退货并获得退款?”这样的复杂问题,则会将查询引导至更高级的AI,确保提供详细且准确的响应。 RouteLLM的优势 结论 RouteLLM充当智能助手,将查询引导至最合适的AI模型。这个智能路由系统帮助组织平衡成本和性能,提供卓越的客户服务,同时有效管理开支。随着AI在各行业中扮演越来越重要的角色,像RouteLLM这样的解决方案将是最大化其潜力、以成本效益为中心的关键。
谷歌在反垄断压力下加速摆脱对苹果Safari的依赖
谷歌在反垄断案前夕努力减少对苹果Safari的依赖 谷歌在搜索行业的主导地位正受到美国司法部的调查,而其与苹果的关系是案件的重要组成部分。根据《The Information》今日的报道,谷歌正加紧减少对苹果Safari浏览器的依赖,以应对可能的反垄断案件结果。 案件焦点 司法部对谷歌的指控之一是谷歌与苹果的协议,使谷歌成为iPhone默认搜索引擎。谷歌每年向苹果支付超过200亿美元以维持这一默认状态,司法部认为这阻碍了搜索引擎行业的竞争。值得注意的是,苹果并未被列为该诉讼的当事方,但案件已经导致苹果高管如Eddy Cue出庭作证。 谷歌的应对策略 《The Information》报道指出,谷歌希望增加iPhone用户在Safari以外进行搜索的比例: 过去几年,谷歌一直试图说服iPhone用户改用Google或Chrome应用进行搜索。尽管谷歌取得了一些进展——从五年前的25%提高到现在的30%出头,但这一进展在去年下半年停滞了。 据参与此项工作的三位人士透露,这一比例远低于谷歌希望到2030年将iPhone搜索比例提高到50%的目标。 谷歌每年向苹果支付的巨额资金是一种收入分享协议,苹果从Safari中进行的谷歌搜索广告收入中分得一部分。通过推动用户使用Chrome和Google应用,谷歌支付给苹果的钱会减少,并且减少了其受到监管的风险。 面临的挑战 然而,谷歌要说服用户使用其应用而不是Safari并不容易。消息人士告诉《The Information》,“克服Safari预装在苹果设备上的事实实在太难了”。 报道还提到,谷歌聘请了前Instagram和Yahoo高管Robby Stein来负责这项工作。作为计划的一部分,谷歌高管曾考虑将其AI摘要功能限制在自己的应用中,这意味着Safari用户看不到搜索结果中的AI摘要,但使用谷歌自家应用的用户可以看到。不过,谷歌最终决定不采取这一措施。 新的推动力量 今年早些时候,谷歌聘请了前Instagram和Yahoo的产品高管Robby Stein,负责将iPhone用户转移到谷歌的移动应用。根据现任和前任员工的说法,他的任务之一是探索如何利用生成性AI使谷歌应用更具吸引力。 结论 报道明确指出,谷歌多年来一直在努力摆脱对Safari的依赖,但收效甚微。结果是否会有所改变还有待观察,但真正的关键是美国司法部的反垄断案件,预计“将在未来几个月内”有结果。
极客时间:使用Autogen Builder和本地LLM(Microsoft Phi3模型)在Mac上创建本地AI代理
AI技术已经取得了长足的进步,现在通过微软、谷歌和OpenAI等公司发布的各种新AI代理框架,创建自己的AI代理比以往任何时候都更容易。借助AutoGen Builder(https://microsoft.github.io/autogen/)和强大的本地LLM(如Microsoft Phi3),你可以直接在Mac上构建和部署AI解决方案。让我们一起来实现吧——以下是逐步指南。 步骤1:安装AutoGen Builder 在之前的帖子中,我们玩过微软的AutoGen。AutoGen Builder是一个无代码环境,用户可以轻松创建工作流、模型和代理。运行以下命令进行安装: 安装完成后,在终端运行其Web UI: 界面相当简洁。 步骤2:使用Ollama运行本地LLM 使用以下命令运行本地LLM非常简单: 起初,我对我的M1 MacBook过于自信,尝试运行谷歌的Gemma 2 9B,结果在工作流测试期间我的Mac崩溃了。因此,我不得不切换到体积更小的Phi 3 Mini(2.3GB)。 步骤3:运行LiteLLM和Gunicorn AutoGen原生支持OpenAI和Gemini的LLM模型,但不支持Phi3。因此,我们需要使用LiteLLM和Gunicorn作为代理,提供符合OpenAI标准的API供AutoGen调用。安装过程非常简单: 我遇到了以下错误: 处理这个错误的过程中,发现还需要安装一些额外的依赖,包括backoff: 然后运行: 你会看到代理运行在http://0.0.0.0:4000。 步骤4:配置AutoGen Builder 首先,我们需要创建测试工作流。 工作流将使用代理“local_assistant”。 然后,我们将“local_assistant”代理配置为使用我们的本地LLM Phi3(实际上我命名为local_gemma2,忘了改成local_phi3)。 接下来,创建模型。对于“API key”,输入“NotRequired”,因为我们调用的是本地LLM Phi3。点击“Test Model”,如果一切正常,你会看到“Model tested successfully”。 最后,进入AutoGen Builder的“Playground”运行测试。你会看到来自本地Phi3的回复。 AutoGen Builder使用起来非常简单。下一步更有趣的是创建一个具有自己技能的自定义代理。将会非常有趣。敬请期待! 动手试试吧,玩得开心。
Stability AI 推出新社区许可证,拥抱开放源代码
Stability AI 重返开放源代码:新社区许可证 Stability AI 最近宣布将其 AI 模型免费提供给大多数用户,包括小型企业。他们正在加大开放源代码的力度,试图在SD3发布不顺利后赢回社区的支持。 发生了什么? Stability AI 发布了一种新的“社区许可证”,对其 AI 模型的使用权限更加宽松。这一举措是回应他们最忠实用户的抱怨,因为这些用户不满公司逐渐远离开放源代码的做法。看起来公司已经听取了这些意见并对许可证进行了修改。 具体意味着什么? 现在,年收入低于100万美元的个人和小型企业可以免费进行商业使用。只有年收入超过100万美元的大型商业用户需要支付企业许可证费用。和之前一样,非商业用途仍然完全免费(适用于研究人员、学生、爱好者等),并且不再限制生成图像的数量。Stability 的团队还在努力改进 SD3 Medium,以解决社区指出的质量问题。 为什么这对你重要? 大语言模型(LLM)在AI讨论中往往占据不成比例的关注度,因为它们对构建日常软件产品的开发者来说非常容易使用。相比之下,图像生成主要局限于一些 Discord 服务器和受限的图像模型。更宽松的许可证将激励开发者构建以图像生成为核心的AI产品。 值得注意的是,Stability AI 在最近的领导层变动和资金注入后,正在回归其开放源代码的初衷(之前也面临严重的资金紧张问题)。这一回归可能会为社区带来更多创新和发展机遇。
微软AI主管对网络内容版权的错误理解
微软AI部门负责人穆斯塔法·苏莱曼(Mustafa Suleyman)最近声称,只要在开放网络上发布的内容,就成为了“自由软件”,任何人都可以自由复制和使用。 在接受CNBC采访时,安德鲁·罗斯·索金(Andrew Ross Sorkin)询问他“AI公司是否盗用了世界的知识产权”,他回应说: “对于已经在开放网络上的内容,自90年代以来的社会契约就是公平使用。任何人都可以复制、重建、再生产。这已经成为‘自由软件’,这是一直以来的理解。” 微软目前正面临多起诉讼,指控其与OpenAI盗用了受版权保护的在线内容来训练其生成性AI模型。因此,微软高管为其辩护为合法行为并不令人意外。但令人惊讶的是,他的言论如此公开且明显错误。 版权保护的基本知识 尽管笔者不是法律专家,但可以明确的是,在美国,一旦创作完成,作品便自动受到版权保护。创作者无需申请,更不会因将作品发布在网上而失去版权。事实上,放弃版权的过程非常复杂,以至于律师们制定了专门的网络许可证来帮助实现这一点。 公平使用则是通过法院裁定的,而不是通过“社会契约”。这是一个法律防御机制,允许在法院权衡复制内容的目的、数量以及对版权持有者的影响后,进行某些使用。 尽管许多AI公司声称使用受版权保护的内容进行训练属于“公平使用”,但大多数公司在讨论此事时并不像苏莱曼那样直言不讳。 在提到“公平使用”后,苏莱曼还发表了一句令人深思的言论: “我们作为人类的集体,除了是一个知识和智力的生产引擎,还有什么其他目的呢?” 关于robots.txt的讨论 苏莱曼似乎认为robots.txt文件的概念有些道理——即通过在文本文件中指定哪些机器人不能抓取特定网站的内容,可能会阻止他人获取其内容。他说道: “另一个类别是网站、出版商或新闻机构明确表示‘除了索引外,请勿抓取我的内容。’这是一个灰色地带,我认为这将通过法院解决。” 但robots.txt并不是法律文件。它才是自90年代以来的“社会契约”——然而一些AI公司似乎也在忽略它。据报道,微软的合作伙伴OpenAI就是其中之一。
Meta最新AI图像生成模型:3D Gen的快速登场
https://ai.meta.com/research/publications/meta-3d-gen Meta公司最近推出了一款全新的“3D Gen”模型,这是一个“最先进的快速处理管道”,能够在一分钟内将输入文本转换为高保真3D图像。 更令人兴奋的是,该系统还能通过文本提示为生成的图像和艺术家制作的图像应用新纹理和皮肤。 据Meta Gen AI研究团队的最新研究,3D Gen不仅提供高分辨率的纹理和材料贴图,还支持基于物理的渲染(PBR)和生成性重新纹理化功能。 研究团队估计,使用Meta的3D AssetGen模型创建初始3D模型的平均推理时间仅为30秒。用户随后可以通过Meta 3D TextureGen模型使用文本提示来进一步完善现有的模型纹理或替换为新的纹理,这一过程预计仅需额外的20秒推理时间。 研究摘要中提到:“通过结合这些优势,3DGen同时在三种方式下表示3D对象:视图空间、体积空间和UV(或纹理)空间。”Meta团队将其3D Gen模型与多个行业基准进行了比较,考虑了文本提示的保真度、视觉质量、纹理细节和伪影等因素。通过结合这两个模型的功能,注释者在68%的时间里选择了通过集成的两阶段过程生成的图像,而不是单阶段生成的图像。 虽然这篇论文中讨论的系统仍在开发中,尚未准备好公开使用,但该研究展示的技术进步可能会在游戏和电影特效到VR应用等多个创意领域产生变革性影响。 赋予用户快速且直观地创建和编辑3D生成内容的能力,可以大大降低这些创作活动的门槛。不难想象,这对游戏开发等领域将产生的巨大影响。
Google RichHF-18K 文本到图像生成中的丰富人类反馈
近年来,图像生成模型(T2I)如Stable Diffusion和Imagen在根据文本描述生成高分辨率图像方面取得了显著进展。然而,许多生成的图像仍然存在诸如伪影(如物体变形、文本和身体部位失真)、与文本描述不一致以及美学质量低下等问题。例如,某个输入提示为“熊猫骑摩托车”,但生成的图像却显示了两只熊猫,并伴有其他不需要的伪影,如熊猫的鼻子和车轮辐条变形。 受人类反馈强化学习(RLHF)在大型语言模型(LLMs)中的成功启发,研究者们探索了从人类反馈中学习(LHF)是否能帮助改善图像生成模型。在应用于LLMs时,人类反馈可以包括简单的偏好评分(如“点赞或踩”、“A或B”),也可以是更详细的回应,如重写有问题的答案。然而,目前LHF在T2I中的应用主要集中在简单的响应上,如偏好评分,因为修复有问题的图像通常需要高级技能(如编辑),这既困难又耗时。 在“富人类反馈的文本到图像生成”中,研究人员设计了一种获取具体且易于获取的富人类反馈的方法。他们展示了LHF在T2I中的可行性和优势。主要贡献有三点: 这是第一个用于最先进的文本到图像生成的丰富反馈数据集和模型。 富人类反馈的收集 从Pick-a-Pic训练数据集中根据PaLI自动创建的属性选择图像,以确保类别和类型的良好多样性,最终得到17K张图像。研究人员将这17K张样本随机分为训练集(16K样本)和验证集(1K样本)。此外,他们在Pick-a-Pic测试集中收集了丰富的人类反馈,作为测试集。最终,RichHF-18K数据集包含16K训练样本、1K验证样本和1K测试样本。 对于每张生成的图像,注释者首先检查图像并阅读文本提示,然后在图像上标记任何不可信、伪影或与文本提示不一致的位置。最后,注释者对未对齐的关键词以及可信度、图像-文本对齐、美学和整体质量的四种评分进行打分,分别使用5分Likert量表。 富人类反馈的预测 RAHF模型的架构基于ViT和T5X模型,受先前大型视觉语言模型(PaLI和Spotlight)的启发。文本信息通过自注意力机制传播到图像标记以预测文本未对齐评分和热图(伪影或未对齐的区域),而视觉信息传播到文本标记以进行更好的视觉感知文本编码,从而解码文本未对齐序列。最好的模型使用单头预测每种类型的反馈,如热图、评分和未对齐序列。研究人员为每个任务在提示中添加了任务字符串(如“不可信热图”)以提示模型特定任务。 从丰富的人类反馈中学习 预测的丰富人类反馈(如评分和热图)可以用来改善图像生成。例如,通过用预测的评分来微调生成模型。研究人员首先通过RAHF预测的评分筛选Muse模型的结果,创建一个高质量的数据集,然后使用该数据集通过LoRA微调方法微调Muse模型。对比评估显示,使用RAHF可信度评分微调的Muse生成的图像比原始Muse具有显著更少的伪影。 此外,研究人员展示了使用RAHF美学评分作为分类器指导来改进Latent Diffusion模型的示例,这表明每种细化的评分都可以改善生成模型的不同方面。 总之,研究人员发布了RichHF-18K,这是第一个用于文本到图像生成的丰富人类反馈数据集。他们设计并训练了一个多模态变压器来预测丰富的人类反馈,并展示了使用这些反馈改进图像生成的一些实例。未来的工作包括改进数据集以提高注释质量(尤其是在未对齐热图上),并收集更多生成模型(如Imagen和DALL-E)的丰富人类反馈,同时探索更多使用丰富人类反馈的方法。他们希望RichHF-18K和初始模型能够激发进一步在图像生成领域学习人类反馈的研究方向。