语音识别中的可理解性评估:超越词错误率的意义保留 在自动语音识别(ASR)模型的评估中,词错误率(WER)及其逆值词准确率(WACC)是衡量句法准确性的常用指标。然而,这些指标未能反映ASR性能的一个关键方面:可理解性。这种局限性在针对具有非典型言语模式的用户时尤为明显,他们的WER往往超过20%,在某些情况下甚至超过60%。尽管如此,如果ASR模型能较好地保留其言语的意义,这些用户仍能从中受益。这在实时对话、语音输入文本信息、家庭自动化等对语法错误容忍度较高的应用中尤为重要。实际上,这些用户和应用场景最能从保留意义的ASR模型中获益,因为它们能显著改善交流。 WER的局限性与意义保留的重要性 尽管WER和WACC可以衡量语音识别的句法准确性,但它们并不总能准确反映转录错误的严重性。以下是一些示例,展示了WACC如何未能准确反映转录错误的严重性。在两个例子中,尽管WACC相似,第一个例子的错误相对无害,而第二个例子的错误则更为严重。 创建意义保留评估系统 为了解决这一问题,开发了一种新系统,以自动评估ASR模型有效传达用户意图的能力。在论文《利用大型语言模型评估语音转录的可理解性》(ICASSP 2024)中,介绍了一种新方法,使用大型语言模型(LLM)来确定转录是否准确捕捉了与参考文本相比的预期意义。基于这一方法,还报告了使用Gemini模型如何在不显著损失性能的情况下使用更小的模型,并在无需额外训练的情况下实现多语言意义评估。 意义保留作为替代指标 研究利用了Project Euphonia语料库,这是一个包含约2000名具有各种言语障碍的个体超过120万条语句的语料库。为了扩展对西班牙语使用者的数据收集,Project Euphonia与ALS/MND国际联盟合作,收集了来自墨西哥、哥伦比亚和秘鲁ALS患者的语音样本。同样,通过与巴黎脑科学研究所的Romain Gombert合作,Project Euphonia扩展到法国,收集了法国非典型言语者的数据。 在实验中,生成了4731个包含真实值和转录错误对的示例数据集,并附有人类标注,指示这些对是否保留了意义。将数据集分为训练集、测试集和验证集(分别为80% / 10% / 10%),确保三个数据集在真实语句级别上没有重叠。 训练与评估 在基础LLM上训练了意义保留分类器。通过提示微调(一种参数高效的LLM适应方法),将基础LLM调整为能够预测“是”或“否”的标签,以指示是否保留了意义。 在推理过程中,没有生成响应,而是获取LLM的logits作为两个类别标签(“是”和“否”)的分数。可以选择得分较高的标签,或在评估意义保留分类器时,使用“是”类别的得分。 使用Gemini进行意义保留评估 尽管在PaLM模型上取得的结果令人鼓舞,但最近AI模型的巨大进步激励评估其在此任务中的适用性。重新训练了意义保留分类器,现在使用Google的Gemini作为基础LLM。对于许多相关的用例,这一评估任务最好使用小模型(例如用于设备上的应用)。因此,选择了Google的Gemini小版本(Gemini Nano-1,具有1.8B参数,详见Gemini 1.0技术报告)进行更高效的推理,其参数量不到最初使用的PaLM 62B模型的3%。在意义保留测试集上评估时,微调后的Gemini Nano-1表现非常竞争,AUC ROC得分为0.88,尽管其规模较小。 多语言意义保留评估 还创建了法语和西班牙语的意义保留测试集,作为Project Euphonia扩展数据收集工作的一部分。这些测试集基于收集的语句、说话者言语障碍的严重程度和病因学的元数据,以及从Google的高度多语言通用语音模型(USM)获得的真实转录和ASR转录。 西班牙语测试集由来自六名说话者的518个示例组成,而法语测试集由来自十名说话者的199个示例组成。对于两种语言,不同说话者具有不同的病因学和言语障碍程度,包括轻度、中度和重度。 基于Gemini Nano-1模型的意义保留分类器在法语和西班牙语测试集上获得了约0.89的ROC AUC性能。鉴于该分类器仅用英文示例进行训练,这一结果相当显著。由于基础Gemini模型的多语言能力,这些能力在无需重新训练模型或创建新语言的训练数据集的情况下得以显现。 结论 提出使用意义保留作为比WER更有效的ASR系统评估指标,特别是在高错误率的情况下,如非典型言语和其他低资源领域或语言。通过关注意义保留,可以更好地评估模型对个体用户的有用性,尤其是在Project Relate等助听技术中,这些技术旨在通过训练完全个性化的语音识别模型使非典型言语者得到更好的理解。 为了进一步推进意义保留工作,并将其惠及更多用户和语言,还探索了Google Gemini模型的能力。Gemini Nano-1使能够在使用显著较小模型的情况下实现类似的分类器性能。尽管仅在英文示例上训练,分类器显示出在其他语言中准确评估意义保留的能力,如法语和西班牙语的测试所示。这一激动人心的发展为构建更高效、更通用的模型开辟了新的可能性,使更多用户受益。
Author: aitrendtrackers@rengongzhineng.io
微软退出OpenAI董事会观察席:信心十足还是战略调整?
微软宣布立即放弃其在OpenAI董事会的非投票观察席,这一举措引发了广泛关注。 微软决定放弃其在OpenAI董事会的观察席位,称其对OpenAI的未来方向已足够自信。 微软表示,在过去的八个月里,OpenAI取得了“显著进展”,因此他们认为不再需要内部视角。这一决定是在微软去年11月关键推动萨姆·阿尔特曼(Sam Altman)回归CEO并重新构建OpenAI治理结构之后做出的。当时,微软和萨提亚·纳德拉(Satya Nadella)希望在OpenAI的运营中获得一定发言权,他们通过观察席位实现了这一目标。 自那时以来,OpenAI一直在重建其董事会,增加了如拉里·萨默斯(Larry Summers)和前NSA官员保罗·中村(Paul Nakasone)等重量级人物。曾有传言称苹果高管菲尔·席勒(Phil Schiller)将获得观察席位,但现在OpenAI决定取消整个观察席系统。 取而代之的是,OpenAI正在制定一种“新方法”,以便在不提供董事会席位的情况下,让战略合作伙伴和投资者保持知情。这些合作伙伴包括微软和苹果,以及Khosla Ventures和Thrive Capital等重要投资者,他们将定期与OpenAI的首席财务官萨拉·弗里尔(Sarah Friar)会面,了解公司的最新动态。 媒体关注的焦点在于反垄断角度。他们认为,这种调整可能会为两家公司带来更顺畅的发展。微软可以避免潜在的反垄断问题,而OpenAI则可以在没有大科技公司监督的情况下独立运营。 但这背后是否还有其他故事?传闻称,OpenAI与苹果的整合效果不佳,而且OpenAI并未从中获得报酬。给予苹果一个董事会席位可能会引发更多问题。也许,萨姆和董事会主席布雷特(Bret Taylor)取消观察席系统正是为了摆脱这种困境?这并非毫无可能。 微软退出OpenAI董事会观察席的决定标志着两家公司关系的一次重大调整。虽然微软表示对OpenAI的未来充满信心,但这一变化也可能是为了避免潜在的反垄断问题和其他战略考量。随着OpenAI继续推进其创新和发展,外界将密切关注其新治理结构和合作伙伴关系的发展。
六大秘诀:助新晋数据科学经理打造高效团队
对新上任的数据科学经理来说,管理团队是一项艰巨的任务。领导职责通常伴随着陡峭的学习曲线。然而,通过专注于建立一个支持性、充满雄心并且凝聚力强的团队环境,可以将团队表现提升到新的高度。本文将分享六个在领导一个八人数据科学团队过程中学到的重要经验,帮助任何团队转变为高效团队。 成长心态 每个加入团队的人都有自己的职业目标和愿望。他们加入团队是为了学习新技能、接触新工具和技术,并了解业务的新领域。最终,可能会有新的机会出现,你希望团队为这些机会做好准备。表明你致力于员工的职业成长和发展,可以激励员工,并随着时间的推移帮助团队成熟。为支持这一承诺,可以考虑以下策略: 例如,一个名叫阿瑟的初级数据科学家希望成为其金融科技初创公司的首席数据科学家。阿瑟统计背景强,但需要提高机器学习技能。他的经理阿曼达为阿瑟制定了职业发展计划,包括完成一个使用TensorFlow的小项目,并参加每月一次的AI研讨会。 在每两周一次的一对一会议中,阿曼达和阿瑟会审查这个发展计划,讨论具体的成功和挑战。这些会议为阿瑟提供了职业发展的透明度,同时也为他提供了表达对计划的任何担忧的安全空间,并获得建设性的反馈。阿曼达还将阿瑟与一位以高级机器学习技能著称的资深数据科学家配对。每隔几周,阿瑟都会与这位资深数据科学家会面,讨论技术挑战和应对策略。 到年底,阿瑟成功领导了一个提高客户保留率的机器学习项目,赢得了高级管理层的关注,并晋升为团队负责人。如果没有对技能差距的有意关注,阿瑟不太可能如此迅速地成长。这一成功突显了包括个性化规划、一致的导师关系和支持性反馈在内的全面发展策略的有效性。 民主化的优先级排序 作为经理,直接分配任务是很诱人的。然而,参与项目优先级排序和路线图开发,可以增加团队对特定项目的集体认可,从而带来更成功的结果。创建一个安全的空间,让团队成员对项目表示支持或提出担忧,有助于优化你的路线图。以下是一些建议: 阿曼达管理着一个八人团队,负责开发支持贷款业务的模型。在每个工作周期开始时,阿曼达审查项目待办事项并与优先级文件进行比较。团队成员讨论项目的优先级,表达担忧并提出改进建议。她鼓励共识而非简单多数决策。通过这种方式,阿曼达提高了团队的士气、对齐度,并提供了必要的信息,使团队能够做出有效的决策。 寻找适合团队的流程 管理团队的方法有很多种,选择合适的可能令人不知所措。在实际操作中,具体的方法不如每种系统的一些关键原则重要。需要考虑的主要方面如下: 阿曼达完成了优先级审查,团队同意开发一个利率预测模型。她为每个项目设定五周的工作时间,设立双周冲刺评审,以识别阻碍并实时调整。团队成员对项目进展负责,更具创造性,并且对推动项目成功有更高的个人责任感。如果五周内没有产生任何价值,团队可以继续前进,避免在失败项目上投入更多资源。 富有同情心的冲突管理 管理冲突是工作的一部分,冲突有各种形态。作为经理,无法逃避冲突,而是要确保有效处理冲突,并且不让冲突分散团队的注意力。关键在于: 假设阿曼达管理的两个团队之间由于计算资源问题而产生紧张关系。她早期识别到冲突,并决定干预。她分别与每个团队会面,花时间倾听并提出澄清问题,以确保她充分理解每个团队面临的挑战。然后,阿曼达安排了一个联合会议,两个团队共同头脑风暴解决方案。通过这种协作方式,冲突得到解决,团队合作和关系得到加强。 有效沟通 有效沟通不仅能保持团队专注,还能作为团队行为的模范,并有助于防止冲突。有效沟通者的特点如下: 例如,阿曼达组织了一次团队会议,讨论公司最近的裁员情况。她努力做到清晰简洁,自信地传达信息,确保团队了解情况。她展示了耐心,为问题留出时间 ,并在会后继续提供支持。这样,她确保了团队在不确定的时期感到舒适,并确保没有团队成员留下未解决的问题。 高效的一对一会议 一对一会议是团队成员直接接触经理的时间。这些会议对于建立关系、了解团队成员感受、识别和解决冲突以及推进职业发展至关重要。以下是提高一对一会议效率的建议: 管理团队不仅仅是完成任务。希望这些经验能够帮助新任经理更快地成为高效的领导者。
可控学习综述:信息检索中的方法、应用和挑战
探索可控学习(CL):提升信息检索系统的可靠性与适应性 可控学习(Controllable Learning,CL)正在成为可信机器学习的重要组成部分。它强调确保学习模型满足预定义目标并适应不断变化的需求,无需重新训练。本文将深入探讨可控学习的方法和应用,特别是中国人民大学研究人员在信息检索(IR)系统中的应用。 可控学习的定义与重要性 可控学习被正式定义为学习系统无需重新训练即可适应各种任务需求的能力。这种适应性确保了学习模型能够满足用户的具体需求和目标,从而增强系统的可靠性和有效性。CL的重要性在于它能够应对IR应用中信息需求的动态和复杂性,在这种应用中,情境和需求可能频繁变化。 可控学习的分类 CL的分类基于以下几个方面: 用户中心的控制 用户中心的控制使用户能够积极地塑造其推荐体验。这包括修改用户资料、互动和偏好,以直接影响推荐系统的输出。技术如UCRS和LACE使用户能够管理其资料和互动,确保推荐符合其不断变化的偏好。 平台中介的控制 平台中介的控制涉及平台施加的算法调整和基于政策的限制。这种方法旨在通过平衡多重目标(如准确性、多样性和用户满意度)来增强推荐过程。像ComiRec和CMR这样的技术利用超网络动态生成参数,以适应不同用户偏好和环境变化,确保量身定制的推荐体验。 可控学习的实施技术 在学习系统中实施控制的各种技术包括: 在信息检索中的应用 在IR中的可控学习尤其有价值,因为用户信息需求复杂且不断变化。CL技术的适应性确保了学习模型可以动态调整以适应不同的任务描述,提供个性化和相关的搜索结果而无需大量重新训练。这种适应性增强了用户满意度和IR应用中的系统性能。 结论 对可控学习的综述突显了其在确保可信和适应性机器学习系统中的关键作用。通过提供CL方法、应用和挑战的全面概述,它为对可信机器学习和信息检索未来感兴趣的研究人员、从业者和政策制定者提供了宝贵的资源。
特斯拉即将推出的Model Y(代号“Juniper”)曝光,配备前保险杠摄像头,预计2025年上市
特斯拉即将推出的Model Y:代号“Juniper”的更新版本即将问世 何时发布 尽管埃隆·马斯克之前曾提到,代号“Juniper”的新版Model Y不会在2024年推出,但Reddit用户JacklJack拍摄到了一辆被覆盖的Model Y照片。 类似于“Highland”项目的Model 3,新版Model Y在美国德克萨斯州Giga工厂和加州Fremont工厂附近被发现测试车辆。最近在加州帕萨迪纳也发现了一辆被覆盖的Model Y。 从新版Model 3的时间线来看,新版Model Y原型车的推出似乎预示着它将在2025年初至中期发布。新版Model 3的工程测试车辆在北美首次亮相后约6-8个月内在中国推出,随后几个月在北美上市。如果Project Juniper的时间线类似,那么我们很快就能在北美道路上看到更多的工程测试车辆。 预计这款车将首先在中国发布,随后在北美和欧洲上市。虽然新版Model 3的性能版本直到2024年4月才推出,而长续航版本已在北美上市数月,但特斯拉是否会采用相似策略,先推出新版Model Y的长续航版本再发布性能版本,目前还不清楚。 前保险杠摄像头 对于新版Model 3配备前保险杠摄像头的猜测很多,但迄今为止只有Cybertruck包括了保险杠摄像头和摄像头清洗装置。预计新版Model S和Model X也会添加下保险杠摄像头,但这些版本尚未上市。 目前尚不清楚为什么特斯拉在新版Model 3上没有安装新摄像头,尽管保险杠已经重新设计,工厂也在重新工具化。然而,根据新版Model Y的间谍照片,它看起来可能成为特斯拉第二款包括保险杠摄像头的车辆。TeslaNewswire分享了一张增加亮度的Model Y照片,似乎显示了新的前保险杠摄像头,位置与Cybertruck非常相似,也与早期包含保险杠摄像头的Model 3原型车类似。 目前尚不确定这款额外的摄像头是否会进入量产版本,但至少特斯拉正在考虑将其添加到另一款车型中。 马斯克的回应 埃隆·马斯克在X(前Twitter)上回复Sawyer Merritt,重申新版Model Y不会在今年发布。他还要求大家不要暗示它会发布,因为这会影响当前车辆的销售。 可能的升级 虽然新版Model Y在北美的发布可能还需要一年时间,但更新后的Model Y Juniper有可能配备Hardware 5传感器和计算机。埃隆·马斯克估计HW5(现称为AI5)大约在12-18个月后投入生产。新版Model Y可能是首款搭载新FSD(全自动驾驶)套件的车辆。 当然,新版Model 3的所有升级也可能会应用到Model Y上——包括新的前后保险杠、新的自适应前照灯、增加的续航里程、环境照明、新颜色、新扬声器和更好的动态性能。综合所有这些改进,再加上已经是2023年最畅销的车型,特斯拉的这款新车无疑会成为市场上的一大热门。
OpenAI与Thrive Global推出Thrive AI Health:AI驱动的健康教练应用
OpenAI和Thrive Global正在联手推出Thrive AI Health,一款由AI驱动的健康教练应用。 这意味着什么? Thrive AI Health将是一款高度个性化的AI健康教练。这个教练将基于同行评审的科学研究进行训练,并遵循Thrive的行为改变技巧(称为Microsteps)。它将利用你的医疗数据、日常习惯和偏好,提供实时的、量身定制的提示,旨在改善你的”五大健康要素”:睡眠、饮食、运动、压力管理和社交联系。 一些细节: 为什么这对你重要? 目前,只有少数富裕人士能够享受私人教练和生活教练的服务。但慢性疾病不会区分人群,它们在某些人口中尤为严重。这个健康教练旨在通过提供行为教练,让更多人能够改善健康行为。 大多数关于AI在医疗保健中帮助的讨论都集中在药物发现上,但这次的尝试则是基于你的个人偏好和需求,推动行为改变。社交媒体已经引入了基于个人数据的行为改变,现在这种改变将对我们有利。 Thrive AI Health通过利用AI的力量,为更多人提供个性化的健康建议和行为指导,帮助人们更好地管理健康,减轻慢性病的负担。随着AI在各个领域的应用不断扩大,这一创新举措有望彻底变革我们的健康管理方式。 人工智能助力健康革命:通过行为改变改善健康 目前有多达1.29亿美国人至少患有一种重大慢性病,年均4.1万亿美元的医疗支出中有90%用于治疗这些身心健康问题。这种财务和个人负担预计还会增加。 我们知道这种状况不可持续,但有解决办法,因为健康结果不仅仅由医疗护理或基因决定。行为改变可以成为预防疾病和优化治疗的神奇药物。 行为改变与AI的结合 尽管行为改变很难实现,但通过高度个性化,AI在解决这一问题上具有独特优势。AI在医学领域的科学进展速度已经大大加快——在药物开发、诊断和癌症等疾病研究方面提供了突破性进展。实际上,OpenAI与Color Health合作开发了一款AI副驾驶,帮助医生进行癌症筛查和制定治疗计划。 然而,人类不仅仅是医学档案。我们的健康深受五个基础日常行为的影响:睡眠、饮食、运动、压力管理和社会联系。AI可以通过超个性化显著改善这些行为。 Thrive AI Health:个性化健康教练 这些理念是Thrive AI Health背后的驱动力。OpenAI Startup Fund和Thrive Global联合资助了这一公司,旨在开发定制化的超个性化AI健康教练。这款教练将以移动应用的形式提供,并集成到Thrive Global的企业产品中。它将根据最佳的同行评审科学和Thrive的行为改变方法进行训练,包括Microsteps,即累积形成健康习惯的小日常行为。它还会基于用户选择分享的个人生物特征、实验室和其他医学数据进行训练。教练将学习用户在五个行为方面的偏好和模式:什么条件能让你获得高质量的睡眠;你喜欢和不喜欢哪些食物;你最有可能何时、如何进行步行、运动和拉伸;以及最有效的减压方式。结合超强的长期记忆,你将拥有一个完全整合的个人AI教练,它能实时提供独特的提醒和建议,帮助你采取行动改善日常行为,提高健康水平。 实际应用 想象一下,作为一个忙碌的专业人士,你患有糖尿病,难以管理血糖水平,经常因为繁忙的日程错过餐食和锻炼。个性化的AI健康教练可以在你需要时提醒你服药,建议快速健康的餐食,并鼓励你在工作间隙进行短暂的运动。 目前,大多数健康建议虽然重要,但都很泛泛:你的患者门户可能会自动提醒你接种流感疫苗或进行乳房X线检查,或是你的智能手表提示你呼吸或站立。而AI健康教练可以提供非常精确的个性化建议:下午第三杯汽水换成加柠檬的水;在下午3:15接孩子放学后进行10分钟的散步;晚上10点开始放松程序,因为你第二天早上6点要起床赶飞机。 拓展与公平 使用AI这种方式还可以扩大和普及通过改善日常习惯带来的生命救助效益,解决日益严重的健康不平等问题。拥有更多资源的人已经了解行为改变的力量,有私人教练、厨师和生活教练的帮助。但由于慢性疾病(如糖尿病和心血管疾病)在不同人群中的分布不均,超个性化的AI健康教练可以帮助更多人更容易地进行健康行为改变。例如,它可以推荐一种健康且便宜的食谱,快速用少量食材替代快餐晚餐。 结语 健康不仅仅发生在医生的诊室里。正如新政建设了物质基础设施以改变国家一样,AI将成为一个更有效的健康系统的重要组成部分,持续支持人们的日常健康。这不仅对我们的身体健康有影响,对我们的心理和情感健康也同样重要。当我们感到疲惫和压力时,更容易选择那些能快速带来愉悦但不健康的选项,如无休止的刷屏或情绪化饮食。通过个性化的提示和实时建议,帮助我们改善睡眠,减少糖分和超加工食品的摄入,增加日常运动,降低压力,并加强社交联系,AI可以帮助我们更好地做出有益于心理健康的选择。它还可以根据我们的健康信息,提出激励和启发我们的建议。 关于AI的讨论大多集中在它能为我们节省多少时间和提高多少效率。但AI可以远不止于此,它可以根本性地改善我们的健康寿命和总体寿命。 行为可以滋养我们的健康和完整的人性,这是我们长期以来感兴趣的话题。Arianna撰写了几本关于这一主题的书籍。在建立OpenAI的过程中,Sam学会了优先考虑这五个基础行为,包括充足睡眠、健康饮食、锻炼、亲近自然和冥想。这帮助他更好地应对压力和焦虑,能够在风暴中保持冷静。 AI驱动的诊断已经减少了错误率并改善了患者的结果。现在,通过将AI聚焦于促进健康行为,利用其处理数十亿数据点的能力,我们掌握了一种强大的积极改变工具,确保技术为我们的健康服务,而不是与之对抗。激励机制是超级力量。到目前为止,这些激励机制主要被用来引发愤怒和增加压力。但通过创造新的激励机制,Thrive AI Health可以让用户的个人数据真正为他们自己所用,帮助我们做出更好的决策,过上更健康的生活。 通过AI驱动的个性化行为改变,我们有机会最终扭转慢性病的趋势。实现这一愿景需要协作。政策制定者需要创建一个促进AI创新的监管环境,同时保护隐私。医疗提供者需要将AI整合到他们的实践中,同时确保这些工具符合严格的安全和有效性标准。个人需要通过AI教练充分管理自己的日常健康,并确保这些技术可靠,且他们的个人健康数据将得到负责任的处理。这种集体努力,伴随着强有力的隐私和安全保障,可以彻底改变医疗保健,为全球数百万人带来福祉。
在AI驱动的世界中,RouteLLM:智能路由,优化AI资源
在AI驱动的世界中,RouteLLM:智能路由,优化AI资源 在如今的AI驱动世界中,优化人工智能的使用至关重要。不同的AI系统在能力和成本上各不相同,迫切需要智能管理解决方案。RouteLLM正是这样一个创新框架,它通过动态路由用户查询到最合适的AI模型,确保既经济高效又能提供高质量的响应。 什么是RouteLLM? RouteLLM就像AI查询的交通控制器。当用户提交问题时,RouteLLM会评估其复杂性,并将其引导至适当的AI模型——要么是更强大且昂贵的模型,要么是更简单且便宜的模型。 解决的问题 使用高性能AI处理每一个查询,就像为简单问题(如“今天的天气怎么样?”)咨询天才教授一样——既不必要又昂贵。相反,依赖基础AI处理复杂查询效率低下。RouteLLM通过智能匹配查询和合适的AI模型,优化成本和响应质量。 RouteLLM的工作原理 现实世界的例子 考虑一个利用RouteLLM进行客户支持的电商平台。对于诸如“我的订单在哪里?”这样的简单问题,RouteLLM会将查询引导至基础AI。而对于诸如“我收到了一件损坏的商品。如何退货并获得退款?”这样的复杂问题,则会将查询引导至更高级的AI,确保提供详细且准确的响应。 RouteLLM的优势 结论 RouteLLM充当智能助手,将查询引导至最合适的AI模型。这个智能路由系统帮助组织平衡成本和性能,提供卓越的客户服务,同时有效管理开支。随着AI在各行业中扮演越来越重要的角色,像RouteLLM这样的解决方案将是最大化其潜力、以成本效益为中心的关键。
谷歌在反垄断压力下加速摆脱对苹果Safari的依赖
谷歌在反垄断案前夕努力减少对苹果Safari的依赖 谷歌在搜索行业的主导地位正受到美国司法部的调查,而其与苹果的关系是案件的重要组成部分。根据《The Information》今日的报道,谷歌正加紧减少对苹果Safari浏览器的依赖,以应对可能的反垄断案件结果。 案件焦点 司法部对谷歌的指控之一是谷歌与苹果的协议,使谷歌成为iPhone默认搜索引擎。谷歌每年向苹果支付超过200亿美元以维持这一默认状态,司法部认为这阻碍了搜索引擎行业的竞争。值得注意的是,苹果并未被列为该诉讼的当事方,但案件已经导致苹果高管如Eddy Cue出庭作证。 谷歌的应对策略 《The Information》报道指出,谷歌希望增加iPhone用户在Safari以外进行搜索的比例: 过去几年,谷歌一直试图说服iPhone用户改用Google或Chrome应用进行搜索。尽管谷歌取得了一些进展——从五年前的25%提高到现在的30%出头,但这一进展在去年下半年停滞了。 据参与此项工作的三位人士透露,这一比例远低于谷歌希望到2030年将iPhone搜索比例提高到50%的目标。 谷歌每年向苹果支付的巨额资金是一种收入分享协议,苹果从Safari中进行的谷歌搜索广告收入中分得一部分。通过推动用户使用Chrome和Google应用,谷歌支付给苹果的钱会减少,并且减少了其受到监管的风险。 面临的挑战 然而,谷歌要说服用户使用其应用而不是Safari并不容易。消息人士告诉《The Information》,“克服Safari预装在苹果设备上的事实实在太难了”。 报道还提到,谷歌聘请了前Instagram和Yahoo高管Robby Stein来负责这项工作。作为计划的一部分,谷歌高管曾考虑将其AI摘要功能限制在自己的应用中,这意味着Safari用户看不到搜索结果中的AI摘要,但使用谷歌自家应用的用户可以看到。不过,谷歌最终决定不采取这一措施。 新的推动力量 今年早些时候,谷歌聘请了前Instagram和Yahoo的产品高管Robby Stein,负责将iPhone用户转移到谷歌的移动应用。根据现任和前任员工的说法,他的任务之一是探索如何利用生成性AI使谷歌应用更具吸引力。 结论 报道明确指出,谷歌多年来一直在努力摆脱对Safari的依赖,但收效甚微。结果是否会有所改变还有待观察,但真正的关键是美国司法部的反垄断案件,预计“将在未来几个月内”有结果。
极客时间:使用Autogen Builder和本地LLM(Microsoft Phi3模型)在Mac上创建本地AI代理
AI技术已经取得了长足的进步,现在通过微软、谷歌和OpenAI等公司发布的各种新AI代理框架,创建自己的AI代理比以往任何时候都更容易。借助AutoGen Builder(https://microsoft.github.io/autogen/)和强大的本地LLM(如Microsoft Phi3),你可以直接在Mac上构建和部署AI解决方案。让我们一起来实现吧——以下是逐步指南。 步骤1:安装AutoGen Builder 在之前的帖子中,我们玩过微软的AutoGen。AutoGen Builder是一个无代码环境,用户可以轻松创建工作流、模型和代理。运行以下命令进行安装: 安装完成后,在终端运行其Web UI: 界面相当简洁。 步骤2:使用Ollama运行本地LLM 使用以下命令运行本地LLM非常简单: 起初,我对我的M1 MacBook过于自信,尝试运行谷歌的Gemma 2 9B,结果在工作流测试期间我的Mac崩溃了。因此,我不得不切换到体积更小的Phi 3 Mini(2.3GB)。 步骤3:运行LiteLLM和Gunicorn AutoGen原生支持OpenAI和Gemini的LLM模型,但不支持Phi3。因此,我们需要使用LiteLLM和Gunicorn作为代理,提供符合OpenAI标准的API供AutoGen调用。安装过程非常简单: 我遇到了以下错误: 处理这个错误的过程中,发现还需要安装一些额外的依赖,包括backoff: 然后运行: 你会看到代理运行在http://0.0.0.0:4000。 步骤4:配置AutoGen Builder 首先,我们需要创建测试工作流。 工作流将使用代理“local_assistant”。 然后,我们将“local_assistant”代理配置为使用我们的本地LLM Phi3(实际上我命名为local_gemma2,忘了改成local_phi3)。 接下来,创建模型。对于“API key”,输入“NotRequired”,因为我们调用的是本地LLM Phi3。点击“Test Model”,如果一切正常,你会看到“Model tested successfully”。 最后,进入AutoGen Builder的“Playground”运行测试。你会看到来自本地Phi3的回复。 AutoGen Builder使用起来非常简单。下一步更有趣的是创建一个具有自己技能的自定义代理。将会非常有趣。敬请期待! 动手试试吧,玩得开心。
Stability AI 推出新社区许可证,拥抱开放源代码
Stability AI 重返开放源代码:新社区许可证 Stability AI 最近宣布将其 AI 模型免费提供给大多数用户,包括小型企业。他们正在加大开放源代码的力度,试图在SD3发布不顺利后赢回社区的支持。 发生了什么? Stability AI 发布了一种新的“社区许可证”,对其 AI 模型的使用权限更加宽松。这一举措是回应他们最忠实用户的抱怨,因为这些用户不满公司逐渐远离开放源代码的做法。看起来公司已经听取了这些意见并对许可证进行了修改。 具体意味着什么? 现在,年收入低于100万美元的个人和小型企业可以免费进行商业使用。只有年收入超过100万美元的大型商业用户需要支付企业许可证费用。和之前一样,非商业用途仍然完全免费(适用于研究人员、学生、爱好者等),并且不再限制生成图像的数量。Stability 的团队还在努力改进 SD3 Medium,以解决社区指出的质量问题。 为什么这对你重要? 大语言模型(LLM)在AI讨论中往往占据不成比例的关注度,因为它们对构建日常软件产品的开发者来说非常容易使用。相比之下,图像生成主要局限于一些 Discord 服务器和受限的图像模型。更宽松的许可证将激励开发者构建以图像生成为核心的AI产品。 值得注意的是,Stability AI 在最近的领导层变动和资金注入后,正在回归其开放源代码的初衷(之前也面临严重的资金紧张问题)。这一回归可能会为社区带来更多创新和发展机遇。