在当今数字化的世界里,对象及其之间的复杂关系构成了无数的网络,例如交通网络、生产网络、知识图谱和社交网络。这些关系网的重要性在于,它们不仅仅展示了对象的属性,更重要的是展示了对象之间的相互作用。离散数学和计算机科学通过将这些网络形式化为由节点和边组成的图,有助于我们理解和分析这些复杂的结构。然而,传统的机器学习算法往往只能处理规则和统一的关系,例如像素网格、词序列,或者完全没有关系。这就是图神经网络(GNN)技术崭露头角的原因所在。 GNN技术能够有效地利用图的连通性和节点及边上的输入特征,为整个图(例如预测分子反应)、单个节点(例如预测文档的主题)或潜在的边(例如预测两个产品是否可能一起被购买)做出预测。更进一步,GNN还能将图的离散、关系信息以连续的方式编码,使之可以自然地融入到其他深度学习系统中,架起了传统神经网络与新兴需求之间的桥梁。 TensorFlow GNN 1.0(TF-GNN)的发布,标志着在大规模构建GNN方面迈出了重要一步。作为一个经过生产测试的库,TF-GNN支持在TensorFlow中进行建模和训练,以及从庞大的数据存储中提取输入图。TF-GNN特别适用于处理异构图,即那些由不同类型的对象和关系组成的图,这使得它能够自然地表示现实世界中的对象及其关系。 TF-GNN内部使用tfgnn.GraphTensor对象来表示图,这是一个复合张量类型,被接受为tf.data.Dataset、tf.function等的一等公民。它不仅存储了图的结构,还存储了附加到节点、边和整个图上的特征。在Keras高级API中,或者直接使用tfgnn.GraphTensor原语,可以定义对GraphTensors的可训练转换。 TF-GNN的一个典型应用是预测巨大数据库中交叉引用表定义的图中某种类型节点的属性,例如预测计算机科学arXiv论文的主题领域。GNN在许多标记示例的数据集上进行训练,但每个训练步骤只涉及少量的训练示例。通过在底层图的相对较小的子图流上进行训练,GNN能够扩展到处理百万级别的数据。这个过程,通常称为子图采样,对GNN训练至关重要。TF-GNN通过提供工具来实现动态和交互式的改进采样方法,从而优化了这一过程。 此外,TF-GNN 1.0还推出了一个灵活的Python API,配置动态或批处理子图采样的所有相关规模,从Colab笔记本中的交互式操作到通过Apache Beam分布式处理存储在网络文件系统上的巨大数据集。这些采样的子图上的GNN任务是计算根节点的隐藏(或潜在)状态,该状态汇总并编码了根节点邻域的相关信息。在异构图中,对不同类型的节点和边使用分别训练的隐藏层往往是有意义的。 TF-GNN支持在各种抽象级别构建和训练GNN,从使用库中预定义模型的最高级别,到用图数据传递原语从头开始编写GNN模型的最低级别。TF-GNN还提供了一个简洁的方法来协调Keras模型的训练,在通常的情况下,提供了ML痛点(如分布式训练和tfgnn.GraphTensor填充)的现成解决方案。 总之,TF-GNN的发布为TensorFlow中GNN的应用提供了强大的支持,促进了该领域的进一步创新。开发者们被鼓励尝试TF-GNN的Colab演示,探索用户指南和Colabs,或深入了解相关论文,以充分利用这一新兴技术。
该选Gemini Advanced还是ChatGPT Plus?看看你应该掏腰包支持谁!
当谈到人工智能工具时,OpenAI的ChatGPT早已家喻户晓,但谷歌并没有闲着。它推出了全新的Gemini品牌和Gemini Advanced服务,向OpenAI的旗舰产品发起了强劲的挑战。 谷歌自豪地宣布,Gemini Advanced(Bard聊天机器人的进化版)在对抗GPT-4的战斗中胜出了——但真的是这样吗?如果你每月只能拿出20美元,你应该选择哪个付费的多模态AI工具呢?首先要明确的是,这里没有绝对的“最佳”选择。区分这些聊天机器人的不仅仅是哪个客观上“更聪明”,而是哪些特性、细分能力和外部集成最符合你现有的工具和工作流程。无论是哪一款强大的工具,它是否值得你每月花费20美元完全取决于你目前使用的工具和你需要帮助完成的任务,我们在这里提供详细的信息帮助你做出决定。 图像生成:真实性与灵活性的对决Gemini和ChatGPT Plus都能将你的文字转化为视觉呈现。与稳定扩散(Stable Diffusion)和其他图像生成器不同,这两者都能理解自然语言提示。Gemini目前专注于实现真实感,但它还没有达到谷歌另一个独立的ImageFX模型的水平,后者即使在测试版中也让我们大为惊叹,未来可能会整合到Gemini Advanced中。但这两者目前只能生成1024×1024像素的正方形图像。 OpenAI的Dall-E 3牺牲了真实性,换取了更大的灵活性。你可以指定图像的尺寸(正方形、肖像、16:9等),这是一个优势,如果你需要为特定网站或设计定制视觉效果,并且想跳过手动裁剪的步骤。但它具有特征性的卡通风格,使得Dall-E的图像很容易从远处就能辨认出来。 选择哪一个取决于你的目标。如果你渴望接近完美的产品照片用于在线商店,可能仍然需要像Adobe或Corel这样的专业工具。但对于奇思妙想的插图或富有创意的头脑风暴视觉效果,这两个竞争者都足够,留给你个人对风格的偏好选择。 声音便利性:家中还是在外有时候,你希望听到AI的回答,无论是为了允许多任务处理,还是简单地给你的眼睛一个休息。由于与谷歌生态系统的连接,Gemini提供了无缝的朗读功能。然而,ChatGPT Plus有自己的优势:一个原生移动应用,让你的对话几乎可以在任何地方进行。总的来说,OpenAI的声音感觉更人性化,但它只能通过智能手机使用。 选择取决于你的工作方式。如果你的AI使用主要在桌子旁边进行,而且需要与谷歌的其他工具集成,那么Gemini赢了。但对于那些经常在移动中,希望在口袋里放着手机就能听到聊天内容的人来说,可能会倾向于选择ChatGPT Plus。这对视力受损的人来说似乎很重要,但许多人更喜欢其他可以以极高速度播放内容的文本到语音(TTS)方法,因为他们觉得“自然声音”的语调太慢了。在这些情况下,这两个网站都与TTS兼容,所以这一点上没有太大差异。 速度需求让我们来看看它们的“大脑力量”(令牌上下文)似乎相当,但在速度上有巨大的差异:Gemini Ultra在与GPT-4(或Anthropic的Claude AI)的比较中极其快速。使用Gemini Ultra,你可以以GPT-3.5的速度获得GPT-4质量的输出。 例如:Decrypt使用了提示“请花点时间写一篇关于为什么加密货币在塑造经济交易未来中可能扮演重要角色的文章。”Gemini Advanced用12.14秒写完了整篇文章,而GPT-4需要近一分钟——确切地说是53.13秒。OpenAI的前一个聊天机器人版本,GPT-3.5 Turbo,用11.06秒写完了它的文章。 隐私问题关于AI的一个广泛关切是隐私:你提供的提示和其他信息被传输、存储和访问的地方。ChatGPT会保留你的聊天记录30天,使用这些信息来改善它的回应——但注重隐私的人可能会有所顾虑。另一方面,谷歌则将你的信息存储长达18个月。 两种服务都引发了不同的隐私担忧,使得这个选择既关乎你对数据的感觉,也关乎特性。幸运的是,两 者都提供了删除聊天记录的选项——以及分享它们的选项。 ChatGPT的特色胜利:PDF分析如果你的生活和工作都离不开PDF,这场比赛就很明确了:ChatGPT Plus能深入这些文档,提取见解,回答你对文档的问题,通常可以为你节省时间。出于法律或技术原因,谷歌尚未将这些功能整合到Gemini中。如果你的PDF文档是短文本,你可以简单地复制和粘贴,这可能不是问题。但对于那些处理客户文档、表格或研究报告的人来说,这可能是个决定性因素。 这对Gemini来说并不一定是永久的劣势,但就目前而言,那些大量使用PDF的人有充分的理由选择ChatGPT的增强功能。此外,Claude AI也可以免费分析PDF,并且其模型几乎和GPT-4一样好、一样准确。 搜索战如果你的聊天机器人会话中融入的搜索结果质量很重要,Gemini与谷歌搜索的天然链接赢了。Gemini Advanced让用户可以实时获得回应,模型在进行中从谷歌搜索中获取数据。另一个极其有用的功能是,Gemini Advanced有一个按钮,让人们可以使用谷歌搜索来双重检查交互中的所有事实。这最大限度地减少了偶尔的幻觉影响,并有助于源抓取和事实核查。ChatGPT依赖Bing,虽然Bing在改进,但真的无法与谷歌的主导地位竞争。 重要的是要注意,每个聊天机器人提供的答案都可能包含幻觉。这是生成性AI的本质。如果模型不能幻觉,那么它默认会复制已经存在的信息。与AI模型互动时进行事实核查是极其重要的。 ChatGPT Plus拥有而Gemini Advanced没有的开放生态系统和第三方集成:ChatGPT Plus通过与第三方应用的集成脱颖而出——既包括插件,也包括用户生成的GPT。这为用户创造了无限可能,使他们能够添加直接与其AI助手互动的插件,简化工作流程并解锁专门的功能。如果你习惯了在工作流程中使用Canva或Zapier并将它们与ChatGPT集成,那么转向谷歌Gemini会感觉像是降级。 个性化(且有利可图的)对话:GPT商店旨在奖励创造者,承诺在ChatGPT生态系统内持续创新和增长。如果你想通过创建个性化聊天机器人来赚钱,或者想尝试与确保你的聊天机器人更了解特定主题、采用特定风格,并且比其他任何选项都更个性化的GPT进行特别定制的对话……那么不要四处寻找,直接为ChatGPT Plus付费吧。 对话中的修改提高效率:使用ChatGPT Plus,你可以在多部分对话中调整之前的提示。例如,想象一个包含六个命令和六个回复的6轮互动。在ChatGPT中,用户可以编辑第四个命令,ChatGPT会生成一个新的回答,只考虑到那次互动之前的所有上下文。这节省了很多努力,使会话更加高效。对于谷歌,如果用户意识到他们在之前的命令中犯了一个错误,他们需要开始一个新的会话。 ChatGPT Plus的这个功能节省了宝贵的令牌,并避免了重新开始整个会话,优化了互动并保持了你的创造性流程。 Gemini Advanced拥有而ChatGPT Plus没有的捆绑的云存储和额外服务:对于那些已经在谷歌生态系统内的用户来说,包含的2TB谷歌One订阅是一个实质性的节省。在iCloud上,类似的计划每月大约花费10美元,在Dropbox上为12美元。对于这些用户来说,转向Gemini Advanced实际上降低了成本,因为他们平均每月只需额外支付10美元就可以获得顶级AI聊天机器人,而不是如果他们在使用ChatGPT Plus的同时使用云服务,则需要支付20美元。 准确性由谷歌提供:Gemini Advanced实时验证其回应与谷歌搜索的庞大知识库相匹配。这意味着你可以获得准确且最新的信息,得到谷歌的可靠性和相关性支持。与Bing的ChatGPT相比,不那么准确。 即时草稿和风格细化:Gemini Advanced允许你点击一个按钮就可以定制回应风格(正式、非正式、详尽)。不需要额外的提示!为了改善你的工作,Gemini还提供多个草稿,具有不同的措辞或重点,让你快速比较并改进你的输出。 谷歌应用作为你的AI游乐场:你可以深入谷歌 文档,计划旅行,使用YouTube编辑内容,并在Gemini Advanced的直接集成下进行协作。此外,当你的AI可以帮助调整图像参数时,你在谷歌照片中获得的那些新的强大的照片编辑工具(使用AI删除对象的魔术橡皮擦、伪装、照明工具、HDR增强等)变得更加强大。…
大公司如何用AI监控员工的消息
在沃尔玈特、达美航空、T-Mobile、雪佛龙和星巴克这些听起来与“高科技”关系不大的大公司背后,有一家叫做Aware的初创公司,正在利用人工智能技术偷偷监控员工的对话。这完全就像是从乔治·奥威尔的反乌托邦小说中跳出来的情节!想象一下,你在Slack、Microsoft Teams、Zoom等流行的应用程序上的每一条消息,都可能被人工智能进行分析。 根据Aware公司的说法,他们的人工智能帮助这些企业“理解他们通讯中的风险”,实时掌握员工情绪,而不是依赖每年或每半年一次的调查。这种匿名数据分析工具能够让客户观察到特定年龄组或地理位置的员工对新的公司政策或营销活动的反应情况。 但这项技术引发了一系列隐私和道德问题。Aware的分析工具虽然不能标记个别员工姓名,但它的另一款eDiscovery工具在极端威胁或其他风险行为发生时却可以做到。在这种情况下,员工监控与隐私之间的界限变得模糊不清。 更有趣的是,Aware的联合创始人Jeff Schumann以前竟然创立过一个名为BigBrotherLite.com的公司,这不禁让人联想到奥威尔的《一九八四》中无所不在的大哥大监视。而现在,他通过Aware,在不同的领域实施类似的监控技术。 尽管Aware的技术在某些方面可能为企业提供了有用的见解,但它也引发了对工人权利和隐私的担忧。毕竟,如果一个对话被标记出来,而员工却无法获取全部数据或面对他们的“控诉者”时,又该怎么办呢?这种人工智能监控的做法,无疑是将员工视为可监控的库存,而非有价值的个体。 在这个人工智能技术迅速发展的时代,我们或许应该更加关注如何平衡效率和隐私,以及如何确保技术的使用不会侵犯个人的基本权利。毕竟,没有人想生活在一个连最私密的对话都被监控的世界里,不是吗?
Hugging Face 刚刚推出了一款开源的 AI 助手制造工具,直接向 OpenAI 的定制 GPT 挑战
纽约的小伙伴们有福啦,Hugging Face 这个给开发者提供超受欢迎的开源 AI 代码和框架的创业公司(还记得去年的“AI 伍德斯托克”吗?)今天就放大招啦,推出了第三方可定制的 Hugging Chat 助手。 这个免费的新产品让 Hugging Chat 的用户,也就是这个创业公司的开源 ChatGPT 替代品的粉丝们,能轻松创建自己的定制 AI 聊天机器人,功能和目的都和 OpenAI 的定制 GPT 构建器差不多。不过呢,OpenAI 那边要收费,ChatGPT Plus 要价月付20美元,团队版每个用户每年付25美元,企业版就更贵了,价格得看需求。 不过 Hugging Face 这边玩的是开源,和 OpenAI 的 GPT 构建器及 GPT 商店相比,Hugging Chat 助手的一大亮点就是免费啦。而且用户还能选他们想用哪个开源的大型语言模型(LLM)来给他们的 AI 助手加点智慧,从 Mistral 的 Mixtral 到 Meta 的 Llama 2 都有。 这也是 Hugging Face 一贯的做法,给用户提供各种模型和框架让他们自由选择。就像 Hugging Chat 本身,用户可以在几个不同的开源模型中挑一个来用。就像 OpenAI…
小巨人大爆发:紧凑型大型语言模型效率之谜揭晓!
在自然语言处理(NLP)这个飞速发展的领域里,大型语言模型(LLM)的出现无疑是一场革命。这些模型在各种任务上展现出了惊人的能力,不需要特定的训练就能理解和生成接近人类的文本。然而,这些模型要在现实世界中部署,往往会因为对计算资源的巨大需求而受阻。这一挑战促使研究人员开始探索更小、更紧凑的LLM在任务上的效能,比如在会议总结这种对性能和资源利用平衡尤为重要的任务上。 传统上,文本总结,尤其是会议记录的总结,依赖于需要大量标注数据集和巨大计算力进行训练的模型。虽然这些模型取得了令人印象深刻的成果,但由于操作成本高昂,它们的实际应用受到了限制。有鉴于此,最近的一项研究探讨了更小的LLM是否能成为大型模型的可行替代品。这项研究聚焦于会议总结的工业应用,比较了经过微调的紧凑型LLM(如FLAN-T5、TinyLLaMA和LiteLLaMA)与零次训练的大型LLM的性能。 研究方法严谨,使用了一系列紧凑型和大型LLM进行了广泛评估。紧凑型模型在特定数据集上进行了微调,而大型模型则以零次训练的方式进行了测试,意味着它们没有针对手头的任务进行特定训练。这种方法允许直接比较模型准确和高效总结会议内容的能力。 令人注目的是,研究结果表明,特定的紧凑型LLM(尤其是FLAN-T5)在会议总结方面的性能可以匹配甚至超过大型LLM。FLAN-T5拥有780M的参数,展现出的结果与参数范围从7B到超过70B的大型LLM相当甚至更优。这一发现表明,紧凑型LLM有潜力提供一个成本效益高的NLP应用解决方案,实现性能与计算需求之间的最佳平衡。 性能评估突出了FLAN-T5在会议总结任务中的卓越能力。例如,FLAN-T5的性能与许多大型零次训练LLM相当,甚至更好,凸显了其效率和有效性。这一结果突显了紧凑型模型在现实世界设置中部署NLP解决方案的潜力,特别是在计算资源有限的情况下。 总之,对于会议总结任务而言,探索紧凑型LLM的可行性揭示了充满希望的前景。像FLAN-T5这样的模型表现出色,表明小型LLM能够发挥出色的性能,提供一个与大型模型相比的可行选择。这一突破对于NLP技术的部署具有重大意义,标志着一个效率与性能并行前进的新方向。随着该领域的持续发展,紧凑型LLM在桥接前沿研究与实际应用之间的差距无疑将成为未来研究的焦点。
谷歌的士气直线下降,员工们纷纷吐槽他们的老板既无能又无趣
过去一年里,谷歌的高层炒掉了成千上万名员工。根据最近的多份报告,这导致员工士气大受打击,而且他们对这种颓势的不满也越来越公开化。 根据Verge的报道,员工在网上发帖和公司上周五的问答环节透露出来的细节,描绘了这家位于山景城的科技巨头当前员工与老板关系的难看画面。谷歌长期以来被视为创新的堡垒和工程师的舒适环境,如今却被批评为过于企业化且普遍缺乏目标。 谷歌员工可以提前提交问题,供同事投票决定是否需要回答。Verge报道称,2月2日会议中得票最多的问题之一指出了“领导层和员工之间日益扩大的裂痕”。 “我们明白高管们对谷歌的未来感到兴奋,”另一个问题说。“但当我们可能被裁员,无法共享那个未来时,我们怎能感到兴奋呢?如果我们失去了工作和股权奖励,谷歌的成功对我们来说是冷酷的安慰,我们没有得到回报,但你们得到了。” Verge报道称,CEO桑达尔·皮查伊为裁员辩护,并声称有时候员工会因为裁减而表达感激。“我只想澄清,通过这些变化,人们在基层能感受到,有时候人们会写信回来说,‘感谢你们的简化操作’。有时我们确实存在复杂、重复的结构。”“我们正在经历一个有些不确定的时刻,”他在会议中后来说。“这在世界上大多数公司都是常态。在谷歌,我们还没有经历过这样的阶段。” 今年,谷歌继续裁减工作岗位,尽管规模远小于2023年的大规模裁员。该公司今年1月透露计划裁掉1000多名员工,包括来自湾区办公室的数百人。 前谷歌软件工程师伊恩·希克森在周二发给SFGATE的电子邮件中表示,公司规范的偏离让长期员工感到被背叛。希克森于2005年加入谷歌,在18年的时间里目睹了公司的规模巨大增长。他在11月宣布辞职的个人博客文章中写道,他在谷歌的任期内,谷歌已经完全转变。他在谷歌的最后九年时间里参与了Flutter项目,该项目旨在开发应用程序开发工具。在帖子中,他称赞了Flutter的“年轻谷歌文化”,以“内部透明度、工作/生活平衡和数据驱动的决策制定”为特点。但在他的项目之外,一场戏剧性的转变正在进行,希克森写道:“谷歌的文化腐蚀了。决策不再是为了用户的利益,而是为了谷歌的利益,甚至是为了决策者自己的利益。透明度消失了。”在帖子中,希克森将去年裁掉12000名员工称为“非强制性错误”,这是由股市压力驱动的,并写道,随之而来的裁员威胁使员工开始囤积知识,减少冒险。“看到谷歌的最佳状态,我觉得这个新现实令人沮丧,”他补充说。希克森写道:“今天,我不认识任何一个能解释谷歌愿景的人。士气处于有史以来的最低点。” 他对SFGATE表示,许多高管并不是谷歌内部裁员或其他变动的最终决策者,除了他们未能抵抗之外。这反过来会进一步打击士气。他说:“反抗并不容易;我最终决定只是辞职,而不是继续这样做。” 随着1月份裁员的减少,另一位谷歌软件工程师,黛安·赫什·特里奥特,公开质疑公司领导层。这位马萨诸塞州的工程师在LinkedIn上的帖子中火力全开:“我的直言不讳:谷歌没有一个有远见的领导者。一个都没有。从C层到高级副总裁到副总裁,他们全都极度乏味且目光呆滞。”赫什·特里奥特抱怨说,高管们“试图指向一个模糊的方向”前进,同时等待基层员工提出具体、可行的想法。办公楼的人越来越早地离开,中层管理人员“拼命保护自己的团队(和自己)”,人们生活在裁员的恐惧中。她称这种情况造成了一种“普遍的虚无感”。“我猜我会继续做我的工作,直到谷歌不再需要我。”她在帖子中结束。
Elon Musk的AI项目竟然要解密古罗马卷轴
马斯克宣布:要用AI破解古罗马卷轴的秘密了! 历史研究和人工智能领域传来了令人振奋的消息——科技大佬埃隆·马斯克决定开启钱包,支持一个旨在解读古罗马卷轴的创新项目。这些卷轴,因为那场毁灭性的维苏威火山爆发而被埋没在庞贝城下,几个世纪以来一直无法解读,现在却成了名为“维苏威挑战”的项目的焦点。 该项目由GitHub前CEO纳特·弗里德曼领衔,最近取得了重大突破。一个由参与者组成的团队成功利用AI扫描并读取了在赫库兰尼姆(同样因火山爆发而遭受重创的城镇)发现的卷轴上的整段文字。布隆伯格商业周刊对此进行了详细报道。 通过他的慈善组织——马斯克基金会,埃隆·马斯克承诺提供必要的资金以推动项目进展。尽管马斯克贡献的确切金额尚未公开,但他在自己的社交网络X上表示:“无论需要多少钱,我都支持。我支持文明的启蒙。” “维苏威挑战”的下一阶段,正如弗里德曼所概述,涉及阅读整个卷轴,这一努力的成本估计为200万美元。全面解读从赫库兰尼姆发现的所有卷轴的费用可能高达1000万美元。弗里德曼对马斯克的支持表示兴奋和感激,并指出正与马斯克的团队讨论捐助细节。 这一举措不仅凸显了人工智能在揭开历史谜团方面的潜力,还强调了私人资金在推进研究工作方面的重要性。随着项目的进展,它承诺将为我们揭开古罗马文明的新视角,提供了几千年来一直被隐藏的见解。
YouTube的CEO的2024年的四大豪赌
YouTube自从首次上传视频以来,便开辟了讲述故事的新途径。任何有故事要讲的人都突然间能够找到他们的听众。人们在厨房、卧室甚至后院拍摄视频,在这一过程中,他们建立了横跨全球的社区。 YouTube合作伙伴计划在2020年至2023年间,向创作者、艺术家和媒体公司支付了超过七百亿美元。YouTube通过与创作者分享收入进一步激发了创意。自那时起,创作者经济的增长惊人。去年,创作YouTube内容的人数比以往任何时候都多,公司也达到了新的里程碑。如今,有超过三百万个频道加入了YouTube合作伙伴计划(YPP),这一计划为创作者在YouTube上赚取收入提供了途径。YPP的支付额超过了其他任何创作者变现平台,过去三年中公司向创作者、艺术家和媒体公司支付了超过七百亿美元。 如今,生成式人工智能正推动另一轮演变,这引发了关于如何表达创造力的关键问题。展望未来,YouTube将继续拥抱合作伙伴关系,开发全新的方式以赋能创意表达、管理权利,并为合作伙伴带来收入。 公司正处于历史的关键时刻,对于未来充满期待。YouTube正在分享其对这些变化的看法、对2024年的愿景,以及公司在YouTube上所做的四大豪赌。 首先,人工智能将赋能人类创造力。YouTube多年来一直在解决从变现到权利管理再到保护社区的复杂内容挑战。公司以推动每个人创造为使命,接近人工智能的进步。人工智能应该赋能人类的创造力,而不是取代它。每个人都应该有机会使用人工智能工具来推动创意表达的边界。 其次,创作者应被视为下一代工作室。多年来,创作者为自己赢得了名声,他们正在重新定义娱乐产业的未来,提供的顶级故事讲述不应仅仅被视为“用户生成内容”。 YouTube的下一个前沿是客厅和订阅。观众希望在一个地方获得一切,从现场体育赛事到教育内容和化妆教程。他们以过去一同观看传统电视节目的方式,在家中最大的屏幕上,与家人和朋友一起观看YouTube。全球观众现在每天平均在电视上观看超过十亿小时的YouTube内容。 最后,保护创作者经济是基础。YouTube的业务不仅仅依赖于参与度,还依赖于给观众和广告商信心,他们可以依赖YouTube提供高质量的内容。保护创作者经济是公司所做一切的基础,并且对商业有益。 在这一切中,YouTube将继续在每个工作方面专注于其责任努力,并将继续对保护YouTube社区的团队和技术进行投资,无论是在学习新东西、查看播客,还是观看最喜爱的游戏创作者的直播,公司都在创造YouTube上最好的体验。
遇见“Smaug-72B”:开源人工智能的新霸主
一个全新的开源语言模型荣登全球最佳宝座,根据领先的自然语言处理(NLP)研究和应用平台Hugging Face的最新排名显示。 https://huggingface.co/abacusai/Smaug-72B-v0.1 这款名为“Smaug-72B”的模型,今天由帮助企业解决人工智能和机器学习领域难题的初创公司Abacus AI公开发布。技术上,Smaug-72B是“Qwen-72B”的优化版本,Qwen-72B是几个月前由阿里巴巴集团的研究团队Qwen发布的另一款强大的语言模型。 最值得注意的是,Smaug-72B在多个热门基准测试中超越了GPT-3.5和Mistral Medium,这两款是由OpenAI和Mistral分别开发的最先进的开源大型语言模型。Smaug-72B也在许多评估中大幅度超越了其衍生模型Qwen-72B。 根据Hugging Face开放语言模型(LLM)排行榜的数据,Smaug-72B现在是唯一一个在所有主要LLM评估中平均分超过80的开源模型。 Abacus AI的CEO Bindu Reddy在X.com上的一篇帖子中表示:“Abacus AI的Smaug-72B现已在Hugging Face上线,位于LLM排行榜之首,是第一个平均分达到80的模型!换句话说,它是世界上最优秀的开源基础模型。” Smaug-72B尤其擅长于推理和数学任务,这得益于Abacus AI在微调过程中应用的技术。这些技术将在即将发布的研究论文中详细介绍,它们针对大型语言模型的弱点并增强了它们的能力。 Smaug-72B并不是近期唯一引起关注的开源语言模型。Qwen团队背后的Qwen-72B也发布了Qwen 1.5,这是一套从0.5B到72B参数不等的小型但强大的语言模型。 Qwen 1.5超越了如Mistral-Medium和GPT-3.5等流行的开源模型,具有32k的上下文长度,并且能够快速且本地地与各种工具和平台配合使用。Qwen还开源了Qwen-VL-Max,一款新的大型视觉语言模型,与Google和OpenAI分别开发的最先进的专有视觉语言模型Gemini Ultra和GPT-4V相媲美。 Smaug-72B和Qwen 1.5的出现在AI社区及更广泛的领域引发了极大的兴趣和讨论。许多专家和影响者赞扬了Abacus AI和Qwen的成就,并对他们对开源AI的贡献表示钦佩。 Smaug-72B和Qwen 1.5目前可以在Hugging Face上下载、使用和修改。Abacus AI和Qwen还宣布他们计划将他们的模型提交给llmsys人类评估排行榜,这是一个新的基准,用于评估语言模型在人类任务和场景下的表现。Abacus AI和Qwen还暗示了他们未来的项目和目标,包括创建更多的开源模型并将其应用于各种领域和应用。 Smaug-72B和Qwen 1.5代表了今年开源AI快速而显著的进化的最新例证。它们代表了AI创新和民主化的新浪潮,挑战了大型科技公司的主导地位和垄断,为每个人打开了新的可能性和机会。虽然目前还无法预测Smaug-72B将在Hugging Face排行榜上保持顶尖地位多久,但可以肯定的是,开源AI正迎来了年初的大时刻。
OpenAI给DALL-E 3来了个新动作,加入了全新水印技术
OpenAI的DALL-E 3图像生成器要在图片元数据中加水印了,随着更多公司开始支持来自内容出处和真实性联盟(C2PA)的标准,这一动作显得尤为重要。 公司表示,C2PA的水印将出现在通过ChatGPT网站和DALL-E 3模型API生成的图片中。到2月12日,手机用户也将看到这些水印。水印包括不可见的元数据组件和可见的CR符号,后者将出现在每张图片的左上角。 人们可以通过像内容凭证验证这样的网站检查任何由OpenAI平台生成的图片的出处——即使用了哪个AI工具来制作内容。到目前为止,只有静态图片可以携带水印,视频或文本则不行。 截图显示了DALL-E 3元数据中的新水印。OpenAI表示,向图片中添加水印元数据对延迟的影响“微乎其微”,且不会影响图片生成的质量。这还会略微增加某些任务的图片大小。 C2PA是一个由Adobe、Microsoft等公司组成的团体,一直在推动使用内容凭证水印来识别内容的出处,并显示其是由人类还是AI制作。Adobe创造了一个内容凭证符号,OpenAI正在将其加入到DALL-E 3创作的图片中。Meta最近宣布,它将在其社交媒体平台上为AI生成的内容添加标签。 识别AI生成的内容是拜登政府关于AI的行政命令中的一项旗舰指令。但是,水印并不是阻止错误信息传播的万全之策。OpenAI指出,C2PA的元数据“很容易被意外或故意移除”,特别是因为大多数社交媒体平台通常会从上传的内容中删除元数据。截屏会遗漏元数据。 OpenAI在其网站上表示:“我们相信,采用这些方法来建立出处并鼓励用户识别这些信号,是提高数字信息可信度的关键。”