aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

幽灵伙伴升级记：苹果Vision Pro的空间化人格新玩法

Posted on April 6, 2024April 6, 2024 by aitrendtrackers@rengongzhineng.io

从今天开始，使用Vision Pro的小伙伴们不再只能在FaceTime通话中飘来飘去像个幽灵啦！现在，你们可以在支持SharePlay的应用里使用它们来协作、游戏或者和朋友们一起看视频了。苹果将这一功能称为“空间化人格”。他们的想法是，让你感觉就像和其他用户处在同一个物理空间一样。这个功能去年开发者预览会上有展示，但直到现在才在实际的Persona测试版中推出。这听起来有点难以想象，不过你可以在下面的视频中看看实际效果。据说，每个用户都可以控制自己看到的内容，并重新定位对象的位置，而不会影响到其他用户的视图。空间音频也将帮助你感知到对方在虚拟空间中的位置。想要启用这个功能，你得确保自己的设备运行的是VisionOS 1.1或更高版本，并在FaceTime通话中选择空间化人格选项。一次最多可以有五个人参与到一个空间化人格会话中。我们还得测试一下这个功能的实际表现如何，特别是它依赖于SharePlay，而Vision Pro的应用商店现在还比较空荡荡的。在我看电影时，能否通过邀请另一个幽灵伙伴来减少寂寞感，这还有待观察呢。

微软推出GPT-4 Turbo优先使用权：Copilot for Microsoft 365商业用户享受无限制对话及增强图像生成能力

Posted on April 5, 2024April 5, 2024 by aitrendtrackers@rengongzhineng.io

微软为其AI驱动的Copilot助手的商业订阅者推出了GPT-4 Turbo的优先使用权。这使得用户能够在Copilot移动应用、网络、Windows和Edge中使用OpenAI最新的模型，作为每月每用户30美元的Copilot for Microsoft 365服务的一部分。虽然Copilot Pro的消费者已经能够使用GPT-4 Turbo，但现在，使用Copilot for Microsoft 365的企业用户也能够访问这一服务，并且在每日的聊天次数和每次对话的轮次上没有限制。 GPT-4 Turbo将在Copilot for Microsoft 365中提供，用于网络查询最新的公开信息，以及跨工作数据的使用，比如查询邮件、文档、会议等。OpenAI的最新模型还支持在单个提示中处理多达300页文本，使其更加适用于分析文件。此外，微软还在为Copilot for Microsoft 365的商业订阅者改进Microsoft Designer中的图像生成能力。本月晚些时候，用户将能够每天创建100张图像，而之前的限制是每天15张。这一功能使用的是OpenAI的DALL-E 3模型，微软表示图像生成请求将会“迅速”，以减少图像创建的等待时间。

Alphabet考虑收购HubSpot：一个不太可能但未可知的大手笔动作

Posted on April 5, 2024April 5, 2024 by aitrendtrackers@rengongzhineng.io

路透社周四爆料，谷歌母公司Alphabet正在考虑收购总部位于波士顿的HubSpot，一家市值超330亿美元的CRM和营销自动化公司——这个数字自从有了这份报告后就一直在爬升。如果这笔交易真的成了，那得花不少银子，肯定得比现在的估值贵上一大截。毕竟，要让这家公司心甘情愿卖身成为搜索巨头的一部分，价格得诱人才行。值得一提的是，这两家公司之间已经有过合作了——他们合作使用谷歌广告来推动HubSpot的销售——有时候，这种合作关系就是收购谈判的开端。虽然谷歌/Alphabet这些年来购买了不少公司，但它有史以来最大的一笔交易是在2011年斥资125亿美元收购了摩托罗拉移动。不过，它后来以29.1亿美元的价格把它卖给了联想，所以面对一个更大的价格标签，它可能会有点犹豫。更近一点的大手笔交易是在2022年花54亿美元收购了安全情报平台Mandiant。谷歌通常的收购都在30亿美元以下，所以这样的大手笔对公司来说绝对是不寻常的。再加上最近几年大多数科技公司都在实行紧缩政策，以及谷歌CEO Sundar Pichai在一月份警告说还会有更多的裁员，这种紧缩氛围下的大手笔交易似乎不太可能，尤其是如果这种操作真的很重要的话，向员工解释起来可能也很棘手。不过，考虑到截至去年年底谷歌手头有1100亿美元的现金，如果它想要这么做的话，确实有足够的现金来进行这场操作。另一个可能会让公司在尝试购买HubSpot时遇到的问题是，当前对大型交易的监管环境相当敌对。美国、英国和欧盟近来都在密切监视大型交易。有些交易，比如Adobe尝试以200亿美元收购Figma，因为竞争问题而未能成功。不过，不清楚Alphabet是否会面临相同的问题。HubSpot在CRM领域面临来自Adobe和Salesforce这样的强大竞争对手，两家公司都资金雄厚，所以这笔交易不会让谷歌在市场上占据主导地位，但如果存在风险，肯定会涉及一笔解约费，这又是公司需要考虑的另一个因素。问题在于，这样的交易最终成行的可能性有多大，以及它能给这两家公司带来什么，是他们现有合作关系无法提供的。就像一位分析师对我说的那样，这听起来不太可能，但谁也说不准。

YouTube首席执行官指控OpenAI违反服务条款：AI训练数据伦理之争加剧

Posted on April 5, 2024April 5, 2024 by aitrendtrackers@rengongzhineng.io

YouTube首席执行官尼尔·莫汉（Neal Mohan）猛烈抨击OpenAI，指控他们潜在违反服务条款，通过使用YouTube视频来训练他们的AI视频生成器Sora，该生成器距离发布仅有数月。尽管莫汉承认他没有具体证据，但他强调这种使用显然违反了YouTube的规则。这一指控出现在关于AI模型训练数据伦理来源的辩论日益增长之际。OpenAI对Sora的具体训练数据来源保持沉默，但公司争相收集尽可能多的内容以推动他们的AI进步。目前，两家公司在AI领域都处于领先地位。从内容创作者的角度来看，当创作者将他们的辛勤工作上传到我们的平台时，他们有一定的期望。其中一个期望是服务条款将被遵守。它不允许下载诸如转录或视频片段之类的内容，这是我们服务条款的明确违规。这些是我们平台内容的规则。莫汉向公众保证，谷歌在训练其自己的AI模型Gemini时，会在使用任何YouTube视频之前与创作者签订个别合同；这是相当虚伪的，不是吗？这引发了关于谷歌数据使用立场的问题——它在面对竞争对手时保护创作者，但为了自己的利益采用类似策略。巴里·施瓦茨（Barry Schwartz）正确总结道：这就是谷歌如何训练其像Gemini这样的LLMs（大型语言模型）。它从网站、文章、书籍和其他内容收集数据。复杂的算法分析数据以提高语言理解能力。这有助于AI模型更准确地执行任务，如翻译语言、生成创意文本和回答问题。是否OpenAI确实在抓取YouTube内容尚待观察，但这一情况暴露了谷歌生态系统内的潜在双重标准。

Quantinuum与微软携手突破：开创容错量子计算新纪元

Posted on April 5, 2024April 5, 2024 by aitrendtrackers@rengongzhineng.io

Quantinuum，这家全球最大的综合量子计算公司，与微软合作，实现了让容错量子计算成为现实的突破，通过展示具有主动综合提取功能的最可靠逻辑量子位，这是之前认为还需数年才能实现的成就。这一成就源自Quantinuum拥有行业领先的保真度、可扩展性和灵活性的32量子位H2量子处理器（由霍尼韦尔提供动力），结合了微软高度创新的错误纠正能力。联合团队使用H2上可用的32个物理量子位中的30个创建了四个逻辑量子位，创造了两家公司都宣称为“最可靠的逻辑量子位”。他们还成功展示了综合提取，这是实现容错量子计算的另一个关键里程碑。在微软所描述的“第二级弹性”新时代，量子计算能够处理由错误引起的问题，并开始解决有意义的挑战，如模拟分子和材料的状态、模拟凝聚态物理系统，以及探索许多领域问题的解决方案。根据微软的严格标准，多个纠缠逻辑量子位的展示，以及逻辑量子位的性能超过物理量子位，标志着量子计算进入这一长期期待的第二阶段的转变。 Quantinuum和微软之间的合作建立了行业的一个关键进步，并展示了通向混合经典-量子超级计算的关键里程碑，这种计算能力有望改变科学发现。作为领导者，我们将继续比竞争对手更快地创新，通过硬件创新和开发应用程序来利用这个真正的逻辑量子位的新时代。我们将继续确保我们的客户是第一个从这些和未来的突破中受益的人。我很兴奋地看到他们如何利用可靠的量子计算，为他们最具挑战性的问题生成比以往任何时候都更强大的解决方案。

点亮创意：ChatGPT如何搭桥DALL-E图像编辑新纪元

Posted on April 4, 2024April 4, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI 刚刚宣布，现在您可以在 ChatGPT 中编辑由 DALL-E 生成的图片了，这项新功能遍及网络、iOS 和 Android 平台。此外，ChatGPT 现在还能在界面中显示 DALL-E 图片的风格灵感。对于不熟悉的朋友们来说，DALL-E 是 OpenAI 推出的一款基于生成式 AI 的文本到图片生成工具，已经整合到了 ChatGPT 中，但只对 ChatGPT Plus 订阅者开放。直到最近，ChatGPT 只允许用户基于文本提示生成图片。现在，OpenAI 启用了在 ChatGPT 平台上编辑 DALL-E 生成图片的选项。为了图片编辑，OpenAI 推出了一个新的编辑器界面，包括了“使用选择工具”——通过点击 DALL-E 生成的图片即可访问。利用选择工具，用户可以选中图片中要编辑的区域，然后在聊天中以文本提示的形式描述更改。此外，用户还可以在对话面板中提供想要的编辑提示。 OpenAI 建议为了获得更好的结果，应该围绕编辑区域选择更大的空间。在图片编辑工具界面中，还有撤销、重做和清除选择的选项，以便进行更改或重新开始编辑。界面允许添加、移除和更新图片的部分内容。提交提示后，可以通过点击编辑器右上角的“保存”按钮保存图片。除此之外，还有另一种通过简单提供提示来编辑图片的选项。使用这种方法，用户需要在 DALL-E 编辑器界面右侧的对话面板中给出所需的提示。在 ChatGPT 移动应用上使用 DALL-E 进行图片编辑的体验与网页版相似，用户可以在 Android 和 iOS 上的 ChatGPT 移动应用中编辑 DALL-E 界面上生成的图片。在智能手机应用中，选择生成的图片后，将显示四个编辑选项——编辑、选择、保存和分享。通过选择“选择”选项，用户可以使用选择工具突出显示他们想要编辑的图片部分。工具界面左侧的滑块允许您改变选择工具的大小。与网页客户端一样，屏幕底部有撤销和重做按钮，用于撤销和重做选择。编辑完成后，用户可以在屏幕右下角点击“下一步”。在那里，用户可以为他们想在突出显示的区域中进行的更改提供提示。

谷歌AI搜索革新：探索高级搜索服务背后的未来趋势

Posted on April 4, 2024April 4, 2024 by aitrendtrackers@rengongzhineng.io

谷歌正考虑向用户收费，为他们提供由人工智能（AI）驱动的“高级”互联网搜索结果，一份报告称。据称，这家科技巨头正在探索如何使用这项技术的几个想法，包括将增强搜索工具作为其高级订阅服务的一部分。据《金融时报》透露，谷歌的主要搜索引擎将继续免费使用，而额外的内容将提供给那些支付费用的用户。报告称，即使对于订阅者，广告也将继续出现在搜索结果旁。据估计，每月有超过十亿人使用这个搜索工具。谷歌已经对某些功能收费，如额外的存储空间和其“AI高级”服务，该服务在Gmail和文档中提供对其新的Gemini AI助手的访问。但这将是该公司的任何核心产品首次被置于付费墙后面。《金融时报》表示，它已经从谷歌的三个消息来源获悉了这些提议。它说，工程师们一直在开发增强的AI工具，但高管们尚未决定是否以及何时推出这个功能。该公司的一位发言人告诉天空新闻：“我们没有在开发或考虑一个无广告的搜索体验。” 他们补充说：“正如我们之前多次做的那样，我们将继续构建新的高级功能和服务，以增强我们在谷歌的订阅产品。” 他们还说：“我们目前没有什么可以宣布的。” 这发生在科技公司之间关于AI及其使用方式的激烈竞争中，一些评论员指责谷歌在与ChatGPT等竞争对手的竞争中处于劣势。上个月，据悉该公司决定在一些国家限制其AI聊天机器人Gemini回答与选举相关的问题，因为担心向用户提供的信息。2月份，谷歌还停止了该工具生成图像的功能，此前有关于“不准确”的历史人物描述的投诉。

Higgsfield AI: 对飙Sora打造个性化视频新浪潮，重塑社交媒体内容创作

Posted on April 4, 2024April 4, 2024 by aitrendtrackers@rengongzhineng.io

几个月前，OpenAI用一款名叫Sora的生成式AI模型震撼了科技界，这款模型能将场景描述转换成原创视频——无需摄像机或拍摄团队。但到目前为止，Sora的使用权限非常严格，公司似乎打算将其定位于资金充裕的创意人士，比如好莱坞导演——而不太可能是业余爱好者或小规模营销人员。然而，Snap前生成式AI负责人亚历克斯·马什拉博夫嗅到了机会。因此，他推出了Higgsfield AI，这是一个为更加定制化、个性化应用设计的AI视频创作与编辑平台。通过定制的文本到视频模型，Higgsfield的首款应用Diffuse能够从零开始生成视频，或者拍摄自拍并生成以该人物为主角的短片。马什拉博夫在接受TechCrunch采访时表示，“我们的目标受众是各种类型的创作者，从想要与朋友一起创作有趣内容的普通用户，到希望尝试新内容格式的社交内容创作者，再到希望他们的品牌脱颖而出的社交媒体营销人员。” 马什拉博夫通过他之前的创业项目AI Factory加入Snap，该项目于2020年以1.66亿美元被Snap收购。在Snap期间，马什拉博夫帮助构建了Snapchat的AR效果和滤镜，包括Cameos，以及Snapchat备受争议的MyAI聊天机器人。 Higgsfield与AI研究员、专门从事生成视频的Yerzat Dulat共同推出，提供一套精选的预生成剪辑、一个上传参考媒体（如图片和视频）的工具，以及一个提示编辑器，让用户描述他们希望描绘的角色、动作和场景。通过Diffuse，用户可以直接将自己插入到AI生成的场景中，或让他们的数字化形象模仿其他视频中捕捉到的动作——如舞蹈动作。马什拉博夫说：“我们的模型支持高度逼真的动作和表情。我们正在为消费者开创‘世界模型’，这将使我们能够构建具有极高控制级别的一流视频生成和编辑。” Higgsfield并不是唯一一家与OpenAI竞争的生成视频初创公司。Runway是最早进入这一领域的公司之一，其工具持续改进。还有Haiper，它得到了两位DeepMind校友的支持，以及超过1300万美元的风险投资。马什拉博夫认为，Diffuse将凭借其面向移动设备、社交导向的市场进入策略脱颖而出。 “通过优先考虑iOS和Android应用而不是桌面工作流，我们使创作者能够随时随地创建引人注目的社交媒体内容，”马什拉博夫说。“实际上，通过构建移动平台，我们能够从第一天起优先考虑易用性和面向消费者的特性。” Higgsfield还在保持精简运营。马什拉博夫表示，支撑平台的生成模型是由一个16人的团队在不到九个月的时间内开发的，并在一个32GPU的集群上进行了训练（32GPU听起来可能很多，但考虑到OpenAI使用了数万个，这实际上并不多）。到目前为止，Higgsfield只筹集了800万美元，其中大部分来自于最近一轮由Menlo Ventures领投的种子融资。为了领先于竞争对手，Higgsfield计划将种子资金用于构建一个改进的视频编辑器，让用户能够修改视频中的角色和物体，以及针对社交媒体用例训练更强大的视频生成模型。实际上，马什拉博夫认为社交媒体——以及社交媒体营销——是Higgsfield的主要盈利领域。虽然Diffuse目前是免费使用的，但马什拉博夫设想未来营销人员将为高级功能，或大规模活动付费或订阅。 “我们相信Higgsfield为社交媒体营销人员解锁了难以置信的现实主义和内容制作用例，”他说。“我们经常听到首席营销官和创意总监说，他们需要在保持内容影响力的同时，优化内容制作预算并缩短时间表。因此，我们相信视频生成AI解决方案将成为帮助他们实现这一目标的核心解决方案。” 当然，Higgsfield也无法避免面临生成式AI初创公司普遍面临的挑战。众所周知，像Diffuse这样的生成式AI模型可以“重复”训练数据。为什么这是个问题呢？嗯，如果这些模型是在没有获得许可或某种许可协议的情况下，使用了受版权保护的内容进行训练，那么这些模型的用户可能会无意中生成侵犯版权的作品——将他们暴露于诉讼风险中。马什拉博夫不愿透露Higgsfield训练数据的来源（除了说它来自“多个公开可用”的地方），也不愿说Higgsfield是否会保留用户数据以训练未来的模型，这可能不会让一些商业客户感到满意。他确实指出，Diffuse用户可以随时通过应用程序要求删除他们的数据。像Higgsfield这样的数字“克隆”平台也容易被滥用，正如近几个月社交媒体上深度伪造视频的疯狂传播所显示的那样。以类似的方式，Higgsfield可能使窃取创作者内容变得更容易。例如，只需上传某人舞蹈编排的视频，就可以生成一个展示自己执行同样舞蹈的视频。我询问了马什拉博夫关于Higgsfield可能使用的任何保护措施或防范措施，以试图防止滥用——虽然他不愿透露具体细节——他声称平台采用了自动和人工审核的混合模式。 “我们决定首先在选定的市场逐步推出产品，这样我们就可以监控潜在的滥用情况，并根据需要对产品进行调整，”马什拉博夫补充说。我们将不得不等待并看看这在实践中的效果如何。 Higgsfield – Foundational video model for social media

人类创造力与AI音乐制作的对决：艺术与技术的战场

Posted on April 3, 2024April 3, 2024 by aitrendtrackers@rengongzhineng.io

近日，200位音乐人联名发表了一封公开信，呼吁科技公司和开发者不要让AI音乐生成工具破坏人类的创造力。签名的艺术家名单强大且广泛，足以组成一个绝佳的科切拉音乐节阵容——包括Billie Eilish、Bob Marley遗产、Chappell Roan、Elvis Costello、Greta Van Fleet、Imagine Dragons、Jon Bon Jovi、Jonas Brothers、Kacey Musgraves、Katy Perry、Mac DeMarco、Miranda Lambert、Mumford & Sons、Nicki Minaj、Noah Kahan、Pearl Jam、Sheryl Crow和Zayn Malik等。信中写道：“如果AI使用不当，将对我们保护隐私、身份、音乐和生计的能力构成巨大威胁。一些最大、最有影响力的公司未经许可，正在使用我们的作品训练AI模型。……对于那些只是试图维持生计的工作音乐人、艺术家和歌曲作者来说，这将是灾难性的。” 这些艺术家的担忧是有道理的。生成新音乐、艺术品和文字的AI模型，是通过训练大量现有作品的数据集来实现的，在大多数情况下，要求从这些模型中移除你的作品几乎是徒劳的。这就像是这些艺术家试图阻止别人盗版他们的音乐一样——这根本就不现实。目前已经能够制作出令人信服的流行艺人深度伪造作品，而这项技术只会变得越来越好。一些公司如Adobe和Stability AI正在开发使用授权或免版税音乐的AI音乐生成器。但即便是这些工具，也可能对那些为电视广告或其他可能被艺术家用于其作品的节拍制作音乐的艺术家产生负面影响。随着技术越来越先进，历史上音乐人常常是受害者。首先是文件共享让人们很容易免费获取音乐；流媒体出现是对这一问题的回应，但这并没有让艺术家们感到满意。音乐家及相关工作者联盟（UMAW）花了多年时间努力为艺术家争取更好的流媒体支付——该工会的艺术家估计Spotify的平均流媒体版税率约为0.0038美元，或约四分之一美分。因此，音乐家们对这项新兴技术持怀疑态度是有道理的。作者们也对生成式AI的崛起采取了立场。7月，超过15,000名作家——包括James Patterson、Michael Chabon、Suzanne Collins、Roxane Gay等——签署了一封类似的公开信，致信OpenAI、Alphabet、Meta、Stability AI、IBM和Microsoft的CEO们。 “这些技术模仿并重复我们的语言、故事、风格和思想。成千上万的受版权保护的书籍、文章、散文和诗歌为AI系统提供了‘食物’，这是无尽的大餐，但却没有支付账单，”作者们的信中写道。但这些科技公司并没有在听。你仍然可以在ChatGPT上请求它生成一段玛格丽特·阿特伍德风格的文章——这可能并不好，但这确实表明了大型语言模型已经吸收了《使女的故事》并能够吐出它的退化版本。由于版权法并不足以解决生成式AI的问题，目前法律诉讼几乎毫无用处。音乐家们的信中说：“这种对人类创造力的攻击必须停止。我们必须防止AI掠夺性地使用专业艺术家的声音和肖像，侵犯创作者的权利，以及破坏音乐生态系统。”

2000家定义今日AI科技风向的公司

Posted on April 3, 2024April 3, 2024 by aitrendtrackers@rengongzhineng.io

2024年的机器学习、人工智能和数据生态：2000家定义今日科技风向的公司大盘点。这是关于机器学习和AI领域公司最全面的资源之一

Subscribe 订阅