aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

Playground AI刚刚推出了它的新宠儿——Playground V2,去试试？

Posted on December 20, 2023December 20, 2023 by aitrendtrackers@rengongzhineng.io

Playground AI刚刚推出了它的新宠儿——Playground V2，这是一个基于扩散的文本到图像模型，比起之前的Stable Diffusion XL，用户偏爱度高出了2.5倍！这个新模型可以在HuggingFace上找到，提供基础和审美两种版本，分辨率高达1024px。最酷的是，用户每天可以在Playground的网站上免费生成500张图片，并且还允许商业使用哦。去试试？ https://playground.com/ Playground V2不仅仅是一个模型，它还是Playground追求发展先进视觉AI系统大目标中的一部分。想象一下，不仅能创造3D环境，还能分析视频场景，是不是感觉未来已经来到眼前？这绝对是给那些爱好者和专业人士提供无限可能的一大步。嗨，各位小伙伴们，准备好探索这个新世界了吗？🚀🌌 #AI新星 #视觉革命 #PlaygroundV2

谷歌史上最强AI模型”双子星座”来了，但这又怎样？

Posted on December 19, 2023December 19, 2023 by aitrendtrackers@rengongzhineng.io

最近，谷歌大张旗鼓地推出了其最新的AI模型“双子星座”，这个被设计来与OpenAI竞争的模型，一开始就给人留下了深刻的印象。它不仅有着出色的基准测试成绩，还有一段光鲜亮丽的视频演示，且立即提供了一个简化版本供使用，这一切都显示出谷歌的自信。然而，当AI工程师和爱好者仔细研究细节时，这股积极情绪很快就变了味。尽管“双子星座”是一个令人印象深刻的新进入者，可能最终会削弱GPT-4的主导地位，但谷歌含糊其辞的信息传递让它不得不开始进行辩护。北美一家大型零售商的首席AI工程师艾玛·马蒂斯（Emma Matthies）谈到这个问题时说：“现在还有很多问题没有答案。”她指出，“我发现谷歌的‘双子星座’视频演示与谷歌技术博客中的细节存在不连贯之处。” 谷歌的“双子星座”演示引发了批评。AI开发者注意到了其中的不一致之处。这个名为“亲身体验双子星座”的演示在YouTube上与“双子星座”的发布同时推出。它节奏快、友好、有趣，还包含了许多易于理解的视觉示例。但它也夸大了“双子星座”的工作方式。谷歌的一位代表表示，演示“展示了真实的‘双子星座’提示和输出。”但视频的编辑省略了一些细节。与“双子星座”的交互是通过文本进行的，而不是语音，AI解决的视觉问题是通过图像输入的，而不是实时视频。谷歌的博客还描述了演示中未显示的提示。当被要求识别基于手势的剪刀石头布游戏时，“双子星座”被给了一个提示：“这是一个游戏。”但演示省略了这个提示。这只是谷歌问题的开始。AI开发者很快意识到，“双子星座”的能力并没有起初看起来那么革命性。 “如果你看看GPT-4 Vision的能力，并为其构建合适的界面，它与‘双子星座’相似，”马蒂斯说。“我做过类似的边缘项目，社交媒体上也有类似的实验，比如‘大卫·阿滕伯勒正在解说我的生活’的视频，非常有趣。” 在“双子星座”发布五天后的12月11日，一位名叫格雷格·萨德茨基（Greg Sadetsky）的AI开发者用GPT-4 Vision粗略地重现了“双子星座”的演示。随后，他进行了“双子星座”与GPT-4 Vision之间的头对头比较，结果对谷歌不利。谷歌在基准数据方面也遭到批评。作为家族中最大的三个模型之一，“双子星座Ultra”号称在多种基准测试中胜过GPT-4。这在很大程度上是正确的，但引用的数据被精心挑选，以使“双子星座”显得更加优秀。谷歌在测量性能时使用的方法与其他人不同。用户如何提示AI模型会影响其性能，且只有在使用相同的提示策略时，结果才具有可比性。 GPT-4在一个名为大规模多任务语言理解（MMLU）的基准测试上的表现是使用所谓的少量提示（few shot prompting）来衡量的。不提供背景信息地提问被称为“零次提示”（zero-shot prompt），而提供几个示例则是“少量提示”（few-shot prompt）。另一种方法是引导AI模型通过推理找到答案。Guildhawk的首席人工智能工程师理查德·戴维斯（Richard Davies）指出，“双子星座”是使用这样的链式推理方法进行测量的。“这不是一个公平的比较。” 谷歌关于“双子星座”的论文提供了一系列比较，但其营销活动比较了不同的策略，以使其结果看起来更好。它还完全专注于尚未向公众开放的“双子星座Ultra”。目前唯一可用的“双子星座Pro”提供的结果不那么令人印象深刻。尽管信息传递上有失误，“双子星座”仍给人留下深刻印象。关于“双子星座”介绍的问题给其公告投下了阴影。然而，撇开不真诚的营销不谈，“双子星座”仍然是一个令人印象深刻的成就。 “双子星座”是多模态的，这意味着它可以在文本、图像、音频、代码和其他媒体形式上进行推理。这并不是“双子星座”所独有的，但大多数多模态模型要么不公开，要么难以使用，或者专注于特定任务。这使得OpenAI的GPT-4在这个领域占据主导地位。马蒂斯说：“至少，我期待有一个强大的替代品和GPT-4及其新的GPT-4视觉模型的有力竞争者，因为目前还没有同类产品。” 戴维斯对“双子星座”的基准表现感到好奇，尽管挑选了数据，但在几个类似的场景中显示出显著的改进。 “从GPT-4的86.4%提高到‘双子星座’的90%，大约有4%的提升。但就实际减少的错误量而言，它减少了超过20%……这是相当多的。”戴维斯说。即使是小幅度的错误减少，在每天接收数百万请求的模型中也会产生巨大影响。 “双子星座”的命运尚未确定，它取决于两个未知数：“双子星座Ultra”的发布日期和OpenAI的GPT-5。虽然用户现在可以尝试“双子星座Pro”，但其更大的兄弟姐妹要到2024年某个时候才会发布。AI发展的快速步伐使得很难说“Ultra”一旦到来将如何表现，并且给了OpenAI充裕的时间来用一个新模型或GPT-4的改进版本作出回应。

CRISPR 基因编辑如何助力治疗阿尔茨海默症

Posted on December 19, 2023December 19, 2023 by aitrendtrackers@rengongzhineng.io

阿尔茨海默病，这个听上去有点拗口的词，却代表着一种残酷的现实：超过5500万人在与它抗争，到2050年，这个数字可能还要翻三倍。我们对大脑的运作还知之甚少，就像一座迷宫，阿尔茨海默病就藏在这迷雾深处。传统的药物只能延缓病情，对晚期患者或高危人群作用寥寥。但是，科技的脚步从未停歇！就上个月，一种利用基因剪刀的疗法获得了首个批准，用于治疗镰状细胞贫血和β地中海贫血。这种精准剪辑基因的技术，能不能也用在阿尔茨海默病上呢？科学家们跃跃欲试。淀粉样斑块和tau蛋白团块，是阿尔茨海默病的两大标志。新的研究发现，APOE基因的一个变体——基督城变体，竟能让人即使拥有高危基因，也到70多岁才出现症状！科学家们用基因剪刀将这种变体植入小鼠，惊喜地发现，携带这种变体的第二代小鼠，居然对阿尔茨海默病产生了抵抗力！另一个靶点则是PS1基因。它的突变会导致一种毒性更强的淀粉样蛋白42大量产生，引发早发性阿尔茨海默病。科学家们用基因剪刀剪断了突变的PS1基因，成功降低了PS1和淀粉样蛋白42的水平，为治疗早发性阿尔茨海默病开辟了新的道路。当然，从实验室到临床，还有着漫长的路。基因编辑并非万无一失，可能会伤及无辜的健康基因，甚至整个染色体。把基因剪刀带入大脑更是难上加难，目前还没有任何相关的人体试验。不过，科学家们并没有气馁。Roy博士团队已经在动物实验中成功编辑了APP4基因，并获得了美国国家卫生研究院的资助，即将进入临床前阶段。他希望有一天，神经学家只需给阿尔茨海默病患者注射一次基因剪刀，就能让这个恶魔消失。基因剪刀虽然还有挑战，但曙光已现。基因剪刀，也许真的能帮我们打开阿尔茨海默病治疗的大门，让更多人在迷雾中走出康庄大道。科技时尚，科幻，充满希望基因剪刀的出现，为阿尔茨海默病的治疗带来了新的希望。这种精准、高效的技术，有可能彻底治愈这种可怕的疾病。在未来，基因剪刀或许还能用于治疗其他神经退行性疾病，甚至是癌症。它将开启一个全新的医学时代，让人类对疾病的理解和治疗能力都得到革命性的提升。

Mixtral-8x7B 超炫的开源“sparse model”（稀疏模型）

Posted on December 18, 2023December 18, 2023 by aitrendtrackers@rengongzhineng.io

最近，Hugging Face ChatBot Arena 推出了两款先进的语言模型，Mixtral 8x7b 和 Gemini Pro，它们的性能堪比 GPT-3.5 哦！Mixtral 8x7b 是一款开源且可能更具成本效益的选择，在排行榜上稍微领先于 Gemini Pro，并与 GPT-3.5 Turbo 不相上下。这些模型可以用来回答问题或完成任务，展示了 AI 驱动的聊天机器人领域的不断发展。想象一下，你可以和这些高智能的机器人聊天，获取信息，甚至是求解生活难题，是不是感觉超级酷炫？别忘了，这可是科技的最新力作，让我们一起来见证 AI 的神奇魅力吧！在 Hugging Face Chat 上，你现在就可以和 Mixtral Instruct 模型聊天啦！快来体验一下吧：https://huggingface.co/chat/?model=mistralai/Mixtral-8x7B-Instruct-v0.1. Mixtral 这个模型可真是有趣，它的架构类似于 Mistral 7B，但有一个独特的转折：它实际上是 8 个“专家”模型的组合，这都得益于一种称为“专家混合”（Mixture of Experts, MoE）的技术。在变压器模型中，这种技术是通过用稀疏的 MoE 层替换一些前馈层来实现的。MoE 层包含一个路由网络，用于选择哪些专家处理哪些标记最有效。在 Mixtral 的案例中，每个时间步会选择两个专家，这使得该模型在解码速度上能够匹敌一个拥有 12B 参数的密集模型，尽管它实际包含了 4 倍的有效参数数量！想象一下，这就像是有一个超级团队，每个成员都是各自领域的专家，他们共同协作，用最高效的方式完成任务。就好像是每次你问问题，都有 8 个小脑瓜在那里急速运转，为你找到最佳答案。这不仅仅是技术上的创新，更像是一次智慧的盛宴。Mixtral 这种 AI 模型的出现，无疑是打开了人工智能世界的又一扇大门，让我们期待它未来的表现吧！

Meta与Ray-Ban合作推出了一款全新智能眼镜外观时尚，而且搭载了能够“看到“你所看到的一切的人工智能技术

Posted on December 18, 2023December 18, 2023 by aitrendtrackers@rengongzhineng.io

“嘿，Meta，看看这个，告诉我哪些茶是无咖啡因的。” 当在Meta位于纽约总部戴着一副Meta Ray-Ban智能眼镜说出这句话时，正盯着桌上用记号笔涂黑了咖啡因标签的四个茶包。耳边传来轻微的点击声，紧接着Meta的AI声音告诉我，洋甘菊茶可能是无咖啡因的。它正在阅读标签并使用生成式AI做出判断。这是我正在测试的一个功能，从今天开始就会推出到Meta的第二代Ray-Ban眼镜上 —— 这个功能是Meta首席执行官马克·扎克伯格在去年九月新眼镜发布时已经承诺的。这些AI功能，可以通过Meta眼镜上的摄像头查看图像，并用生成式AI进行解读，原本计划于2024年推出。Meta比我预期的更早引入了这些功能，尽管早期访问模式仍然非常是测试版。除了将Bing支持的搜索添加到Ray-Ban的新更新中，这增强了眼镜已有的语音激活功能，Meta的眼镜正在迅速获得新能力。这次演示让我惊叹，因为我从未见过类似的东西。我看过一部分：Google Lens和其他手机上的工具已经在使用相机和AI，而Google Glass —— 十年前 —— 有一些翻译工具。然而，Meta眼镜调用AI来识别我周围世界中的东西的方式简单直接，感觉相当先进。我很兴奋能够尝试更多。这些眼镜没有显示屏，AI只回应声音。但Meta View手机应用程序会保存照片和AI的回应以供日后查看。 Meta 多模态AI：目前的工作方式目前这项功能还有限制。它只能通过拍照来识别你所看到的东西，然后AI进行分析。在发出语音请求后，你会听到快门声，然后几秒钟后会有回应。语音提示也很长：Meta眼镜上的每一个语音请求都需要以“嘿，Meta”开始，然后你需要跟上“看看并”（我最初以为需要说的是“嘿，Meta，看看这个”）来触发拍照，紧接着是你想让AI做的事情。“嘿，Meta，看看并告诉我用这些食材有哪些食谱。” “嘿，Meta，看看并编一个有趣的标题。” “嘿，Meta，看看并告诉我这是什么植物。” 每个请求都会触发快门声，然后是AI阅读图像并解释它的几秒钟暂停。这与手机上的AI相机应用程序的工作方式类似，除了戴在你脸上并且通过声音控制。每个AI的回应和它查看的照片都储存在与眼镜配对的Meta View手机应用程序中。我喜欢这一点，因为它是后来的视觉/书面记录，就像记忆提示的笔记。我可以想象在某处漫步并提出问题，将其用作我的眼睛的某种头戴式Google搜索，无论是购物还是其他。 Meta的这款智能眼镜，不仅仅是科技的尖端产物，它的辅助功能也非常值得关注。想象一下，当我戴着这副没有配我视力的试验款Meta眼镜，询问它我正在看什么时，尽管回答在细节和准确性上有所不同，但它确实能给出一个大概的指引。它甚至能识别出我手中的眼镜，注意到镜片带有蓝色调（蓝黑框架，相当接近实际情况）。不过，这副眼镜有时也会“产生幻觉”。比如我问桌前碗中的水果，它正确地列出了橙子、香蕉、火龙果和苹果，但错误地认为还有石榴（其实并没有）。当我让它为窗前的一个大毛绒熊猫编写标题时，它创造了一些可爱的标题，但有一个与实际情况不符，描述了一个孤独地看手机的场景。当我看着一份西班牙语菜单，询问眼镜显示辛辣菜肴时，它能读出一些菜名并为我翻译关键食材，但当我再次询问含肉的菜肴时，它又用西班牙语回答了。这项技术的可能性令人兴奋，而且可能极其有用。Meta承认，这次早期推出旨在发现漏洞并帮助改进眼镜上的AI工作方式。我发现有些时候需要频繁说“嘿，Meta，看看”，但这个过程可能会随着时间改变。当进行即时图像分析时，提出直接的后续问题有时可以不用再说“看看”，但这种做法的成功率可能会有所不同。这种AI被Meta称为“多模态AI”，因为它结合了相机和语音聊天的功能，是公司计划将来将多种形式的输入混合在一起的AI的先驱，包括更多的感官数据。Qualcomm专注于AI的芯片组在Meta的新款Ray-Ban上已经准备好承担更多任务。Meta还计划随着时间的推移使这一过程更加无缝。 Meta首席技术官Andrew Bosworth曾在去年九月说，尽管眼镜现在需要语音提示来激活和“看到”以节省电池寿命，但最终它们将“配备足够低功耗的传感器，能够检测到触发意识的事件，进而触发AI。这正是我们正在努力实现的梦想。” Meta还在研究将多种形式的感官数据融合在一起的AI工具，以备更先进的未来可穿戴设备。现在，这还是一个早期访问的测试版。Meta在这一阶段使用匿名查询数据来帮助改进其AI服务，这可能会引起一些关注隐私的人的担忧。我还不清楚具体的选择加入细节，但一旦最终的AI功能推出，可能是明年，更多离散的数据共享控制似乎可能到位。

微软近日推出了Phi-2，这是一款小型语言模型，但其性能却十分强大

Posted on December 18, 2023December 18, 2023 by aitrendtrackers@rengongzhineng.io

来这里看看： https://huggingface.co/microsoft/phi-2 当我们谈论与生成性人工智能（AI）相关的语言模型时，我们通常首先想到的是大型语言模型（LLM），这些模型驱动了大多数流行的聊天机器人，例如ChatGPT、Bard和Copilot。然而，微软的新型语言模型Phi-2展示了小型语言模型（SLM）在生成性AI领域也有巨大的潜力。微软于周三发布了Phi-2，这是一款能够进行常识推理和语言理解的小型语言模型，现已在Azure AI Studio模型目录中提供。尽管Phi-2被称为“小型”，但它在模型中包含了27亿参数，远超过Phi-1.5的13亿参数。Phi-2在不到130亿参数的语言模型中展现了“最先进的性能”，甚至在复杂基准测试中超越了规模大25倍的模型。Phi-2在多个不同的基准测试中超越了包括Meta的Llama-2、Mistral以及谷歌的Gemini Nano 2在内的模型，Gemini Nano 2是谷歌最强大LLM的最小版本。 Phi-2的性能结果与微软开发具有突破性能力和与大规模模型相当性能的SLM的目标一致。微软在训练Phi-2时非常挑剔地选择了数据。公司首先使用了所谓的“教科书质量”数据。微软随后通过添加精心挑选的网络数据来增强语言模型数据库，这些数据在教育价值和内容质量上经过了筛选。那么，为什么微软专注于SLM？ SLM是LLM的一种成本效益较高的替代品。在不需要LLM的强大能力来完成任务时，较小的模型也很有用。此外，运行SLM所需的计算能力远低于LLM。这种降低的要求意味着用户不必投资昂贵的GPU来满足他们的数据处理需求。

最近的数据显示，由于人工智能的发展，失业人数正在增加然而，这些数字并不能完全反映出真实情况

Posted on December 17, 2023December 17, 2023 by aitrendtrackers@rengongzhineng.io

马斯克坚称，人工智能将带领人类进入一个“不需要工作”的时代。这一预测已经开始变为现实了吗？从表面上看，一些关键数据似乎确实如此。根据ResumeBuilder的一份报告，他们调查了750名使用AI的企业领导，结果显示，37%的受访者表示2023年他们的技术已经替代了工人。同时，44%的人预测2024年会因为AI的高效性导致裁员。尽管有关AI引发裁员的报道不断，但许多专家并不同意马斯克的观点。 ResumeBuilder的简历和职业策略师朱莉娅·图思克尔指出，他们的研究数据可能无法准确反映广阔的商业领域。“还有很多传统机构和小型企业并没有像一些大公司那样拥抱技术，”图思克尔说。裁员是现实，但AI技术也使企业领导者有机会重组和重新定义我们的工作。 Asana的首席产品官亚历克斯·胡德估计，我们在工作中花费的一半时间都在做他所谓的“关于工作的工作”，比如状态更新、跨部门沟通以及其他非核心工作内容。 “如果AI能够减少这部分工作，那将是一个巨大的解放，”胡德说。他还表示，如果没有数据背后的细节，标记和预测AI引起的裁员的统计数据更多地反映了恐惧而非现实。随着AI处理基于任务的工作，人类有机会向价值链的更高层次发展，Leet Resumes和Ladders的创始人马克·塞内德拉说。“对整个经济来说，”塞内德拉表示，工人将能够专注于“整合、构建或定义基于任务的工作。”他将这一转变比作上世纪中叶的办公室文化，当时有整层楼的打字员——这是文字处理器效率所消除的。白领工作和“以人为中心”的AI 根据Asana的《2023年工作中的AI状态》报告，员工表示他们29%的工作任务可以被AI替代。然而，Asana是“以人为中心的AI”的支持者，旨在增强人类能力和协作，而不是直接取代人类。报告称，人们越了解以人为中心的AI，就越相信它会对他们的工作产生积极影响。根据联合国的数据，全球白领和文职工作者占就业人口的比例在19.6%到30.4%之间。多年来，分析和沟通工具已经改变了知识工作，而“生成型AI应被视为这一长期变革连续中的另一发展。” 但截至2022年，全球34%的人口仍然无法上网，因此，关于AI对裁员和可能的工作重组的影响的讨论，还需要包括技术有无之间更广泛的鸿沟。工作者的个人责任和AI的调整对于希望在AI驱动的工作环境中避免被取代的专业人士来说，有步骤可以采取。塞内德拉表示，作为现代白领专业人士，需要承担一定的个人责任。“你的工作的一部分就是不断发展新技能，”他说。“如果你五年前学习了一些软件，那是不够的。你必须学习今天的新软件。” 尽管像研究和数据分析这样的岗位可能会被AI自动化，但公司仍然需要有人来启动AI，理解结果，并采取行动。 “我对任何人的建议都是，了解AI可能如何影响你所在行业中的职位，”图思克尔说。“至少你可以预见到可能发生的事情，而不是对正在发生的事情一无所知。” 但塞内德拉也认识到，企业领导者有责任在公司任职期间帮助员工继续发展他们的技能。“出于自身利益，那些资助员工发展的公司将更有可能领先于那些不这么做的公司，”他说。即使胡德，作为使用AI创建协作和项目管理解决方案的前线人员，也仍在尝试自己的产品。在为团队成员准备即将到来的绩效评估时，胡德尝试让AI总结他与团队成员的协作情况。 AI生成了一个列表，列出了他们共同感兴趣的所有事物、他们之间的所有任务和反馈，以及基于他们相互发送的消息对他们关系的描述。在这一点上，胡德展示了AI尝试的样子。 “你通过向它提问并看看它能做什么来学习它，有时会感到失望，有时会感到惊讶，然后倾向于那样做，”胡德说。“雇主能做的最好的事情就是让员工有能力了解通过今天使用AI进行个人实验的可能性。” 尽管当前一代AI导致了裁员，但历史上没有证据表明像这样的技术进步会导致大规模失业。劳动力具有历史性的可塑性，增加的技术能力可能会导致“更高价值”的工作，正如塞内德拉所说——以及更高的生产力，未来一代AI很可能会学会处理。

日本科学家们使用AI技术首次创造了世界上的心灵影像

Posted on December 17, 2023December 17, 2023 by aitrendtrackers@rengongzhineng.io

日本科学家团队宣布，他们利用人工智能技术，成功地基于人类大脑活动创造了世界首批心灵影像，其中包括物体和风景。这个来自国立量子科学技术研究所、另一家国家研究院和大阪大学的团队，能够生成粗略的图像，如一只豹子，其嘴巴、耳朵和斑点图案可辨认，以及带有红色灯光翅膀的飞机等物体。这项被称为“大脑解码”的技术，能够基于大脑活动可视化感知内容，可应用于医疗和福利领域。研究人员展示给实验对象的豹子图片（左）和通过利用大脑活动的生成型人工智能重构的图片。（国立量子科学技术研究所提供的照片）（共同社报道）这些发现最近在线发表在国际科学期刊《神经网络》上。此前的研究已表明，通过使用功能性磁共振成像（fMRI）测量的大脑活动，可以重构人类参与者所看到的图像，尽管这些研究限于特定领域，如字母表。基于以往的方法，该团队开发了一种技术，它可以量化大脑活动，并结合预测技术，允许生成型AI绘制图像以重现复杂物体。在研究期间，参与者被展示了1200张物体和风景的图像，他们的大脑信号与图像之间的关系被使用fMRI分析和量化。然后将相同的图像输入到生成型AI中，以学习其与大脑活动的对应关系。据该文章称，这项技术可用于通信设备的开发，并有助于了解幻觉和梦境的大脑机制。

很抱歉，Midjourney，但Leonardo AI的图像指导暂时还无人能及…至少目前是这样

Posted on December 16, 2023December 16, 2023 by aitrendtrackers@rengongzhineng.io

看看上面的图片，问问自己，三张中哪一张绝对是AI生成的图像。然后考虑，哪一张一定是照片？完成这个测试并向朋友们展示后，大家的答案都错了。但这个测试真正令人惊叹的部分不在于图像的真实性，而在于真实图像和AI生成图像之间的一致性。在这篇文章中，将探讨Leonardo AI中的“图像指导”功能，以及它如何能够基于传统摄影生成几乎精确的图像和提示。比如，如果你有一些传统摄影拍摄的照片，而模特的表情或姿势不够完美，现在你可以将这张图片导入Leonardo AI，添加图像指导，然后“使用同一个模特”进行随心所欲的修正。这不仅仅是脸部调整，而且比Midjourney的种子选项要深入得多。事实上，它可以用来创建具有更多独特机会和风格的类似构图，这些可能是在使用标准提示时没有考虑到的。更棒的是，原始照片越真实，最终Leonardo AI生成的图像就越真实。在之前的一篇文章中，我结合使用了Midjourney和Leonardo AI，取得了一些惊人的结果，但最终生成的图像还是有点太过AI化。在数字艺术的世界里，Leonardo AI的图像指导功能无疑是一股清流。它不仅为艺术创作提供了前所未有的灵活性，还在真实性和创意表达之间架起了一座桥梁。无论是专业摄影师还是爱好者，都可以借此将传统摄影与AI艺术完美融合，开创出全新的视觉体验。而Midjourney，虽然也是个不错的工具，但在这方面还是略逊一筹。Leonardo AI的这项技术，不仅在提升图像的质量上有所帮助，更在艺术创作的深度和广度上提供了新的可能性。它的到来，无疑为数字艺术界带来了新的启示，让我们对AI的能力和未来的发展充满了更多期待。在这种情况下，整体照明得到了改善，颜色调整为更加真实的色调，面部轮廓被柔化但仍保持真实。现在，注意中间的图像和右侧图像之间的相似之处，藤椅上的线条几乎一模一样；靠垫的褶皱和牛仔裤上的破洞也是如此。基于两侧的图像，中间的图像看起来像是一个不太成功的生成，特别是在照明方面。Leonardo为我们做了所有的色彩校正！这个案例完美展示了Leonardo AI在图像优化方面的强大功能。它不仅能改善照明和色彩，还能在保持细节真实性的同时，优化图像的整体视觉效果。中间图像与旁边的两张图像在某些细节上的高度相似性，证明了Leonardo AI在复制和调整现实元素方面的精确性。尽管中间的图像在某些方面看起来不如两侧的图像那么完美，但这也反映了Leonardo AI在图像生成过程中的自然变化和灵活性。 Leonardo AI在这个过程中自动进行的色彩校正尤其令人印象深刻。它不仅简化了后期处理的工作流程，还提高了最终图像的质量。通过细微调整光线和色彩，Leonardo AI能够增强图像的真实感和视觉吸引力，这对于那些寻求在他们的视觉作品中实现专业级效果的艺术家和摄影师来说，无疑是一大福音。这种技术的出现，不仅改变了我们对AI图像生成能力的看法，也为创意行业带来了全新的可能性。它允许艺术家们在保持原始图像真实性的同时，通过微妙的调整来增强其艺术表现力，这在以往是难以想象的。Leonardo AI的这一进步，无疑为数字艺术创作提供了更多的灵活性和创造力。怎么做到的呢？ Leonardo AI的“图像指导”功能非常独特，提供了将文本提示和图像输入结合在一起的能力。以下是这个功能的操作步骤和一些关键点： 1. **文本提示区域**：屏幕顶部是用于输入文本提示的区域。这里，你可以描述你想要创建或修改的图像的特点，比如场景、人物、氛围等。 2. **启用图像指导**：注意屏幕上的“图像指导”绿色按钮。当这个按钮处于“开启”状态时，它会激活“图像输入”部分。 3. **图像输入部分**：在这里，你可以上传多达四张图像。这些图像将作为Leonardo AI生成新图像的参考。通过提供这些指导图像，你可以指导AI更准确地模拟特定的风格、色调、光照和构图。 4. **设定新的文本提示**：在添加指导图像后，你可以设定一个新的文本提示，以指导AI生成期望的图像。确保文本提示与指导图像在视觉风格和内容上有一定的一致性。 5. **适应性和灵活性**：Leonardo AI的图像指导功能具有很强的适应性。虽然将一个商业厨房里的男性厨师变成站在月球上的女性消防员可能有点困难，但对于面部表情、姿势、位置等的一般性变化来说，只要有图像指导，Leonardo AI都能轻松应对。 6. **实现精准与现实性**：如果你想“重新拍摄”某个模特，并且希望达到惊人的准确性和现实感，可以上传四张指导图像。这些图像可以是不同角度的拍摄、不同表情或不同环境下的照片，帮助AI更全面地理解和重现目标人物或场景。通过这种方式，Leonardo AI的图像指导功能不仅增强了图像的真实感和细节，还为用户提供了更广泛的创造可能性，使他们能够以前所未有的方式操纵和改变图像。在AI领域，一周的发展确实可以媲美大多数科技领域一年的进步，因此Leonardo AI目前对Midjourney的领先地位可能很快就会发生变化。但就目前而言，Leonardo AI的“图像指导”功能无疑是一个游戏规则改变者。这一功能对传统摄影师来说是一个必要的补充，同时，它也为模特行业带来了一定的挑战，因为在初次拍摄后，摄影师可能就有足够的内容来创造新的“拍摄”，而无需再次雇佣模特。尽管我们在视频方面还没有达到这样的水平，但这正是美国演员工会（SAG）和好莱坞演员对自己形象和肖像权进行抗议、罢工并最终获胜的部分原因。我很好奇模特行业是否也会效仿。AI的不断进步正模糊了伦理和创造力的界限。对于现在，我会继续学习这些新技术，并就将来是否使用某些特定功能做出个人决定。这种技术的发展无疑带来了一系列复杂的问题，特别是在涉及形象权和创意产权方面。随着AI能力的增强，我们必须更加谨慎地考虑其对传统行业的影响，以及它如何改变我们对艺术和创造力的理解。在利用这些强大的工具时，我们需要不断地评估它们带来的机遇和挑战，确保我们的使用方式既符合伦理标准，又能促进创新和艺术表达。

深度神经网络在作为人类听觉模型方面显示出了前景

Posted on December 15, 2023December 15, 2023 by aitrendtrackers@rengongzhineng.io

嘿小伙伴们!你听到最火的AI耳朵没? 模仿人耳结构和功能的计算模型能帮助研究人员设计更好的助听器、人工耳蜗和大脑机接口。麻省理工最新研究表明,来自机器学习的现代计算模型离这个目标越来越近咯~ 这项迄今为止最大的深度神经网络训练研究表明,大多训练用于听觉任务的模型能生成与人脑在听同样声音时高度相似的内部表征呢! 研究还发现,含背景噪声的听觉输入模型更能模拟人听觉皮层的激活模式哟! “这项研究比以往更全面地将这类模型与听觉系统进行了比较。”项目高级作者、麻省理工大脑与认知科学副教授Josh McDermott说,“研究表明,来自机器学习的模型朝正确方向发展,为我们提供了一些使它们成为更好的大脑模型的线索。” 麻省理工研究生Greta Tuckute和博士毕业生Jenelle Feather为这篇今天发表在《PLOS Biology》的开放获取论文的主要作者。听觉模型深度神经网络由多层信息处理单元组成,可以在海量数据上训练以执行特定任务。这种模型已经被广泛用于许多应用领域。神经科学家也开始探索这些系统是否也可以用来描述人类大脑执行某些任务的方式。 “这些利用机器学习构建的模型能实现之前模型难以达到的规模的行为,这引发了人们对模型中的表征是否能捕捉到大脑中发生的事情的兴趣。” Tuckute说。当神经网络执行一个任务时,其处理单元对每个接收到的音频输入(如词或其他声音)都会生成激活模式。可以将这些模型对输入的表征与人们听同一输入时fMRI大脑扫描获得的激活模式进行比较。 McDermott和其时研究生Alexander Kell在2018年报告说,当他们训练神经网络执行听觉任务(如从音频信号中识别单词)时,模型生成的内部表征与人们听同样声音的fMRI扫描中看到的模式有相似之处。自那以后,这种模型已经被广泛使用,所以McDermott的研究小组决定评估更大的模型集,看这种逼近人类大脑神经表征的能力是否是这些模型的通用特征。在这项研究中,研究人员分析了9个公开可用的、用于执行听觉任务的深度神经网络模型,并基于两种不同体系结构构建了14个自己的模型。这些模型大多被训练来执行单一任务——识别词汇、识别说话人、识别环境声音和识别音乐流派——而其中两个模型被训练来执行多个任务。当研究人员向这些模型输入曾在人类fMRI实验中用作刺激的自然声音时,发现这些模型的内部表征倾向于与人脑生成的表征相似。最像大脑的模型是那些训练了多个任务且包含背景噪声的听觉输入进行训练的模型。 “如果在噪声中训练模型,它们能得到比不训练的模型更好的大脑预测,这在直观上是合理的,因为很多真实的听觉都是在噪声中进行的,这可能是听觉系统适应的东西。”Feather说。层次化处理这项新研究还支持人类听觉皮层存在某种程度的层次结构这一观点,其中处理被划分为支持不同计算功能的不同阶段。与2018年的研究一样,研究人员发现模型前期阶段生成的表征与在一级听觉皮层中看到的表征最为接近,而模型后期阶段生成的表征则更接近一级皮层之外的大脑区域生成的表征。此外,研究人员还发现,训练不同任务的模型更能复制听觉的不同方面。例如,训练语音相关任务的模型更接近语音选择区域。 “即使模型看到了完全相同的训练数据,架构也相同,但当你优化某一特定任务时,你可以看到它选择性地解释大脑中的特定调谐属性。” Tuckute说。 McDermott的实验室现在计划利用他们的发现尝试开发出更成功地重现人类大脑反应的模型。除了帮助科学家进一步了解大脑的可能组织方式外,这种模型还可以用于帮助开发更好的助听器、人工耳蜗和大脑机接口。 “我们这个领域的目标是最终拥有一个可以预测大脑反应和行为的计算机模型。如果我们成功实现这个目标,将开启许多大门。” McDermott说。

Subscribe 订阅