自2020年推出以来,已有超过200万研究人员在疫苗开发、癌症治疗等工作中使用了Google DeepMind的AlphaFold 2模型,解决了困扰研究人员超过50年的难题。在帮助科学家预测了数亿种结构后,团队本可以功成身退。然而,他们并没有停下脚步,而是开始了AlphaFold 3的研发。这款新模型由Google DeepMind和Isomorphic Labs团队于今年5月推出,不仅能预测蛋白质折叠结构,还能预测包括DNA、RNA和配体(与蛋白质结合的小分子)在内的所有生命分子的结构和相互作用。 “我们在AlphaFold 2上解决了蛋白质折叠这个几十年的老问题,但从最近的高影响力研究来看,研究人员已经超越了这一点,”Google DeepMind的研究科学家Jonas Adler表示。“他们的结论往往涉及更详细的内容,比如小分子的结合或RNA,这是AlphaFold 2无法做到的。实验研究已经进展到了一个新前沿,为了赶上生物学和化学的最新进展,我们必须能够覆盖所有生物分子。” 这些生物分子包括配体,占所有药物的约一半。Isomorphic Labs的研究负责人Adrian Stecula表示:“在Isomorphic Labs,我们看到了AlphaFold 3在合理药物设计中的巨大潜力,并且已经在日常工作中使用它。新模型解锁了回答诸如‘蛋白质如何与DNA和RNA相互作用?’以及化学修饰对蛋白质结构的影响等问题的能力。” 增加这些额外的分子类型引入了数量级更多的可能组合。“蛋白质是非常有序的,例如,只有20种标准氨基酸,”Jonas说。“而对于小分子来说,空间是无限大的——它们几乎可以做任何事情,非常多样化。” 构建一个包含所有能力的数据库是不可能的,因此推出了AlphaFold Server,这是一种免费工具,允许科学家输入自己的序列,AlphaFold可以为其生成分子复合物。自5月推出以来,研究人员已经使用它生成了超过100万个结构。 “它就像分子复合物的谷歌地图,”Google DeepMind的研究工程师Lindsay Willmore说。“任何不懂编程的用户都可以复制并粘贴他们的蛋白质、DNA、RNA序列或小分子的名称,按一下按钮,等待几分钟,他们就能看到结构和置信度指标,从而评估他们的预测。” 为了让AlphaFold 3处理更广泛的生物分子范围,团队大幅扩展了新模型的训练数据,包括DNA、RNA、小分子等。“我们能够说,‘让我们训练所有现有的数据集,看看能走多远,’”Lindsay说。“结果表明,我们可以走得很远。” AlphaFold 3的另一个重大变化是生成结构的模型架构的转变。AlphaFold 2使用的是复杂的基于几何的模块,而AlphaFold 3采用的是基于扩散的生成模型,这大大简化了模型处理所有新分子类型的方式。 但这一变化也带来了新问题:由于蛋白质的“无序区域”没有包含在训练数据中,扩散模型会尝试创建一个不准确的“有序”结构,而不是预测无序区域。因此,团队转向AlphaFold 2,它已经非常擅长预测哪些相互作用是无序的,哪些不是。“我们使用AlphaFold 2的预测结构作为AlphaFold 3的蒸馏训练,让AlphaFold 3学习预测无序,”Lindsay说。 “我们有一句话:‘相信螺旋面,拒绝意大利面,’”Jonas补充道。 AlphaFold 3的一个预测示例。中央是蓝色紧密卷曲的螺旋结构,周围是橙色松散交织的结构,类似于意大利面。这些颜色代表模型预测的置信度。 团队期待看到研究人员如何使用AlphaFold 3推动基因组学研究、药物设计等领域的发展。 “看到我们取得的进展,真是令人难以置信,”Jonas说。“过去非常困难的事情现在变得很容易,过去不可能的事情现在变得可能——虽然这里仍然有非常难的问题需要解决,但我们对AlphaFold 3能帮助解决这些问题充满期待。”
Author: aitrendtrackers@rengongzhineng.io
迈克尔的37岁:时间的感悟与人生的智慧
本月初,Michael在科罗拉多州做了一次演讲。他到得很晚,但没关系,因为他知道自己将住进一家非常豪华的酒店,这家酒店他之前也住过。走到房间时,他被酒店的破旧状态震惊了。家具显得老旧,墙壁上有刮痕,装饰也疲惫不堪,甚至房间里的电子设备也很陈旧。 他觉得很奇怪,这家酒店以前可是崭新时尚的。然后他意识到:那确实是以前。时间过去了。也许他第一次住进这家酒店时才二十多岁呢!接着,他突然明白:自己也不再年轻时尚了,自己也被这些岁月磨平了棱角。 这让Michael想起塞内卡的一段经历。塞内卡回到他成长的房子时,感叹那些逐渐凋零的树木。这些树是他亲手种下的,现在却因年老而枯死,而他自己也没好到哪去。 Michael正在写这篇生日帖子——这是他的第37个生日,也是他系列中的第12篇帖子。虽然他在书巡演中染上了新冠,脑袋有点迷糊,但他还是能做些简单的算术:出生时的预期寿命大约是75年,也就是说他已经走过了一半的路程。尽管现在的医疗水平更高,但这个认知还是让他很震惊,就像在那个酒店走廊里感受到的那种感觉。 尽管如此,Michael并不觉得自己老了。恰恰相反,他觉得自己正处于创作巅峰期。他热爱自己的生活和工作。如果有人告诉他现在是生命的中点,他会心存感激。如果有人说这就是终点,他也会很满足——这37年来,他获得的远超过37年的价值。 在这样的心境下,Michael想分享一些今年及以往学到的教训(参考往年的第36篇、第35篇、第34篇、第33篇、第32篇、第31篇、第30篇、第29篇、第28篇、第27篇和第26篇)。 4b. 伏尔泰的说法Michael也很喜欢:你做出的最重要决定就是保持好心情。 18b. Michael真正想说的是,看看专业人士——无论是旅行、银行、买车还是其他事情——如何做事,看看你能学到什么效率。看看哪些假设可以被质疑。 19b. 这是约翰·斯坦贝克谈到的“过度工作的无纪律性”。他说,这是最虚假的经济学。 20b. 前几天,他的水瓶里有恰到好处的冰块,水和冰混合成了冰沙。他意识到这就是伊壁鸠鲁追求的那种快乐。这不多,但非常美妙。 没开始计时?”关键是:事情需要时间。前面的时间(因为开始太慢)、中间的时间(因为回复太慢)或最后的时间(因为处理太慢)都会让事情变得更慢。别人做事的时间你无法控制,但你可以控制自己做事的时间。 34b. 我们应该以不同方式做很多事情吗?政府犯了很多无法辩解的错误吗?很多假设被证明是错误的吗?是的。但无法辩解的现实是,我们本可以也应该做得更多,当我们将这个时期视为历史时刻时,这就是我们的孩子和孙辈会对我们说的。 36b. Michael无法回报罗伯特·格林为他所做的一切和打开的门,但他可以将其传递下去。
差劲的管理经验与出色的技术经理
差劲的管理经验与出色的技术经理 许多软件开发人员都有过不好的管理经验。本文将分享这些糟糕的管理技巧,并深入探讨优秀技术经理的特质。尽管本人未曾遇见过一位真正出色的技术经理,但还是尝试总结出一些见解。 最近的经历 上周,技术主管说要和团队进行一次汇报,但至今未有行动。通常这不是什么大问题,但这种情况一再发生,已经超过五次,无法再容忍。 情况分析 这是人事管理问题,更是公司文化问题。让我们看看为什么这很重要以及如何解决。 为什么重要 许多人认为与上司的关系是个人责任,但人员流动往往是由糟糕的管理引起的。良好的管理对于创造健康高效的工作环境至关重要,这不仅仅关乎个人。 技术公司常见的差劲管理迹象 微管理者 过度关注细节的领导往往会导致员工在工作中频繁出错。如果领导总是紧盯不放,员工难以展示自己的能力,微管理会带来极大的负面影响。 忽视管理任务的经理 管理者应该优先考虑管理职责。然而,许多经理反馈迟缓、频繁取消一对一会议、对员工不予回应。如果你有管理任务,应该优先处理并关注下属。 不接受反馈 糟糕的经理通常无法接受反馈,导致行为无法改进。无论是新手还是经理,都应听取意见,不断改进。 不屑一顾 不好的经理可能会轻视员工的意见和贡献,甚至窃取下属的功劳。这种行为不仅不公平,还可能导致员工流失。 缺乏组织 不好的经理通常缺乏组织能力,不准备、不努力工作。如果公司容忍这种懒散工作,员工自然无法期待高效的管理。 优秀技术经理的特质 沟通技巧 优秀的经理能清晰传达期望、反馈和关注点,确保团队成员理解自己的角色和贡献。 同理心和理解 他们了解团队成员的优劣势,提供必要的支持,营造一个包容的环境,让所有人都感到被重视。 委派与信任 有效的经理能有效委派任务,信任团队成员完成工作,并在需要时提供指导和支持。 远见和策略 他们有明确的愿景和策略,将团队目标与公司整体目标对齐,帮助团队理解工作的意义。 适应能力 优秀的经理能根据反馈和变化调整策略,保持灵活性。 反馈与发展 他们提供建设性反馈,致力于团队成员的职业发展,帮助他们成长和进步。 成为优秀技术经理的建议 积极倾听 多听少说,了解团队的挑战和关注点,开放接受改变。 提供明确指示 设定清晰的目标和期望,确保团队知道成功的标准,并支持他们实现目标。 鼓励和支持 鼓励创新和创造力,保护团队免受高层管理的压力,支持他们在犯错时进行改进。 营造积极环境 创造尊重、协作和包容的文化,认可和庆祝成就,以身作则,做到言行一致。 推动持续学习 鼓励团队寻求学习机会和挑战,提供反馈和指导,帮助他们在技术技能和行为方面成长。 结语 经理的角色至关重要。优秀的技术经理不仅管理任务,更能激励、指导和支持团队实现目标。技术经理应具备编程和管理双重能力,这并不是过高的要求,对吧?
Meta发布Llama 3:AI语言模型的新高度
2024年4月,Meta发布了最新版本的AI语言模型——Llama 3,其数据集规模是Llama 2的7倍以上。Llama 3最初推出了8B和70B参数规模,表现远超Llama 2、谷歌的开源模型Gemma以及Anthrophic的Claude Sonnet。自那以后,Sonnet进行了升级,成为最强大的AI模型之一。 关键突破 最新泄露的信息显示,备受期待的Llama 3最强大版本——训练参数超过4000亿的模型,可能即将发布。这是Meta众多新模型之一,使用了数十万台Nvidia H100 GPU进行训练。 在早期测试中,经过指令调优的Llama 3 400B在MMLU基准测试中得分86.1,已经达到了GPT-4的一半参数表现水平。这一结果意味着,Meta在模型架构和训练方法上取得了重大进展,足以对OpenAI形成强有力的竞争。 效率与性能 Llama 3 400B能够以更少的参数实现与GPT-4相当的性能,表明其在计算资源、能耗和成本方面可能比ChatGPT 4更高效。大参数模型在基准测试和实际任务中通常表现更好,但Llama 3 400B的高效表现让人们看到了其巨大的潜力。 开源优势 另一个令人兴奋的原因是Llama 3在研究和商业用途下以开源许可发布,尽管400B版本是否会同样开源尚未明确。如果开源,研究人员和开发者将可以免费使用这些最先进的语言能力,通过多种云平台和生态系统,加速创新和新应用的开发。 拥有如此强大的模型将使研究人员能够快速开发先进的语言AI应用,而无需依赖昂贵的专有API。 最新进展 Meta AI自4月18日发布Llama 3的新闻稿以来,就一直在暗示400B模型的发布。“我们最大的模型超过4000亿参数,”当时他们写道,并补充说“在接下来的几个月里,我们将发布多个具有新功能的模型,包括多模态、支持多语言对话、更长的上下文窗口以及更强的整体能力。” 自那时以来,网络上充满了关于400B模型可能发布日期的各种理论和猜测。虽然Meta确认Llama 3 400B的开发已经完成,但尚未公布正式发布日期。 然而,WhatsApp Beta用户在Android 2.24.14.7上发现了一个新选项,可以尝试Meta AI的Llama 3-405B模型。虽然该选项目前仅限于测试用户,并且使用量有限,但这足以让人们对全面发布感到兴奋,可能会在2024年7月底或8月发布。 总结 Meta的Llama 3模型,无论是从数据规模、性能效率还是开源优势,都展示了其在AI语言模型领域的卓越实力。随着400B版本的即将发布,研究人员和开发者将迎来一个崭新的AI时代。
新AI工具预测阿尔茨海默症进展,准确率高达82%
剑桥大学的科学家开发了一种人工智能工具,能够在五个案例中预测四个早期痴呆症患者是否会发展成阿尔茨海默症。 主要研究成果 阿尔茨海默症是痴呆症的主要原因,占60-80%的病例。全球有超过5500万人受其影响,每年的相关费用估计达8200亿美元。预计未来50年病例数将几乎增加三倍。 研究细节 剑桥大学心理学系的科学家团队开发了一种机器学习模型,能够预测轻度记忆和思维问题的个体是否会发展为阿尔茨海默症及其进展速度。研究结果显示,该模型比现有的临床诊断工具更准确。 研究人员使用了从美国研究队列中超过400名个体的常规收集的非侵入性和低成本患者数据,包括认知测试和显示灰质萎缩的结构性MRI扫描数据来构建模型。然后,他们用600名参与者的真实患者数据以及来自英国和新加坡记忆诊所的900人的纵向数据对模型进行了测试。 模型表现 该算法能够区分那些稳定的轻度认知障碍患者和在三年内发展为阿尔茨海默症的患者。它能通过认知测试和MRI扫描准确识别出82%的发展成阿尔茨海默症的个体,并能正确识别81%未发展的个体。 相比现有的标准临床标记(如灰质萎缩或认知评分)或临床诊断,该算法在预测阿尔茨海默症进展方面准确率高约三倍。这表明该模型可以显著减少误诊。 临床应用前景 该模型还允许研究人员根据每个人第一次访问记忆诊所的数据,将阿尔茨海默症患者分为三组:症状保持稳定(约50%)、进展缓慢(约35%)和进展迅速(剩余15%)。这些预测在六年后的随访数据中得到了验证。 重要的是,那些记忆丧失但症状保持稳定的50%患者,可以更好地转到不同的临床路径,因为他们的症状可能由其他原因引起,如焦虑或抑郁。 专家观点 剑桥大学心理学系的Zoe Kourtzi教授表示:“我们创建的工具虽然只使用认知测试和MRI扫描的数据,但在预测一个人是否会从轻微症状进展为阿尔茨海默症方面,比现有方法更灵敏——无论进展快慢。这有助于显著改善患者福祉,显示出哪些人需要最密切的护理,同时减少对那些我们预测会保持稳定的患者的焦虑。在医疗资源压力巨大的时候,这也有助于减少不必要的侵入性和昂贵的诊断测试需求。” 剑桥大学精神病学系助理教授兼CPFT名誉顾问精神科医生Ben Underwood博士表示:“记忆问题在我们变老时很常见。在诊所里,看到这些问题是否可能是痴呆症早期迹象的不确定性,确实让人担忧。能够利用已有信息减少这种不确定性令人兴奋,随着新疗法的出现,这将变得更加重要。” 未来展望 研究团队希望将他们的模型扩展到其他形式的痴呆症,如血管性痴呆和额颞叶痴呆,并使用不同类型的数据,如血液测试的标记物。Kourtzi教授补充道:“如果要应对日益严重的痴呆症挑战,我们需要更好的工具来在最早期阶段进行识别和干预。我们的愿景是扩大我们的AI工具,帮助临床医生在合适的时间将合适的人分配到合适的诊断和治疗路径上。我们的工具可以帮助匹配合适的患者进行临床试验,加速新的疾病修饰治疗药物的发现。” 该项目由剑桥大学与伯明翰大学的Peter Tino教授和新加坡国立大学的Christopher Chen教授合作完成,获得了Wellcome基金会、皇家学会、英国阿尔茨海默症研究中心等多家机构的资助。
Geek out time: try LLM and Embeddings on Nvidia NIM with Node.js
Nvidia NIM was rolled out a long time ago, but I haven’t seen it in action yet. In the past few weeks, I’ve played with the OpenAI API and local LLMs. Out of curiosity, I want to see how Nvidia NIM works. This weekend, I tried calling the Llama model and Embedding model on Nvidia’s…
Meta MobileLLM
人工智能在未来面临巨大的威胁:能源限制。以当前的标准来看,世界能源电网将无法满足对人工智能产品的预期需求。因此,拥有强大的、参数少于十亿的小语言模型(SLMs),即比GPT-4或Claude 3小数千倍的模型,不仅是一个很好的选择,而且是这个领域生存的必要条件。Meta提出了各种算法创新来创建MobileLLM,这是一种新的最先进模型,可能很快成为这一规模的标准,并防止所有人工智能爱好者预见的伟大承诺最终成为空话。 人工智能在未来将面临许多问题,其中一个主要问题是能源供应。假设技术现状保持不变,我们可能很快面临真正的GPU短缺。NVIDIA未能满足大科技公司在资本支出方面的投资需求,导致了一次由资本支出驱动的GPU短缺。然而,未来可能会出现相对于需求的真正GPU短缺,一旦世界开始大量使用LLMs。根据Meta的数据,在一个大多数人每天仅使用LLMs 5%的未来,我们将需要一亿个NVIDIA H100 GPU来为GPT-4提供服务,以达到每秒50个令牌的可接受延迟。 此外,全球对人工智能的预期需求将导致更严重的能源问题。大多数人认为搜索增强的LLMs(长时间推理模型)是解决方案。这些LLMs在直接响应您的请求之前探索解决方案空间,生成多达数百万个可能的响应,然后才定下来。这种范式不仅使平均令牌生成增加了数量级,还可能需要验证者,即在作者寻找解决方案时验证每个想法的附加模型。 然而,边缘人工智能或“设备上”的语言模型可能是一个解决方案,因为这些模型可以在我们个人设备的电池上运行,从而不需要GPU数据中心。然而,这需要克服质量和电池方面的挑战。目前,最好的AI结果来自文件大小远超TB(太字节)范围的模型,而这些模型在智能手机上的存储和运行存在困难。此外,Meta研究人员计算,在0.1 J/令牌消耗的情况下,一个每秒输出10个令牌的LLM将在两小时内耗尽整个电池。 为了应对这些挑战,Meta提出了一些创新方法,例如在较小规模上使用标准的SwiGLU激活函数,并且优先选择更深的网络结构而不是更宽的。研究人员还提出了共享嵌入和解嵌层,以及分组查询注意力来减少KV缓存的约束。此外,他们发现通过重复块来减少内存层次之间的通信开销可以提高准确性。 总的来说,Meta的研究专注于务实,而不是追求AGI或超级智能等遥远的目标。尽管资本支出投资巨大,但实际收入却相形见绌。过分关注“达到AGI”不仅对资本的有效使用不利,而且在能源方面也不可行。Meta的工作表明,提供卓越性能的次十亿LLMs是人工智能领域的未来方向,这将有助于缓解对云服务的巨大需求,并防止能源危机。
OpenAI暂停对中国、香港和澳门的服务
OpenAI,这家运营生成式AI服务ChatGPT的公司,已经暂停了对中国、香港和澳门的服务。 背景 OpenAI通知中国用户,从7月9日起将阻止来自中国、香港和澳门的流量。这一消息由中国国家支持的《证券时报》报道。 生成式AI,如OpenAI的ChatGPT和百度的Ernie,可以生成文本、图像、音乐、计算机代码和其他内容,已经在生命科学、制造、运输、安全和电信等领域得到广泛应用。然而,批评者担心它可能会取代某些类型工作的工人,或不公平地使用人类生成的内容而不给予合理的补偿。 中国已发布指导方针,确保本土AI遵循政策,并且不会泄露来自互联网审查大防火墙外的信息。 脱钩 OpenAI的举动正值美国财政部寻求加强对流入中国科技行业的美国投资的监管,提议全面禁止美国公民和居民对中国的人工智能、量子计算和半导体制造领域的投资。 分析人士表示,这将加速中美两国之间的技术脱钩。OpenAI先进模型(如GPT-4)在中国市场的缺席可能会减缓尖端AI技术的采用和整合,特别是对较小的科技初创公司而言。然而,无法访问OpenAI的大型语言模型也可能会激发本土创新。 国内反应 阿里云对OpenAI的封锁作出反应,宣布其生成式AI平台“百联”将为中国的OpenAI前用户提供替代方案。而百度则推出了一个新套餐,允许前OpenAI用户免费迁移到其AI平台。 根据世界知识产权组织(WIPO)最近发布的数据,中国目前在生成式AI专利方面领先全球。过去十年间,中国提交了超过38,200项生成式AI专利,几乎是美国6,300项的六倍。 尽管如此,美国科技公司通常制造更前沿的AI系统。根据今年的AI指数,2023年美国机构推出了61个著名的机器学习模型,而欧盟推出了21个,中国则为15个。美国也在私营AI投资和新成立的AI初创公司数量上领先于中国,而中国在工业机器人方面领先。 展望 7月4日,中国国务院总理李强在上海的世界人工智能大会上呼吁全球合作和更加开放的心态,强调各国在AI技术、数据和市场上的优势,并呼吁共同合作。他还警告称,迅速发展的AI技术带来的风险需要国际社会的共同关注,并呼吁建立全球AI监管和技术标准。
观看机器人使用Gemini导航Google DeepMind办公室
生成式AI在机器人领域已经展现了巨大的潜力,应用包括自然语言互动、机器人学习、无代码编程甚至设计。谷歌的DeepMind Robotics团队本周展示了另一个潜在的结合点:导航。 在一篇题为《Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs》的论文中,团队展示了如何通过Google Gemini 1.5 Pro教机器人响应命令并在办公室中导航。DeepMind使用了一些自从去年谷歌在大规模裁员中关闭Every Day Robots项目后留下的机器人。 在项目附带的一系列视频中,DeepMind员工以智能助手风格的“OK, Robot”开场,随后要求系统在9,000平方英尺的办公室空间内执行不同的任务。 在一个示例中,一位谷歌员工要求机器人带他去一个可以画画的地方。机器人回答说:“好的,给我一分钟。正在用Gemini思考……”然后机器人带着穿着黄色领结的员工走向一面墙大小的白板。在另一段视频中,另一位员工让机器人按照白板上的指示行事。 一个简单的地图显示了机器人如何到达“蓝色区域”。机器人思考片刻后,带着员工绕了一条长路,最终到达了一个机器人测试区。机器人自信地宣布:“我已成功按照白板上的指示行事。” 在这些视频之前,机器人通过团队称为“Multimodal Instruction Navigation with demonstration Tours (MINT)”的方法熟悉了环境。这个方法实际上是带着机器人在办公室里走动,用语音指出不同的地标。接下来,团队利用层次化的视觉-语言-动作(VLA)方法,结合了环境理解和常识推理能力。一旦这些过程结合,机器人可以响应书面和绘制的命令,以及手势。 谷歌表示,在与员工进行的超过50次互动中,机器人有90%左右的成功率
OpenAI发布AI五级进化系统,揭示通向超越人类智力的路线图
OpenAI发布五级进化系统,跟踪AI超越人类的进展 OpenAI推出了一种五级评分系统,用于跟踪AI在超越人类智力方面的进展。 这意味着什么? OpenAI的新AI评分系统从“能聊天”到“能管理整个公司”: OpenAI认为他们几乎要升级到第二级了。他们已经在内部展示了一些可能符合条件的GPT-4新功能。 这个评分系统并非一成不变——他们会根据员工、投资者和董事会的反馈进行调整。 为什么这很重要? 如果你在家中关注“机器人是否接管世界”这个话题,这为你提供了OpenAI的路线图。它让你窥见了这家最大的AI公司如何看待通用人工智能(AGI)的发展路径。 Anthropic也有自己的框架,称为AI安全等级(ASL),分为三个级别,但它更侧重于安全性(而不是一般能力)。