Google Tx-LLM：用大型语言模型助力治疗药物开发

Tx-LLM是一款专门优化，用于预测生物实体属性的大型语言模型（LLM），它覆盖了整个治疗药物开发管道，从早期靶点发现到晚期临床试验批准。

治疗药物的临床试验失败率高，即便成功，通常也需要10到15年、耗资10到20亿美元才能开发完成。原因在于开发过程繁琐，且治疗药物需要满足多种独立标准。比如，药物必须与特定靶点结合，避免与其他实体产生作用，从而实现所需功能而不引发副作用。此外，药物还需要有效抵达目标部位、在体内适时清除，并能够规模化生产。实验测量这些特性费时费钱，因而使用机器学习（ML）进行快速预测成为一种替代方案。

因此，Tx-LLM应运而生。该模型基于PaLM-2进行了微调，能够预测与药物开发相关的多个实体属性，如小分子、蛋白质、核酸、细胞系及疾病等。Tx-LLM在66个药物发现数据集上进行了训练，覆盖从早期靶基因识别到临床试验批准的多个环节。在43项任务上，Tx-LLM的表现达到了当前最先进模型的水平，并在22项任务上超越了它们。值得注意的是，Tx-LLM不仅可以结合分子信息与文本信息，还能在不同类型的治疗任务之间实现能力迁移，成为贯穿药物开发全流程的单一模型。

Tx-LLM的训练依赖精心整理的”治疗指令调优”（TxT）数据集，它涵盖709个与治疗药物开发相关的数据集。通过将Therapeutic Data Commons（TDC）中的66项任务数据转化为适合LLM训练的指令-回答格式，Tx-LLM得以提升其在多种任务上的表现。TxT数据集的构建不仅依赖TDC，还引入了文献中的额外信息，使得模型能够区分子任务。此外，部分特性直接以文本形式展示（如细胞系），这使得模型能更好地利用其自然语言预训练能力。

在性能测试中，Tx-LLM在许多任务上展现了强大的数值预测能力，这在以往的LLM中并不常见。特别是在处理小分子与文本结合的任务时，Tx-LLM表现尤其出色。例如，在给定药物和疾病名称的情况下预测药物是否会被批准，Tx-LLM的表现优于现有的顶尖模型。

虽然Tx-LLM在多个任务中表现出色，但它仍有改进空间，特别是在解释其预测结果时。未来，随着模型继续发展，它可能会对整个治疗药物开发过程产生深远影响，大幅缩短开发时间、降低成本。

目前，团队正评估如何将Tx-LLM的能力开放给外部研究人员使用。如果有兴趣探索该模型的应用，欢迎与团队联系。了解外部的实际需求将有助于推动模型的进一步优化与发展。

Subscribe 订阅