靶点识别是药物研发的起点,也是最为关键的一步。虽然人类基因组中包含约2万个蛋白编码基因,但目前被认为“可成药”的仅有约4500个。更值得关注的是,迄今为止,所有获批的药物仅覆盖了其中的716个靶点。依赖传统方法,识别一个兼顾有效性和安全性的靶点往往耗时数月至数十年。如今,人工智能(AI)正在重塑这一过程,使原本依赖偶然和经验的靶点识别,逐步转变为系统化、数据驱动的科学探索。
作为AI赋能靶点发现的先驱,由生成式人工智能驱动的临床阶段生物医药科技公司英矽智能(Insilico Medicine, 03696.HK)近日发表一篇综述文章,重点介绍了靶点选择决策的核心考量,总结了AI驱动赋能靶点发现的技术突破,并列举了AI辅助识别靶点到达临床阶段验证的几个关键成功案例。
这篇题为《AI时代的靶点识别与评估》的综述发表在顶级学术期刊《自然综述·药物发现》(Nature Reviews Drug Discovery,近5年影响因子:129.8),该期刊因其严谨的同行评审流程、前瞻性的战略路线、以及对药物研发最新趋势和重大突破的深度分析而闻名。
靶点选择的关键性
靶点识别的本质是选择一种生物蛋白,作为候选药物调控的目标,最终实现理想治疗效果,同时保障良好的安全性。由于这一决策为后续的药物研究和开发指明方向,所以,它在很大程度上决定了药物开发的成功率,以及后续各阶段所需的时间和资源投入。
在本篇综述文章中指出,选择理想药物靶点时需重点考虑以下因素:
过去数十年来,学界对于人类生物学的了解不断加深,但传统的靶点识别依然面临诸多挑战。许多疾病由复杂且尚不完全明了的机制驱动,技术和资源的限制也使得从人类基因组学和疾病模型中获取关键信息变得困难。而机器学习等人工智能技术的应用,使得研究人员能够挖掘以往从未发现的疾病相关新靶点,从而更好地应对生物学的复杂性。
在本篇综述文章中指出,选择理想药物靶点时需重点考虑以下因素:
- 靶点机制假说:明确调节该靶点能够影响疾病进程的生物学机制。
- 可成药性和安全性:评估靶点是否可以被药物有效调节,以及潜在的靶向或脱靶不良反应风险。
- 商业可行性(新颖性或置信度):在“全球首创”的新颖性和已有验证的“同类最佳”靶点的安全性之间做出权衡。
- 联合用药价值:评估该靶点联合用药潜力,寻找匹配临床需求、具有差异化的治疗策略。
过去数十年来,学界对于人类生物学的了解不断加深,但传统的靶点识别依然面临诸多挑战。许多疾病由复杂且尚不完全明了的机制驱动,技术和资源的限制也使得从人类基因组学和疾病模型中获取关键信息变得困难。而机器学习等人工智能技术的应用,使得研究人员能够挖掘以往从未发现的疾病相关新靶点,从而更好地应对生物学的复杂性。
基于多模态数据的靶点发现
在靶点识别过程中,研究人员整合不同来源的多模态数据,分析疾病背后的复杂生物网络,期待实现理想的分子活性和临床疗效。处理和分析多种类型的复杂数据正是AI的核心优势。
在分子和细胞层面,AI平台通过组学数据(包括基因组学、转录组学、蛋白质组学、代谢组学和表观遗传学等)构建出疾病的系统性分子图谱。结合这些信息,机器学习模型可以发现导致疾病的关键变异,并揭示由于遗传相互作用复杂或临床数据稀缺而未被发现的生物机制。此外,细胞成像数据为AI的分析提供了补充,卷积神经网络(CNNs)等前沿机器学习模型能够自动识别细胞内部的细微形态变化,比如线粒体或细胞骨架的结构改变,赋能高内涵筛选技术驱动的创新靶点发现。
此外,AI系统利用结构化的生物知识图谱和真实世界临床数据来生成靶点假说。知识图谱将蛋白质、基因、通路和疾病等之间的复杂关系进行系统梳理,使图神经网络(GNNs)和其他推理方法能够预测新的生物交互和合成致死作用。电子健康记录、临床试验结果和医学影像信息等临床和表型数据则为理解患者特征、疾病发展过程和个体差异反应提供了关键线索,进一步打通从基因发现到临床应用的通路。
AI还擅长挖掘非结构化的文本信息,能够评估潜在靶点的科学有效性和商业可行性。通过分析大量的科学文献、资助资金分配、专利和监管提交文件,AI工具可以追踪研究趋势,识别隐藏的基因-疾病关联,并评估竞争格局。为了最大化这些高度多样化来源的价值,研究人员越来越多地采用整合策略,例如构建异构知识图谱或统一数据仓库,协调这些数据集,以便它们可以被先进的AI框架无缝分析。
在分子和细胞层面,AI平台通过组学数据(包括基因组学、转录组学、蛋白质组学、代谢组学和表观遗传学等)构建出疾病的系统性分子图谱。结合这些信息,机器学习模型可以发现导致疾病的关键变异,并揭示由于遗传相互作用复杂或临床数据稀缺而未被发现的生物机制。此外,细胞成像数据为AI的分析提供了补充,卷积神经网络(CNNs)等前沿机器学习模型能够自动识别细胞内部的细微形态变化,比如线粒体或细胞骨架的结构改变,赋能高内涵筛选技术驱动的创新靶点发现。
此外,AI系统利用结构化的生物知识图谱和真实世界临床数据来生成靶点假说。知识图谱将蛋白质、基因、通路和疾病等之间的复杂关系进行系统梳理,使图神经网络(GNNs)和其他推理方法能够预测新的生物交互和合成致死作用。电子健康记录、临床试验结果和医学影像信息等临床和表型数据则为理解患者特征、疾病发展过程和个体差异反应提供了关键线索,进一步打通从基因发现到临床应用的通路。
AI还擅长挖掘非结构化的文本信息,能够评估潜在靶点的科学有效性和商业可行性。通过分析大量的科学文献、资助资金分配、专利和监管提交文件,AI工具可以追踪研究趋势,识别隐藏的基因-疾病关联,并评估竞争格局。为了最大化这些高度多样化来源的价值,研究人员越来越多地采用整合策略,例如构建异构知识图谱或统一数据仓库,协调这些数据集,以便它们可以被先进的AI框架无缝分析。
用于靶点发现的算法引擎和AI模型
在这篇综述中,作者系统梳理了现代靶点发现所依赖的多种机器学习方法。这些计算引擎帮助研究人员将大量的生物数据转化为可操作的治疗假说,超越传统研发模式。
目前,监督学习算法是很多靶点发现工作的基础。通过利用已标注的数据,比如已验证的药物-靶点对,这些算法能够预测新的分子作用关系,或优先筛选出与疾病有关的关键基因。例如,英矽智能开发的PandaOmics平台可以整合多组学数据和公开文献信息,赋能疾病靶点发现;GeroScope平台能够基于基因表达谱筛选与衰老相关的潜在靶点;TargetPro可总结和学习处于临床阶段靶点的特征。此外,基于深度学习(DL)的特定模式算法还能够从患者的各种生物标记数据(如血液化学、DNA甲基化、肠道微生物组和转录组等)中挖掘出与疾病或衰老相关的新靶点。
相比之下,无监督和半监督学习则用于发掘未标注或部分标注数据中的隐藏信息。这类算法常应用于识别基因网络中与疾病相关的模块,从蛋白质-蛋白质相互作用中提取特征相似性,以及预测候选靶点的潜在可成药性。
前沿深度学习架构则高度依赖于表征学习,它可以把显微镜图像、氨基酸序列等多种生物实体,编码为可用于机器分析的高维数值向量(或称为“嵌入”),用以捕捉复杂的生物特性,支持广泛的后续分析。基于这些表征,图神经网络(GNNs)能够利用生物图的固有结构来预测多个基因之间的相互作用,包括合成致死作用,进而识别能够逆转复杂疾病表型的特定靶点组合。
该领域的新前沿还包括生成式AI和基础模型。这些模型能在海量数据基础上开展上预训练,帮助捕捉基因网络动态、预测细胞对遗传扰动的响应,并精确定位疾病关键驱动因子。举例而言,创新的PreciousGPT等“生命模型”能够生成多组学数据,支持创新靶点发现。同样,Geneformer和scGPT等基于数千万个单细胞转录组上进行预训练,可以模拟细胞扰动。
目前,监督学习算法是很多靶点发现工作的基础。通过利用已标注的数据,比如已验证的药物-靶点对,这些算法能够预测新的分子作用关系,或优先筛选出与疾病有关的关键基因。例如,英矽智能开发的PandaOmics平台可以整合多组学数据和公开文献信息,赋能疾病靶点发现;GeroScope平台能够基于基因表达谱筛选与衰老相关的潜在靶点;TargetPro可总结和学习处于临床阶段靶点的特征。此外,基于深度学习(DL)的特定模式算法还能够从患者的各种生物标记数据(如血液化学、DNA甲基化、肠道微生物组和转录组等)中挖掘出与疾病或衰老相关的新靶点。
相比之下,无监督和半监督学习则用于发掘未标注或部分标注数据中的隐藏信息。这类算法常应用于识别基因网络中与疾病相关的模块,从蛋白质-蛋白质相互作用中提取特征相似性,以及预测候选靶点的潜在可成药性。
前沿深度学习架构则高度依赖于表征学习,它可以把显微镜图像、氨基酸序列等多种生物实体,编码为可用于机器分析的高维数值向量(或称为“嵌入”),用以捕捉复杂的生物特性,支持广泛的后续分析。基于这些表征,图神经网络(GNNs)能够利用生物图的固有结构来预测多个基因之间的相互作用,包括合成致死作用,进而识别能够逆转复杂疾病表型的特定靶点组合。
该领域的新前沿还包括生成式AI和基础模型。这些模型能在海量数据基础上开展上预训练,帮助捕捉基因网络动态、预测细胞对遗传扰动的响应,并精确定位疾病关键驱动因子。举例而言,创新的PreciousGPT等“生命模型”能够生成多组学数据,支持创新靶点发现。同样,Geneformer和scGPT等基于数千万个单细胞转录组上进行预训练,可以模拟细胞扰动。
临床验证要点:案例研究总结
该综述重点介绍了四个高影响力的例子,其中AI驱动的靶点识别已成功从计算预测过渡到临床交付。这些案例研究展示了AI平台识别新型疾病驱动因素和加速挽救生命疗法开发的多种方式。
其中,在IPF项目中,英矽智能通过自有端到端生成式AI平台Pharma.AI旗下靶点识别引擎PandaOmics,通过比照患者与健康人的多组学数据展开了靶点发现和优先排序,并提名TNIK作为治疗纤维化疾病的新颖靶点。
随后,团队利用同属于Pharma.AI旗下的Chemistry42平台设计出一款潜在“全球首创”小分子TNIK抑制剂Rentosertib(ISM001-055)。值得注意的是,该项目从启动到临床前候选化合物(PCC)提名大约耗时18个月,且候选药物目前已完成IIa期临床试验,显示出良好的安全性和剂量依赖性的患者用力肺活量改善。
其中,在IPF项目中,英矽智能通过自有端到端生成式AI平台Pharma.AI旗下靶点识别引擎PandaOmics,通过比照患者与健康人的多组学数据展开了靶点发现和优先排序,并提名TNIK作为治疗纤维化疾病的新颖靶点。
随后,团队利用同属于Pharma.AI旗下的Chemistry42平台设计出一款潜在“全球首创”小分子TNIK抑制剂Rentosertib(ISM001-055)。值得注意的是,该项目从启动到临床前候选化合物(PCC)提名大约耗时18个月,且候选药物目前已完成IIa期临床试验,显示出良好的安全性和剂量依赖性的患者用力肺活量改善。
未来展望:AI驱动的闭环平台
该综述总结道,靶点发现的未来取决于克服行业长期存在的挑战,包括:提升数据质量与可用性问题、开发可解释的AI模型、建立标准化指标和基准框架、利用合成数据与数字孪生、以及部署AI驱动的闭环平台。在这一新兴范式中,AI负责提名靶点,自动化实验室执行实验,产生的生物数据再反馈到模型中以优化搜索。通过将虚拟计算能力与湿实验验证相结合,行业有望显著加速向患者交付有效的且具有临床可行性的疗法。