深度学习驱动的新药研
发取得里程碑式突破:
2021.02.24
人工智能与生物、化学相结合
利用AI人工智能生成的新分子作用于AI人工智能发现的新靶点在广泛的治疗领域证明了疗效,并在特发性肺纤维化疾病治疗(IPF)应用中达到临床前候选化合物研究阶段!
新药研发是人类发展中最复杂、最具风险和耗时最漫长的技术研究领域之一。要想发现一种药物,需要许多生物、化学和医学方面的高智商和高技能的专家。整个过程需要耗费数十年,数十亿美元,且失败率达90%以上。市场上很少有真正创新的药物。2020年,FDA共批准53款新药上市,其中35种是小分子药物,这是史上新药获批数量最高的一年,而且这些药物中的许多都是针对已知分子靶点。发现能够作用于广泛适应症新靶点的新分子是极其罕见的。

今天,我们特此隆重宣布一项新的研究结果,它展示了人工智能如何改变医药研发。我们首次利用许多相互关联的深度学习模型和其他先进的人工智能技术,成功地将生物学和化学结合起来,发现了一个新的生物靶点,并生成了能够作用于特发性肺纤维化 (IPF)这一非常难治疾病的一个新的小分子。我们进行了所有必要的人类患者细胞、组织和动物验证实验,证明其是能够作用于新型泛纤维化靶点的首个临床前候选分子药物,目前正在为临床开发做准备。Insilico Medicine这两项发现所耗费的时间和成本仅相当于传统药物研究流程的一小部分,更最重要的是,虽然生物学的失败概率超过90%,化学的失败概率甚至更高,Insilico Medicine最终取得了成功。为了成功获取临床前候选药物,我们设计并合成了不超过80个分子,其中有几个分子达到临床前候选化合物的水平,这是迄今为止取得的前所未有的命中率。

我们的人工智能系统,包括生物问题解决引擎 PandaOmics 和化合物生成引擎 Chemistry42, 是基于多年来对大型生物、化学和文本数据集建模实践的成果一可追溯至2016年我们在药物设计方面研究出生成式对抗网络(GAN)技术这一开创性工作以来。
利用 PandaOmics 生成新靶点是一项重大突破,且有望作用于纤维化疾病的广泛适应症。

我们的 Chemistry42 平台利用这个新发现的靶点作为基础,设计了一类新型的小分子抑制剂。该小分子药物对IPF(特发性肺纤维化疾病)表现出了卓越的疗效和良好的安全性,因此于2020年12月被提名为临床候选药物(PCC)进行临床前研究进而申报临床试验许可。该新型候选药物的一期临床试验计划于2021年12月进行。

我们的人工智能系统发现了一个新的能够作用于广泛适应症的靶点,以及相应的候选药物,整个研发过程仅耗费短短18个月,研发成本相当于类似项目的十分之一。
新药研发的生产效率难题
研发一种新药推向市场是一个复杂且消耗资源的过程,制药公司平均需要花费26亿美元,以及长达10年的研发时间。

这一过程从确定一种有关疾病的假说开始,通常是要发现导致疾病或病理的一种功能失调的蛋白质。蛋白质是我们身体的主力,它们完成了我们生存所需的大部分生物任务一从合成分子、在细胞和组织之间介导信号,到抗击感染。大多数疾病都是由一种或几种蛋白质在某种程度上的功能失常造成的:它们可能具有错误的形状或化学成分,这些错误会导致错误的生化反应中,从而导致对身体的全身损伤。任何一种蛋白质的细微变化都可能导致严重的后果,甚至死亡。在疾病发展和进展中起作用的蛋白质即是我们所谓的靶点。

一旦确定靶点,必须进行密集的后续研究,以证明选择是正确的---这个过程被称为靶点验证。这项工作包括各种研究,从解决靶点蛋白的晶体结构到确认其与相关疾病的关联。靶点和疾病之间的联系是新药研发的关键一步,它可能导致整个计划的成功或失败。即使我们尽了一切努力来了解靶标在疾病中的作用,但只有在数年之后,也就是在人体临床试验期间,靶点选择的正确性才能最终确定。

靶点识别和验证之后是发现影响故障蛋白的方法---通常是阻断或改变它的活性。这一阶段是由药物化学部门或专门合作的研究公司完成的,涉及到大规模的筛选项目,其中需要测试数千或数百万种化合物,看它们是否能以有益的方式影响靶点。具有可接受活性的分子称为药物作用靶点的苗头化合物(hits),在这些苗头化合物中,大多数将被证明是假阳性的,只有一小部分最终被证实并被筛选成为先导化合物(leads)。

虽然先导化合物在目标靶点上显示出显著的活性,但仍需要对它们的其他关键参数进行优化---代谢稳定性、安全性、生物利用度和其他特性。毕竟,如果活性物质不能有效地作用于靶点蛋白质,或者它针对体内多个不相关的蛋白质而导致不必要的副作用(毒性),那么活性物质就没有任何用处。

先导药物优化过程中最重要的环节是一个或一组准备用于临床前研究的分子。这些分子随后会被用于动物身上(在体内)进行测试,看看它们是否能在实际的生物体内持续发挥预期的作用。如果先导药物的活性和安全性在动物实验中得到证实,这种分子最终将被提名为候选药物。然后,它可以继续进行临床前研究(IND-enabling),这是临床前药物发现过程的最后一步。IND-enabling研究是候选药物被监管机构(如美国食品和药物管理局FDA)接受用于人类临床开发的先决条件。

临床阶段面临的是更高水平的投入,涉及高成本、高风险和严格的合规要求一因为在这一点上,实际的人的生命处于危险之中。尽管药物研发人员为保证候选药物的质量付出了巨大的努力,但在临床试验中仍会发生悲剧性的事故,导致患者因无法预测的副作用或未知的生物因素而死亡。这样的案例会导致项目立即终止,并给制药公司造成巨大损失。

上述过程很像赌场里的赌博,偶尔仅有一些分子能够顺利通过所有临床前和临床障碍,进入市场。到那时,它们就变成了医生开的药。

药物研发的巨大成本主要在于昂贵的研究设备、设施和人才以及昂贵的临床试验高失败率后果---由于各种原因,高达90%的项目从未转化到市场应用。

药物研究的低效率问题主要是由于生物系统的巨大复杂性和我们对自然运作方式的有限理解。然而,这里的另一个重要角色是次优的研发(R&D)流程,大型制药公司复杂而繁琐的工作流程,以及不同药物发现过程阶段之间的显著脱节。生物学研究是由一家公司完成的,而化学研究则是由另一个部门甚至是另一家公司主导进行的,随后的临床研究又是由另一个部门或机构进行的。这些阶段的过渡,例如靶点验证到苗头化合物发现两个阶段的过渡,有可能是埋葬许多绝妙想法、突破和巨资的墓地。

为提高药物创新的生产效率,新的颠覆性的改革刻不容缓,或许大规模采用人工智能可以为行业带来这种变化。

AI人工智能技术有何帮助?
"深度学习革命的巅峰时期可以追溯至2014年,那时候的深度学习系统开始在图像识别和生成式对抗网络领域超越人类。同一年,我们公司成立。2016年,我们通过实验验证证明,深度学习系统可以从组学数据中识别新的生物靶点。自2017-2019年,我们一直不断在证明,生成式人工智能可以发明和设计能够作用于人类细胞和动物的新分子。"Insilico Medicine首席执行官Alex Zhavoronkov
众所周知,人工智能的发展依赖于数据,尤其是高质量的大数据集。幸运的是,药物发现过程的每一步都会产生大量数据,这些数据为现代人工智能技术的发展奠定了基础。

这些人工智能技术的应用已经被证明在药物发现过程的几乎每一个步骤都是有帮助的一特别是在疾病假设和靶点识别阶段。深度学习模型和自然语言处理技术在建模大型复杂多维数据集如基因组学、蛋白质组学、临床数据、靶点结构数据和非结构化文本(研究论文、专利、科研经费等)方面的作用是不可小觑的。
应用虚拟筛选和新分子生成的人工智能平台已经证明深度神经网络作为苗头化合物的智能发现工具的能力。在这种背景下,生成式对抗网络(GAN)尤其值得关注一正如我们在2016年的开创性成果中所展示的那样。自2016年以来,我们在顶级同行评审期刊和人工智能会议上发表了数10篇研究论文,涉及生成生物学和生成化学。

最后,人工智能也被应用于先导化合物优化和临床前研究,并帮助建立、运行和预测临床试验及其结果。

目前有数百家制药研发公司为各种用途建立人工智能模型,它们正在展示这种新技术的实质性效益。然而,仅当将人工智能用于联系药物发现各个阶段,并搭建一个从假说到临床前和临床阶段的一体化的系统,才能实现真正的颠覆性转变。

Insilico Medicine我们多年来致力于构建最全面的人工智能驱动的药物研发平台,形成一个新的集成研发过程,数据和知识无缝地从过程的一个阶段传达另一个阶段,最终形成一个快速和低成本效益的工作流程。我们非常自豪能够通过消除药物发现各个阶段之间的脱节,将生物学和化学连接到一个整合统一的数据驱动的工作流中,为解决药物发现的生产效率难题做出贡献。

我们的团队花了数年时间构建和集成了数百个人工智能模型,每个模型负责一项特定的任务,并将其整合到一个平台上,该平台能够生成假设、选择靶点、生成化合物和预测临床试验结果。据我们所知,这是目前市场上最完善全面的人工智能药物设计平台。

利用深度学习解决纤维化疾病
我们首次使用深度神经网络进行靶点发现的研究工作可以追溯至2015-2016年,当时我们与制药公司、生物技术公司和学术机构广泛合作,发明和测试新方法,及时了解人类生物学。我们建立了第一个基于深度神经网络的系统,利用组织特异性转录组学、蛋白质组学和其他数据类型来预测人类年龄。我们发表的首个具有基本实验验证的靶点发现方面的论文"利用深度神经网络系统识别胚胎-胎儿过渡标记: 抑制胚胎细胞和癌细胞中的COX7A1"是与一家名为BioTime(如今的AgeX Therapeutics)的公司合作共同取得的成果。从那时起,我们建立了100多个不同的模型,采用不同的方法来进行靶点发现,并结合了最佳实践和数百年的人类知识和经验。

在此,我们与大家分享我们利用一体化的人工智能平台解决特发性肺纤维化疾病(IPF)的最新研究结果。IPF是一种广泛的疾病,仅限于肺部,好发于中老年人群。随着病情的发展,患者的健康逐渐恶化,可能危及生命。纤维化是主要的衰老相关疾病过程之一,我们利用深度神经网络基于年龄和不同类型的纤维化进行训练,从而识别了一系列相关靶点。

为了建立初始假设,我们训练深度神经网络对组织特异性纤维化以及患者的年龄和性别相关的组学和临床数据集进行训练。然后,我们利用我们的 PandaOmics 靶点发现系统中实现的一系列靶点发现工具,对发表在《自然通讯》上的复杂基因和路径进行评分,并通过深度特征选择、因果推理和de novo路径重构得到相关靶点。靶点新颖性和疾病关联评分由自然语言处理(NLP)引擎进行评估,该引擎分析了来自数百万数据文件的数据,包括专利、研究出版物、科研经费和临床试验数据库。结果, PandaOmics 发现了20个用于验证的靶点,我们将其缩小到一个新的细胞内靶标,并对其作进一步分析。

Chemistry42 是我们用于药物发现的生成式化学模块。该模块包括生成引擎和评分引擎的集成,可以使用我们于2015年率先应用于医疗的尖端深度学习技术从零开始想象分子。Chemistry42自动生成具有适当物理化学性质的成药性高的分子结构。此次,我们使用Chemistry42设计了一个小分子库,这些小分子与 PandaOmics 发现的新的细胞内靶点结合。

Chemistry42 生成的这一系列新型小分子在靶点抑制方面表现出良好的前景。其中一个苗头化合物展现了纳摩级别的IC50活性。我们对这个苗头化合物进行优化,成功地提高了溶解度,获得了良好的ADME特性,并且未显示有CYP抑制的迹象一且维持纳摩级别的IC50活性。有趣的是,优化后的化合物对其他9个与纤维化疾病相关的靶点也表现出纳摩级别的IC50活性。

在后续的体内研究中,这个系列分子被证明可以改善博莱霉素诱导的小鼠肺纤维化疾病模型的纤维化疾病,从而进一步改善肺功能。这些化合物也在14天的小鼠重复剂量范围发现(DRF)研究中证明了良好的安全性。

这个系列中表现最好的分子于2020年12月被提名为临床候选化合物进行临床前研究,从而进一步推进到临床研究。临床前研究已经开始,目前,候选药物的放大/工艺开发正在进行中。我们计划在今年年底前完成临床前研究,并在今年底或明年初开始临床一期试验。

这张图粗略展示了我们为发明临床候选化合物进行的实验列表。

整个药物发现过程,从疾病假设到临床前候选药物,只用了不到18个月完成,并只花费了约为200万美元的经费。与传统的药物发现过程相比,这一成就的速度快了几个数量级,所耗费成本也低了几个数量级。

我们的团队致力于开发该候选药物,也诚挚欢迎与制药公司达成潜在合作伙伴关系,以便在II期之后共同开发该候选药物。

药物发现的先驱GAN
短短1年半的时间里发现一个新的泛纤维化疾病靶点和一个具有前所未有作用机制的候选药物,听起来像是已经实现了一个新药发现的梦想。但这条路并不是一帆风顺,还有很多挑战有待解决。

2015年,我们开始了生成式对抗网络(GAN)的早期探索性实验。GAN是一种深度学习架构,由两种神经网络构成,其中一个神经网络发明新的"物质"来满足一些预定义的需求(即生成器),而另一个神经网络则努力证明生成器是错的。这两种神经网络的任务都是学习,直到生成器最终获得最佳结果。GAN采用低维格式,例如二进制指纹、SMILES字符串、图形和其他光表示法来生成分子。

我们在论文"丰富的有意义的先导药物:深度对抗式自编码器在肿瘤学中新分子开发的应用"中描述了使用对抗式自编码器(AAE)生成新分子的概念,该论文于2016年6月提交至Oncotarget杂志发表。Alan Aspuru-Guzik团队在他们的ArXiv论文"利用数据驱动持续分子表示的自动化学设计"(Automatic chemical design)中发表了类似的想法。在此期间,我们开始合作,并围绕生成化学搭建了一个全球社区。

后来,我们对基于GAN的人工智能药物设计平台进行了一些改进和设计新功能,并开始为我们的发明申请专利。2017年,我们建立了多个工作GAN模型,包括指纹druGAN、SMILES的ORGAN、各种带有强化学习和LSTM的循环神经网络(RNN)架构、敏捷时间卷积网络(ACTN)和强化对抗神经计算机(RANC)。2018年,我们在构建和验证一个强大的深度生成模型"生成式张量强化学习" (GENTRL)方面取得了进展。GENTRL是一种用于药物发现的新型人工智能系统,它极大地加速了先导药物发现过程从数年缩短到数天。我们在GitHub上公开了代码,以激励更多的科学家社区继续开展这项工作。

逐渐的,我们搭建了一个一体化的AI平台,它包含3个关键组件:其一是靶点发现和多组数据分析引擎 PandaOmics, 其二是全新的分子设计引擎 Chemistry42, 其三是临床试验结果预测引擎 InClinico.

我们也开始大力投资于合成和验证由我们的引擎设计的各种项目的分子。

2018年,我们发表了一项研究,公开了首个采用Entangled Conditional Autoencoder (ECAAE) 纠缠条件式自动编码器生成的JAK3抑制剂,并进行了实验验证。彼时,我们的引擎已经可以为G蛋白偶联受体和其他靶点类别实现合理的命中率。2019年,我们实现了一个重要的概念验证里程碑,我们在短短21天内预测了一个众所周知的纤维化疾病靶点分子,并成功地在体外和体内验证了预测。研究结果发表在《自然-生物技术》杂志上,引起了媒体的广泛关注,并获得资深新药发现专家和科研人员的反馈。这一里程碑展示了利用人工智能发明候选药物的不可思议的潜力,代表了整个传统药物发现过程的第一步。

自成立以来,Insilico Medicine已经发表了150多篇论文,并在100多场会议上公开分享多项成果。在此期间,我们获得了来自新药研究领域的大力支持,也遇到过不少质疑。我们早期的模型用来生成的分子不够多样化,或者不容易合成,而且靶点是大众已熟知的,或者容易通过已知的苗头化合物优化得到。但随着时间的推移,我们改进的结果说服了许多科学家成为我们的支持者。

不到18个月,我们在验证自身人工智能能力方面取得了更不可思议的里程碑式的突破,能够从一个自动生成的假设中识别出一个全新的靶点和一个首创的候选药物分子。我们这一成功非常接近能够颠覆式的改革当期新药研发模式。我们希望我们这一成果能够充分说明问题,甚至可以把最顽固的怀疑论者转变为人工智能的推崇者。

潜在影响
尽管我们对人工智能平台目前的成果感到兴奋,但颠覆式的改革制药行业的工作才刚刚开始。领先的药物研发机构要大规模采用人工智能驱动的研发还需要一段时间。

目前,人工智能技术被很多制药和生物技术公司广泛采用,用于虚拟筛选或数据分析等特定任务。尽管如此,新药研发的总体过程仍然是一系列连接不佳的各个阶段,没有一个整体有效的从错误中学习的反向传播元素。通过将 PandaOmicsChemistry42 等工具整合到一个集成的工作流程中,药物研发机构可以大大简化它们的工作,加速将想法转化为实际的临床候选方案,并进一步推进。我们希望这项研究成果将会激发全球制药机构更大的转变,成为一种颠覆性的药物发现模式。我们的专家团队将积极进取,不断创新和完善我们的人工智能,并扩展到其他疾病领域,发明更多新的候选药物并推向临床,去解决尚未被满足的临床需求。
专家评价
我们曾访问制药行业的多个关键权威专家,听取他们对我们的人工智能药物发现的想法,并探讨关于我们如何共同推进人工智能驱动的新药研发的新想法。
  • 未来十年,中国将成为全球医药创新的重要力量,中国将在药物的原发性创新上成为引领者和推动者。药物研发是人工智能最重要和最大的应用场景之一,人工智能则是药物研发最重大的技术红利之一。AI赋能药物研发,既能够缩短药物研发的时间,又能够大大降低成本。Insilico不仅仅在技术上是领先的AI辅助药物研发企业,同时,也创造了独特的,充满潜力和希望的商业模式,即通过自主研发的Pharma.AI平台提供人工智能驱动的药物发现服务和软件,以及自主开发临床前项目。
    梁颕宇
    启明创投主管合伙人,福布斯全球最佳创投人
  • 创新工场投资Insilico Medicine英矽智能,从早期看好公司专注把前沿AI技术与新药研发相结合的创新能力。这次在AI技术平台的支持下,快速研发推进针对特发性肺纤维化病症的潜在的首创药物分子,并成功达到临床前候选药物的里程碑,一定程度上验证了 AI算法结合药物化学与生命科学,能够更高效的研发出有巨大潜力的候选药物分子,在全球范围内是个标志性的里程碑。Insilico Medicine创始人兼首席执行官Alex Zhavoronkov博士带领的团队,结合AI科学家和新药研发科学家,兼具严谨科学方法论及以AI造福人类的愿景,是把AI用于解决真实世界重大挑战的具体实践。
    李开复博士
    创新工场董事长兼CEO
  • 药物发现中最困难的步骤和最大的谜团之一在于靶点验证,特别是确定在临床环境中有强大影响力的靶点。通过人工智能的努力,Insilico Medicine成功地解决了药物发现中最大的谜团之一。
    Tudor Oprea 博士
    新墨西哥大学(University of New Mexico)翻译信息学部门教授兼主任,经验丰富的药物发现者,在药物发现领域拥有25年的行业和学术经验
  • 在药物研发中,速度就是一切。一种药物批准用于人类使用的相关成本至少有90%是在临床试验的后期阶段。凭借其人工智能驱动的药物发现通用系统,Insilico让研究人员能够在药物发现过程的许多阶段、以及临床试验之前,更快更早地排除失败的方法,以免为时过晚。
    Charles Cantor博士
    —波士顿大学名誉教授,Insilico Medicine科学顾问委员会成员,Sequenom Inc.联合创始人,Retrotope Inc.联合创始人
  • Insilico Medicine的这一成就再次证明了人工智能是药物发现的强有力工具。通过在药物发现过程中尽可能多的步骤中使用人工智能,可以大大减少有效疗法研发的时间和成本。
    Alán Aspuru-Guzik博士
    多伦多大学化学和计算机科学教授、人工智能公司Kebotix和Zapata Computing联合创始人
Dr. Charles Cantor
Professor Emeritus at Boston University, Co-Founder of Sequenom Inc.,
Co-Founder of Retrotope Inc.
Former Principal Scientist of Human Genome Project, Department of Energy,
Co-founder of Sequenom (acquired by LabCorp), Professor and Director
of the Center for Advanced Biotechnology, Boston University
Dr. Tudor Oprea
Professor and Chief, Translational Informatics Division, The University of New Mexico
One of the top experts in target discovery with 25+ years in the industry
Built IDG-KMC, TCRD, Pharos, and Drug Central target discovery tools and organizations
H-index = 72
Dr. Yuan-Hua Ding
Founder & CEO at ATB
Former VP & Head of Pfizer Asia Discovery Lab Drug discovery expert with over 20 years of experience in structural biology
Dr. Alán Aspuru-Guzik
Professor of Chemistry and Computer Science, University of Toronto
Expert in Quantum Computing, Quantum Chemistry, Machine Learning
Professor, Harvard, Department of Chemistry 2006-2018
H-index = 82
Dr. Yuri Nikolsky
CEO, MiLaboratories
CEO, Sybille BioSciences
Co-founder of GeneGo (acquired by Thomson Reuters)
Former VP of Life Sciences, Thomson Reuters
Developer of MetaCore, MetaBase and other tools for target discovery
H-index = 48
Dr. Stevan Djuric
Expert in Drug Discovery and Development
Former VP of Abbvie and Abbott Laboratories
Over 30 years experience in Medicinal Chemistry and Immunoinflammatory disease
Adjunct professor at The University of Kansas, High Point University
H-index > 30
Dr. Jeremy Levin
Chairman and CEO, Ovid Therapeutics Inc Chairman of the Biotechnology Innovation Organization (BIO)
请在社交媒体上关注我们,
成为第一个看KOL访谈的人,密切期待!

HONG KONG
Unit 310, 3/F, Building 8W, Phase 2, Hong Kong Science Park, Pak Shek Kok, New Territories, Hong Kong
NEW YORK
345 Park Avenue South,
2nd Floor Suite 006 New York,
NY 10010
MONTREAL
1250 Rene-Levesque West,
Suite 3710, Montreal, Quebec,
Canada H3B 4W8
Subscribe to our news
By clicking the button you agree to our Privacy Policy