我要投稿

万字长文：AI制药的前世今生、药物发现、结构预测、从头设计、行业图谱

发布日期：2024-08-27 07:48:09 浏览次数： 2647 作者：BiG生物创新社

作者｜鸿钧

从AlphaGo战胜人类棋手，到ChatGPT横空出世，再到Sora闪耀登场，AI正在不断影响世界，生物医药行业也不例外。

前言

一、AI制药的前世今生

二、AI技术原理

2.1 数据

2.2 算法

三、AI在制药行业中的应用

四、AI助力药物发现

4.1靶点发现及验证

4.1.1多组学分析和药物靶点预测

4.1.2基于序列的蛋白质可药靶性的发现

4.1.3 基于蛋白质网络的可药靶性发现

4.1.4 基于网络药理学的靶标发现

4.2 先导化合物的发现和优化

4.2.1基于结构的虚拟筛选

4.2.2基于配体的虚拟筛选

4.3 药物从头设计

4.3.1小分子药物从头设计

4.3.2大分子药物从头设计

A.蛋白质结构预测方法

B.蛋白质与多肽类药物设计

4.4 定量构效关系建模与药物再利用

五、AI赋能临床前研究

5.1 ADMET预测

5.2 晶型预测

5.3 剂型开发

六、行业图谱

（一）AI制药产业链上游包括算力、算法和数据

（二）AI制药产业链中游是主体部分

（三）AI制药产业链下游分为传统药企和CRO企业

七、AI制药的挑战

八、展望

前言

目前在医药创新领域存在着“双十定律”，即生物医药企业研发一种创新药的完整周期至少需要10年，花费10亿美元。不仅如此，约90%的药物会在临床试验阶段失败。

AI技术能够颠覆传统药物研发进程，快速识别药物靶点，从数据库中匹配合适分子，设计、合成化合物并预测药物代谢性质和理化性质，可大大缩短药物研发时间、降低研发成本并提高成功率。

据Global Market Insights报告，预计“AI+医疗”全球市场的年均复合增速将超过29%，2032年将达到700亿美元。药物研发和医学影像成为AI应用最重要的两个领域，市场份额占比合计超过50%。

AI制药是怎么发展的？AI如何助力药物研发？国内外有哪些代表性企业？有哪些机遇和挑战？让我们一窥究竟！

AI制药的前世今生

传统新药研发是一项复杂的系统工程，通过大规模的筛选发现先导化合物后，还需要药物专家反复的体外实验、动物试验和人体内试验来进行测试、优化，直到证明这个分子足够安全有效才会被获批上市。

这门至今以实验科学为基础的领域，仍高度依赖药物学家的个人经验与创造力，还无法摆脱周期长、成本高、成功率低等问题。

美国塔夫茨大学药物发展研究中心（Tufts Centre for the Study of Drug Development）在2016年研究了10家生物制药公司的106种创新药的研发成本。根据其数据分析，预计每种创新药物最终获FDA批准的平均费用约为13.95亿美元，如考虑10.5%的折现率，则预计批准的总平均成本或高达25.58亿美元。

不仅如此，5000~10000个临床前化合物筛选，大约只有5个化合物可以进入临床试验阶段，最终约1个药物会进入审批上市，成功率仅有0.01%。

图 1 塔夫茨药物发展研究中心数据

鉴于种种痛点，如何将人工智能、3D打印、智能制造等新技术和新方法应用于药物研发领域是制药行业一直以来探索的革新方向。

1956年夏季，达特茅斯会议召开，马文•明斯基、约翰•麦卡锡、克劳德•香农以及内森•罗彻斯特等十数位学者参加。会议提出的议题之一是“学习或者智能的任何特性的每一个方面都应能被精确地描述，使得机器可以对其进行模拟。”麦卡锡说服与会者接受“人工智能”一词作为本领域的名称。AI的名称和任务得以确定，同时出现了最初的成就和最早的一批研究者，因此这一事件被广泛承认为AI诞生的标志。

截止到目前，AI已经有近七十年的发展历史，成功的实现了从理论技术到产业应用的落地。AI在工业、农业、医疗、金融等各个领域都引领着不断的创新，发挥出巨大的作用。

从1981年被《Discovery》杂志首次报道以来，AI应用于制药领域已经有超过40年的历史。纵观AI制药的发展，可以分为3个时期：

（1）1956年~1980年，该阶段是AI制药的雏形，许多理论和技术并未完善，仍处在积累当中。

（2）1981年~2011年，计算机辅助药物设计（CADD）蓬勃发展，它大大加快了新药设计的速度，节省了创制新药工作的人力和物力，使药物学家能够以理论为指导，有目的地开发新药。

（3）2012年~至今，AI制药爆发式生长，资本投入加大，新公司相继成立，相关论文、专利、技术等不断突破新高。

AI凭借其强大的自适应特征和学习能力，将算法、推演等核心技术应用到新药研发的各个环节，在保证分析质量的同时，大幅降低药物研发成本，缩短研发时间，提高研发效率，使新药开发走上快速高效的道路。

图 2 Pharma's “AlphaGo Moment”

AI技术原理

AI组成的三大要素为：数据、算力和算法。

AI制药数据的来源，包括了公开数据集、商业数据集、与药企合作获得的研发数据、企业自身研发积累的数据集、挖掘数据集、实验数据库、物理模拟生成的数据等。

算力方面，GPU、云计算资源等基础设施的完善，为AI制药企业提供了重要的计算支撑。

算法方面，包括机器学习（Machine Learning，简称ML）、深度学习（Deep Learning，简称DL）等多种类别，在不同的领域中各有优势。

图 3 AI三要素

2.1 数据

在当前的大数据时代，庞大的生物和临床数据为AI在医药研究领域的应用奠定了基础。尽管AI已经在药物研发过程的多个方面取得了成功和有效的应用，但医药数据的数量和质量已成为制约AI在药学中发展的主要阻碍之一。迄今为止，由全球的药物研究人员构建的包含详细和结构化大数据的药物数据库在促进AI在医药研究中的应用方面起着关键作用。

例如，治疗靶点数据库（TTD）包含有关已知和探索的治疗蛋白质和核酸靶点、靶向疾病、通路信息以及针对每个靶点的相应药物的最全面信息。它提供了有关靶点功能的详细知识，以及它们的序列、三维结构、配体结合性质、相关酶和相应药物信息。PubChem提供了与生物测定相关的化学分子及其活性的集合信息，包括分子结构、标识符、物理化学性质、专利信息和分子毒性。一些旨在解决各种药物问题的常用数据库已被提出并被经常使用，它们在推动AI在医药研究中的应用方面发挥着重要作用。

基于公开数据库在药物发现不同阶段的应用和相关性，可将其分为6类：1）全面化学分子库，如Enamine、PubChem和ChEMBL；2）药物/类药化合物库，如DrugBank、AICD和e-Drug3D；3）收集药物靶标，包括基因组学和蛋白组学数据的数据库，如BindingDB、Supertarget和Ligand Expo；4）存储通过筛选、代谢和功效研究获得的生物学数据的数据库，如HMDB、TTD、WOMBAT和PKPB_DB；5）药物毒性数据库，如DrugMatrix、SIDER和LTKB基准数据集；6）临床数据库，如ClinicalTrials.gov、EORTC和PharmaGKB。

非公开数据主要是各制药公司内部项目积累所得，此类数据的精度高，更适合用来做模型的训练和计算，但由于数据属于医药公司的核心资产，保密性强，极难获得。

图 4 部分公开数据库

2.2 算法

与传统的计算机编程计算不同，机器学习和深度学习可以从输入数据中学习潜在的模式，而无需显式编程。它们不受输入数据格式的限制，可以包括文本、图像、声音等各种类型的数据（所有可以进行编码的数据类型）。类似于人类学习模式，ML和DL可以逐渐识别数据的不同特征，推断其中的模式，并通过不断迭代更新模型参数，直到形成有效的模型。

根据应用场景，模型可以分为回归模型和分类模型。分类和回归任务的区别主要在于输出变量的类型是连续还是离散。Cheng等应用机器学习方法预测全氟烷基物质（PFAS）的生物活性，输出为连续值，这是一种典型的回归任务。Hong等构建了一个深度学习模型，用于预测细菌中的蛋白质是否属于T4SE类型，输出为离散值（如0/1），这是一种典型的分类任务。

根据解决问题所需的学习算法类型，模型可以概念化为三类：监督学习、无监督学习和强化学习。监督学习是一个基于标记数据的过程，通过训练模型来学习输入与预先确定的输出之间的关系，以预测未来输入的类别或连续变量。相比之下，无监督方法用于识别无标签数据集中的模式，并探索数据集的潜在结构，以便对数据进行进一步的聚类分析等。此外，半监督学习介于监督学习和无监督学习之间；它仅接受部分标记数据来开发训练模型，并可用作缺乏高质量数据的问题的潜在解决方案。强化学习通过持续的交互式学习进行模型构建，依赖失败的惩罚或成功的奖励来指导模型的构建。

在过去的10年间，人工智能在很多领域都有广泛的应用。常见的机器学习算法包括决策树（decision tree）、随机森林（random forest）、支持向量机（support vector machine，SVM），k-最近邻算法（k-nearest neighbor model）和朴素贝叶斯（Naïve Bayes）算法。

深度学习和机器学习的主要区别是数据量的大小及模型的复杂度，深度学习模型更复杂，需要的数据量也更大。深度学习属于机器学习的子领域，近年来随着计算性能的高速发展及图形处理单元（graphics processing unit，GPU）的应用，深度学习模型的应用越来越广泛，主要有深度神经网络（deep neural network，DNN）、卷积神经网络（convolutional neural network，CNN）、循环神经网络（recurrent neural network，RNN）和自编码器（autoencoder，AE）。

DNN是最早应用于药物发现的DL算法之一，最早来源于1943年McCulloch等提出的计算模型。CNN是一种前馈神经网络，它在图像识别领域的表现优异。RNN是一类用于处理序列数据的神经网络，具有记忆能力，可用于处理基因和蛋白序列数据等。自编码器的目的在于重构输入数据，可生成学习模型，在药物分子生成方面应用前景广阔。DNN、CNN、RNN等DL算法模型通过定量结构性质关系（QSPR）或定量结构活性关系（QSAR）等预测药物分子的物理化学性质以及药物的吸收、分布、代谢、排泄和毒性（ADMET）。

图 5 AI常见应用算法

AI在制药行业中的应用

目前来讲，AI制药与传统的制药流程基本上是一致的，通常包括：1）药物发现；2）临床前研究；3）临床研究Ⅰ、Ⅱ、Ⅲ期阶段；4）审批上市阶段。

其中，药物发现阶段主要涉及疾病选择、靶点发现及验证、先导化合物发现、药物从头设计等。而临床前研究阶段则以晶型预测、化合物验证为主，包括稳定性分析、安全性评价和ADMET分析等。

AI新药研发在应对不同场景需求时大体都需要经历问题设置、数据集整合、算法模型构建和评价过程。标注数据集、算法和模型是AI+新药研发中必不可少的组成部分，其共同构筑并形成了AI+新药研发过程中一条完整的虚拟计算路径：1）获取目标训练数据集；2）AI自主学习算法建模；3）多次训练优化模型；4）测试集应用以评估模型性能；5）基于模型实现分子筛选、预测、分析等预定目标。

图 6 AI在制药科学中的应用概述

AI助力药物发现

药物发现包括三个步骤，分别是疾病相关治疗靶点的确认、先导化合物的发现及先导化合物的优化。

药物发现过程的每个阶段旨在建立相关靶点（如酶、G蛋白偶联受体、离子通道等）与疾病实验模型之间的科学联系。该过程通常涉及靶点的发现和靶标的验证，主要通过设计合理的分子探针来测试多个系列化合物对靶标生物活性的调节作用来实现。在许多情况下，常采用已知化合物来实现对靶点的选择，并且最终通过先导化合物的发现与优化来获得全新的候选化合物。具体而言，是通过对大量化合物进行系统的生物活性筛选，获得具有预期活性的先导化合物。随后继续开展先导化合物的结构改造和优化，通过反复的活性筛选和再优化，最终获得候选药物，进入药物的开发阶段。通常，先导化合物的发现和优化过程往往重叠在一起，需要对多个系列的化合物同时进行多轮的筛选、优化、再筛选和再优化。这种方法是成功所必需的，因为通常很难确定在一个单一系列的众多化合物中是否包含最终的候选药物。因此，平行操作在一定程度上降低了失败的风险。药物发现阶段所要达成的目的就是发现一个在体内动物模型中有效的化合物，并且具有临床研究所必需的良好理化性质。

4.1 靶点发现及验证

药物靶点是指药物在生物体内的作用结合位点，包括基因位点、受体、酶、离子通道、核酸等。药物研发可通过研究疾病的发生机制、信号传导途径等过程，识别出疾病相关的靶点，进而通过干预靶点调控疾病的进程。能否找到创新性的药物靶点，将在很大程度上决定药物的创新性与可治愈疾病的范围。

AI通过学习组学数据、功能实验数据、文献、专利、临床报告等海量、多来源、甚至异构的数据，对比疾病与非疾病差异，分析RNA或/和蛋白质表达，找出潜在的信号通路、蛋白质相互作用等与疾病的相关性，输出机体细胞上药物能够发挥作用的候选受体结合点（靶点）。

方法很多，下面介绍几个。

4.1.1 基于多组学数据的靶标发现

随着高通量测序技术的进步，海量的组学数据不断生成。对这种大规模组学数据（如基因组学、转录组学、蛋白质组学、代谢组学等）进行处理和分析对于生物学、医学和药学具有革命性意义，特别是在帮助研究人员理解复杂的生物系统和过程方面。基于组学数据已经确定了许多可能与特定疾病相关的生物过程中扮演重要角色的基因或蛋白质，从而促进了药物靶点发现的研究。例如，利用组学数据已经揭示了诸如SETD2和VGLL4等新的候选疾病靶点。然而，处理和分析这些复杂且高维组学数据极具挑战性；因此，ML和DL方法可用于从大规模组学数据集中学习潜在知识，有助于发现对生物过程至关重要的基因或通路。

图 7 基于多组学数据的靶标发现

4.1.2 基于分子－靶标识别的分子靶标预测

预测并确证活性分子的靶标是阐明药物作用机理的重要步骤。传统的靶标识别方法主要是同位素示踪法、紫外及荧光光谱法，效率较低；目前常用的方法是基于基因组学和蛋白组学的高通量筛选方法，但仍存在成本较高、实验周期长、不具有普适性等缺点。AI可通过深度学习算法，建立分子-靶标数据库，从而高效预测药物分子的潜在靶标。

4.1.3 基于生物医药知识图谱的可药靶性发现

将知识图谱技术与系统生物学结合构建生物医药知识图谱（Biomedical Knowledge Graphs）已开始在生物医药领域发挥关键作用。它有助于简化复杂的生物系统以及病理学过程，使研究人员能更好地理解其中的原理。

通过与特定疾病的背景相结合，交叉检验多源异质的生物医药数据库（蛋白质组数据库、蛋白质相互作用数据库、药物-靶点关系数据库等），生物医药知识图谱可以获取其中的内在关联，加速靶点识别。

4.1.4 基于网络药理学的靶标发现

网络药理学（network pharmacology ）的概念由英国药理学家Hopkins于２００７年首次提出，并定义为一门以系统生物学和多向药理学为理论基础，利用生物分子网络分析方法，选取特定节点进行新药设计和靶点分析的药理学分支学科。

网络药理学突破传统的“一个药物一个靶标，一种疾病”理念，代表了现代生物医药研究的哲学理念与研究模式的转变。以系统生物学和网络生物学基本理论为基础的网络药理学具有整体性、系统性的特点，注重网络平衡（或鲁棒性）和网络扰动，强调理解某个单一生物分子（如基因、mRNA或蛋白等）在生物体系中的生物学地位和动力学过程要比理解其具体生物功能更为重要，揭示药物作用的生物学和动力学谱要比揭示其作用的单个靶标或几个“碎片化”靶标更重要，对认识药物和发现药物的理念产生了深远影响。

未来网络药理学的研究将会涉及更多的多模态数据，如基因组学、转录组学、蛋白质组学、代谢组学等数据。面对多维度数据，人工智能技术在这方面的应用已经开始受到广泛关注，未来的网络药理学也将借助这些技术的发展，实现更加智能化和高效的分析和预测。

4.2 先导化合物的发现和优化

确定了感兴趣的靶点，新药研发的后续任务基本上就是寻找一个具有临床功效的先导化合物（lead compound）。虽然这是一个陈述起来很简单的工作，但实际上是一个异常复杂和困难重重的过程。目前，已在化学文摘数据库中注册的化合物数量就超过7000万个，再加上其它可能存在的无穷无尽的化合物，可以成为候选药物的化合物数量是难以统计的，因此从何处开始这一过程非常重要。

幸运的是，目前已经报道了一些指南，对如何发现具有生物活性的化合物提供了一些指导和帮助。例如，Lipinski类药5原则指出，大多数具有类药性的化合物仅来源于化学领域中很有限的部分。根据Lipinski类药5原则，具有成药性的化合物一般具有以下5个特点：①分子量低于500；②LogP值低于5；③氢键供体数少于5个；④氢键受体数少于10个；⑤可旋转键数少于10个。虽然这些规则有例外（特别是在天然产物领域），但仍具有较好的实用性，可将需要筛选的化合物的数量限制在一个可控范围之内。

目前，已经开发了许多工具和方法来帮助我们发现先导化合物。现代药物研发中有两种常用的方法，即高通量筛选（high throughput screening，HTS）和虚拟高通量筛选（virtual high throughput screening，vHTS）。这两种方法之间存在一定程度的重叠，运用其中一种方法并不代表排除另一种方法的使用。事实上，两种方法经常串联使用，以提高成功的可能性。

高通量筛选通常对包含数百、数千乃至数百万个化合物的大型化合物库进行活性筛选。这些大型化合物库通常包含多种类型的化合物，以便尽可能多地涵盖具有类药性的化学结构，当然也有针对特定生物靶标的化合物库，如基于激酶、磷酸酶的化合物库。这些化合物一般都是商业在售的（如Maybridge，Enamine，Aldrich等）。

作为高通量筛选的替代方案，虚拟筛选也是一种常用的方法。在这种情况下，分子对接技术和虚拟化合物库与生物靶标的结构数据相结合，用以评估化合物与目标靶点相互作用的强弱。

虚拟筛选主要有2种方法，基于配体的虚拟筛选（Ligand-Based Virtual Screening，LBVS）与基于结构的虚拟筛选（Structure-Based Virtual Screening，SBVS）。

4.2.1 基于配体的虚拟筛选

基于配体的虚拟筛选不依赖于三维蛋白质结构信息，而是基于活性及非活性配体的实证数据，利用活性配体之间的化学和空间相似性及物理化学分析来预测和识别其他具有高生物活性的配体。长期以来，定量结构-活性关系（quantitative structure-activity relationships，QSAR）、药效团（pharmacophore）和化合物相似性（structural similarity）匹配是最为常用的LBVS方法。

4.2.2 基于结构的虚拟筛选

基于结构的虚拟筛选，也称为基于靶标的虚拟筛选（Target-Based Virtual Screening，TBVS）。一般来说，SBVS要在通过体外或体内实验或通过计算模型阐明蛋白质或靶标的3-D结构信息的情况下实施，该方法用于预测活性配体或其相关靶标之间的相互作用，并预测参与药物-靶标结合的氨基酸残基。SBVS通过打分函数对蛋白和小分子化合物的结合能力进行评价，最终从大量的化合物分子中挑选出结合模式比较合理的、预测得分较高的化合物。

4.3 药物从头设计

药物从头设计是根据靶点结构直接构造出形状和性质互补的全新配体分子，因其能提出结构全新的具有启发性的先导化合物，在药物研发过程中具有重要的原创性意义。

4.3.1 小分子药物从头设计

根据分子表征粗度的角度来看，从头设计方法可以分为三类，基于原子的、基于片段的和基于反应的。对分子的不同描述方法，会引进不同的机器学习算法。采用简化分子线性输入规范（SMILES）的描述，可以通过采用长短期记忆网络（LSTM）来实现；当分子采用图形描述时，可以采用蒙特卡罗树搜索来生成新分子；还有自动编码器和生成对抗网络等算法都可以用在分子生成模型中。

图 9 以阿司匹林为例，说明了基于原子、基于片段和基于反应的分子表示方法之间的连续性

4.3.2 大分子药物从头设计

随着科研人员在代谢通路、病理机制、大分子的结构和作用等分子生物学和结构生物学的研究中取得了越来越多的进展，大分子正日渐成为攻克复杂疾病的利器。相比于小分子半衰期短、毒性较大、特异性差、专利易被突破的不足之处，大分子具有特异性强、功效高、安全性高、半衰期长、仿制壁垒高等优势，且在复杂系统疾病治疗中具有不可替代性。因而相比于成熟的小分子药物研发，大分子药物研发也正呈现出崛起之势。

A.核酸类药物设计

新冠疫情期间，mRNA疫苗等核酸类药物因具有免疫原性强、核酸序列设计和改造的速度快等优点而日益受到关注。在mRNA核酸序列的各个功能模块中，5’和3’端UTR序列可以影响整个mRNA的翻译效率和稳定性，因而成为了设计研发的重点之一。5’-UTR序列的平均长度为200个碱基左右，如果随机探索所有可能的序列就会产生组合爆炸式的复杂度，加之湿实验成本高且效率低，这严重阻碍了mRNA疫苗的研发速度。DL因能有效捕捉和提取序列中隐含的特征，从而可以为湿实验提供预测和指导，使mRNA疫苗研发过程降本增效。

B.蛋白质与多肽设计

蛋白质和多肽设计是生成与具有所需功能的蛋白质和多肽相对应的新氨基酸序列的过程，其主要策略是定向进化，使用多轮随机诱变和高通量筛选来选择最有前途的序列。计算方法已作为随机诱变的替代方法，用于提高设计序列的质量。早期的计算方法依赖于进化曲线和半经验能量函数来指导序列空间的探索，DL因具有可以利用蛋白质和多肽的序列结构大型数据集中的信息、构建更准确地捕获蛋白质和多肽序列功能的模型等特点而备受关注。

4.4 定量构效关系建模与药物再利用

在药物设计和开发中，研究化学结构和理化性质与生物活性之间的关系是至关重要的。定量构效关系（Quantitative Structure Activity Relationship，QSAR）建模是一种计算方法，通过它可以在化学结构和生物活性之间建立定量的数学模型。其基本假设是化合物的分子结构包含了决定其物理、化学及生物等方面的性质信息，而这些理化性质则进一步决定了该化合物的生物活性。进而，化合物的分子结构性质数据与其生物活性也应该存在某种程度上的相关。

传统QSAR模型大致分为两类，回归模型（如高斯过程（Gaussian Process，GPs））和分类模型。目前已经开发了多种基于网络的工具和算法，如Vega平台、QSAR-Co、Transformer-CNN、FL-QSAR和Chemception等，为QSAR建模提供了一条新的途径。

药物再利用[或药物再定位（drug repurposing）]，是指将已上市的药物，以及正在进行研究的药物和临床失败的药物，用于原定用途之外的疾病治疗的过程。正如诺贝尔奖获得者、药理学家James Black的一句名言所说，发现新药最富有成效的基础就是老药。得益于老药已知的安全性，药物再利用不仅可以大幅度降低研发成本，还可以有效减少药物安全性测试的相关风险，因此也是新药研发中比较重要的一种研发策略。

基因组学、蛋白质组学、体内和体外药理学研究中大数据集的出现为药物重新定位提供了便捷的途径。近年来，ML算法用新的系统生物学方法取代了基于化学相似性和分子对接的传统方法，而且基于AI算法和基于网络的工具的出现为该领域研究提供了平台，如 DrugNet、DRIMC、DPDR-CPI、PHARMGKB和DRRS等。

Hooshmand等基于神经网络进行药物重新定位，确定了16种潜在的抗新型冠状病毒的可再利用药物，并基于多模型DL方法为新型冠状病毒冠肺炎确定了12个具有前景的药物靶标。

图 10 定量构效关系工作流与药物再利用工作流

AI赋能临床前研究

临床前研究需要开展药效学、药动学、毒理学以及药剂学研究，需要权衡候选化合物各方面的性质，来确保成药的可能性。每个新药开发项目所采用的具体策略是不同的，但通常都可以用一个筛选级联概括。筛选级联也称为筛选树，其每个筛选环节都如同一扇大门，从最初活性筛选到体内动物试验，确保不满足条件的化合物尽早被排除在大门之外。

图 11 筛选树

5.1 ADMET预测

药物的吸收、分布、代谢、排泄和毒性（ADMET）是衡量药物有效性和安全性的重要指标之一。涵盖了药物能否被人体有效吸收、到达目标组织等药代动力学和毒理学问题。众多的临床试验失败归因于候选药物ADMET特性的缺陷，在药物研发早期进行ADMET性质评价研究，能够有效解决候选药物的安全性、有效性问题，提高药物研发成功率。然而，用于ADMET性质评价的实验方法昂贵而耗时，限制了人们对早期活性化合物的理解，也影响了进一步的生物验证。

随着计算机技术和化学信息学的发展，药物实验数据不断积累，以机器学习、深度学习为代表的ADMET预测模型可以提取化合物相关结构特征，评估多个ADMET参数间的关系和趋势，有效提升ADMET性质预测的准确性。具体来说，这些模型利用药物分子的结构、电荷、溶解度、亲水性、脂溶性、代谢途径等特征作为输入数据，同时也考虑药物与蛋白质的相互作用、药物的代谢途径等因素对ADMET的影响，最终输出药物的ADMET预测结果。

图 12 ADMET预测算法模型流程图

5.2 晶型预测

多晶型现象是指同一化学结构分子因存在多种不同的排列形式和分子构象而形成不同晶型的现象。同一药物的不同晶型在外观、溶解度、熔点、溶出度、生物有效性等方面可能会有显著不同，也会对药物的稳定性、生物利用度及疗效产生不同的影响。所以研究药物的多晶型现象以及晶型可能对药物全生命周期各环节产生的影响，是保证药物质量的核心内容和关键环节，对药物研发具有重大意义。

晶型预测（Crystal Structure Prediction，简称CSP）是指给定分子的二维结构式通过计算模拟获得它的所有可能的稳定晶型。CSP流程共包含三个主要阶段，晶体搜索、能量排位和室温稳定性计算。

AI通过结合物理模型和机器学习算法，可以更准确地预测晶体结构。例如，可以使用分子动力学模拟和量子化学计算来生成训练数据，将这些数据输入到机器学习模型中进行预测。AI赋能晶型预测，帮助药物研发人员更快地获得药物晶体结构信息，从而加速药物研发的进程，并为新药物的开发提供有力支持。现常见的方法或工具有Crystalline Sponge Method、Dimorphite、ChemML等。

图 13 晶型预测流程图

5.3 剂型开发

剂型开发通常需要深入了解原辅料的物化性质和药代动力学/药效学建模（PK/PD）等信息。在产品开发过程中，包括关键材料属性（CMA）和工艺参数在内的多个因素会影响产品的性质，例如溶解速率、物理和化学稳定性、粒度分布以及干粉的气溶胶性能。

随着新药物发现方法的进步，先进的药物递送系统迅速发展，促进了临床转化，并与安全性、效率和患者依从性相关。药物传递系统可以被视为一个将“货物”（即治疗药物）运送到适当目的地的“推车”（即载体）。随着材料、工程和生物学技术的进步，“载体”一词已经扩展到纳米载体、细胞、释放装置和微纳机器人。与传统的药物载体相比，纳米载体可以改善药物的溶解度，并减轻传统溶解剂的不良影响。除了保护药物免受恶化，纳米载体还可以赋予药物靶向功能。

药物的释放模式对于疾病治疗也至关重要。开发能够根据各种器官、组织和细胞器的生理信号差异而释放的药物，对于提高药物的疗效、预防由非特异性非靶标引起的毒性和副作用，并实现安全和精确的治疗至关重要。多种内源性信号，包括pH值、活性氧化还原物种、酶、葡萄糖、各种离子、ATP和氧气，已被纳入响应性药物纳米载体的设计中。除了材料的性质外，目标组织环境也影响药物的释放。AI可以促进药物释放模式的评估，并通过机器学习为药物载体的制定提供反馈。

行业图谱

6.1 上游

AI制药产业链上游主要为AI技术企业和生物技术企业。

AI技术企业提供算力、算法和数据的服务。

算力一般指GPU、CPU、服务器等硬件设施，供应商包括Nvidia、AMD、Intel等。尤其是Nvidia，由于其独一无二的技术，已然成为新晋的AI硬件霸主。

软件包括各类机器学习、深度学习等算法，还有数据收集和处理平台、开源软件包以及云计算平台等。云计算为AI制药提供了强大的技术支持，使得制药行业能够更高效地利用数据资源、降低研发成本、促进合作与创新，从而加速新药研发进程，提高研发效率和质量。国外厂商包括AWS、GCP、Azure等，国内供应商有阿里云、腾讯云、华为云等。

数据方面，犹如前述，有公开数据、挖掘数据、实验数据、商业数据等。通常，商业数据得花钱购买或不公开。

生物技术企业提供CRO和先进设备的服务。

CRO企业按照制药流程不同阶段可分为：药物早期发现CRO、临床前研究CRO和临床研究CRO服务。国外CRO企业包括Covance、IQVIA等。国内CRO企业有药明康德、美迪西生物医药等。

提供先进设备的企业，则拥有制造冷冻电镜、自动化实验室等设备的高端技术。

冷冻电镜拥有获得复杂靶标结构等功能，如今只有赛默飞、日本电子和日立高新三家企业可以生产。

自动化实验室能够用于高通量产生数据，实现AI算法的快速迭代优化，是整个AI制药的流程中用来提高效率的重要工具。IBM、英矽智能、晶泰科技等企业都大力建设自己的自动化实验室，最终理想是达到无人值守的“黑灯实验室”。

6.2 中游

AI制药产业链中游主要分为四大类：AI+biotech、AI+CRO、AI+SaaS以及IT头部企业在AI制药产业中的布局。

AI+biotech，一般自研新药研发并推进临床研究，偏向创新药企模式，专业性高，进入门槛高，可在临床一定阶段向外授权或自主商业化，创造更高价值。从药物本身的性质或治疗手段分类，又可以分为三大类，即小分子药物、大分子药物、细胞与基因编辑疗法。其市场进入方式通常为利用自身的AI技术优势切入制药场景中的一个或多个环节，通过与药企、医院、实验室等外部机构合作，利用获取的差异性公开数据训练模型，优化制药流程，从而实现研发效率的提升。

AI+小分子药物，国外有Recursion、Exscientia等，国内有埃格林医药、宇道生物等。

AI+大分子药物，国外有LabGenius、AbCellera等，国内有分子之心、星亢原生物等。

AI+细胞与基因疗法，细胞疗法，国外有Evaxion、ArsenalBio，国内有莱芒生物；基因疗法，国外有Moderna、KRIYA等，国内有新合生物、剂泰医药等。

AI+CRO，提供新药研发服务，为客户更好地交付先导化合物或者PCC，更加偏向CRO模式，临床前阶段进行向外授权，用一定新药研发风险换取较多上行空间收益。一般由药企进行后续的开发，或者合作推进药物管线。

AI+CRO，国外有Exscientia，国内有华深智药、望石智慧等。

AI+SaaS，为客户提供AI辅助药物开发平台，通过平台为企业赋能，帮助企业加速研发流程，节省成本与时间。医药专业性较低，产品溢价低可快速切入市场并创造营收。

AI+Saas，国外有Schrödinger、ConcertAI等，国内有碳硅智慧、西湖欧米等。

IT头部企业：投资AI初创企业、自主研发建立AI制药平台、与外部机构合作研发AI制药项目，成为玩家之一。国外企业有Google、Meta等，国内有百图生科、字节跳动等。

此外，AI与大模型、DEL、虚拟临床等技术的结合也成为传统制药公司融入AI技术的一种渠道。

6.3 下游

AI制药产业链下游分为传统药企、Biotech公司和CXO企业。

传统药企主要通过内部自建AI研发团队、对外部AI制药初创企业进行投资并购、CRO及技术合作等方式进入AI制药赛道。国外有AstraZeneca、Pfizer等，国内有复星医药、华东医药等。

Biotech公司是传统药企与AI制药企业合作的另一种模式，通过前期合作开发药物分子以及后期管线或药物授权获取收益。国外有Arvinas，国内有天境生物、祐森健恒等。

CXO企业主要通过风险投资、建立内部算法团队、采用外部AI技术、与AI制药公司进行合作等方式切入该领域。国外有IQVIA、Covance，国内有康龙化成、泰格医药等。

图 15 AI制药行业图谱（来源于智药局）

AI制药的挑战

AI+新药研发目前已进入快速成长期，备受业界瞩目，但其作为新兴领域，也面临着一些挑战。

一是生物学的复杂性，给数据获取和AI算法设计带来巨大挑战。药学是一个融合化学和生物学的学科，在数据层面，二者具有较大的差异性。一般来说，化学方面的数据更加稳定、可控与易于计算；生物学数据涉及受体蛋白的构象变化，平衡和偏置信号等难以定量计算。化合物与人体靶点的结合与反应过程非常复杂，目前理论认知不足，受环境影响因素很大，数据稳定性和可重复性较差。

二是当前的AI算法模型只纳入部分化学指标，生物学指标不完整。我们能够基于化学数据去设计AI算法，比如判断小分子的各种体外物理化学性质、晶型以及与靶点结合的亲和力；但是对于小分子药物在生物系统中的作用很难用一组有限的参数来定义，而化合物在体内的其他特性在模型中被降级为次要的或可忽略部分，包括其前体化合物、代谢产物、浓度依赖性效应等，这些被忽略的因素决定着药物能否到达其预期的靶点、能否起到治疗效果、以及其毒副作用是否在可以接受的范围等。这使得AI在药物发现和药效评估中面临着更大的不确定性。

三是高质量数据制约。计算机界有一个说法：Garbage In,Garbage Out（GIGO），如果输入的数据是垃圾，即使计算机的处理能力再强大，输出的结果也像垃圾一样没有价值，AI当然也不例外。生物医药领域“数据孤岛”现象严重，高质量的非公开数据主要掌握在少数药企、医院等手中，属于核心资产，不大可能分享。虽然大多数公开数据集易于获得，但数据质量难以保证，存在数值不一致、质量参差不齐、数据偏斜等问题，数据标准化和共享机制尚有待完善。此外，数据还需要考虑隐私、安全性、偏见、公平等问题。所以，AI制药相关组织要尽一切努力获取平衡、客观和高质量的数据集。

四是算法与应用场景匹配要求度高，专业人才稀缺。AI药物研发中算法模型需要多维度的考量，如结果的精准度、计算速度、模型体量、泛化性能等。且在不同的需求和应用场景下，算法模型侧重的方向也不尽相同。为了让算法与生物学更完美地结合，需要技术人员具备对制药医学和AI人工智能的深入理解。这需要跨领域的专业知识，包括药物化学、生物信息学、计算机科学等多个领域的知识。此外，技术人员还需要了解药物研发的整个流程，包括药物设计、分子模拟化学合成、生物活性评价、药代动力学等方面的知识，才能更好地发挥算法模型的优势，为药物研发做出贡献。由于这种跨领域的专业知识和技能的要求，导致制约行业发展的重要因素之一是人才团队的稀缺。

五是政策法规的制定滞后。AI存在监管体系滞后于技术发展、政府单向监管无法有效管控风险、企业缺乏合规治理有效工具和体系等问题。AI因算法不透明、难解释、跨界传播性和外溢性强，比一般的数字治理涉及范围广、难度大、问题突出。当前，AI新药研发监管体系不健全，缺少具体的评估标准、市场准入、退出机制和收费机制，难以对潜在的问题进行监督与反馈。在涉及人格权、知识产权、财产权、侵权责任认定、法律主体地位等方面的AI法律法规尚属空白。

展望

2019年-2023年，中国AI制药市场规模由0.7亿元增加至4.1亿元，年复合增速达57.4%。预计2024年-2028年，市场规模将由7.3亿元增加至58.6亿元，年复合增速达68.5%。

未来，随着AI在药物发现与开发领域的渗透率持续提高，市场将以68.5%的年复合速率高速发展；AI技术在新型疗法中的应用迅速增加，更为成熟的应用有望实现商业化，驱动行业发展。小分子药物处于AI药物发现应用中的领先地位，赋能包括模拟小分子-标靶相互作用、先导化合物优化和安全性预测等多个环节，应用较为成熟。随着AI技术和包括RNAi、CRISPR-Cas9、CAR-T和重组DNA等平台技术的迭代，驱动行业进一步扩容。

来自Tech Emergence的研究报告显示，AI可以将新药研发的成功率从12%提高到14%，也能让整个生物制药行业每年节约数十亿美元的研发费用，同时缩短总研发周期40-60%的时间。例如，英矽智能在临床前发现阶段从靶点发现到先导化合物的优化，只需要约18个月完成，总体研发投入不超过270万美金，而以前需要五年甚至更长，需要投入数亿美金。

今年4月底，波士顿咨询发布一项AI制药临床试验成功率的报告，分析显示，自2015年以来，AI已让75种候选药物进入到临床试验阶段，其中67款药物在2023年仍在持续推进。在过去10年中，这一数字呈指数级增长，同比复合增长超过60%。

截至2023年12月，已有24个人工智能发现的药物完成了I期试验，其中21个成功，成功率为80-90%，远高于40%∼65%的历史行业平均水平。

10个药物完成了II期临床试验，其中四个成功了。这意味着成功率为40%，与30%-40%的历史行业平均水平一致。

上述分析展示了人工智能发现的分子在临床试验中的潜力，并可能为人工智能驱动的研发未来提供了一瞥。让我们进行一个思想实验，从表面上看，在I期和II期观察到的AI发现药物的成功率，并假设这些成功率在未来保持不变，如果将这些与历史上的III期成功率结合起来，就会出现一幅惊人的画面：一个分子在所有临床阶段端到端成功的概率将从5%增加到10%–18%。这将使整体药物研发生产率几乎翻一番，带来巨大的收益。也能让公司以更少的资源和成本实现相同的产出，或者增加在相同资源内推出的新药总数。

随着AI技术以及生物医药技术的不断积累完善，以解决临床需求为目标的创新药物会越来越多。AI制药的未来也会不断随着数据算法的突破，从已经跨越的“0”到“1”，迈向“从1到N”。

未来已来，只是尚未流行，让我们拭目以待。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业