我要投稿

为什么这次AlphaFold3再次意义非凡？

发布日期：2024-05-10 21:11:07 浏览次数： 3146 作者：塔罗烩

导读：

谷歌DeepMind又重磅发布了！AlphaFold 3（AF3）一经推出，从此预示着人类将冲破「蛋白质宇宙」，触达更广泛的生物微观领域 - 意味着更广泛、更复杂的生物分子尺度可以进行相应结构和功能预测以更深入和普遍的辅助探索生命科学领域，同时这次使用的，还是AI革命最核心的组合架构——Transformer+Diffusion。可以说，在LLM AIGC快速的发展浪潮之下，AF3的发布似乎已经是其AI4S技术路径上的某种必然，其中底层所采用的算法创新或技术突破并没有给大家带来太大的惊艳，但仍然能为生命科学领域的研究范式以及效率的提升带来突破与遐想。

由于该研究以「Accurate structure prediction of biomolecular interactions with AlphaFold 3」为题，于 2024 年 5 月 8 日发布在《Nature》，截止今日（5月10日），Internet各处已经充斥着太多关于论文技术分析以及在生命科学以及生物医药领域的应用解读，因此本篇讲只围绕研究核心内容进行一些技术与应用价值的提炼和总结，并给出作者对于未来不管是"AI 4 LS(Life Sciences)"，"AI 4 DD(Drug Development)"，"AI 4 Bio(Biomedical)" 还是 "AI 4 Maths"，"AI 4 Physics"，"AI 4 Chemistry" 再到最终统一的AI4S范式的进一步大胆的技术路径的思考与延伸。

作者：吕明，坐标：西二旗

背景摘要

自 2021 年发布强大的人工智能 (AI) 工具 AlphaFold2 以来，科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物，并绘制每种已知蛋白质相互作用的「宇宙图」。就在前天（5月8日），Google DeepMind 发布了AlphaFold3 模型，该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。AlphaFold3 的准确性对比过去许多专用工具（蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测）有显著提高。这表明，在单个统一的深度学习框架内，可以实现跨生物分子空间的高精度建模。

同时，该团队新推出了 AlphaFold Server，一种易于使用的研究工具，可以免费访问 AlphaFold3 的大部分功能。伦敦弗朗西斯·克里克研究所的生物化学家 Frank Uhlmann 很早就接触到了 AlphaFold3，他对其功能印象深刻。「这简直是革命性的」他说，「这将使结构生物学研究大众化」。

算法架构上的创新与应用价值突破

算法架构创新

AlphaFold 3的这些能力来源于其新一代架构和涵盖生命体内所有分子的训练。模型核心是改进版的Evoformer模块——延续了AlphaFold 2采用的深度学习架构。

另外一方面，正如之前所述，AlphaFold 3之所以如此强大，即之所以能够覆盖所有生命分子，正是因为它所采用的新一代架构和训练方式 - 为整个AI世界带来惊艳的Sora「扩散模型 · Diffusion Model」，已经用在了AlphaFold 3的训练中。

在处理输入后，AlphaFold 3使用类似于AI图像生成器的扩散网络生成预测结果。整个过程从一团模糊的原子云开始，经过多个步骤，逐渐去噪，最终形成具体的分子结构。在预测类药分子相互作用方面，AlphaFold 3达到了前所未有的精确度，是真正以全局方式计算整个分子复合物的单一模型。

在生命科学的应用探索方面：

生物分子微观世界的洞悉

每个植物、动物和人类细胞内都有数十亿个分子机器。它们由蛋白质、核酸、糖类等分子组成，但没有一个单独的部分可以单独发挥作用。只有了解它们如何在数百万种组合中相互作用，科学家才能开始更加以一种更加全面和完备的视角真正理解生命的过程。

7PNM - 一种普通感冒病毒的突起蛋白（冠状病毒OC43）：随着病毒蛋白（蓝色部分）与抗体（绿色）和单糖（黄色）相互作用AlphaFold 3对7PNM的预测结果，与真实结构（灰色）高度吻合。

首先，对于蛋白质与其他分子相互作用的预测，AlphaFold 3相比现有方法至少有50%的提升，对一些重要的相互作用类型，预测精度甚至可以提升100%。

而AlphaFold 3的诞生，则让生物分子领域的研究拓展到了蛋白质之外。如像模型输入一系列分子的信息，AlphaFold 3就能生成它们的3D结构，展示这些分子如何紧密配合。更厉害的是，它不仅能模拟蛋白质、DNA和RNA这样的大型生物分子，还能处理小分子如配体——许多药物都属于这一类。更甚，AlphaFold 3还能模拟这些分子的细微化学修饰，而这些修饰是细胞健康运作的关键，失调情况下对某些疾病有着重要的影响和意义。

因此，不仅是精确预测结构，未来，研究人员可基于AlphaFold 3深入、全局以及更加系统化的视角对包含蛋白质、DNA、RNA以及一些配体、离子和化学修饰的结构进行建模，并辅助研究人员提出大胆而深邃的科学问题，以全新的研究范式加速研究进程。

如：以往通过实验来预测蛋白质结构大概需要四五年时间，且耗资数十万美元。而现在科学家们只需点击几下，就能轻松看到细胞系统的全部复杂性，包括结构、相互作用和修饰。进而了解这些连接如何影响生物功能——比如药物作用、激素产生和维持健康的 DNA 修复过程等。加速药物设计和基因组研究，开启人工智能细胞生物学的新时代，真正地造福人类。

虚拟药物设计的进一步加速

可以说，AlphaFold 3的这种强大的结构化预测与生成能力，进一步的加速了AIDD的发展，即配体和抗体这些常用的药物的小分子，现在都可以通过AlphaFold 3来进行更平滑的系统化纳入到AIDD的研究范式中来。

AF3具有独特折叠结构的蛋白质的阐释

AF3正确预测了一种新型抑制剂的变构结合模式

AF3正确预测了PORCN与LGK974和WNT3A肽的复合物，为临床阶段分子的抑制功能提供了结构依据（PDB ID 7URD）

AlphaFold3 所涵盖的更广泛的药物设计能力包括可以预测药物中常用的分子，例如配体和抗体，这些分子与蛋白质结合，改变它们在人类健康和疾病中相互作用的方式。同时，AlphaFold3 在预测类药物相互作用方面实现了前所未有的准确性，包括蛋白质与配体的结合以及抗体与其目标蛋白质的结合。

如：AlphaFold3 比 PoseBusters 基准测试中最好的传统方法准确率高 50%，无需输入任何结构信息，这使得 AlphaFold3 成为第一个超越基于物理的生物分子结构预测工具的人工智能系统。预测抗体-蛋白质结合的能力对于理解人类免疫反应的各个方面和新抗体（一类不断增长的治疗方法）的设计至关重要。

因此，未来药物设计的成功率会在这种效率以及范式的进一步突破下大大提高，同时在微观领域能够以更全面和深邃的视角探索疾病靶点发现背后更底层的生物过程与机制，针对现有靶点难以达到的创新方法，未来也有可能在AlphaFold 3的帮助实现突破。

AlphaFold Server：与全世界共享的免费工具

此外，谷歌DeepMind团队也会负责任地与世界共享AlphaFold 3的力量。谷歌DeepMind将会推出全球最准确的工具AlphaFold Server，用于预测蛋白质如何在细胞内与其他分子相互作用。这是一个免费平台，允许全球科学家进行非商业性研究使用，包含免费的2亿蛋白质结构数据库。

这个平台，可谓意义重大，实验性的蛋白质结构预测，原本需要花费读个博士学位的时间，以及数十万美元的费用。而按照当前实验结构生物学的发展速度，这本需要数亿researcher-year的工作。科学家能够基于平台上的工具集全面观察细胞系统的复杂性，包括结构、相互作用和修饰，药物作用、激素生成和DNA修复如何影响生物功能，从此都将被揭示。

当然，处于商业化利益考虑，AlphaFold 3的使用上也会受到很多限制，与RoseTTAFold和AlphaFold 2不同，研究者们无法运行自己的AlphaFold 3版本，也无法公开AlphaFold3的底层代码，或模型训练后获得的其他信息。他们能做的，就是使用「AlphaFold 3服务器」，输入自己选择的蛋白质序列和一些辅助分子。而且，对AlphaFold 3服务器的访问也是受限的。目前每天研究者只能进行10次预测，且无法获取与潜在药物结合的蛋白质结构。

AlphaFold 3带给AI4S的灵感启示

昨天清晨，在看到谷歌DeepMind团队发布了AlphaFold 3模型，心想终于...（因为作者本人当前也服务于人工智能生物医疗领域）能看到在生物微观token化的世界重AIGC大模型所激起的这一波浪花，泛起的这一层涟漪。

因此，灵感来源于Alphafold3在预测和探索生命本质的问题上，同时结合之前所撰写的技术文章「融合RL与LLM思想，探寻世界模型以迈向AGI」中部分观点进行一些延展思考，思考过程中记录的内容如下：

不管是人类信息世界中的自然语言符号tokenzie表示，还是生物微观领域中氨基酸序列或分子结构的符号tokenzie表征，又或是当前计算机理解、交互、执行等的编程语言或指令集tokenzie执行模式，甚至在抽象概念世界中人类数学巨匠们所构建的数学形式化证明体系中所囊括的tokenize媒介，如果能够在所构建的认知流形空间中成为一种内涵完备且平滑优雅的数据分布或知识语义承载，是否能够除了像当前LLMs那样体现AIGC在语言多任务和通用泛化能力外？也能够在未来AI4S的范式下，通过探寻LLM大规模预训练与RL思想机制充分且完备的融合，实现构筑对复杂模式或抽象概念（未被人类所发现的复杂科学问题）探索提供更加多元(概念)、多态(模态)、多模(模式)的tokenize范畴，在这一进程中，也许正是由于这种多样、开放、灵活而具备弹性且可向量化的3·多分布表征形式，为复杂的科学规律、抽象的数学概念、恢宏而完备的理论统一，微观而深邃的作用机理等提供可行的认知流形探寻方式和路线。

结合近期自己对“群论”思想内涵的温故，未来是否也可以针对这种AI4S范式背后所隐藏的抽象数学结构定义或声明为特定的“群”来进行针对群本身结构和性质深入的探索和研究呢？即将真实世界各领域、跨尺度、多模态事物映射为tokenize的世界中，通过某种机制（如某种RL形式的RL-self play或RL-AIF）实现对tokenize世界中多样化token流形分布或结构构象的重整式探寻，并最终能够辅助人们挖掘并探索人类未触达的未知领域以达到创新发现。

数学天才伽罗瓦 · 群的概念最早来自多项式方程的研究，是英年早逝的法国数学天才埃瓦里斯特·伽罗瓦(Évariste Galois，1811—1832)在20岁左右提出的

关于群论：

随着数学研究越来越深入，人们已经从为具体应用问题寻找数学答案发展为揭示问题背后的更加抽象和深刻的内在特征和规律，在描述数学问题时也越来越脱离自然语言不严密、不精确的松散形式，而变得越来越术语化和符号化，使得一般人难以理解，甚至不研究该领域的数学家也常常一头雾水。群论就是这样的一个代表。

顾名思义，群论当然是研究群的理论。群是什么呢？在数学上，一个群并不仅仅是一群东西（元素）的集合，同时还是对操作特性（计算特性）的声明，声明规定了群如何进行运算以产生更多的元素。比如，全体整数的加法就构成了一个群。

群的概念最早来自多项式方程的研究，是英年早逝的法国数学天才埃瓦里斯特·伽罗瓦(Évariste Galois，1811—1832)在20岁左右提出来的。

伽罗瓦在研究当时代数的中心问题——五次以上的一元多项式方程是否可用根式求解时，发现了任意不可约的代数方程的根不是独立的，而是能用另一个根来表示。这种关系可以对根的所有可能进行置换，从而构成一个置换群。伽罗瓦将代数方程的解抽象为它们相应的代数结构，根据相关的群的性质来判断方程是否有解，从而用它彻底解决了这个问题。在某个数域上，一元n次多项式方程的根之间的某些置换关系所构成的置换群也因此被叫作该方程的伽罗瓦群。

在数论研究中，高斯使用抽象的代数理论研究整数和有理数的性质，其中也涉及群的概念。拉格朗日也曾提出过一个以他的名字命名的定理，揭示了一种特定整数群的性质。这些都成为导致群论产生的主要因素。

在新型几何（如双曲几何和射影几何）形成之后，德国数学家菲利克斯·克莱因(Felix Klein)利用群论以更连贯的方式来组织它们。1872年，克莱因发表了著名的埃尔朗根纲领(Erlanger Programme) ，给出了一个影响深远的建议：群使用代数方法抽象对称性的概念，是组织几何知识时最有用的方法。几何的分类可以通过无限连续变换群来进行。每种几何语言都有自己适用的概念。例如，射影几何可以很准确地谈论圆锥截面，但对于圆和角度就显得无能为力，因为这些概念在投射变换下不是不变的。用对称群的子群的相互关系来解释就可以把几何的多种语言联系在一起。这种几何中的无限变换群的理论成为导致群论产生的第三个主要因素。

这三个主要因素都是数学家们在研究自己领域里的特定问题时，发现和总结出的特定数学元素在运算下的结构特点，当他们对这样一些特点进行归类定义时，群的具体概念就自然而然地产生了。用数学的语言来说，群表示一个满足封闭性、结合律，有单位元、有逆元等要求的二元运算的代数结构。

时至今日，群的概念已经普遍地被认为是数学及其许多应用中最基本的概念之一。它不但渗透到几何、代数拓扑学、函数论和泛函分析中，而且在其他许多数学分支中起着重要的作用，形成了一些新的学科，如拓扑群、李群、代数群、算术群等。它们还具有与群结构相联系的其他结构，并在结晶学、理论物理、量子化学、编码学和自动机理论等方面都有重要的应用。

从19世纪50年代开始，群论的迅猛发展标志着数学的性质发生了一次深刻的变化。以前方程被看成一整套实际运算的表达，方程里无数的可能数字用字母（常量）或符号（变量）代替。但随着群论的崛起，人们开始把注意力转移到方程的数学结构上，研究这些结构背后更加抽象的特征和规律，单纯的数字本身正在数学中淡去，数字背后隐藏的结构和蕴含的规律成为现代数学研究的主要内容。数学从来没有变得如此抽象、深刻和更具普遍性，这也打开了人们重新认识宇宙的大门。