AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


ChatMOF:使用大语言模型预测和生成金属有机框架的人工智能系统
发布日期:2024-06-25 05:59:46 浏览次数: 2001 来源:材料与人工智能


全文速览

本文介绍了一个预测和生成金属有机框架(MOFs)的人工智能系统ChatMOFChatMOF通过使用大语言模型(GPT-4GPT-3.5-turboGPT-3.5-turbo-16k)从文本输入中提取关键信息,然后给出适当的响应。该系统由三个核心组件构成:代理(agent)、工具箱(toolkit)和评估器(evaluator)。这三个组件共同构成了一个强大的工作流程,能够处理包括数据检索、属性预测和结构生成等在内的多种任务。在性能方面,集成GPT-4模型的ChatMOF表现出了非常高的准确率:搜索任务的准确率为96.9%,预测任务的准确率为95.7%,生成任务的准确率为87.5%。最后,文本还进一步探讨了在材料科学中结合使用大语言模型(LLMs)、数据库和机器学习的优势和局限性,并展示了这种结合对未来科学发展变革性的潜力。


背景介绍


得益于LLMs的兴起,生成式人工智能领域正在经历前所未有的增长。这些模型基于transformer架构,不仅能够处理基础的语言任务,还能够执行模仿人类认知的任务,如基于少量或无示例的学习,显示出巨大的潜力。


尽管LLMs在化学、医学和生物学等多个研究领域越来越受欢迎,但在材料科学领域,它们的潜力还未被充分利用。这主要是因为两个挑战:一是材料本身的复杂性,如MOFs,这些材料缺乏适合文本输入的表示方式,限制了LLMs对它们属性的理解和处理能力;二是材料特定训练数据的稀缺,材料科学领域缺少专门的数据库和相关数据,使得将这些数据以适合LLMs的文本格式表示变得更加困难。虽然存在这些挑战,但是研究人员仍在尝试利用LLMs在材料科学中的能力,主要集中于从科学文献中提取数据并生成响应,但材料本身的潜力还未被充分挖掘。为此,本文开发了一种新的方法,该方法针对MOFs,使用名为ChatMOF的人工智能系自动化地生成新材料并预测其属性。


图解全文


ChatMOF设计


ChatMOF作为一个自主的LLM代理,能够准确地从用户输入中提取关键细节,并给出相关响应。如图1a所示,用户可以使用自然语言提出关于材料属性的查询,ChatMOF能够提供与查询相关的详细描述。此外,ChatMOF还能根据用户需求生成具有特定属性的MOF结构。如图1b所示,ChatMOF由代理、工具箱和评估器三个主要部分组成。当用户输入查询后,代理首先将用户查询确立为目标,然后规划实现目标的步骤,接着ChatMOF从工具箱中选择合适的工具并执行相应的操作,最后评估生成的答案是否可行。如果可行,则呈现最终答案,否则将制定新策略。



1 ChatMOF示意图


工具箱


ChatMOF 使用各种工具来获取、预测或生成材料信息,这些工具主要分为以下几类:表格搜索器(table-searcher)、互联网搜索器(internet-searcher)、预测器(predictor)、生成器(generator)以及实用工具(utilities)。


如果用户查询的MOF信息包含在系统连接的数据库中,ChatMOF能够定位并提供所需的预制表格数据。如图2所示,系统能够自动确定提取必要数据的最佳方法,并创建特定的Python代码来从数据库中检索信息(例如使用pandas),代码在ChatMOF的执行器中运行,系统随后自动确定产生最终答案所需的后续程序。



2 ChatMOF执行表格搜索示例


如果用户查询的MOF属性在数据库中无法获取,ChatMOF将采用机器学习模型进行属性预测。ChatMOF使用自主开发的MOFTransformer模型进行属性预测,该模型利用局部特征(如原子和键)和全局特征(如表面积和拓扑结构),经过一百万个假设MOFs的预训练和针对特定属性的微调,在预测各种属性方面表现出了高性能。如图3所示,当用户请求在特定温度和压力下具有最高氢扩散率的MOF信息时,ChatMOF会选择最合适的微调MOFTransformer模型,并使用该模型进行预测,然后进行表格搜索以确定模型预测的最高值的MOF



3 MOF属性预测器示例


MOF领域,研究人员的一个关键目标是逆向设计具有特定所需属性的MOFs。在材料科学中,各种生成模型已经被用于逆向设计,如生成对抗网络(GAN)和扩散模型。然而,MOFs的结构复杂性,包括大量原子、大空隙率和复杂拓扑,使得逐个原子的逆向设计方法难以实现。作为一种解决方案,ChatMOF利用遗传算法来促进MOF的逆向设计。如图4所示,ChatMOF在接收到用户查询后,会根据遗传算法制定策略,确定目标属性,并选择最适合目标的损失函数,如最大值、最小值或最接近值,然后从现有数据库中选择与目标属性高度相关的父代基因,这些基因通过遗传算法进行选择,以提高子代基因展现期望属性的可能性。选中的基因随后被转化为结构文件,并通过机器学习来估计其属性,这个迭代过程会固定重复多次,每一代都会产生更接近目标的MOFs结构。最后,ChatMOF从生成的结构中选择最符合用户查询要求的一个,并将其作为响应结果呈现给用户。



4 MOF生成器示例


ChatMOF整合了原子模拟环境(ASE)库,这是一个在材料科学领域具有重要价值的工具,能够进行原子操作、获取单元信息以及提供可视化等功能。当用户查询时,ChatMOF会制定一个策略计划,并利用ASE库编写合适的Python代码来满足查询的需求,然后执行这段代码。如图5所示,用户查询在298KXEGKURCO2 Henry系数,单位为mol/cm³Pa时,ChatMOF首先使用预测器来确定CO2Henry系数,然后使用单位转换工具将单位从mol/KgPa转换为mol/cm³Pa。在这个转换过程中,ChatMOF识别出需要XEGKUR的密度这一额外数据,于是进行了表格搜索来获取所需的密度值。得到密度数据后,ChatMOF再次应用单位转换工具,将g/cm³转换为kg/cm³,最终综合所有这些信息得出最终答案。



5 ChatMOF解决复杂且多步骤问题示例


最后,文本评估了ChatMOF 的性能,涵盖搜索任务预测任务生成任务 评估的准确性通过三种标签来衡量:"True""False (token limit exceeded)""False (logic error)"。其中,"True"表示ChatMOF的过程正确匹配了产生准确答案所需的逻辑,"False (Token Limit Exceeded)"表示tokens数超出模型限制,"False (Logic Error)"表示 ChatMOF的逻辑错误导致不正确的响应或异常。图6显示了集成GPT-4 模型的ChatMOF在三项任务中的准确性,包括搜索任务和预测任务的100个示例问题以及生成任务中的10个示例问题。



6 集成GPT-4 模型的ChatMOF准确性


总结展望


本文提出了一个针对MOF领域的人工智能系统ChatMOF,并对其在材料科学中的应用潜力进行了探讨,最后评估了ChatMOF的性能,在搜索任务、预测任务和生成任务上展现出了卓越的性能。尽管存在一些限制,但ChatMOF在实现材料科学领域AI更高自主性方面已经取得了显著进展。随着技术的发展,以及模型容量和在线平台数据共享的结构化改进,ChatMOF的性能有望得到进一步优化,从而推动MOF研究取得显著进步。


DOI: https://doi.org/10.1038/s41467-024-48998-4



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询