我要投稿

IBM推出化学大模型：可精准预测分子性质和行为

发布日期：2024-12-16 07:49:01 浏览次数： 1882 来源：AIGC开放社区

在化学领域，理解分子性质对于加速药物开发和新型材料的发现至关重要。传统方法是依赖于费时费力的人工实验，成本高且效率非常低。这是因为分子的性质和行为极其复杂，需要进行大量的实验来测试和验证。

例如，在药物开发中，研究人员需要合成和测试大量的候选药物分子，以确定它们的活性、毒性和药代动力学性质等。

IBM的研究人员推出了专用于化学领域的大模型SMI–TED，一共有2.89亿参数。该模型从全球最大的免费公共化学物质结构数据库PubChem中，精心整理了9100 万个分子的数据集上进行预训练，这些分子相当于 40 亿个分子标记。使SMI–TED能够自动提取分子的特征，并准确预测出它们的性质和行为。

为了帮助模型更好地理解化学的 SMILES 字符串，SMI - TED 的基础模型架构使用了深度双向变压器编码器来细致地处理标记。这种编码器能够有效地捕捉标记之间的复杂关系和上下文信息，从而为模型提供更准确和丰富的标记表示。

同时，该架构还巧妙地结合了编码器 - 解码器架构来生成 SMILES 字符串。在生成过程中，编码器首先对输入的分子信息进行编码，将其转化为潜在的表示形式。然后，解码器利用这些潜在表示来逐步生成 SMILES 字符串，确保生成的字符串准确地反映了分子的结构和性质。

首先，深度双向变压器编码器通过对 SMILES 字符串中的每个标记进行嵌入，将其映射到高维空间中。然后，利用变压器的注意力机制，对这些嵌入进行交互和更新，以学习标记之间的依赖关系。这种深度双向的学习方式使得编码器能够充分考虑标记的前后文信息，从而更好地理解分子的结构特征。

而编码器 - 解码器架构则在生成 SMILES 字符串时发挥了关键作用。解码器根据编码器提供的潜在表示，逐步预测出 SMILES 字符串中的每个字符。在预测过程中，解码器利用先前生成的字符和编码器的信息来指导当前字符的生成，从而保证生成的 SMILES 字符串具有连贯性和准确性。

高质量数据集对于提升SMI – TED的性能至关重要，研究人员从从PubChem 数据库中搜集了1.13 亿条 SMILES 字符串作为初始数据集。然后进行去重和清洗后，得到了9100万个独特且有效的分子结构。

然后，研究人员使用了一个专门设计的分子标记器来构建词汇表，通过对这9100万个分子进行标记化处理，最终生成了包含约40亿个分子标记的词汇表。

在预训练模块方面，SMI - TED模型采用了双阶段预训练策略：在初始阶段，模型使用了大部分的样本对标记编码器进行预训练。这是因为标记编码器的收敛在初始时可能会面临挑战，如果同时对编码器 - 解码器层进行训练，标记编码器的不稳定可能会对整个模型的训练效果产生不利影响。

因此，通过先对标记编码器进行单独的预训练，可以使其更好地学习到分子标记的特征和模式。

当标记编码器达到一定的收敛程度后，模型会使用全部的样本对整个模型进行预训练。此时，编码器 - 解码器层也会参与到训练中，通过学习标记编码器提供的信息，来重建整个 SMILES 字符串。这个阶段的目的是让模型能够学习到分子标记之间的关系，以及如何将这些标记组合成完整的分子结构。

为了测试SMI – TED的性能，研究人员在ChEMBL、Tox21、ToxCast、ZINC、QM9等子数据集进行了综合评测。

结果显示，SMI - TED 在这些子数据集上表现出了优异的性能。例如，在 ChEMBL 数据集中，SMI - TED 能够准确地预测分子的活性和性质，其预测结果与实际值之间的误差较小；在Tox21 和 ToxCast 数据集中，模型对化合物的毒性预测表现出色，为药物安全性评估提供了有力的支持；

在 ZINC 数据集中，SMI - TED 在分子生成任务中展现出了强大的能力，能够生成具有特定性质的新颖分子结构；在 QM9 数据集中，模型对分子的量子力学性质的预测精度较高，为理解和设计新型材料提供了重要的参考。

本文素材来源SMI - TED论文，如有侵权请联系删除

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-03-12

Manus工作原理揭秘：解构下一代AI Agent的多智能体架构

2025-03-12

谷歌推出 Gemma 3 了

2025-03-12

Anthropic推出模型上下文协议MCP，解锁智能体万能手接口

2025-03-12

为何模型上下文协议 (MCP) 最终会获胜？[译]

2025-03-12

我不许你还不知道Qwen Chat

2025-03-12

大模型 Token 的消耗可能是一笔糊涂账

2025-03-12

一位投资人的硬核观察：被DeepSeek和Manus改写的AI投资范式

2025-03-12

从DeepSeek MoE专家负载均衡谈起

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

OpenAI o1与GPT4o的对比分析

2024-09-23

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

一文带你了解大模型——智能体（Agent）

2024-05-28

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

Manus爆火的背后，Agentic AI产品如何构筑持久的竞争优势？

2025-03-12

快思考+慢思考+落地执行+组织学习，DeepSeek的下一步演化方向？

2025-03-12

【一文看懂】大白话解释大模型的技术原理，为什么它那么聪明？

2025-03-10

【一文看懂】7B、175B，这些大模型参数是什么意思？它们是怎么算出来的？参数越多=模型越强？

2025-03-10

大模型时代，为什么模型都是多少B？

2025-03-10

什么是模型上下文协议（MCP）？它如何比传统API更简单地集成AI？

2025-03-10

大模型的未来，是 Agent 还是 App？

2025-03-08

通用Agent未来形态什么样？

2025-03-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）杨小姐 186 6662 7370

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204 陈先生 185 8882 0121

上海：上海市浦东新区金新路58号1602室戴先生 186 1639 7587

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部