体验完整Gemini

Google官网体验Gemini

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

1,835次阅读

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

论文题目：Domain-Agnostic Molecular Generation with Chemical Feedback

本文作者：方尹、张宁豫、陈卓、郭凌冰、范骁辉、陈华钧（浙江大学）

发表会议：ICLR 2024

论文链接：https://arxiv.org/abs/2301.11259

代码链接：https://github.com/zjunlp/MolGen

欢迎转载，转载请注明出处

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

引言

药物发现的核心环节之一是合成和设计具有理想化学特性的分子。随着语言模型展现出在解析复杂分子分布方面的潜力，研究人员开始尝试将分子的SMILES描述符与预训练语言模型相结合。然而，SMILES描述符的语法特质并不总能保障所生成化学结构的有效性，经常导致生成化学上无意义的字符串。除此之外，虽然分子语言模型在预训练过程中学习了大量的分子结构信息，它们仍难以准确捕捉到现实世界中化学与生物特性的复杂关系。这使得它们常常陷入“分子幻觉”，生成在结构上看似正确，但缺乏理想化学属性的分子。为了应对上述挑战，本文提出了新的分子生成框架MolGen。MolGen通过双阶段预训练深入学习分子的结构与语法特征，并采用化学反馈机制优化分子生成过程，使其产生的分子既化学有效又具备预期属性。

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

MolGen的训练框架

MolGen的预训练包含两个关键阶段：

首先，基于Seq2seq的模型架构，MolGen在超过一亿的分子序列上执行掩码操作，通过重构原始序列深度挖掘分子的结构本质，同时采用SELFIES作为分子描述符，确保生成的分子序列的100%有效性。
其次，引入一种通用的分子前缀策略，提升模型跨不同领域的适用性和灵活性。

在预训练阶段之后，尽管模型已经掌握了分子的基本语法规则，但它还需要学习如何根据实际化学需求优化分子结构。因此，MolGen引入了一种化学反馈机制，引导模型优先考虑那些更优候选分子，进而学习评估并纠正自己的生成过程，以实现与优化目标的一致性。这种方法确保了MolGen不仅能生成化学上有效的分子，而且这些分子具备所需的预期特性，适应实际的应用场景。

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

实验分析

本文通过一系列实验分析验证了MolGen模型的有效性和实用性。实验结果表明，MolGen能够生成反映现实世界分子分布的多样化且真实的分子，适用于构建虚拟分子库。

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

通过优化实验，MolGen证明了其能够有效地生成与特定目标蛋白质高度亲和的分子。结合亲和力量化了分子与目标蛋白质之间的相互作用力。如图(a)所示，MolGen专门针对初始结合亲和力较低的1000个分子进行优化，成功提升了这些分子的亲和力。其中亲和力通过解离常数（K_D）来体现，K_D值越低表示亲和力越强。图(b)则进一步展示了在两种不同目标蛋白质上，通过MolGen优化后分子结合亲和力的显著提高，从而突显了MolGen在药物设计和分子优化领域的应用潜力。

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

此外，MolGen也能够优化相对简单的化学性质，如p-logP和QED值。在天然产物与合成分子两种设定下，不同配置的模型生成的分子化学性质发生了明显的变化。在未应用化学反馈机制的情况下，预训练模型倾向于生成与输入分子化学性质相似的分子。然而，当引入化学反馈后，化学性质得分显著提升，这表明通过化学反馈机制，模型能够将其生成过程与化学上的实际偏好相对齐，从而有效地评估并调整其生成的分子，确保这些分子具备应用中所需的化学特性。

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

本文将MolGen得到的分子表示空间与基于深度图生成的模型、基于变分自编码器的模型以及基于SMILES的语言模型进行比较。总体而言，预训练语言模型，尤其是MolGen，在维持生成分子多样性的同时，成功捕获了训练集中分子的化学特性和结构特征，展现了其在精确模拟分子化学空间方面的优势。

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

进一步地，本文还探讨了使用不同分子语言（SMILES和SELFIES）进行预训练的模型在感知分子结构方面的能力。下图可视化了模型最后一个自注意力层的注意力权重。基于SMILES的预训练模型可能会将注意力分配给缺乏内在化学意义的符号或数字，相比之下，MolGen在识别和理解具有化学意义的子结构方面表现出更高的有效性。

ICLR2024｜MolGen: 化学反馈引导的预训练分子生成

总结

本文介绍了一种新的分子生成框架MolGen。实验分析表明，MolGen能够有效生成符合化学偏好的分子，规避了“分子幻觉”问题。未来的研究方向包括将MolGen应用于逆合成、化学反应预测等生成任务，探索多模态预训练技术，或融合更广泛的知识资源。此外，为了进一步满足从头分子设计的需求，作者推出了最新的MolGen-7B版本。该版本基于LLaMA架构，无需依赖现有分子结构即可设计出多样化的新分子，开拓了更为广阔的化学探索空间。

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

post-qrcode

AI AR F1 Github HTML RSS Web 技术架构设计

发表至：智源

2024年3月6日

0

内推｜【慧安金科】智能信贷高级算法工程师

Michael Jordan：大模型在两个方向仍需“努力”丨智源专访

AI将如何影响未来的医学出版？

Nat. Commun. | 利用深度学习实现线性分子的大环化，以促进大环药物候选物的发现

刚刚，OpenAI最强竞对发布Claude 3，超过GPT-4，具有接近人类的理解能力

Datawhale来浙大啦！

评论（没有评论）

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

热门文章

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

热评文章

经典留声机

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

热门文章

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

热评文章

经典留声机

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder