摘要药物抑制剂的设计和发现通常是通过药物研究和计算化学等方法进行的。研究人员利用对目标分子的结构和功能的了解,设计出能够与其相互作用的分子,并进行药物筛选和优化,以寻找具有理想药效和选择性的抑制剂。传统的药物抑制剂研发往往面临耗时长,投入高的缺点,近年来一种流行的方法是先利用深度学习模型自动生成候选药物抑制剂分子,再通过生物、化学实验对候选药物抑制剂分子进行筛选验证,相比于传统的药物抑制剂研发能够节省不少的时间与金钱。而现有的大多数深度学习模型都使用分子线性输入规范(Simplifiedmolecularinputlineentrysystem,SMILES)作为输入并取得了许多的成果。新冠冠状病毒(SARS-COV-2)爆发以来,研究人员研制出了不少的SARS-COV-2抑制剂,SARS-COV-2抑制剂在新冠肺炎(COVID-19)临床药物研发中发挥重要作用。虽然目前已经研发出了一些新型冠状病毒抑制剂,可是由于病毒呈现复杂化和多样化的趋势,药物研发的需求与日俱增,迫切需要开发新的新型冠状病毒抑制剂。然而,其中仍然面临许多的挑战。例如,目前对于SMILES的标记方法主要是在原子级别来进行标记,但是这样的标记方式会丢失分子的一些化学结构信息。此外,如何使得生成的分子与已知的抑制剂分子在化学性质上相似,从而使得生成的分子更有可能作为潜在的目标抑制剂的分子是另一个难点。针对以上两个问题,本文的主要研究内容如下:<br> 1.本文使用一种名为字节对编码(BytePairEncoder,BPE)的子词算法来标记SMILES。首先,子词算法BPE从大型SMILES数据集中学习高频SMILES子字符串的词汇,然后,根据BPE算法学习到的词汇对SMILES进行标记,最后将标记好的词汇作为深度学习模型的输入进行训练。根据有效性、新颖性和独特性这三个典型的分子生成评价指标,本文的实验结果表明BPE算法可以在有效地学习SMILES语法的同时,还可以保留SMILES的化学子结构信息。<br> 2.在优化生成的分子的相关性质时,本文在上一步已得到的分子生成模型的基础上,使用来自ChEMBL数据库中已知的1253种SARS-COV-2抑制剂进行迁移学习,经过机器学习的二分类模型LR模型对生成分子是否属于SARS-COV-2抑制剂分子进行预测、以及化学空间映射直观的反映出生成分子与1253种SARS-COV-2抑制剂分子的相关性、和对分子化学性质QED、logP以及SA的实验证明,迁移学习后的模型可以帮助生成模型生成潜在的SARS-COV-2抑制剂。总体而言,本文为SARS-COV-2抑制剂的分子生成提供了一种有效的方法。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文