活性分子结构生成方法、设备及存储介质与流程
- 国知局
- 2024-07-12 10:21:50
本技术涉及活性药物分子结构生成,尤其涉及一种活性分子结构生成方法、设备及存储介质。
背景技术:
1、随着人工智能领域各种大模型、生成模型的不断发展,基因组学和转录组学技术,rnaseq(rna sequencing,转录组测序技术)外显子测序已成为研究基因表达谱的重要手段,同时,活性药物小分子的研发也是药物领域的热点之一。
2、然而,传统的药物研发过程中,往往需要耗费大量的时间和资源去合成与筛选大量的化合物,以期找到能够调控特定基因表达谱的活性分子结构。传统的药物小分子设计方式,需要合成-检测-再合成-再检测,不断改构试错,成功率低且周期长。
技术实现思路
1、本技术的主要目的在于:提供一种活性分子结构生成方法、设备及存储介质,旨在解决相关技术中药物小分子的设计需要不断改构试错,存在成功率低、耗时长的技术问题。
2、为实现上述目的,本技术采用如下技术方案:
3、第一方面,本技术提供了一种活性分子结构生成方法,包括:
4、获取目标表达谱和靶点序列;
5、将目标表达谱和靶点序列输入训练好的目标生成模型,得到虚拟分子结构;其中,目标生成模型基于条件式生成模型训练得到,条件式生成模型包括输入模块、网络模块和输出模块,网络模块包括序列特征编码网络、分子特征编码网络、第一特征解码网络、表达谱特征编码网络和第二特征解码网络,序列特征编码网络、分子特征编码网络和表达谱特征编码网络分别与输入模块连接,第一特征解码网络分别与序列特征编码网络和分子特征编码网络连接,第一特征解码网络、表达谱特征编码网络和第二特征解码网络依次连接,第二特征解码网络还与序列特征编码网络连接;
6、对虚拟分子结构进行实体化处理,得到活性分子结构。
7、可选地,上述活性分子结构生成方法中,将目标表达谱和靶点序列输入训练好的目标生成模型,得到虚拟分子结构的步骤之前,方法还包括:
8、获取训练数据;
9、构建初始生成模型,初始生成模型为条件式生成模型;
10、利用随机梯度下降法,根据训练数据对初始生成模型进行模型拟合训练,得到目标生成模型。
11、可选地,上述活性分子结构生成方法中,获取训练数据的步骤包括:
12、获取预设数量的药物小分子,得到初始数据;
13、对初始数据进行rnaseq外显子测序,得到测序数据;
14、对测序数据进行归一化处理,得到训练数据。
15、可选地,上述活性分子结构生成方法中,测序数据包括多个靶点序列样本;
16、对测序数据进行归一化处理,得到训练数据的步骤包括:
17、对测序数据进行质量评估,得到质控结果;
18、根据质控结果,对测序数据进行预处理,得到预处理后的测序数据;其中,预处理包括去除接头、质量过滤和长度筛选中的至少一种;
19、对预处理后的测序数据进行参考基因组对比,生成比对文件;
20、对比对文件进行量化基因表达,得到各靶点序列样本的reads数;
21、对各靶点序列样本的reads数进行归一化处理,得到训练数据。
22、可选地,上述活性分子结构生成方法中,条件式生成模型中,
23、序列特征编码网络用于对靶点序列样本进行编码,得到序列特征向量;
24、分子特征编码网络用于对活性药物小分子的二维结构进行编码,得到分子特征向量;
25、第一特征解码网络用于融合序列特征向量和分子特征向量,得到第一特征融合向量,并根据第一特征融合向量生成表达谱预测值;
26、表达谱特征编码网络用于根据表达谱预测值生成表达谱特征向量;
27、第二特征解码网络用于融合序列特征向量和表达谱特征向量,得到第二特征融合向量,并根据第二特征融合向量生成预测分子结构。
28、可选地,上述活性分子结构生成方法中,构建初始生成模型的步骤包括:
29、基于条件式生成模型确定第一损失函数和第二损失函数,得到初始生成模型,第一损失函数为:
30、
31、其中,n表示活性药物小分子的数量,m表示靶点序列样本的数量,e1(seqj;w)表示序列特征编码网络,seqj表示序列特征编码网络的输入,w表示序列特征编码网络的参数,e2(moli;σ)表示分子特征编码网络,moli表示分子特征编码网络的输入,σ表示分子特征编码网络的参数,表示第一特征解码网络,x1表示第一特征解码网络的输入,表示第一特征解码网络的参数;
32、第二损失函数为:
33、
34、其中,e3(yi,j;θ)表示表达谱特征编码网络,yi,j表示表达谱特征编码网络的输入,θ表示表达谱特征编码网络的参数,d2(x2;γ)表示第二特征解码网络,x2表示第二特征解码网络的输入,γ表示第二特征解码网络的参数;
35、利用随机梯度下降法,根据训练数据对初始生成模型进行模型拟合训练,得到目标生成模型的步骤包括:
36、根据训练数据,利用随机梯度下降法拟合初始生成模型,确定第一损失函数和第二损失函数的优化参数,得到目标生成模型,其中,训练数据包括活性药物小分子、活性药物小分子对应的靶点序列样本及各靶点序列样本对应的reads数。
37、可选地,上述活性分子结构生成方法中,将目标表达谱和靶点序列输入训练好的目标生成模型,得到虚拟分子结构的步骤包括:
38、通过目标生成模型中的序列特征编码网络,对靶点序列进行编码,得到目标序列特征向量;
39、通过目标生成模型中的表达谱特征编码网络,根据目标表达谱生成目标表达谱特征向量;
40、通过目标生成模型中的第二特征解码网络,融合目标序列特征向量和目标表达谱特征向量,得到目标特征融合向量,并根据目标特征融合向量生成虚拟分子结构。
41、可选地,上述活性分子结构生成方法中,将目标表达谱和靶点序列输入训练好的目标生成模型,得到虚拟分子结构的步骤之后,方法还包括:
42、在预设的分子库中进行分子结构检索,判断分子库中是否存在与虚拟分子结构的相似度大于预设值的分子结构;
43、若存在,则判定虚拟分子结构评估不合格;
44、若不存在,则判定虚拟分子结构评估合格,执行对虚拟分子结构进行实体化处理,得到活性分子结构的步骤。
45、第二方面,本技术提供了一种活性分子结构生成设备,该设备包括处理器和存储器,存储器中存储有活性分子结构生成程序,该活性分子结构生成程序被处理器执行时,实现如上述的活性分子结构生成方法。
46、第三方面,本技术提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被一个或多个处理器执行时,实现如上述的活性分子结构生成方法。
47、本技术提供的上述一个或多个技术方案,可以具有如下优点或至少实现了如下技术效果:
48、本技术提出的一种活性分子结构生成方法、设备及存储介质,通过获取特定靶点的目标表达谱以及靶点序列,并输入预先训练好的目标生成模型,得到虚拟分子结构,再进行实体化处理,得到活性分子结构,方法操作简单且耗时较短;其中,目标生成模型基于条件式生成模型训练得到,条件式生成模型包括输入模块、网络模块和输出模块,网络模块包括序列特征编码网络、分子特征编码网络、第一特征解码网络、表达谱特征编码网络和第二特征解码网络,条件式生成模型中的五个网络均可以在模型训练过程中起到关键作用,缩短了目标生成模型的训练过程,在目标生成模型的具体应用过程中,可以只使用五个网络中的三个,不仅提高了模型的工作效率、降低了成本,还可以精确地生成能够调控特定基因表达谱的活性分子结构。
本文地址:https://www.jishuxx.com/zhuanli/20240614/86462.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表