一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据清洗方法及装置、存储介质及电子设备与流程

2022-12-20 20:30:29 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,特别是涉及一种数据清洗方法及装置、存储介质及电子设备。


背景技术:

2.随着计算机技术的发展,化学信息技术在化学领域逐渐得到广泛应用。在化学信息技术中,化学反应的原子映射信息是建模及化合物性质预测的基础信息之一,原子映射指的是对于化学反应的反应物的各个原子与其生成物的各个原子之间构建一一映射关系。
3.在化学信息技术中,通常基于简化分子线性输入规范(simplified molecularinput line entry specification,smiles)描述化学结构,化学反应的原子映射信息通常也是对该化学反应的smiles表达式进行原子映射的标注处理后得到的。
4.目前,通常是基于预设的标注规则对化学反应的smiles表达式进行标注,得到化学反应的原子映射信息。而预设的标注规则通常是基于人类社会原有经验的积累得到的,随着人类社会积累的化学反应数量越来越多,基于预设标注规则得到的原子映射,难以准确识别所有化学反应的反应物与生成物之间各原子的对应关系,使得现有方法得到的化学反应的原子映射信息的准确度较低,继而给后续的处理工作造成极大的不良影响。


技术实现要素:

5.有鉴于此,本发明实施例提供了一种数据清洗方法,以解决化学反应的原子映射信息的准确度较低,给后续处理工作造成不良影响的问题。
6.本发明实施例还提供了一种数据清洗装置,用以保证上述方法实际中的实现及应用。
7.为实现上述目的,本发明实施例提供如下技术方案:
8.一种数据清洗方法,包括:
9.当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;
10.将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;
11.确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;
12.基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;
13.若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据
清洗。
14.上述的方法,可选的,所述反应映射模型的建立过程,包括:
15.确定训练样本集,所述训练样本集包括多个样本化学反应对应的反应字符串和每个所述样本化学反应对应的原子映射数据;
16.基于所述训练样本集,对预构建的语言处理模型进行训练,并将训练完成的语言处理模型作为所述反应映射模型。
17.上述的方法,可选的,所述确定第一数量,包括:
18.确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息;每个所述反应物原子对应的连接信息包括,与该反应物原子相连接的每个反应物原子的信息;
19.确定所述第一原子映射数据对应的每个生成物原子所对应的连接信息;每个所述生成物原子对应的连接信息包括,与该生成物原子相连接的每个生成物原子的信息;
20.在各个所述生成物原子中,确定每个所述反应物原子对应的生成物原子;
21.将每个所述反应物原子对应的连接信息与其对应的生成物原子所对应的连接信息进行比较,以确定每个所述生成物原子对应的化学键生成量及化学键断裂量;
22.将各个所述生成物原子对应的化学键生成量及化学键断裂量进行求和运算,并将计算结果确定为所述第一数量。
23.上述的方法,可选的,所述确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息,包括:
24.调用预设的化学信息学工具对所述第一原子映射数据进行解析,获得所述第一原子映射数据对应的解析数据;
25.从所述解析数据提取每个所述反应物原子对应的标识信息,每个所述反应物原子对应的标识信息包括该反应物原子的标识以及与该反应物原子相连接的每个反应物原子的标识;
26.将提取到的每个所述反应物原子对应的标识信息确定为每个所述反应物原子对应的连接信息。
27.上述的方法,可选的,所述判断所述第一原子映射数据对应的原子映射关系是否正确,包括:
28.判断所述第二数量是否小于所述第一数量;
29.若所述第二数量小于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系不正确。
30.上述的方法,可选的,还包括:
31.若所述第二数量大于或等于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系正确。
32.上述的方法,可选的,还包括:
33.若所述第一原子映射数据对应的原子映射关系正确,则在所述原子映射信息中保留所述第一原子映射数据。
34.一种数据清洗装置,包括:
35.第一获取单元,用于当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,
基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;
36.第二获取单元,用于将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;
37.第一确定单元,用于确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;
38.判断单元,用于基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;
39.清洗单元,用于若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据清洗。
40.上述的装置,可选的,还包括:
41.第二确定单元,用于确定训练样本集,所述训练样本集包括多个样本化学反应对应的反应字符串和每个所述样本化学反应对应的原子映射数据;
42.训练单元,用于基于所述训练样本集,对预构建的语言处理模型进行训练,并将训练完成的语言处理模型作为所述反应映射模型。
43.上述的装置,可选的,所述第一确定单元,包括:
44.第一确定子单元,用于确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息;每个所述反应物原子对应的连接信息包括,与该反应物原子相连接的每个反应物原子的信息;
45.第二确定子单元,用于确定所述第一原子映射数据对应的每个生成物原子所对应的连接信息;每个所述生成物原子对应的连接信息包括,与该生成物原子相连接的每个生成物原子的信息;
46.第三确定子单元,用于在各个所述生成物原子中,确定每个所述反应物原子对应的生成物原子;
47.第四确定子单元,用于将每个所述反应物原子对应的连接信息与其对应的生成物原子所对应的连接信息进行比较,以确定每个所述生成物原子对应的化学键生成量及化学键断裂量;
48.第五确定子单元,用于将各个所述生成物原子对应的化学键生成量及化学键断裂量进行求和运算,并将计算结果确定为所述第一数量。
49.上述的装置,可选的,所述第一确定子单元,包括:
50.解析子单元,用于调用预设的化学信息学工具对所述第一原子映射数据进行解析,获得所述第一原子映射数据对应的解析数据;
51.提取子单元,用于从所述解析数据提取每个所述反应物原子对应的标识信息,每个所述反应物原子对应的标识信息包括该反应物原子的标识以及与该反应物原子相连接的每个反应物原子的标识;
52.第六确定子单元,用于将提取到的每个所述反应物原子对应的标识信息确定为每个所述反应物原子对应的连接信息。
53.上述的装置,可选的,所述判断单元,包括:
54.判断子单元,用于判断所述第二数量是否小于所述第一数量;
55.第七确定子单元,用于若所述第二数量小于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系不正确。
56.上述的装置,可选的,所述判断单元,还包括:
57.第八确定子单元,用于若所述第二数量大于或等于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系正确。
58.上述的装置,可选的,还包括:
59.数据保留单元,用于若所述第一原子映射数据对应的原子映射关系正确,则在所述原子映射信息中保留所述第一原子映射数据。
60.一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的数据清洗方法。
61.一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的数据清洗方法。
62.基于上述本发明实施例提供的一种数据清洗方法,包括:当接收到对化学反应的原子映射信息进行数据清洗的指令时,可获取所述原子映射信息中包含的第一原子映射数据,第一原子映射数据为基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串。将所述化学反应对应的反应字符串属于预先建立的反应映射模型,获得该化学反应对应的第二原子映射数据。确定表征第一原子映射数据对应的化学键变化量的第一数量,以及表征第二原子映射数据对应的化学键变化量的第二数量,并基于第一数量和第二数量判断第一原子映射数据对应的原子映射关系是否正确,若不正确,则将该化学反应对应的原子映射信息中包含的第一原子映射数据替换为第二原子映射数据。应用本发明实施例提供的方法,可通过比较第一原子映射数据对应的化学键变化量,和第二原子映射数据对应的化学键变化量,判断第一原子映射数据对应的原子映射关系是否正确,若是不正确,则可基于第二原子映射数据对原子映射信息进行修正,提高化学反应对应的原子映射信息的准确度。
附图说明
63.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
64.图1为本发明实施例提供的一种数据清洗方法的方法流程图;
65.图2为本发明实施例提供的一种数据清洗方法的又一方法流程图;
66.图3为本发明实施例提供的一种化学反应的原子映射标识图;
67.图4为本发明实施例提供的一种化学反应的又一原子映射标识图;
68.图5为本发明实施例提供的一种化学反应的结构变化示意图;
69.图6为本发明实施例提供的一种化学反应的又一结构变化示意图;
70.图7为本发明实施例提供的一种化学反应的另一原子映射标识图;
71.图8为本发明实施例提供的一种化学反应的又一原子映射标识图;
72.图9为本发明实施例提供的一种化学反应的另一结构变化示意图;
73.图10为本发明实施例提供的一种数据清洗装置的结构示意图;
74.图11为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
75.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
76.在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
77.由背景技术可知,可通过计算机技术自动实现化学反应的原子映射。目前,已有众多软件系统可以自动实现原子映射,例如symyx软件,chemaxon,和acd/labs等等。目前的映射算法通常是基于人工预设的规则进行映射的算法,或是基于经验原理的映射算法,例如jochum等人提出的基于经验原理的映射算法,该经验原理为“大多数化学反应沿着最小化学距离的方向进行:最少数量价电子的重新排布”,也就是最小化学距离原理,它是一个定量的启发式规则,是计算机技术在化学领域的应用过程中的常用原理之一。而基于人工规则的映射算法的系统,不能总是准确地识别反应物与生成物之间相对应的原子,因为人工设计的规则难免会漏掉一些特殊反应,导致算法泛化能力不足。此外,基于经验原理的映射算法与上述类似,同样不足以应对所有化学反应,因为并非所有化学反应都遵循经验原理,或者在某些情况下可能发生化学组合的几何性爆炸,那样算法将不再适用。基于人工规则或是经验原理方法,通常都难以处理规则范围之外的特殊反应,泛化能力低,造成原子映射数据的准确性较低,亦无法基于其规则对错误数据进行识别或修正。
78.因此,本发明实施例提供了一种数据清洗方法,通过反应映射模型获得新的原子映射数据,基于新的原子映射数据,判断原有原子映射数据所反映的映射关系是否正确,若不正确则进行修正,以提高原子映射信息的准确度。
79.本发明实施例提供了一种数据清洗方法,所述方法可应用于化学反应数据的管理系统,所述方法的执行主体可以为运行在计算机上的处理器,所述数据清洗方法的流程图如图1所示,包括:
80.s101:当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;
81.本发明实施例提供的方法中,各个化学反应的反应数据存储在反应数据库中,其
中包含已基于人工规则标注原子映射关系的原子映射信息。在需要对反应数据进行验证及清洗时,工作人员可通过系统前端发送指令。当处理器接收到对化学反应的原子映射信息进行数据清洗的指令时,可从反应数据库中获取当前化学反应对应的原子映射信息,其中包含基于预设标注规则标注过原子映射关系的字符串,该字符串是一条经过原子映射的化学反应简化分子线性输入规范smiles字符串,符合化学反应smiles的基本语法规则。
82.s102:将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;
83.本发明实施例提供的方法中,可以从反应数据库中获取当前化学反应对应的反应字符串,也就是未经原子映射的化学反应smiles字符串,该化学反应对应的反应字符串表征,该化学反应中各个反应物的化学结构及各个生成物的化学结构。将该反应字符串加载至预先建立的反应映射模型的输入层,以触发反应映射模型对反应字符串进行处理,输出对该反应字符串进行原子映射标注后的字符串。将反应映射模型输出的字符串作为该化学反应对应的第二原子映射数据。
84.本发明实施例提供的方法中所提及的反应映射模型,可以采用人工智能领域深度学习的变形模型,建立经训练的数据驱动模型,模型可从大量数据中分析并学习到化学变化过程中的转化模式,对输入模型的化学反应字符串进行原子映射的标注。具体的模型类型可根据实际需求选择,也可以选择现有技术中已成型的模型,不影响本发明实施例提供的方法实现功能。
85.s103:确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;
86.本发明实施例提供的方法中,可对第一原子映射数据进行解析,获得第一原子映射数据对应的化学键变化量,也就是第一原子映射数据所反映的化学反应过程中化学键的变化量,亦对第二原子映射数据进行解析,获得第二原子映射数据对应的化学键变化量,也就是第二原子映射数据所反映的化学反应过程中化学键的变化量。化学键的变化量包括断裂的化学键的数量及新生成的化学键的数量。
87.s104:基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;
88.本发明实施例提供的方法中,可通过经反应映射模型处理得到原子映射数据所反映的化学变化过程,与原有原子映射数据所反应的化学变化过程进行比对,以对原有的原子映射数据进行验证。
89.s105:若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据清洗。
90.本发明实施例提供的方法中,若原有的第一原子映射数据对应的原子映射关系不正确,则以经反应映射模型处理得到的第二原子映射数据替换第一原子映射数据,以对该化学反应的原子映射信息进行清洗。具体的,对反应数据库中该化学反应对应的原子映射信息进行修改,将原先存储的第一原子映射数据修改为第二原子映射数据,修改后该化学反应对应的原子映射信息中包含的数据为第二原子映射数据,而非第一原子映射数据。
91.基于本发明实施例提供的数据清洗方法,可在接收到指令时,获取化学反应当前
的原子映射数据,并将该化学反应的反应字符串输入反应映射模型,获得经反应映射模型处理得到的原子映射数据。继而确定化学反应当前的原子映射数据所反映的化学过程中化学键的变化量,以及确定经反应映射模型处理得到的原子映射数据所反映的化学过程中化学键的变化量。基于两个原子映射数据所反映的化学键变化量,判断化学反应当前的原子映射数据所对应的原子映射关系是否正确,若不正确,则以处理得到的原子映射数据替换当前的原子映射数据,以对化学反应对应的原子映射信息进行数据清洗。应用本发明实施例提供的方法,可通过反应映射模型获得化学反应对应的原子映射数据,对化学反应当前基于规则标注得到的原子映射数据是否正确进行验证,若不正确则可进一步进行修正,可以提高化学反应的原子映射信息的准确度,避免给后续处理工作带来不良影响。另一方面,可满足反应数据库中大量数据的数据清洗工作。
92.为了更好地说明本发明实施例提供的方法,本发明实施例提供了又一种数据清洗方法,在图1所示方法的基础上,本发明实施例提供的方法中,步骤s102中所提及的反应映射模型的建立过程,包括:
93.确定训练样本集,所述训练样本集包括多个样本化学反应对应的反应字符串和每个所述样本化学反应对应的原子映射数据;
94.本发明实施例提供的方法中,可以从现有的化学反应数据库中,获取大量的样本化学反应对应的字符串及其对应的原子映射数据,将这些原子映射准确度较高的样本数据作为训练样本集。
95.基于所述训练样本集,对预构建的语言处理模型进行训练,并将训练完成的语言处理模型作为所述反应映射模型。
96.本发明实施例提供的方法中,采用语言处理模型作为反应映射模型的架构,化学反应的原子映射任务可以认为是语言翻译技术在化学信息技术领域的应用,可以训练可实现语言翻译的语言处理模型作为反应映射模型。现有技术中存在多种实现语言翻译的语言处理模型,在此不作具体说明。
97.本发明实施例提供的方法中,将训练样本集中未经原子映射的化学反应smiles字符串作为模型的样本输入,经原子映射的化学反应smiles字符串作为模型的样本输出,按照预设的训练方法对预构建的语言处理模型进行训练,当训练后的语言处理模型满足预设条件时,完成对模型的训练,将训练完成的语言处理模型作为反应映射模型。
98.基于本发明实施例提供的方法,可基于大量的化学反应的反应字符串及其对应的原子映射数据,对语言处理模型进行训练,将训练完成的模型作为反应映射模型。训练好的模型可以拥有很强的泛化能力,对于未识别过的化学反应,同样可以从相似的化学反应机理出发,对反应物和生成物中的原子进行映射。
99.进一步的,结合图2所示流程图,本发明实施例提供了又一种数据清洗方法,在图1所示方法的基础上,本发明实施例提供的方法中,步骤s103中所提及的确定第一数量的过程,包括:
100.s201:确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息;每个所述反应物原子对应的连接信息包括,与该反应物原子相连接的每个反应物原子的信息;
101.本发明实施例提供的方法中,对第一原子映射数据进行解析,得到第一原子映射
数据所反映的化学反应过程中每个反应物原子对应的连接信息,例如与该反应物原子相连接的各个反应物原子的标识,该反应物原子与其相连接的每个反应物原子之间的化学键类型等等。第一原子映射数据为表征各个生成物原子和各个反应物原子之间映射关系的数据,数据中给每个原子标注了对应原子映射关系的标签,可将该标签作为原子的标识。
102.s202:确定所述第一原子映射数据对应的每个生成物原子所对应的连接信息;每个所述生成物原子对应的连接信息包括,与该生成物原子相连接的每个生成物原子的信息;
103.本发明实施例提供的方法中,可第一原子映射数据进行解析,得到第一原子映射数据所反映的化学反应过程中每个生成物原子对应的连接信息,例如与该生成物原子相连接的各个生成物原子的标识,该生成物原子与其相连接的每个生成物原子之间的化学键类型等等。
104.s203:在各个所述生成物原子中,确定每个所述反应物原子对应的生成物原子;
105.本发明实施例提供的方法中,各个生成物原子的标识和各个反应物原子的标识,反映了各个生成物原子和各个反应物原子的一一映射关系。可将每个反应物原子对应的标识,分别与各个生成物原子对应的标识进行比对,将与其标识相同的生成物原子作为该反应物原子对应的生成物原子。
106.s204:将每个所述反应物原子对应的连接信息与其对应的生成物原子所对应的连接信息进行比较,以确定每个所述生成物原子对应的化学键生成量及化学键断裂量;
107.本发明实施例提供的方法中,可通过预设算法将每个反应物原子对应的连接信息与其对应的生成物原子对应的连接信息进行匹配比较,以判断在该反应过程中,生成新的化学键的数量和原化学键断裂的数量。例如反应物原子1,分别与反应物原子2、反应物原子3和反应物原子4相连接,而生成物原子1,仅分别与生成物原子3及生成物原子4相连接,在化学反应过程中,反应物原子1和生成物原子1实为同一个原子,也就是在反应过程中,该原子与原子2之间的化学键发生了断裂,不再与该原子相连接,则生成物原子1对应一个化学键断裂量,对应的化学键生成量为零。
108.s205:将各个所述生成物原子对应的化学键生成量及化学键断裂量进行求和运算,并将计算结果确定为所述第一数量。
109.本发明实施例提供的方法中,步骤s204中确定所有生成物原子对应的化学键生成量和化学键断裂量相加,将总和作为第一原子映射数据对应的化学键变化量,也就是第一原子映射数据所反映的化学反应过程中化学键的变化数量。
110.基于本发明实施例提供的方法,可通过解析第一原子映射数据获得各个反应物原子和各个生成物原子对应的连接信息,通过连接信息的比对可以快速确定化学键的变化数量,处理速度较快,可进一步提高处理效率。
111.在图1所示方法中,步骤s103中所提及的确定第二数量的过程,可以类比确定第一数量的过程基于第二原子映射数据进行处理,其原理可参见结合图2所提供的实施例中的说明,在此不再赘述。
112.为了更好地说明本发明实施例提供的方法,本发明实施例提供了又一种数据清洗方法,在图2所示方法的基础上,本发明实施例提供的方法中,步骤s201中所提及的确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息,包括:
113.调用预设的化学信息学工具对所述第一原子映射数据进行解析,获得所述第一原子映射数据对应的解析数据;
114.本发明实施例提供的方法中,可以调用化学信息学工具对第一原子映射数据进行解析,例如调用rdkit,rdkit是一个用于化学信息学的开源工具包,是化学信息技术领域中的常用工具,可实现对smiles字符串的信息提取。具体的,可将第一原子映射数据加载至rdkit,由rdkit读取为处理对象,经工具处理后,可获得第一原子映射数据对应的解析数据,如每个反应物原子的标识以及与其相连接的原子信息,每个生成物原子的标识以及与其相连接的原子信息等等。
115.从所述解析数据提取每个所述反应物原子对应的标识信息,每个所述反应物原子对应的标识信息包括该反应物原子的标识以及与该反应物原子相连接的每个反应物原子的标识;
116.本发明实施例提供的方法中,可从通过工具获得的解析数据中,提取每个反应物原子相关的标识信息,还可以提取每个反应物原子相关的化学键信息等等。
117.将提取到的每个所述反应物原子对应的标识信息确定为每个所述反应物原子对应的连接信息。
118.本发明实施例提供的方法中,可将已提取到的每个反应物原子对应的标识信息作为该反应物原子对应的连接信息,同时,也可将每个反应物原子对应的化学键信息作为连接信息。
119.基于本发明实施例提供的方法,可调用现有的化学信息学工具对原子映射数据进行解析,直接获得解析后的数据,从中便可提取出原子的连接信息,处理过程较为方便快捷,可进一步提高处理效率。
120.进一步的,图2所示方法中,步骤s202中所提及的确定所述第一原子映射数据对应的每个生成物原子所对应的连接信息,同样可基于上述实施例中对于步骤s201所提供的方法原理进行处理,调用化学信息学工具解析数据,并进行信息提取,可参见上述实施例中的说明,在此不再赘述。需要说明的是,在具体的实现过程中,通常调用化学信息学工具解析原子映射数据,获得的解析数据中包含生成物原子的信息,也包含反应物原子的信息,可分别提取相关信息,无需分别进行两次解析。
121.进一步的,本发明实施例提供的方法中,在图1所示方法中,步骤103中提及的确定第二数量的过程中,可通常采用上述实施例所提供的方法原理,调用化学信息学工具对第二原子映射数据进行解析,以提取第二原子映射数据对应的各个反应物原子的信息和各个生成物原子的信息。具体的方法原理可参见上述实施例中的说明,在此不再赘述。
122.为了更好地说明本发明实施例提供的方法,在图1所示方法的基础上,本发明实施例提供了又一种数据清洗方法,在步骤s104中所提及的判断所述第一原子映射数据对应的原子映射关系是否正确的过程,包括:
123.判断所述第二数量是否小于所述第一数量;
124.本发明实施例提供的方法中,第一数量表征第一原子映射数据所反应的化学反应过程中化学键的变化量,而第二数量表征第二原子映射数据所反应的化学反应过程中化学键的变化量。从化学反应原理而言,化学反应通常遵循最小变化,若是对于同一化学反应识别出不同的化学键变化水平,则变化较小的过程与实际化学反应过程相匹配的准确度较
高。本发明实施例提供的方法中,将第二数量与第一数量进行数值大小的比较,以判断第二数量是否小于第一数量。
125.若所述第二数量小于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系不正确。
126.本发明实施例提供的方法中,若第二数量小于第一数量,则确定第一原子映射数据对应的原子映射关系错误,需要对原子映射信息进行修正。
127.基于本发明实施例提供的方法,若第二数量小于第一数量,则表征第二原子映射数据所对应的化学反应的化学键变化小于第一原子映射数据所反映的化学反应的化学键变化,则说明第二原子映射数据所反映的化学反应更贴近实际的化学反应,也就是第一原子映射数据对应的原子映射关系是错误的。故本发明实施例提供的方法,可通过化学键数量的比较,便捷的判断原有原子映射数据是否正确。
128.进一步的,本发明实施例提供的方法中,若所述第二数量大于或等于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系正确。
129.本发明实施例提供的方法中,若第二数量大于或等于第一数量,则说明第一原子映射数据所反映的化学反应的化学键变化不大于第二原子映射数据所反映的化学反应的化学键变化,也就是第一原子映射数据所反映的化学反应变化更贴近实际的化学反应。
130.进一步的,在图1所示方法的基础上,本发明实施例提供的方法中,若所述第一原子映射数据对应的原子映射关系正确,则在所述原子映射信息中保留所述第一原子映射数据。也就是在原子映射信息中当前包含的原子映射数据对应的原子映射关系正确的情况下,不对数据库中的信息进行改动。
131.为了更好地说明本发明实施例提供的方法,接下来结合图3~图9,以实际的化学反应的原子映射数据说明基于第一数量和第二数量,判断第一原子映射数据对应的原子映射关系是否正确的过程。
132.需要说明的是,图3~图9所示的各个原子映射标识图及各个结构变化示意图中所呈现化学反应结构及标识,均为独立的化学反应结构及标识,各图之间的数字标识彼此之间不存在对应关系。每个原子映射标识图及每个结构变化示意图中的每个数字标识,表示图中所示化学结构上对应位置的原子所对应的原子映射标注。在图3、图4、图7~图9中,各图中加号两侧分别为反应物的化学结构,图中箭头右侧则为生成物的化学结构。
133.在图1所示方法的基础上,结合图3~图6,本发明实施例提供了一种数据清洗方法。图3为第一原子映射数据对应的化学反应的原子映射标识图。本发明实施例中,第一原子映射数据,也就是基于人工标注规则进行原子映射得到的smiles字符串为:[ch3:1][o:2][c:3](=[o:4])\[ch:5]=[ch:6]\[c:7]1[ch:8][ch:9][c:10]([ch:11][ch:12]1)[n:13](=[o:14])=[o:15].[ch3:16][c:17]1[ch:18][ch:19][c:20]([ch:21][ch:22]1)[s:23](=[o:24])(=[o:25])[ch2:26][c:27](=[o:28])[nh:29][ch2:30][c:31]1[ch:32][ch:33][ch:34][ch:35][ch:36]1》》[ch3:16][c:17]1[ch:18][ch:19][c:20]([ch:21][ch:22]1)[s:23](=[o:25])(=[o:24])[c@h:26]1[c@@h:6]([ch2:5][c:3](=[o:2])[n:29]([ch2:30][c:31]2[ch:32][ch:33][ch:34][ch:35][ch:36]2)[c:27]1=[o:28])[c:7]1[ch:8][ch:9][c:10]([ch:11][ch:12]1)[n:13](=[o:14])=[o:15]。
[0134]
本发明实施例提供的方法中,经反应映射模型处理得到的第二原子映射数据,也
就是经反应映射模型处理得到的smiles字符串为:[c:20](=[o:21])(/[ch:22]=[ch:23]/[c:24]1[ch:25][ch:26][c:27]([n :28](=[o:29])[o-:30])[ch:31][ch:32]1)[o:36][ch3:35].[ch3:1][c:2]1[ch:3][ch:4][c:5]([s:6](=[o:7])(=[o:8])[ch2:9][c:10](=[o:11])[nh:12][ch2:13][c:14]2[ch:15][ch:16][ch:17][ch:18][ch:19]2)[ch:33][ch:34]1》》[ch3:1][c:2]1[ch:3][ch:4][c:5]([s:6](=[o:7])(=[o:8])[c@@h:9]2[c:10](=[o:11])[n:12]([ch2:13][c:14]3[ch:15][ch:16][ch:17][ch:18][ch:19]3)[c:20](=[o:21])[ch2:22][c@h:23]2[c:24]2[ch:25][ch:26][c:27]([n :28](=[o:29])[o-:30])[ch:31][ch:32]2)[ch:33][ch:34]1。图4为第二原子映射数据对应的化学反应的原子映射标识图。
[0135]
通过化学信息学工具分别对第一原子映射数据和第二原子映射数据进行信息提取,并经预设算法分别比较提取的信息后,确定了第一原子映射数据对应的化学键断裂量为4,断建原子序号对分别为“3=4”、“1-2”、“5=6”和“2-3”,化学键生成量为4,成键原子序号对分别为“6-26”、“5-6”、“3-29”和“2=3”,故化学键变化量,即第一数量为8。
[0136]
而第二原子映射数据对应的化学键断裂量为2,断建原子序号对分别为“20-36”和“22=23”,而化学键生成量为3,成键原子序号对分别为“22-23”、“12-20”和“9-23”,总化学键变化数量为5个,也就是第二数量为5。
[0137]
经比较,第二数量5小于第一数量8,则第一原子映射数据对应的原子映射关系不正确。则以第二原子映射数据更新该化学反应对应的原子映射数据。
[0138]
从化学反应的机理出发,该化学反应为亲核加成反应,因此产物位点使用的应为羰基碳,其化学结构变化示意图如图5所示,对应的是图4所示第二原子映射数据所反映的化学反应的原子映射,而第一原子映射数据对应的该产物位点的化学结构变化如图6所示,与该化学反应的化学反应机理不相符。
[0139]
在图1所示方法的基础上,结合图7~图9,本发明实施例提供又一种数据清洗方法,本发明实施例提供的方法中,第一原子映射数据为:[ch3:1][ch2:2][o:3][c:4](=[o:5])[nh:6][c:7]([nh:8][ch2:9][c:10]1[ch:11][ch:12][ch:13][ch:14][ch:15]1)=[s:21].[nh2:16][c:17]([ch3:18])([ch3:19])[ch3:20]》》[ch3:1][ch2:2][o:3][c:4](=[o:5])/[n:6]=[c:7](/[nh:8][ch2:9][c:10]1[ch:11][ch:12][ch:13][ch:14][ch:15]1)[nh:16][c:17]([ch3:18])([ch3:19])[ch3:20]。图7示出了第一原子映射数据所对应的化学反应的原子映射标识。
[0140]
而经反应映射模型处理得到的第二原子映射数据为:[ch3:1][ch2:2][o:3][c:4](=[o:5])[nh:6][c:7]([nh:8][ch2:9][c:10]1[ch:11][ch:12][ch:13][ch:14][ch:15]1)=[s:21].[nh2:16][c:17]([ch3:18])([ch3:19])[ch3:20]》》[ch3:1][ch2:2][o:3][c:4](=[o:5])/[n:6]=[c:7](/[nh:8][ch2:9][c:10]1[ch:11][ch:12][ch:13][ch:14][ch:15]1)[nh:16][c:17]([ch3:18])([ch3:19])[ch3:20]。图8示出了第二原子映射数据所对应的化学反应的原子映射标识。
[0141]
通过化学信息学工具分别对第一原子映射数据和第二原子映射数据进行信息提取,并经预设算法分别比较提取的信息后,第一原子映射数据对应的化学键断裂量为3,断键原子序号对分别为:“4-6”、“18-21”和“7=8”。而化学键生成量为3,成键原子序号对分别为:“7=21”、“4-21”和“6-18”总化学键变化数量为6,也就是第一数量为6。而第二原子映射
数据对应的化学键断裂量为2,断键原子序号对分别为:“7=21”及“6-7”,化学键生成量为2,成键原子序号对分别为:“7-16”及“6=7”,总化学键变化数量为4,也就是第二数量为4。经比较,第二数量4小于第一数量6,因此将原有映射判定为错误映射。
[0142]
从该化学反应的反应机理出发,在该反应过程中化学结构的变化示意图应如图9所示,在该化学反应的反应物侧,位点序号为16的原子与21号原子做席夫碱反应,随后双键应转移到了原子6和原子7之间。
[0143]
与图1所示的数据清洗方法相对应的,本发明实施例还提供了一种数据清洗装置,用于对图1中所示方法的具体实现,所述装置的结构示意图如图10所示,包括:
[0144]
第一获取单元301,用于当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;
[0145]
第二获取单元302,用于将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;
[0146]
第一确定单元303,用于确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;
[0147]
判断单元304,用于基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;
[0148]
清洗单元305,用于若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据清洗。
[0149]
基于本发明实施例提供的数据清洗装置,可在接收到指令时,获取化学反应当前的原子映射数据,并将该化学反应的反应字符串输入反应映射模型,获得经反应映射模型处理得到的原子映射数据。继而确定化学反应当前的原子映射数据所反映的化学过程中化学键的变化量,以及确定经反应映射模型处理得到的原子映射数据所反映的化学过程中化学键的变化量。基于两个原子映射数据所反映的化学键变化量,判断化学反应当前的原子映射数据所对应的原子映射关系是否正确,若不正确,则以处理得到的原子映射数据替换当前的原子映射数据,以对化学反应对应的原子映射信息进行数据清洗。应用本发明实施例提供的装置,可通过反应映射模型获得化学反应对应的原子映射数据,对化学反应当前基于规则标注得到的原子映射数据是否正确进行验证,若不正确则可进一步进行修正,可以提高化学反应的原子映射信息的准确度,避免给后续处理工作带来不良影响。另一方面,可满足反应数据库中大量数据的数据清洗工作。
[0150]
在上述装置的基础上,本发明实施例提供的装置中,还包括:
[0151]
第二确定单元,用于确定训练样本集,所述训练样本集包括多个样本化学反应对应的反应字符串和每个所述样本化学反应对应的原子映射数据;
[0152]
训练单元,用于基于所述训练样本集,对预构建的语言处理模型进行训练,并将训练完成的语言处理模型作为所述反应映射模型。
[0153]
在上述装置的基础上,本发明实施例提供的装置中,所述第一确定单元303,包括:
[0154]
第一确定子单元,用于确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息;每个所述反应物原子对应的连接信息包括,与该反应物原子相连接的每个反应物原子的信息;
[0155]
第二确定子单元,用于确定所述第一原子映射数据对应的每个生成物原子所对应的连接信息;每个所述生成物原子对应的连接信息包括,与该生成物原子相连接的每个生成物原子的信息;
[0156]
第三确定子单元,用于在各个所述生成物原子中,确定每个所述反应物原子对应的生成物原子;
[0157]
第四确定子单元,用于将每个所述反应物原子对应的连接信息与其对应的生成物原子所对应的连接信息进行比较,以确定每个所述生成物原子对应的化学键生成量及化学键断裂量;
[0158]
第五确定子单元,用于将各个所述生成物原子对应的化学键生成量及化学键断裂量进行求和运算,并将计算结果确定为所述第一数量。
[0159]
在上述装置的基础上,本发明实施例提供的装置中,所述第一确定子单元,包括:
[0160]
解析子单元,用于调用预设的化学信息学工具对所述第一原子映射数据进行解析,获得所述第一原子映射数据对应的解析数据;
[0161]
提取子单元,用于从所述解析数据提取每个所述反应物原子对应的标识信息,每个所述反应物原子对应的标识信息包括该反应物原子的标识以及与该反应物原子相连接的每个反应物原子的标识;
[0162]
第六确定子单元,用于将提取到的每个所述反应物原子对应的标识信息确定为每个所述反应物原子对应的连接信息。
[0163]
在上述装置的基础上,本发明实施例提供的装置中,所述判断单元304,包括:
[0164]
判断子单元,用于判断所述第二数量是否小于所述第一数量;
[0165]
第七确定子单元,用于若所述第二数量小于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系不正确。
[0166]
在上述装置的基础上,本发明实施例提供的装置中,所述判断单元304,还包括:
[0167]
第八确定子单元,用于若所述第二数量大于或等于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系正确。
[0168]
在上述装置的基础上,本发明实施例提供的装置中,还包括:
[0169]
数据保留单元,用于若所述第一原子映射数据对应的原子映射关系正确,则在所述原子映射信息中保留所述第一原子映射数据。
[0170]
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的数据清洗方法。
[0171]
本发明实施例还提供了一种电子设备,其结构示意图如图11所示,具体包括存储器401,以及一个或者一个以上的指令402,其中一个或者一个以上指令402存储于存储器401中,且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402进行以下操作:
[0172]
当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,基于预设标注规则
对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;
[0173]
将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;
[0174]
确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;
[0175]
基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;
[0176]
若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据清洗。
[0177]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0178]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0179]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献