一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据清洗方法及装置、存储介质及电子设备与流程

2022-12-20 20:30:29 来源:中国专利 TAG:

技术特征:
1.一种数据清洗方法,其特征在于,包括:当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据清洗。2.根据权利要求1所述的方法,其特征在于,所述反应映射模型的建立过程,包括:确定训练样本集,所述训练样本集包括多个样本化学反应对应的反应字符串和每个所述样本化学反应对应的原子映射数据;基于所述训练样本集,对预构建的语言处理模型进行训练,并将训练完成的语言处理模型作为所述反应映射模型。3.根据权利要求1所述的方法,其特征在于,所述确定第一数量,包括:确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息;每个所述反应物原子对应的连接信息包括,与该反应物原子相连接的每个反应物原子的信息;确定所述第一原子映射数据对应的每个生成物原子所对应的连接信息;每个所述生成物原子对应的连接信息包括,与该生成物原子相连接的每个生成物原子的信息;在各个所述生成物原子中,确定每个所述反应物原子对应的生成物原子;将每个所述反应物原子对应的连接信息与其对应的生成物原子所对应的连接信息进行比较,以确定每个所述生成物原子对应的化学键生成量及化学键断裂量;将各个所述生成物原子对应的化学键生成量及化学键断裂量进行求和运算,并将计算结果确定为所述第一数量。4.根据权利要求3所述的方法,其特征在于,所述确定所述第一原子映射数据对应的每个反应物原子所对应的连接信息,包括:调用预设的化学信息学工具对所述第一原子映射数据进行解析,获得所述第一原子映射数据对应的解析数据;从所述解析数据提取每个所述反应物原子对应的标识信息,每个所述反应物原子对应的标识信息包括该反应物原子的标识以及与该反应物原子相连接的每个反应物原子的标识;将提取到的每个所述反应物原子对应的标识信息确定为每个所述反应物原子对应的连接信息。5.根据权利要求1所述的方法,其特征在于,所述判断所述第一原子映射数据对应的原
子映射关系是否正确,包括:判断所述第二数量是否小于所述第一数量;若所述第二数量小于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系不正确。6.根据权利要求5所述的方法,其特征在于,还包括:若所述第二数量大于或等于所述第一数量,则确定所述第一原子映射数据对应的原子映射关系正确。7.根据权利要求1所述的方法,其特征在于,还包括:若所述第一原子映射数据对应的原子映射关系正确,则在所述原子映射信息中保留所述第一原子映射数据。8.一种数据清洗装置,其特征在于,包括:第一获取单元,用于当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前所述原子映射信息中包含的第一原子映射数据,所述第一原子映射数据为,基于预设标注规则对反应字符串进行原子映射标注处理所得到的字符串,所述反应字符串为所述化学反应对应的简化分子线性输入规范字符串;第二获取单元,用于将所述反应字符串输入预先建立的反应映射模型,经所述反应映射模型处理后,获得所述化学反应对应的第二原子映射数据;第一确定单元,用于确定第一数量和第二数量,所述第一数量为所述第一原子映射数据对应的化学键变化量,所述第二数量为所述第二原子映射数据对应的化学键变化量;判断单元,用于基于所述第一数量和所述第二数量,判断所述第一原子映射数据对应的原子映射关系是否正确;清洗单元,用于若所述第一原子映射数据对应的原子映射关系不正确,则将所述原子映射信息中包含的第一原子映射数据替换为所述第二原子映射数据,以对所述原子映射信息进行数据清洗。9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~7任意一项所述的数据清洗方法。10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~7任意一项所述的数据清洗方法。

技术总结
本发明提供一种数据清洗方法及装置、存储介质及电子设备,该方法包括:当接收到对化学反应对应的原子映射信息进行数据清洗的指令时,获取当前原子映射信息中包含的第一原子映射数据,将所述化学反应对应的反应字符串输入预先建立的反应映射模型,获得第二原子映射数据;确定第一数量和第二数量,并基于第一数量和第二数量,判断第一原子映射数据对应的原子映射关系是否正确;若第一原子映射数据对应的原子映射关系不正确,则将原子映射信息中包含的第一原子映射数据替换为第二原子映射数据,以对原子映射信息进行数据清洗。应用本发明的方法,可对原子映射信息进行验证及修正,提高原子映射信息的准确度。原子映射信息的准确度。原子映射信息的准确度。


技术研发人员:夏宁 王正权
受保护的技术使用者:武汉智化科技有限公司
技术研发日:2021.06.17
技术公布日:2022/12/19
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献