技术新讯 > 计算推算,计数设备的制造及其应用技术 > 键值对路径生成方法、装置、电子设备和计算机可读介质与流程  >  正文

键值对路径生成方法、装置、电子设备和计算机可读介质与流程

  • 国知局
  • 2024-11-18 18:15:57

本公开的实施例涉及计算机,具体涉及键值对路径生成方法、装置、电子设备和计算机可读介质。

背景技术:

1、json(javascript object notation)文档的数据是一种轻量级的数据交换格式,其可用于各类业务的数据交换和解析领域。对于键值对路径的生成,通常采用的方式为:对半结构化信用信息集进行递归解析处理,得到键值对数据位置信息集。然后,对键值对数据位置信息集进行路径构建,得到键值对路径。最后,通过键值对路径提取半结构化信用信息集中的键值对数据并进行存储。

2、然而,实践中发现,当采用上述方式对键值对路径进行生成时,经常会存在如下技术问题一:由于半结构化数据会包含复杂的嵌套结构和异常数据,递归解析是在内存中对半结构化信用信息集进行解析,需要大量的内存资源,以及生成大量错误冗余的键值对路径,获取的键值对数据存在大量冗余和错误的数据,导致系统的负载较大,存储资源的浪费,延长键值对路径生成的时间,进而用户体验感较低。

3、在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题二:半结构化信用信息集中存在大量的语义相同但表达形式不同的信用信息,造成大量冗余信息的重复存储,导致存储资源的浪费。针对上述技术问题二,常规的解决方案一般是:确定半结构化信用信息中键值对关键词的余弦相似度,作为关键词相似度数值集。然后,对关键词相似度数值集中筛选出大于等于预设相似度阈值的至少一个关键词相似度对应的键值对关键词集进行去重和存储。然而,上述常规解决方案依然存在如下问题:仅通过关键词的余弦相似度确定键值对关键词之间的语义冗余,易造成关键词语义冗余的漏检和误检,半结构化信用信息集中存在大量冗余数据,造成存储资源的浪费。

4、在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题三:如何精准确定半结构化信用信息包括的键值对数据的提取路径,以提高提取键值对数据集的准确性和效率,缩短提取时间。针对上述技术问题三,常规的解决方案一般是:通过自然语言模型,提取半结构化信用信息中的语义特征,以生成键值对提取路径。然而,上述常规解决方案依然存在如下问题:通过自然语言模型生成键值对提取路径,由于自然语言模型仅提取半结构化信用信息的语义信息,缺乏键值对之间的嵌套层级关系,并且半结构化信用信息数据集中存在大量提取位置不同但语义相同的键值对数据,导致生成的键值对路径信息的准确度较低,提取时间较长、用户体验感较低和存储资源的浪费。

5、该背景技术部分中所公开的以上信息仅用于增强对本公开构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了键值对路径生成方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。

3、第一方面,本公开的一些实施例提供了一种键值对路径生成方法,包括:获取半结构化信用信息集;获取半结构化信用信息集,其中,上述半结构化信用信息集中的半结构信用信息为以json格式存储的用户信用状况信息和企业信用状况信息;对上述半结构化信用信息集中的每个半结构化信用信息进行数据结构校验处理,以生成数据结构校验结果,得到数据结构校验结果集;从上述数据结构校验结果集中筛选出表征校验不通过的至少一个数据结构校验结果,作为目标数据结构校验结果集;对上述目标数据结构校验结果集对应的半结构化信用信息集进行结构异常检测,得到结构异常信用信息集;对上述结构异常信用信息集中的每个结构异常信用信息进行语义替换处理,以生成半结构化语义信用信息,得到半结构化语义信用信息集;对上述半结构化语义信用信息集和表征校验通过的至少一个数据结构校验结果对应的半结构化信用信息集进行解析处理,得到解析后半结构化语义信用信息集和解析后半结构化信用信息集,作为解析后半结构化信用信息集;根据上述解析后半结构化信用信息集,生成键值对路径信息集;根据上述键值对路径信息集,提取上述解析后半结构化信用信息集包括的键值对组集的键值对数据集;将上述键值对路径信息集、上述键值对数据集和上述半结构化信用信息集存储至非关系型数据库中。

4、第二方面,本公开的一些实施例提供了一种键值对路径生成装置,包括:获取单元,被配置成获取半结构化信用信息集,其中,上述半结构化信用信息集中的半结构信用信息为以json格式存储的用户信用状况信息和企业信用状况信息;数据结构校验单元,被配置成对上述半结构化信用信息集中的每个半结构化信用信息进行数据结构校验处理,以生成数据结构校验结果,得到数据结构校验结果集;筛选单元,被配置成从上述数据结构校验结果集中筛选出表征校验不通过的至少一个数据结构校验结果,作为目标数据结构校验结果集;结构异常检测单元,被配置成对上述目标数据结构校验结果集对应的半结构化信用信息集进行结构异常检测,得到结构异常信用信息集;语义替换单元,被配置成对上述结构异常信用信息集中的每个结构异常信用信息进行语义替换处理,以生成半结构化语义信用信息,得到半结构化语义信用信息集;解析单元,被配置成对上述半结构化语义信用信息集和表征校验通过的至少一个数据结构校验结果对应的半结构化信用信息集进行解析处理,得到解析后半结构化语义信用信息集和解析后半结构化信用信息集,作为解析后半结构化信用信息集;生成单元,被配置成根据上述解析后半结构化信用信息集,生成键值对路径信息集;提取单元,被配置成根据上述键值对路径信息集,提取上述解析后半结构化信用信息集包括的键值对组集的键值对数据集;存储单元,被配置成将上述键值对路径信息集、上述键值对数据集和上述半结构化信用信息集存储至非关系型数据库中。

5、第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

6、第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

7、本公开的上述各个实施例中具有如下有益效果:本公开的一些实施例的键值对路径生成方法可以提高键值对数据的质量和键值对路径生成速率,减少存储资源的浪费,提高用户体验感。具体来说,造成相关的系统的负载较大,存储资源的浪费,延长键值对路径生成的时间,进而用户体验感较低的原因在于:由于半结构化数据会复杂的嵌套结构、结构类型多样和包含的异常数据,以及递归解析是在内存中对半结构化信用信息集进行解析,需要大量的内存资源,生成大量错误冗余的键值对路径,获取的键值对数据存在大量冗余和错误的数据,导致系统的负载较大,存储资源的浪费,延长键值对路径生成的时间,进而用户体验感较低。基于此,本公开的一些实施例的图像分割方法可以首先,获取半结构化信用信息集,其中,上述半结构化信用信息集中的半结构信用信息为以json格式存储的用户信用状况信息和企业信用状况信息。在这里,半结构化信用信息集用于后续进行数据结构校验。其次,对上述半结构化信用信息集中的每个半结构化信用信息进行数据结构校验处理,以生成数据结构校验结果,得到数据结构校验结果集。在这里,通过数据结构检验处理可以去除大量数据结构不符的异常数据,减少运算数据量和降低系统负载。再次,从上述数据结构校验结果集中筛选出表征校验不通过的至少一个数据结构校验结果,作为目标数据结构校验结果集。在这里,目标数据结构校验结果集用于后续进行结构和语义异常检测。接着,对上述目标数据结构校验结果集对应的半结构化信用信息集进行结构异常检测,得到结构异常信用信息集。在这里,可以去除存在结构异常的半结构化信用信息集,提高半结构化信用信息集的数据质量和减少数据量。随后,对上述结构异常信用信息集中的每个结构异常信用信息进行语义替换处理,以生成半结构化语义信用信息,得到半结构化语义信用信息集。在这里,对半结构化信用信息集进行从粗到细粒度的异常替换检测,可以提高半结构化信用信息的数据质量和减少运算数据量。之后,对上述半结构化语义信用信息集和表征校验通过的至少一个数据结构校验结果对应的半结构化信用信息集进行解析处理,得到解析后半结构化语义信用信息集和解析后半结构化信用信息集,作为解析后半结构化信用信息集。在这里,可以减少系统解析负载,以及便于了解半结构化信用信息的数据结构,便于后续生成键值对路径信息。然后,根据上述解析后半结构化信用信息集,生成键值对路径信息集。在这里,可以快速自动生成键值对路径信息,提高生成键值对路径信息的准确性。再然后,根据上述键值对路径信息集,提取上述解析后半结构化信用信息集包括的键值对组集的键值对数据集。在这里,可以提高提取键值对数据的速率和键值对数据的质量。最后,将上述键值对路径信息集、上述键值对数据集和上述半结构化信用信息集存储至非关系型数据库中。在这里,由于键值对路径信息和键值对数据的准确性较高,可以减少存储资源的浪费,以及便于后续提高提取数据的速率和减少提取时间,提高用户体验感。由此可得,该键值对路径生成方法通过对半结构化信用信息集进行异常检测,去除大量冗余错误数据,并通过数据解析自动快速生成精准的键值对路径,可以减少人工提取键值对路径的工作量,提高键值对路径生成速率和键值对数据的质量,减少存储资源的浪费,提高用户体验感。

本文地址:https://www.jishuxx.com/zhuanli/20241118/327896.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。