数据处理方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-07-31 23:24:27
本技术涉及数据管理,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术:
1、随着互联网、物联网、人工智能等技术的发展,数据的规模和多样性不断增加,对数据存储和管理的需求也越来越高。通常情况下,可基于关系型数据库rdbms(relationaldatabase management system)等对结构化数据进行管理,利用非关系型数据库nosql等对文档、列族等向量数据进行管理。
2、目前,在一些数据管理场景中,针对同一批数据中的结构化数据存储于结构化数据库中,非结构化数据存储于非结构化数据库中,如,对于一些文本数据,需要使用结构化存储来保存文本的元数据信息,同时,需要使用向量存储来保存文本的内容信息,使得对数据的存储、检索等处理效率较低。
3、因此,针对同时包括结构化和非结构化的数据,如何提高数据的处理效率是亟需解决的问题。
技术实现思路
1、为了提高数据处理效率,本技术提供了一种数据处理方法、装置、电子设备及存储介质。
2、第一方面,本技术提供了一种数据处理方法,包括:
3、提取待存储数据中的结构化数据和向量数据,确定所述向量数据对应的向量字段类型;
4、根据所述向量数据对应的向量字段类型在结构化数据表中确定对应的向量字段单元格,其中,所述向量字段单元格为预先定义的用于存储向量数据的数据列;
5、通过预设转换函数将所述向量数据以字节数组的形式写入所述结构化数据表的向量字段单元格,并确定所述向量数据对应的行标识写入所述结构化数据表的相应位置;
6、将所述待存储数据中的结构化数据写入所述结构化数据表中的相应数据列,并确定所述结构化数据对应的行标识写入所述结构化数据表的相应位置。
7、作为本技术实施例一种可选的实施方式,所述提取待存储数据中的结构化数据和向量数据,包括:
8、提取待存储数据中的结构化信息和特征信息;
9、将所述待存储数据中的结构化信息转换为结构化数据,将所述待存储数据中的特征信息转换为向量数据。
10、作为本技术实施例一种可选的实施方式,所述方法还包括:
11、接收数据检索命令,根据所述数据检索命令中的检索条件在所述结构化数据表中获取与所述检索条件相对应的目标行标识,所述目标行标识包括所述结构化数据的行标识和/或所述向量数据的行标识;
12、根据获取的所述目标行标识,在所述结构化数据表中确定与所述目标行标识对应的数据作为检索结果数据并输出。
13、作为本技术实施例一种可选的实施方式,所述目标行标识包括所述向量数据的行标识;所述根据获取的所述目标行标识,在所述结构化数据表中确定与所述目标行标识对应的数据作为检索结果数据并输出,包括:
14、根据获取的所述目标行标识,在所述结构化数据表中确定所述目标行标识对应的向量数据;
15、计算所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的相似度;
16、将所述相似度小于预设相似度的向量数据作为检索结果数据并输出。
17、作为本技术实施例一种可选的实施方式,所述计算所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的相似度,包括:
18、计算所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的欧几里德距离、曼哈顿距离、和/或余弦相似度;
19、根据所述欧几里德距离、曼哈顿距离、和/或余弦相似度,确定所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的相似度。
20、作为本技术实施例一种可选的实施方式,所述根据所述欧几里德距离、曼哈顿距离、和余弦相似度,确定所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的相似度,包括:
21、针对各目标行标识对应的向量数据,对所述欧几里德距离、曼哈顿距离、和余弦相似度进行加权求和,得到所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的相似度。
22、作为本技术实施例一种可选的实施方式,所述数据检索命令中包括结构化数据检索条件、向量检索条件、以及条件连接符;所述根据获取的所述目标行标识,在所述结构化数据表中确定与所述目标行标识对应的数据作为检索结果数据并输出,包括:
23、获取所述结构化数据的行标识和所述向量数据的行标识的并集,作为最终行标识集合,将所述最终行标识集合中的各行标识对应的数据作为检索结果数据并输出;或,
24、获取所述结构化数据的行标识和所述向量数据的行标识的交集,作为最终行标识集合,将所述最终行标识集合中的各行标识对应的数据作为检索结果数据并输出。
25、第二方面,本技术提供一种数据处理装置,包括:
26、提取模块,用于提取待存储数据中的结构化数据和向量数据,确定所述向量数据对应的向量字段类型;
27、确定模块,用于根据所述向量数据对应的向量字段类型在结构化数据表中确定对应的向量字段单元格,其中,所述向量字段单元格为预先定义的用于存储向量数据的单元格;
28、写入模块,用于通过预设转换函数将所述向量数据以字节数组的形式写入所述结构化数据表的向量字段单元格,并确定所述向量数据对应的行标识写入所述结构化数据表的相应位置;
29、所述写入模块,还用于将所述待存储数据中的结构化数据写入所述结构化数据表中的相应数据列,并确定所述结构化数据对应的行标识写入所述结构化数据表的相应位置。
30、作为本技术实施例一种可选的实施方式,所述提取模块,具体用于提取待存储数据中的结构化信息和特征信息;
31、将所述待存储数据中的结构化信息转换为结构化数据,将所述待存储数据中的特征信息转换为向量数据。
32、作为本技术实施例一种可选的实施方式,所述装置还包括:
33、检索模块,用于接收数据检索命令,根据所述数据检索命令中的检索条件在所述结构化数据表中获取与所述检索条件相对应的目标行标识,所述目标行标识包括所述结构化数据的行标识和/或所述向量数据的行标识;
34、根据获取的所述目标行标识,在所述结构化数据表中确定与所述目标行标识对应的数据作为检索结果数据并输出。
35、作为本技术实施例一种可选的实施方式,所述检索模块,具体用于根据获取的所述目标行标识,在所述结构化数据表中确定所述目标行标识对应的向量数据;
36、计算所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的相似度;
37、将所述相似度小于预设相似度的向量数据作为检索结果数据并输出。
38、作为本技术实施例一种可选的实施方式,所述检索模块,具体用于计算所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的欧几里德距离、曼哈顿距离、和/或余弦相似度;
39、根据所述欧几里德距离、曼哈顿距离、和/或余弦相似度,确定所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的相似度。
40、作为本技术实施例一种可选的实施方式,所述检索模块,具体用于针对各目标行标识对应的向量数据,对所述欧几里德距离、曼哈顿距离、和余弦相似度进行加权求和,得到所述向量数据检索条件中的检索向量与所述各目标行标识对应的向量数据之间的相似度。
41、作为本技术实施例一种可选的实施方式,所述数据检索命令中包括结构化数据检索条件、向量检索条件、以及条件连接符;所述检索模块,具体用于获取所述结构化数据的行标识和所述向量数据的行标识的并集,作为最终行标识集合,将所述最终行标识集合中的各行标识对应的数据作为检索结果数据并输出;或,
42、获取所述结构化数据的行标识和所述向量数据的行标识的交集,作为最终行标识集合,将所述最终行标识集合中的各行标识对应的数据作为检索结果数据并输出。
43、第三方面,本技术实施例提供一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于在调用计算机程序时执行第一方面或第一方面任一种可选的实施方式所述的数据处理方法。
44、第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第一方面任一种可选的实施方式所述的数据处理方法。
45、本技术实施例提供的技术方案与现有技术相比具有如下优点:
46、本技术实施例提供的数据处理方法包括:提取待存储数据中的结构化数据和向量数据,确定所述向量数据对应的向量字段类型;根据所述向量数据对应的向量字段类型在结构化数据表中确定对应的向量字段单元格,其中,所述向量字段单元格为预先定义的用于存储向量数据的数据列;通过预设转换函数将所述向量数据以字节数组的形式写入所述结构化数据表的向量字段单元格,并确定所述向量数据对应的行标识写入所述结构化数据表的相应位置;将所述待存储数据中的结构化数据写入所述结构化数据表中的相应数据列,并确定所述结构化数据对应的行标识写入所述结构化数据表的相应位置。本技术实施例通过将向量数据以字节数组的形式写入结构化数据表,可实现同一个数据管理系统中同时支持结构化数据存储与向量数据存储,无需进行数据转换或迁移,简化了数据处理的流程和成本,提升了数据处理效率。
本文地址:https://www.jishuxx.com/zhuanli/20240730/197384.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表