跨模态检索方法、装置、设备、存储介质及程序产品
- 国知局
- 2024-09-19 14:34:20
本发明涉及数据处理,尤其涉及一种跨模态检索方法、装置、设备、存储介质及程序产品。
背景技术:
1、随着互联网和社交媒体的快速发展,海量的信息正在依托文字、语音、图像、视频等多种模态的载体交叉传播,传统的基于关键字的信息检索方式已经难以满足人们日趋复杂的检索需要,跨模态检索模式应运而生。
2、现有技术中,为了实现跨模态检索,可以基于深度神经网络的端到端跨模态检索,即设计神经网络对不同模态的数据进行语义的理解和关联,通过衡量不同模态数据表示的相似度给出检索结果,这是一种较为朴素的深度学习方法,其关键在于深度神经网络的设计和优质训练数据的获取。
3、然而,由于深度神经网络的设计过程复杂且困难,需要考虑不同模态数据的特点和相互关系,同时还需要大规模的优质训练数据,因此,基于深度神经网络的端到端的跨模态检索方式很难实现。
技术实现思路
1、本技术提供一种跨模态检索方法、装置、电子设备及存储介质,用以解决基于深度神经网络的端到端的跨模态检索方式很难实现的问题。
2、本技术提供一种跨模态检索方法,包括:获取训练数据,所述训练数据包括第一数据和第二数据,所述第一数据为第一模态数据,所述第二数据为第二模态数据;确定所述第一数据的第一特征编码和所述第二数据的第二特征编码;基于所述第一特征编码确定第一模态哈希编码,基于所述第二特征编码确定第二模态哈希编码;将所述第一模态哈希编码和所述第二模态哈希编码对应存储到检索数据库;其中,所述检索数据库用于实现数据的跨模态检索。
3、根据本技术提供一种的跨模态检索方法,所述将所述第一模态哈希编码和所述第二模态哈希编码对应存储到检索数据库之后,所述方法还包括:获取用户输入的检索信息,所述检索信息为第一模态数据;确定所述检索信息的目标特征编码,并基于所述目标特征编码确定所述检索信息的目标哈希编码;计算所述目标哈希编码与所述检索数据库中每个第二模态哈希编码的汉明距离值;将汉明距离值最小的第二模态哈希编码确定为所述检索信息的检索目标。
4、根据本技术提供一种的跨模态检索方法,所述计算所述目标哈希编码与所述检索数据库中每个第二模态哈希编码的汉明距离值,包括:根据公式计算所述目标哈希编码与所述检索数据库中每个第二模态哈希编码的汉明距离值dist(bu,bv);其中,bu表示所述目标哈希编码,bv表示所述第二模态哈希编码,<bu,bv>表示所述目标哈希编码与所述第二模态哈希编码之间的点积运算,k为用于保证汉明距离值为正数的预设常数。
5、根据本技术提供一种的跨模态检索方法,所述第一数据为文本数据,所述获取训练数据包括:获取原始文本数据,所述原始文本数据包括多个离散字符串;对所述原始文本数据进行语句构造,生成语法完整的第一数据;其中,所述第一数据用于指示所述第二数据的类别信息和标签信息。
6、根据本技术提供一种的跨模态检索方法,所述基于所述第一特征编码确定第一模态哈希编码,基于所述第二特征编码确定第二模态哈希编码,包括:对所述第一特征编码进行降维处理,得到第一向量;将所述第一向量中的元素映射到第一数字区间,得到第一哈希编码;将所述第一哈希编码映射到第二数字区间,得到所述第一模态哈希编码;对所述第二特征编码进行降维处理,得到第二向量;将所述第二向量中的元素映射到所述第一数字区间,得到第二哈希编码;将所述第二哈希编码映射到所述第二数字区间,得到所述第二模态哈希编码;其中,所述第一数字区间为(-1,1),所述第二数字区间为{-1,+1}。
7、本技术还提供一种跨模态检索装置,包括:获取模块和处理模块;所述获取模块,用于获取训练数据,所述训练数据包括第一数据和第二数据,所述第一数据为第一模态数据,所述第二数据为第二模态数据;所述处理模块,用于确定所述第一数据的第一特征编码和所述第二数据的第二特征编码;基于所述第一特征编码确定第一模态哈希编码,基于所述第二特征编码确定第二模态哈希编码;将所述第一模态哈希编码和所述第二模态哈希编码对应存储到检索数据库;其中,所述检索数据库用于实现数据的跨模态检索。
8、根据本技术提供一种的跨模态检索装置,所述获取模块,用于获取用户输入的检索信息,所述检索信息为第一模态数据;所述处理模块,用于确定所述检索信息的目标特征编码,并基于所述目标特征编码确定所述检索信息的目标哈希编码;计算所述目标哈希编码与所述检索数据库中每个第二模态哈希编码的汉明距离值;将汉明距离值最小的第二模态哈希编码确定为所述检索信息的检索目标。
9、根据本技术提供一种的跨模态检索装置,所述处理模块,用于根据公式计算所述目标哈希编码与所述检索数据库中每个第二模态哈希编码的汉明距离值dist(bu,bv);其中,bu表示所述目标哈希编码,bv表示所述第二模态哈希编码,<bu,bv>表示所述目标哈希编码与所述第二模态哈希编码之间的点积运算,k为用于保证汉明距离值为正数的预设常数。
10、根据本技术提供一种的跨模态检索装置,所述第一数据为文本数据,所述获取模块,用于获取原始文本数据,所述原始文本数据包括多个离散字符串;对所述原始文本数据进行语句构造,生成语法完整的第一数据;其中,所述第一数据用于指示所述第二数据的类别信息和标签信息。
11、根据本技术提供一种的跨模态检索装置,所述处理模块,用于对所述第一特征编码进行降维处理,得到第一向量;将所述第一向量中的元素映射到第一数字区间,得到第一哈希编码;将所述第一哈希编码映射到第二数字区间,得到所述第一模态哈希编码;对所述第二特征编码进行降维处理,得到第二向量;将所述第二向量中的元素映射到所述第一数字区间,得到第二哈希编码;将所述第二哈希编码映射到所述第二数字区间,得到所述第二模态哈希编码;其中,所述第一数字区间为(-1,1),所述第二数字区间为{-1,+1}。
12、本技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述跨模态检索方法的步骤。
13、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述跨模态检索方法。
14、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述跨模态检索方法。
15、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述跨模态检索方法。
16、本技术提供的跨模态检索方法、装置、电子设备及存储介质,可以获取训练数据,所述训练数据包括第一数据和第二数据,所述第一数据为第一模态数据,所述第二数据为第二模态数据;确定所述第一数据的第一特征编码和所述第二数据的第二特征编码;基于所述第一特征编码确定第一模态哈希编码,基于所述第二特征编码确定第二模态哈希编码;将所述第一模态哈希编码和所述第二模态哈希编码对应存储到检索数据库;其中,所述检索数据库用于实现数据的跨模态检索。通过该方案,由于可以将不同模态的数据转换为哈希编码,并对应存储到检索数据库,因此,可以基于检索数据库实现数据的跨模态检索,如此,可以避免构建深度神经网络的繁琐,降低对训练数据的高要求,从而实现理解能力、泛化能力和可扩展性更强的检索模型。
本文地址:https://www.jishuxx.com/zhuanli/20240919/298909.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表