技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于图片的文字识别搜索方法及系统与流程 > 正文

用于图片的文字识别搜索方法及系统与流程

国知局
2024-07-31 22:47:30

本发明涉及图片搜索技术，尤其涉及一种用于图片的文字识别搜索方法及系统。

背景技术：

1、随着数字图像处理和互联网技术的快速发展；图片数据量呈现爆炸式增长。传统的图片搜索方法主要基于图片的视觉内容进行检索；如颜色、纹理、形状等低层次特征；但这些特征难以准确表达图片的语义信息；导致搜索结果与用户需求存在差距。为了提高图片搜索精准度；研究者开始探索利用图片中的文字信息辅助搜索。然而；传统文字识别技术主要针对扫描版文档图像；对自然场景图片的文字识别效果较差。近年来；深度学习技术的兴起为图片文字识别带来了新的突破；基于卷积神经网络和循环神经网络的算法能够有效地从复杂背景的图片中定位和提取文字信息。

2、尽管深度学习文字识别算法取得了进展；但现有算法主要关注文字内容本身；对文字位置、大小、字体等属性信息的利用不足；导致在构建图片搜索索引时无法充分利用文字的视觉特征。此外；现有的图片搜索系统大多采用简单的关键词匹配方式；难以处理用户输入的长句搜索请求；影响了搜索的灵活性和准确性。

3、综上所述，需要一种新的用于图片的文字识别搜索方法；能够同时利用文字的内容信息和视觉特征；构建高效的图片搜索索引；并能灵活处理用户输入的自然语言搜索请求，本发明能够解决现有技术中的问题。

技术实现思路

1、本发明实施例提供一种用于图片的文字识别搜索方法及系统，能够解决现有技术中的问题。

2、本发明实施例的第一方面，

3、提供一种用于图片的文字识别搜索方法，包括：

4、接收待搜索图片，对所述待搜索图片进行预处理，得到预处理图片，所述预处理包括图像去噪、图像增强和图像分割；利用文字识别模型对所述预处理图片进行文字识别，得到文字识别结果，所述文字识别结果包括文字内容、文字位置和文字置信度；

5、根据所述文字位置，提取所述预处理图片中对应位置的文字图片特征向量，基于所述文字内容，结合所述文字置信度，确定文字置信度内容向量；基于所述文字图片特征向量和所述文字置信度内容向量，构建文字图片融合特征，确定所述文字内容、所述文字图片融合特征和所述预处理图片的映射关系，构建图片搜索索引；

6、接收搜索文字，对所述搜索文字进行分词和语义分析，得到查询融合向量；在所述图片搜索索引中，通过计算所述查询融合向量与文字图片融合特征的相似度，确定匹配结果，基于所述匹配结果，根据所述文字图片融合特征与所述预处理图片的映射关系，提取所述预处理图片对应的待搜索图片作为图片搜索结果。

7、在一种可选的实施例中，

8、接收待搜索图片，对所述待搜索图片进行预处理，得到预处理图片包括：

9、对所述待搜索图片进行自适应小波阈值去噪，通过构建小波系数的概率模型，利用贝叶斯估计确定最优小波阈值，对小波系数进行自适应阈值处理，并进行小波重构，得到去噪图像；

10、对所述去噪图像进行自适应直方图均衡化处理，通过计算所述去噪图像的灰度直方图，确定局部区域的累积分布函数，基于所述累积分布函数，自适应地调整局部区域的灰度映射关系，得到增强图像；

11、通过超像素分割算法将所述增强图像分割为多个超像素，确定超像素间的相似度矩阵作为无向图的边权重，构建超像素图割无向图，结合文字区域预先设定的概率分布，通过最大流最小割算法求解所述超像素图割无向图的全局最优解，获得文字区域的分割结果，得到所述预处理图片。

12、在一种可选的实施例中，

13、结合文字区域预先设定的概率分布，通过最大流最小割算法求解所述超像素图割无向图的全局最优解，获得文字区域的分割结果包括：

14、在所述超像素图割无向图中引入源点和汇点，结合文字区域预先设定的概率分布，为每个超像素节点分配初始流量，并将超像素节点分别与源点、汇点连接，形成初始流量网络；

15、基于所述初始流量网络，初始化每个节点的距离标号，根据所述节点的超额流量动态调整推送策略，选择满足条件的出边推送超额流量，更新边的残余容量和节点的超额流量；根据所述节点的距离标号动态调整重贴标签策略，更新无法执行推送操作的节点的距离标号；

16、在达到最大流后，基于距离标号和残余网络，通过深度优先搜索算法标记源点可达的节点，将未被标记的节点集合作为最小割集；

17、根据所述最小割集对应的超像素标记，采用区域生长算法进行超像素合并，得到文字区域的分割结果。

18、在一种可选的实施例中，

19、利用文字识别模型对所述预处理图片进行文字识别，得到文字识别结果包括：

20、将所述预处理图片输入增强注意力卷积神经网络，通过卷积层确定卷积特征图，将通过空间注意力机制生成的空间注意力图与所述卷积特征图逐元素相乘，自适应调整所述卷积特征图各位置的权重，突出文字区域的初级特征，再将通道注意力机制生成的通道注意力向量与所述卷积特征图逐通道相乘，自适应调整所述卷积特征图各通道的权重，从所述初级特征中提取关键特征，确定增强特征图；

21、将所述增强特征图输入双向注意力门控循环单元，在正反两个时间方向上，对所述增强特征图进行编码，通过当前时间步的编码器隐藏状态和所述增强特征图计算编码器注意力权重，获得编码器注意力上下文向量，并与编码器当前输入、前一时间步的隐藏状态相融合，更新编码器隐藏状态，获得上下文关联特征序列；

22、将所述上下文关联特征序列输入单向注意力门控循环单元，在每个时间步，通过当前解码器隐藏状态与所述上下文关联特征序列计算解码器注意力权重，获得解码器注意力上下文向量，并与当前解码器隐藏状态融合，获得更新解码器隐藏状态，通过全连接层和softmax函数，生成字符概率分布序列；

23、按照预设的候选序列数量，构建空的候选序列集合，基于所述字符概率分布序列的每一个时间步，根据当前候选序列的得分和长度惩罚因子，从当前字符概率分布中，按照所述候选序列数量，选取得分最高的候选字符，生成新的候选序列，放入所述候选序列集合中，直到达到最大时间步，从最终的候选序列集合中，选取得分最高的候选序列，作为文字识别结果。

24、在一种可选的实施例中，

25、候选序列的得分，其计算公式如下：

26、；

27、其中， y表示候选序列序数，score( y)表示候选序列 y的得分，len( y)表示候选序列的时间步总长度， t表示时间步序数， p( yt| y<t, x)表示在给定输入图 x和之前生成的字符序列 y<t的条件下，生成字符 yt的概率，(len( y)+1)α表示长度惩罚因子， α表示长度惩罚因子的超参数。

28、在一种可选的实施例中，

29、根据所述文字位置，提取所述预处理图片中对应位置的文字图片特征向量，基于所述文字内容，结合所述文字置信度，确定文字置信度内容向量；基于所述文字图片特征向量和所述文字置信度内容向量，构建文字图片融合特征，确定所述文字内容、所述文字图片融合特征和所述预处理图片的映射关系，构建图片搜索索引包括：

30、根据所述文字位置，提取所述预处理图片中对应位置的文字图片特征向量，基于所述文字内容，结合所述文字置信度，确定文字置信度内容向量；基于所述文字图片特征向量和所述文字置信度内容向量，构建文字图片融合特征，确定所述文字内容到所述文字图片融合特征的映射关系，构建图片搜索索引。

31、根据所述文字识别结果中的文字位置，将文字位置映射到预处理图片对应的尺度，获得对应文字在所述预处理图片中的边界框坐标，根据所述边界框坐标，从所述预处理图片中裁剪出对应的文字图片区域，对所述文字图片区域进行尺度归一化，调整为预设的固定大小，使用预训练的卷积神经网络对归一化后的文字图片区域提取特征，得到文字图片特征向量；

32、对所述文字识别结果中的文字内容，应用one-hot向量表示，构建文字内容向量，基于所述文字识别结果中的文字置信度，对所述文字内容向量进行加权处理，得到文字置信度内容向量；

33、将所述文字置信度内容向量和对应的所述文字图片特征向量进行拼接，生成融合特征向量，对所述融合特征向量进行l2归一化，得到文字图片融合特征；

34、对所有所述文字识别结果中文字内容进行遍历，提取所有唯一的文字内容，并为每个唯一的文字内容分配一个唯一的编号，以文字内容作为索引键，编号作为索引值，构建词典；将所述文字内容对应的预处理图片按照与所述文字图片融合特征的关联性得分进行倒序排列，构建倒排列表，根据所述文字内容在所述词典中获取对应的编号，将所述倒排列表与所述编号建立一一映射，构建图片搜索索引。

35、在一种可选的实施例中，

36、接收搜索文字，对所述搜索文字进行分词和语义分析，得到查询融合向量；在所述图片搜索索引中，通过计算所述查询融合向量与文字图片融合特征的相似度，确定匹配结果，基于所述匹配结果，根据所述文字图片融合特征与所述预处理图片的映射关系，提取所述预处理图片对应的待搜索图片作为图片搜索结果包括：

37、对所述搜索文字进行分词，得到查询词列表，基于所述查询词列表中的每个查询词，通过词向量模型获取对应的词向量，获得查询词向量列表；

38、对所述搜索文字进行语义分析，得到查询语义向量；

39、将所述查询词向量列表与所述查询语义向量进行融合，得到所述查询融合向量；

40、计算所述查询融合向量与所述图片搜索索引中每个文字图片融合特征的余弦相似度，并按照所述余弦相似度进行排序，按照预设的相似度阈值，选取候选匹配结果；

41、根据所述候选匹配结果与所述预处理图片的映射关系，提取对应的预处理图片，提取所述预处理图片对应的待搜索图片，构成图片搜索结果。

42、提供一种用于图片的文字识别搜索系统，包括：

43、第一单元，用于接收待搜索图片，对所述待搜索图片进行预处理，得到预处理图片，所述预处理包括图像去噪、图像增强和图像分割；利用文字识别模型对所述预处理图片进行文字识别，得到文字识别结果，所述文字识别结果包括文字内容、文字位置和文字置信度；

44、第二单元，用于根据所述文字位置，提取所述预处理图片中对应位置的文字图片特征向量，基于所述文字内容，结合所述文字置信度，确定文字置信度内容向量；基于所述文字图片特征向量和所述文字置信度内容向量，构建文字图片融合特征，确定所述文字内容、所述文字图片融合特征和所述预处理图片的映射关系，构建图片搜索索引；

45、第三单元，用于接收搜索文字，对所述搜索文字进行分词和语义分析，得到查询融合向量；在所述图片搜索索引中，通过计算所述查询融合向量与文字图片融合特征的相似度，确定匹配结果，基于所述匹配结果，根据所述文字图片融合特征与所述预处理图片的映射关系，提取所述预处理图片对应的待搜索图片作为图片搜索结果。

46、本发明实施例的第三方面，

47、提供一种电子设备，包括：

48、处理器；

49、用于存储处理器可执行指令的存储器；

50、其中，所述处理器被配置为调用所述存储器存储的指令，以执行前述所述的方法。

51、本发明实施例的第四方面，

52、提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前述所述的方法。

53、在本发明中，通过引入源点和汇点，结合预先设定的概率分布，以最大流最小割算法为基础，在超像素图割无向图中获得全局最优的文字区域分割结果，精确地将图像中的文字区域和非文字区域进行区分；通过最大流最小割算法，保证了得到的分割方案是全局最优的，使文字区域分割结果不会受到局部极值点的影响，提高了算法的稳健性和可靠性；在推送策略和重贴标签策略中采用了动态调整的方法，根据节点的超额流量和距离标号动态调整算法参数，使算法具有适应性和鲁棒性，在不同场景下都能取得良好的文字区域分割效果；通过增强注意力卷积神经网络，结合空间注意力和通道注意力机制，能够自适应调整卷积特征图的权重，突出文字区域的初级特征，提高了特征提取的准确性和稳健性；引入长度惩罚因子，可以有效地惩罚较长的序列，避免过度偏向长序列而忽略生成质量，有助于提高模型生成短序列的能力，并平衡了序列的长度和质量之间的关系；将文字图片特征和置信度内容结合起来，形成一个多模态融合的表示，综合利用了文字的视觉信息和语义信息，提高了文字识别的准确性和鲁棒性。