技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文本识别方法及装置与流程  >  正文

文本识别方法及装置与流程

  • 国知局
  • 2024-09-05 14:30:26

本技术涉及计算机领域,尤其涉及一种文本识别方法及装置。

背景技术:

1、随着深度学习在文本识别领域的发展,越来越强大的文本识别器逐步被提出,文本识别的性能指标也逐步提升。

2、然而,这些文本识别器大多数都有着复杂和庞大的模型结构,并无法做到本地化部署,只能部署在服务端利用gpu(graphics processing unit,图形处理器)进行加速推理部署。

技术实现思路

1、本技术提供了一种文本识别方法及装置,以解决现有技术中的文本识别器的结构复杂且庞大,无法做到本地化部署,从而无法满足用户本地化部署需求的技术问题。

2、第一方面,本技术提供了一种文本识别方法,所述方法包括:

3、获取待识别文本图像;

4、对所述待识别文本图像进行特征提取,得到所述待识别文本图像的初始特征图;

5、对所述初始特征图进行特征通道扩展处理,将所述初始特征图扩展为多通道特征图;

6、从所述多通道特征图中提取出所述待识别文本图像的高级特征;

7、根据所述高级特征确定所述待识别文本图像中包括的文本字符。

8、在一可能的实施方式中,所述对所述初始特征图进行特征通道扩展处理,将所述初始特征图扩展为多通道特征图,包括:

9、利用已训练的文本识别模型中的渐进式特征通道扩展网络对所述初始特征图进行特征通道扩展处理,将所述初始特征图逐步地扩展为多通道特征图。

10、在一可能的实施方式中,所述渐进式特征通道扩展模块包括n个顺次连接的特征通道扩展子模块,其中,所述n为大于1的自然数,第i个特征通道扩展子模块中卷积核的数量高于第i-1个特征通道扩展子模块中卷积核的数量,所述i在[2,n]的整数区间范围内逐一取值;所述利用已训练的文本识别模型中的渐进式特征通道扩展网络对所述初始特征图进行特征通道扩展处理,将所述初始特征图逐步地扩展为多通道特征图,包括:

11、利用所述渐进式特征通道扩展模块中的第1个特征通道扩展子模块对所述初始特征图进行特征通道扩展处理,得到第1个特征通道扩展结果;

12、利用所述渐进式特征通道扩展模块中的第i个特征通道扩展子模块对第i-1个特征通道扩展结果进行特征通道扩展处理,得到第i个特征通道扩展结果;

13、将所述渐进式特征通道扩展模块中的第n个特征通道扩展子模块得到的第n个特征通道扩展结果确定为所述多通道特征图。

14、在一可能的实施方式中,所述特征通道扩展子模块包括:深度卷积子模块和逐点卷积子模块;所述利用所述渐进式特征通道扩展模块中的第i个特征通道扩展子模块对第i-1个特征通道扩展结果进行特征通道扩展处理,得到第i个特征通道扩展结果,包括:

15、利用所述第i个特征通道扩展子模块中的所述深度卷积子模块对所述第i-1个特征通道扩展结果进行深度卷积处理,得到第i个深度卷积结果;

16、利用所述第i个特征通道扩展子模块中的所述逐点卷积子模块对所述第i个深度卷积结果进行逐点卷积处理,得到所述第i个特征通道扩展结果。

17、在一可能的实施方式中,所述从所述多通道特征图中提取出所述待识别文本图像的高级特征,包括:

18、利用已训练的文本识别模型中的特征增强网络对所述多通道特征图进行特征增强处理,得到所述多通道特征图的特征增强图;

19、利用所述文本识别模型中的高级特征提取网络对所述特征增强图进行特征提取,得到所述待识别文本图像的高级特征。

20、在一可能的实施方式中,所述特征增强网络包括m个顺次连接的特征增强模块,所述m为大于1的自然数;所述利用已训练的文本识别模型中的特征增强网络对所述多通道特征图进行特征增强处理,得到所述多通道特征图的特征增强图,包括:

21、利用所述特征增强网络中的第1个特征增强模块对所述多通道特征图进行特征增强处理,得到第1个特征增强结果;

22、利用所述特征增强网络中的第j个特征增强模块对第j-1个特征增强结果进行特征增强处理,得到第j个特征增强结果;所述j在[2,m]的整数区间范围内逐一取值;

23、将所述特征增强网络中的第m个特征增强模块得到的第m个特征增强结果确定为所述特征增强图。

24、在一可能的实施方式中,所述高级特征提取网络包括深度卷积模块、注意力模块以及逐点卷积模块,所述利用所述文本识别模型中的高级特征提取网络对所述特征增强图进行特征提取,得到所述待识别文本图像的高级特征,包括:

25、利用所述深度卷积模块对所述特征增强图进行深度卷积处理,得到深度卷积结果;

26、利用所述注意力模块对所述深度卷积结果进行注意力学习,得到注意力学习结果;

27、利用所述逐点卷积模块对所述注意力学习结果进行逐点卷积处理,得到所述待识别文本图像的高级特征。

28、在一可能的实施方式中,所述文本识别模型通过以下方式训练得到:

29、获取原始文本图像集;

30、针对所述原始文本图像集中的每一张原始文本图像执行以下处理:将所述原始文本图像旋转设定角度,并利用两种不同的图像增强方式分别对角度旋转后的原始文本图像进行图像增强处理,得到所述原始文本图像对应的一组训练样本图像;

31、将该组训练样本图像输入至待训练的文本识别模型,得到该组训练样本图像中每张训练样本图像的图像特征;

32、对该组训练样本图像中每张所述训练样本图像的图像特征进行对比学习,得到对比学习结果,并确定该组训练样本图像中每张所述训练样本图像的预测角度;

33、根据所述对比学习结果、所述预测角度与所述设定角度之间的差异值,对所述文本识别模型的模型参数进行调整,直至所述文本识别模型收敛。

34、在一可能的实施方式中,所述对该组训练样本图像中每张所述训练样本图像的图像特征进行对比学习,得到对比学习结果,包括:

35、对该组训练样本图像中的每张所述训练样本图像的图像特征分别进行特征映射处理,得到第一映射特征和第二映射特征;

36、对所述第一映射特征和第二映射特征分别进行特征预测处理,得到所述第一预测结果和第二预测结果,所述第一预测结果对应所述第一映射特征,所述第二预测结果对应所述第二映射特征;

37、确定所述第一映射特征和所述第二预测结果之间的第一余弦相似度损失值,以及确定所述第二映射特征和所述第一预测结果之间的第二余弦相似度损失值;

38、将所述第一余弦相似度损失值和所述第二余弦相似度损失值之间的和值确定为所述对比学习结果。

39、第二方面,本技术提供了一种文本识别装置,所述装置包括:

40、获取模块,用于获取待识别文本图像;

41、初始特征提取模块,用于对所述待识别文本图像进行特征提取,得到所述待识别文本图像的初始特征图;

42、特征扩展模块,用于对所述初始特征图进行特征通道扩展处理,将所述初始特征图扩展为多通道特征图;

43、高级特征提取模块,用于从所述多通道特征图中提取出所述待识别文本图像的高级特征;

44、文本识别模块,用于根据所述高级特征确定所述待识别文本图像中包括的文本字符。

45、在一可能的实施方式中,所述特征扩展模块,具体用于:

46、利用已训练的文本识别模型中的渐进式特征通道扩展网络对所述初始特征图进行特征通道扩展处理,将所述初始特征图逐步地扩展为多通道特征图。

47、在一可能的实施方式中,所述渐进式特征通道扩展模块包括n个顺次连接的特征通道扩展子模块,其中,所述n为大于1的自然数,第i个特征通道扩展子模块中卷积核的数量高于第i-1个特征通道扩展子模块中卷积核的数量,所述i在[2,n]的整数区间范围内逐一取值;所述特征扩展模块,具体用于:

48、利用所述渐进式特征通道扩展模块中的第1个特征通道扩展子模块对所述初始特征图进行特征通道扩展处理,得到第1个特征通道扩展结果;

49、利用所述渐进式特征通道扩展模块中的第i个特征通道扩展子模块对第i-1个特征通道扩展结果进行特征通道扩展处理,得到第i个特征通道扩展结果;

50、将所述渐进式特征通道扩展模块中的第n个特征通道扩展子模块得到的第n个特征通道扩展结果确定为所述多通道特征图。

51、在一可能的实施方式中,所述特征通道扩展子模块包括:深度卷积子模块和逐点卷积子模块;所述特征扩展模块,具体用于:

52、利用所述第i个特征通道扩展子模块中的所述深度卷积子模块对所述第i-1个特征通道扩展结果进行深度卷积处理,得到第i个深度卷积结果;

53、利用所述第i个特征通道扩展子模块中的所述逐点卷积子模块对所述第i个深度卷积结果进行逐点卷积处理,得到所述第i个特征通道扩展结果。

54、在一可能的实施方式中,所述高级特征提取模块,包括:

55、特征增强单元,用于利用已训练的文本识别模型中的特征增强网络对所述多通道特征图进行特征增强处理,得到所述多通道特征图的特征增强图;

56、特征提取单元,用于利用所述文本识别模型中的高级特征提取网络对所述特征增强图进行特征提取,得到所述待识别文本图像的高级特征。

57、在一可能的实施方式中,所述特征增强网络包括m个顺次连接的特征增强模块,所述m为大于1的自然数;所述特征增强单元,具体用于:

58、利用所述特征增强网络中的第1个特征增强模块对所述多通道特征图进行特征增强处理,得到第1个特征增强结果;

59、利用所述特征增强网络中的第j个特征增强模块对第j-1个特征增强结果进行特征增强处理,得到第j个特征增强结果;所述j在[2,m]的整数区间范围内逐一取值;

60、将所述特征增强网络中的第m个特征增强模块得到的第m个特征增强结果确定为所述特征增强图。

61、在一可能的实施方式中,所述高级特征提取网络包括深度卷积模块、注意力模块以及逐点卷积模块,所述特征提取单元,具体用于:

62、利用所述深度卷积模块对所述特征增强图进行深度卷积处理,得到深度卷积结果;

63、利用所述注意力模块对所述深度卷积结果进行注意力学习,得到注意力学习结果;

64、利用所述逐点卷积模块对所述注意力学习结果进行逐点卷积处理,得到所述待识别文本图像的高级特征。

65、在一可能的实施方式中,所述装置还包括:

66、模型训练模块,用于通过以下方式训练得到所述文本识别模型:

67、获取原始文本图像集;

68、针对所述原始文本图像集中的每一张原始文本图像执行以下处理:将所述原始文本图像旋转设定角度,并利用两种不同的图像增强方式分别对角度旋转后的原始文本图像进行图像增强处理,得到所述原始文本图像对应的一组训练样本图像;

69、将该组训练样本图像输入至待训练的文本识别模型,得到该组训练样本图像中每张训练样本图像的图像特征;

70、对该组训练样本图像中每张所述训练样本图像的图像特征进行对比学习,得到对比学习结果,并确定该组训练样本图像中每张所述训练样本图像的预测角度;

71、根据所述对比学习结果、所述预测角度与所述设定角度之间的差异值,对所述文本识别模型的模型参数进行调整,直至所述文本识别模型收敛。

72、在一可能的实施方式中,所述模型训练模块,包括:

73、对比学习单元,用于对该组训练样本图像中的每张所述训练样本图像的图像特征分别进行特征映射处理,得到第一映射特征和第二映射特征;

74、对所述第一映射特征和第二映射特征分别进行特征预测处理,得到所述第一预测结果和第二预测结果,所述第一预测结果对应所述第一映射特征,所述第二预测结果对应所述第二映射特征;

75、确定所述第一映射特征和所述第二预测结果之间的第一余弦相似度损失值,以及确定所述第二映射特征和所述第一预测结果之间的第二余弦相似度损失值;

76、将所述第一余弦相似度损失值和所述第二余弦相似度损失值之间的和值确定为所述对比学习结果。

77、第三方面,本技术提供了一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的文本识别程序,以实现第一方面中任一项所述的文本识别方法。

78、第四方面,本技术提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的文本识别方法。

79、本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例提供的该方法,通过获取待识别文本图像,对待识别文本图像进行特征提取,得到待识别文本图像的初始特征图,对初始特征图进行特征通道扩展处理,将初始特征图扩展为多通道特征图,可以实现从待识别文本图像中提取出更多、更复杂的特征;进一步的,通过从多通道特征图中提取出待识别文本图像的高级特征,根据高级特征确定待识别文本图像中包括的文本字符,一方面由于高级特征能够更好地描述文本图像的内容,因此从多通道特征图中提取出待识别文本图像的高级特征有助于更好地理解和识别待识别文本图像中的文本字符,另一方面由于高级特征相较于多通道特征图而言通道数减少,那么高级特征提取层将具有较少的卷积核数目,如此则实现了先降低卷积核的数目,然后再连接全连接层,这样就降低了全连接层的参数,从而使得文本识别模型的大小可以得到显著缩小。由此可见,基于本技术实施例提供的上述方法构建的文本识别模型将具有轻量化的优势,可以进行本地化部署,从而能够满足用户对文本识别模型的本地化部署需求。

本文地址:https://www.jishuxx.com/zhuanli/20240905/286830.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。