技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种场景文本识别方法、系统、设备与存储介质 > 正文

一种场景文本识别方法、系统、设备与存储介质

国知局
2024-07-31 22:38:41

本发明涉及场景文本识别，尤其涉及一种场景文本识别方法、系统、设备与存储介质。

背景技术：

1、场景文本识别（str）旨在从裁剪的文本图像中识别字符序列。现有的str方法能够熟练地阅读包括广告牌、路标、支票等在内的文本。然而，随着社会进步，对str方法的要求不再局限于在简单文本中表现良好，还需要提高其在挑战性文本上的识别准确率。

2、尽管最近的str方法能够在简单的场景中展现出良好的识别效果，但是在挑战性的真实场景却表现不佳。这是由于挑战性文本中存在两个被忽视掉的问题：1）相同类别字符的类内差异大；2）不同类别字符的类间差异小。例如一个极度扭曲的字符可能在视觉上与同一类别中的其他字符明显不同，而不同类别的字符之间的视觉差异相对较小。这样的问题将导致str方法对于复杂场景的中的字符特征缺乏判别性，导致识别结果出错。

3、有鉴于此，特提出本发明。

技术实现思路

1、本发明的目的是提供一种场景文本识别方法、系统、设备与介质，能够有效提升文本图像中字符特征的判别性，最终获得更好的识别效果。

2、本发明的目的是通过以下技术方案实现的：

3、一种场景文本识别方法，包括：

4、构建包含字符感知约束编码器，以及解码器的场景文本识别模型；

5、训练阶段：输入场景文本训练图像至场景文本识别模型，所述字符感知约束编码器包含依次设置的多个阶段，每一阶段包含多个堆叠的编码块，相邻阶段之间设有下采样模块，设计用于编码局部模式的衰减矩阵模块，每个编码块选择引入或不引入所述衰减矩阵模块；输入图像经过每一阶段逐一处理后，获得每一阶段的输出特征图，将所有阶段的输出特征图进行融合，作为字符感知约束编码器的输出；解码器利用字符感知约束编码器的输出进行解码，获得字符特征序列并识别出字符序列；利用字符特征序列计算类内类间一致性损失，对同类别的字符在特征空间中进行聚类，探索每个字符类别的分布，以及利用识别出的字符序列计算识别损失，结合类内类间一致性损失与识别损失训练所述场景文本识别模型；

6、推理阶段：将场景文本图像输入至训练后的场景文本识别模型，识别出字符序列。

7、一种场景文本识别系统，包括：

8、模型构建单元，用于构建包含字符感知约束编码器，以及解码器的场景文本识别模型；

9、模型训练单元，应用于训练阶段，训练阶段包括：输入场景文本训练图像至场景文本识别模型，所述字符感知约束编码器包含依次设置的多个阶段，每一阶段包含多个堆叠的编码块，相邻阶段之间设有下采样模块，设计用于编码局部模式的衰减矩阵模块，每个编码块选择引入或不引入所述衰减矩阵模块；输入图像经过每一阶段逐一处理后，获得每一阶段的输出特征图，将所有阶段的输出特征图进行融合，作为字符感知约束编码器的输出；解码器利用字符感知约束编码器的输出进行解码，获得字符特征序列并识别出字符序列；利用字符特征序列计算类内类间一致性损失，对同类别的字符在特征空间中进行聚类，探索每个字符类别的分布，以及利用识别出的字符序列计算识别损失，结合类内类间一致性损失与识别损失训练所述场景文本识别模型；

10、识别单元，应用于推理阶段，推理阶段包括：将场景文本图像输入至训练后的场景文本识别模型，识别出字符序列。

11、一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

12、其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

13、一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

14、由上述本发明提供的技术方案可以看出，设计了一个字符感知约束编码器（cace）来感知字符级别的局部模式（如字符的形态学信息），同时引入类内类间一致性损失（i2cl）对同类别的字符在特征空间中进行聚类，进而增强字符特征的判别性，能够很好的适用于场景文本识别任务中；此外，本发明能够用较少的可训练参数训练出一个性能不俗的模型，方便部署在移动端设备中。与现有的方法相比，本发明在简单和复杂的场景中都超越了现有str方法的识别精度，增强了在挑战性文本上的鲁棒性。

技术特征：

1.一种场景文本识别方法，其特征在于，包括：

2.根据权利要求1所述的一种场景文本识别方法，其特征在于，所述编码块包括：第一正则化模块、矩阵乘法与放缩模块、归一化模块、矩阵乘法模块、第二正则化模块与前馈网络；其中：

3.根据权利要求1所述的一种场景文本识别方法，其特征在于，所述衰减矩阵模块提供一个衰减矩阵d，衰减矩阵d第i行第j列元素表示为：

4.根据权利要求1所述的一种场景文本识别方法，其特征在于，每个编码块选择引入或不引入所述衰减矩阵模块包括：在字符感知约束编码器内前k个编码块引入用于编码局部模式的衰减矩阵模块；k大于等于0，且小于等于编码块总数。

5.根据权利要求1或4所述的一种场景文本识别方法，其特征在于，所述局部模式包括：字符的形态学信息。

6.根据权利要求1所述的一种场景文本识别方法，其特征在于，所述将所有阶段的输出特征图进行融合，作为字符感知约束编码器的输出，表示为：

7.根据权利要求1所述的一种场景文本识别方法，其特征在于，类内类间一致性损失表示为：

8.一种场景文本识别系统，其特征在于，包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。

技术总结本发明公开了一种场景文本识别方法、系统、设备与介质，它们是一一对应的方案，方案中：设计了一个字符感知约束编码器（CACE）来感知字符级别的局部模式（如字符的形态学信息），同时引入类内类间一致性损失（I<supgt;2</supgt;CL）对同类别的字符在特征空间中进行聚类，进而增强字符特征的判别性，能够很好的适用于场景文本识别任务中；此外，本发明能够用较少的可训练参数训练出一个性能不俗的模型，方便部署在移动端设备中。与现有的方法相比，本发明在简单和复杂的场景中都超越了现有STR方法的识别精度，增强了在挑战性文本上的鲁棒性。技术研发人员：谢洪涛,周棒棒,张勇东,王裕鑫受保护的技术使用者：中国科学技术大学技术研发日：技术公布日：2024/7/25