一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种位于三维多平面文本的识别方法、装置、设备及介质

2022-08-17 10:14:58 来源:中国专利 TAG:


1.本发明涉及文字识别技术领域,特别是涉及一种位于三维多平面文本的识别方法、装置、设备及介质。


背景技术:

2.近年来,随着深度学习技术的发展,基于文本图片的文本识别已经能获得很高的精确度。传统的人工智能文字识别技术无法理解复杂场景上的文字,例如三维场景由多个平面组成,当每个平面上都有文字时,传统的人工智能文字识别技术无法识别三维场景上的文字。现有技术中的文字检测识别方法存在只能解决二维单一平面中文本的识别任务,无法识别连续多平面下文本图像内的文字等问题。


技术实现要素:

3.鉴于以上所述现有技术的缺点,本发明的目的在于提供一种位于三维多平面文本的识别方法、装置、设备及介质,本发明能够对三维场景下的文字进行识别。
4.为实现上述目的及其他相关目的,本发明提供一种位于三维多平面文本的识别方法,包括:
5.获取含有连续多平面的文本块的图像数据;
6.对所述图像数据进行处理,得到特征向量数据;
7.根据所述特征向量数据,得到图像数据内的平面信息数据;
8.根据所述特征向量数据,得到图像数据内的文本图像信息数据;
9.根据所述平面信息数据与所述文本图像信息数据,得到文本数据;
10.根据所述文本数据,得到文字内容数据。
11.在本发明一实施例中,对所述图像数据进行处理,得到特征向量数据的步骤包括:
12.将所述图像数据作为参数,输入到卷积神经网络的残差网络内,得到中间数据;
13.将所述中间数据作为参数,输入到所述卷积神经网络的池化层内,得到特征向量数据;
14.其中,所述特征向量数据包括单通道像素级的文本分数特征图数据与多通道几何图形特征图数据。
15.在本发明一实施例中,
16.所述根据所述特征向量数据,得到图像数据内的平面信息数据包括:
17.将所述特征向量数据中的单通道像素级的文本分数特征图数据,输入到卷积神经网络的全连接层网络中,得到图像数据内的平面信息数据;
18.其中,所述平面信息数据包括平面数量数据与平面参数数据;
19.平面参数数据包括编码、法线以及偏移量;
20.全连接层网络的回归平面参数的损失函数,表示为:
21.其中,s
*
表示需要平面数量数据;
22.s表示网络中预设平面数量数据;
23.p
i*
表示预测目标点的三维坐标;
24.pj表示平面上拍摄点的三维坐标。
25.在本发明一实施例中,所述根据所述特征向量数据,得到图像数据内的文本图像信息数据包括:
26.将所述特征向量数据中的多通道几何图形特征图数据,输入到卷积神经网络中,得到图像数据内的文本图像信息数据;
27.其中,所述文本图像信息数据包括图像数据内文本块的位置数据与文本块方向数据。
28.在本发明一实施例中,根据所述平面信息数据与所述文本图像信息数据,得到文本数据的步骤包括:
29.根据平面信息数据中的平面参数数据,得到透视变换数据;
30.根据透视变换数据与文本图像信息数据中的文本块的位置数据,得到文本数据。
31.在本发明一实施例中,所述透视变换数据表示为:
32.其中,m表示透视变换矩阵,即透视变换数据;
33.θ表示文本框的旋转角度,文本框表示标注在文字区域外围的边框;
34.t
x
表示透视变换中x轴方向的平移参数;
35.ty表示透视变换中y轴方向的平移参数;
36.m表示透视变换中的放大参数。
37.在本发明一实施例中,所述透视变换中x轴方向的平移参数t
x
表示为:t
x
=d
l
*cosθ-d
t
*sinθ-u;
38.所述透视变换中y轴方向的平移参数ty表示为:ty=d
t
*cosθ d
l
*sinθ-v;
39.所述透视变换中的放大参数m表示:
40.经过放射变换后特征图的宽度w表示为:w=m*(d
l
dr);
41.其中,d
t
表示特征点到文本框最顶部的距离,特征点表示生成单通道像素级的文本分数特征图和多通道几何图形特征图;
42.db表示特征点到文本框最底部的距离;
43.d
l
表示特征点到文本框最左部的距离;
44.dr表示特征点到文本框最右部的距离;
45.h表示经过放射变换后特征图的高度;
46.x、y、z表示经过透视变换得到的图片的坐标;
47.u、v、w表示特征点的坐标,[x,y,z]=m[u,v,w]。
[0048]
本发明还提供一种位于三维多平面文本的识别装置,包括:
[0049]
数据获取模块,用于获取含有连续多平面的文本块的图像数据;
[0050]
提取模块,用于对所述图像数据进行处理,得到特征向量数据;
[0051]
第一处理模块,用于根据所述特征向量数据,得到图像数据内的平面信息数据;
[0052]
第二处理模块,用于根据所述特征向量数据,得到图像数据内的文本图像信息数据;
[0053]
文本处理模块,用于根据所述平面信息数据与所述文本图像信息数据,得到文本数据;以及
[0054]
文字识别模块,用于根据所述文本数据,得到文字内容数据。
[0055]
本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述位于三维多平面文本的识别方法的步骤。
[0056]
本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现位于三维多平面文本的识别方法的步骤。
[0057]
如上所述,本发明提供一种位于三维多平面文本的识别方法、装置、设备及介质,能够解决三维场景下多平面中文本的识别任务,可以对三维场景下的连续多平面的文本图像内的文字进行识别。
附图说明
[0058]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0059]
图1显示为本发明的一种位于三维多平面文本的识别方法的一流程示意图。
[0060]
图2显示为图1中步骤s20的一具体实施方式流程示意图。
[0061]
图3显示为图1中步骤s50的一具体实施方式流程示意图。
[0062]
图4显示为本发明的一种位于三维多平面文本的识别装置的一结构示意图。
[0063]
图5显示为图4中提取模块的一结构示意图。
[0064]
图6显示为图4中文本处理模块的一结构示意图。
[0065]
图7显示为本发明一实施例中计算机设备的一结构示意图。
[0066]
元件标号说明:
[0067]
10、数据获取模块;
[0068]
20、提取模块;21、残差模块;22、池化模块;
[0069]
30、第一处理模块;
[0070]
40、第二处理模块;
[0071]
50、文本处理模块;51、透视变换模块;52、文本提取模块;
[0072]
60、文字识别模块。
具体实施方式
[0073]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0074]
请参阅图1-7。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0075]
请参阅图1所示,本发明实施例提供的一种位于三维多平面文本的识别方法,可应用于文字识别过程中,位于三维多平面文本的识别方法可包括步骤:
[0076]
步骤s10、获取含有连续多平面的文本块的图像数据。
[0077]
步骤s20、对图像数据进行处理,得到特征向量数据。
[0078]
步骤s30、根据特征向量数据,得到图像数据内的平面信息数据。
[0079]
步骤s40、根据特征向量数据,得到图像数据内的文本图像信息数据。
[0080]
步骤s50、根据平面信息数据与文本图像信息数据,得到文本数据。
[0081]
步骤s60、根据文本数据,得到文字内容数据。
[0082]
在本发明的一个实施例中,当进行步骤s10时,即获取获取含有连续多平面的文本块的图像数据。具体的,含有连续多平面的文本块的图像数据可以为一张图片,图片内可以包括多个平面,例如图片为墙壁的角落,从而图片内可以包括三个相互垂直的平面。从而每个平面内都可以包括相应为文本文字,三个平面相互之间是相连的,即获得含有连续多平面的文本块的图像数据。
[0083]
请参阅图2所示,在本发明的一个实施例中,当进行步骤s20时,即对图像数据进行处理,得到特征向量数据。步骤s20的子步骤可以包括:
[0084]
步骤s21、将图像数据作为参数,输入到文字识别模型中的卷积神经网络的残差网络内,以得到中间数据。
[0085]
步骤s22、将中间数据作为参数,输入到文字识别模型中的卷积神经网络的池化层内,以得到特征向量数据,其中,特征向量数据包括单通道像素级的文本分数特征图数据与多通道几何图形特征图数据。
[0086]
在本发明的一个实施例中,具体的,当进行步骤s21时,可以先对图像数据进行特征提取,将图像数据作为参数输入到文字识别模型中的卷积神经网络的残差网络内,以得到中间数据。卷积神经网络(convolutional neural networks,cnn)是一类包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络具有多层结构,可以包括输入层、隐含层以及输出层。其中,输入层可以处理多维数据,在将输入数据输入卷积神经网络前,需在通道或时间/频率维对输入数据进行归一化。隐含层可以包括卷积层、池化层、全连接层、残差网络等。残差网络能够通过增加相当的深度来提高准确率,其内部的残差块使用了跳跃连接,缓解了在神经网络中增加深度带来的梯度消失问题。
[0087]
在本发明的一个实施例中,具体的,当进行步骤s22时,可以将获得的中间数据作
为参数,输入到卷积神经网络的池化层内,以得到特征向量数据。池化层是在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制。
[0088]
在本发明的一个实施例中,当进行步骤s30时,即根据特征向量数据,得到图像数据内的平面信息数据。具体的,可将所述特征向量数据中的单通道像素级的文本分数特征图数据,输入到卷积神经网络的全连接层网络中,得到图像数据内的平面信息数据;
[0089]
其中,所述平面信息数据包括平面数量数据与平面参数数据;
[0090]
平面参数数据包括编码、法线以及偏移量;
[0091]
全连接层网络的回归平面参数的损失函数表示为:
[0092]
其中,s
*
表示需要平面数量数据,
[0093]
s表示网络中预设平面数量数据,
[0094]
p
i*
表示预测目标点的三维坐标,
[0095]
pj表示平面上拍摄点的三维坐标。
[0096]
在本发明的一个实施例中,具体的,可以将特征向量数据中的单通道像素级的文本分数特征图数据作为参数,输入到卷积神经网络的全连接层内,以得到图像数据内的平面信息数据。卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分,并只向其它全连接层传递信号。特征图在全连接层中会失去空间拓扑结构,被展开为向量并通过激励函数。卷积神经网络中的卷积层和池化层能够对输入数据进行特征提取,全连接层的作用则是对提取的特征进行非线性组合以得到输出。平面参数数据可以包括编码、法线以及偏移量。其中,编码可以是对预测的平面进行编码,得到图片中平面的位置信息,即对预测的平面进行编码,确定图片中平面的位置。法线可以是通过编码确定的平面的方向,即确定平面的方向。偏移量可以是确定的平面的深度信息,即确定平面的深度。由于图片内的平面是三维的,因此仅通过法线并不能确定一个平面。从而可以通过卷积神经网络的全连接层获取图像数据内的平面信息数据。
[0097]
在本发明的一个实施例中,当进行步骤s40时,即根据特征向量数据,得到图像数据内的文本图像信息数据。具体的,可以将特征向量数据中的多通道几何图形特征图数据作为参数,输入到卷积神经网络中的卷积层内。卷积层可以对输入数据进行特征提取,卷积层内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,类似于一个前馈神经网络的神经元。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连,区域的大小取决于卷积核的大小。从而卷积层可以输出图像数据内的文本图像信息数据,文本图像信息数据可以包括图像数据内文本块的位置数据及文本块方向数据。
[0098]
请参阅图3所示,在本发明的一个实施例中,当进行步骤s50时,即根据平面信息数据与文本图像信息数据,得到文本数据。其中,步骤s50的子步骤可以包括:
[0099]
步骤s51、根据平面信息数据中的平面参数数据,得到透视变换数据。
[0100]
步骤s52、根据透视变换数据与文本图像信息数据中的文本块的位置数据,得到文本数据,其中,文本数据为不同平面上的文字块变换到同一平面并且正常水平对齐的文字
数据。
[0101]
在本发明的一个实施例中,具体的,当进行步骤s51及步骤s52时,此时可根据平面信息数据中的平面参数数据,生成相应的透视变换数据,即透视变换矩阵。之后可通过透视变换矩阵与文本块的位置数据相乘获得变换后的特征矩阵,即得到文本数据,文本数据可以为将不同平面上的文字块变换到同一平面并且正常水平对齐的文字数据。透视变换过程可以表示为:
[0102]
t
x
=d
l
*cosθ-d
t
*sinθ-u
[0103]
ty=d
t
*cosθ d
l
*sinθ-v
[0104][0105]
w=m*(d
l
dr)
[0106][0107]
[x,y,z]=m[u,v,w]
[0108]
其中,m表示透视变换矩阵,
[0109]
h表示经过放射变换后特征图的高度,
[0110]
w表示经过放射变换后特征图的宽度,
[0111]dt
表示特征点到文本框最顶部的距离,特征点表示生成单通道像素级的文本分数特征图和多通道几何图形特征图,文本框表示标注在文字区域外围的边框,
[0112]
db表示特征点到文本框最底部的距离,
[0113]dl
表示特征点到文本框最左部的距离,
[0114]dr
表示特征点到文本框最右部的距离,
[0115]
θ表示文本框的旋转角度,
[0116]
x、y、z表示经过透视变换得到的图片的坐标;
[0117]
u、v、w表示特征点的坐标;
[0118]
t
x
表示透视变换中x轴方向的平移参数,
[0119]
ty表示透视变换中y轴方向的平移参数,
[0120]
θ表示文本检测框的旋转角度,
[0121]
m表示透视变换中的放大参数。
[0122]
在本发明的一个实施例中,当进行步骤s60时,即根据文本数据,得到文字信息数据。由于文本数据是将不同平面上的文字块变换到同一平面并且正常水平对齐的文字数据,因此可以直接通过文字识别网络对文本数据内的文字信息进行识别,文字识别网络可以包括全卷积网络、双向lstm网络、全连接层以及ctc解码器,从而可通过文字识别网络输出最终的结果,即得到相应的文字信息数据。
[0123]
可见,在上述方案中,先对含有连续多平面的文本块的图像数据进行特征提取,得到特征向量数据,之后根据特征向量数据得到平面数量、平面参数、文本块的位置以及文本
块的方向,之后根据平面数量、平面参数、文本块的位置以及文本块的方向通过透视变换操作得到文本数据,文本数据是将不同平面上的文字块变换到同一平面并且正常水平对齐的文字数据,从而可通过对文本数据进行文字提取,得到最终的文字内容数据,从而本技术可以对三维场景下的连续多平面的文本图像内的文字进行识别。
[0124]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0125]
请参阅图4所示,本发明还提供一种位于三维多平面文本的识别装置,该位于三维多平面文本的识别装置与上述实施例中位于三维多平面文本的识别方法一一对应。该位于三维多平面文本的识别装置可以包括数据获取模块10、提取模块20、第一处理模块30、第二处理模块40、文本处理模块50以及文字识别模块60。各功能模块详细说明如下:
[0126]
数据获取模块10可用于获取含有连续多平面的文本块的图像数据。提取模块20可用于对图像数据进行处理,得到特征向量数据。第一处理模块30可用于根据特征向量数据,得到图像数据内的平面信息数据。第二处理模块40可用于根据特征向量数据,得到图像数据内的文本图像信息数据。文本处理模块50可用于根据平面信息数据与文本图像信息数据,得到文本数据。文字识别模块60可用于根据文本数据,得到文字内容数据。
[0127]
在本发明的一个实施例中,数据获取模块10可用于获取含有连续多平面的文本块的图像数据。具体的,含有连续多平面的文本块的图像数据可以为一张图片,图片内可以包括多个平面,例如图片为墙壁的角落,从而图片内可以包括三个相互垂直的平面。从而每个平面内都可以包括相应为文本文字,三个平面相互之间是相连的,即获得含有连续多平面的文本块的图像数据。
[0128]
请参阅图5所示,在本发明的一个实施例中,提取模块20可以包括残差模块21与池化模块22。其中,残差模块21可用于将图像数据作为参数,输入到文字识别模型中的卷积神经网络的残差网络内,以得到中间数据,池化模块22可用于将中间数据作为参数,输入到文字识别模型中的卷积神经网络的池化层内,以得到特征向量数据。
[0129]
在本发明的一个实施例中,第一处理模块30可用于根据特征向量数据,得到图像数据内的平面信息数据,其中,平面信息数据包括平面数量数据及平面参数数据。具体的,可以将特征向量数据作为参数,输入到卷积神经网络的全连接层内,以得到图像数据内的平面信息数据。
[0130]
在本发明的一个实施例中,第二处理模块40可用于根据特征向量数据,得到图像数据内的文本图像信息数据。具体的,可以将特征向量数据作为参数,输入到卷积神经网络中的卷积层内,卷积层可以输出图像数据内的文本图像信息数据,文本图像信息数据可以包括图像数据内文本块的位置数据及文本块方向数据。
[0131]
请参阅图6所示,在本发明的一个实施例中,文本处理模块50可包括透视变换模块51与文本提取模块52。其中,透视变换模块51可用于根据平面信息数据中的平面参数数据,得到透视变换数据,文本提取模块52可用于根据透视变换数据与文本图像信息数据中的文本块的位置数据,得到文本数据,其中,文本数据为不同平面上的文字块变换到同一平面并且正常水平对齐的文字数据。
[0132]
在本发明的一个实施例中,文字识别模块60可用于根据文本数据,得到文字信息
数据。由于文本数据是将不同平面上的文字块变换到同一平面并且正常水平对齐的文字数据,因此可以直接通过文字识别网络对文本数据内的文字信息进行识别,文字识别网络可以包括全卷积网络、双向lstm网络、全连接层以及ctc解码器,从而可通过文字识别网络输出最终的结果,即得到相应的文字信息数据。
[0133]
本发明提供的一种位于三维多平面文本的识别装置,可以使用户画像系统的精确度得到提升,同时能够丰富用户画像系统的标签能容,提高未来召回推荐的准确率。
[0134]
关于位于三维多平面文本的识别装置的具体限定可以参见上文中对于位于三维多平面文本的识别方法的限定,在此不再赘述。上述位于三维多平面文本的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0135]
请参阅图7所示,本发明还提供了一种计算机设备,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种位于三维多平面文本的识别方法的功能或步骤。
[0136]
在本发明的一个实施例中,计算机设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0137]
获取含有连续多平面的文本块的图像数据。
[0138]
对图像数据进行处理,得到特征向量数据。
[0139]
根据特征向量数据,得到图像数据内的平面信息数据。
[0140]
根据特征向量数据,得到图像数据内的文本图像信息数据。
[0141]
根据平面信息数据与文本图像信息数据,得到文本数据。
[0142]
根据文本数据,得到文字内容数据。
[0143]
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
[0144]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0145]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0146]
在本说明书的描述中,参考术语“本实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0147]
以上公开的本发明实施例只是用于帮助阐述本发明。实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献