一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种位于三维多平面文本的识别方法、装置、设备及介质

2022-08-17 10:14:58 来源:中国专利 TAG:

技术特征:
1.一种位于三维多平面文本的识别方法,其特征在于,包括:获取含有连续多平面的文本块的图像数据;对所述图像数据进行处理,得到特征向量数据;根据所述特征向量数据,得到图像数据内的平面信息数据;根据所述特征向量数据,得到图像数据内的文本图像信息数据;根据所述平面信息数据与所述文本图像信息数据,得到文本数据;根据所述文本数据,得到文字内容数据。2.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,对所述图像数据进行处理,得到特征向量数据的步骤包括:将所述图像数据作为参数,输入到卷积神经网络的残差网络内,得到中间数据;将所述中间数据作为参数,输入到所述卷积神经网络的池化层内,得到特征向量数据;其中,所述特征向量数据包括单通道像素级的文本分数特征图数据与多通道几何图形特征图数据。3.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,所述根据所述特征向量数据,得到图像数据内的平面信息数据包括:将所述特征向量数据中的单通道像素级的文本分数特征图数据,输入到卷积神经网络的全连接层网络中,得到图像数据内的平面信息数据;其中,所述平面信息数据包括平面数量数据与平面参数数据;平面参数数据包括编码、法线以及偏移量;全连接层网络的回归平面参数的损失函数,表示为:其中,s
*
表示需要平面数量数据;s表示网络中预设平面数量数据;p
i*
表示预测目标点的三维坐标;p
j
表示平面上拍摄点的三维坐标。4.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,所述根据所述特征向量数据,得到图像数据内的文本图像信息数据包括:将所述特征向量数据中的多通道几何图形特征图数据,输入到卷积神经网络中,得到图像数据内的文本图像信息数据;其中,所述文本图像信息数据包括图像数据内文本块的位置数据与文本块方向数据。5.根据权利要求1所述的位于三维多平面文本的识别方法,其特征在于,根据所述平面信息数据与所述文本图像信息数据,得到文本数据的步骤包括:根据平面信息数据中的平面参数数据,得到透视变换数据;根据透视变换数据与文本图像信息数据中的文本块的位置数据,得到文本数据。6.根据权利要求5所述的位于三维多平面文本的识别方法,其特征在于,所述透视变换数据m,表示为:
其中,m表示透视变换矩阵,即透视变换数据;θ表示文本框的旋转角度,文本框表示标注在文字区域外围的边框;t
x
表示透视变换中x轴方向的平移参数;t
y
表示透视变换中y轴方向的平移参数;m表示透视变换中的放大参数。7.根据权利要求6所述的位于三维多平面文本的识别方法,其特征在于,所述透视变换中x轴方向的平移参数t
x
表示为:t
x
=d
l
*cosθ-d
t
*sinθ-u;所述透视变换中y轴方向的平移参数t
y
表示为:t
y
=d
t
*cosθ d
l
*sinθ-v;所述透视变换中的放大参数m表示:经过放射变换后特征图的宽度w表示为:w=m*(d
l
d
r
);其中,d
t
表示特征点到文本框最顶部的距离,特征点表示生成单通道像素级的文本分数特征图和多通道几何图形特征图;d
b
表示特征点到文本框最底部的距离;d
l
表示特征点到文本框最左部的距离;d
r
表示特征点到文本框最右部的距离;h表示经过放射变换后特征图的高度;x、y、z表示经过透视变换得到的图片的坐标;u、v、w表示特征点的坐标,[x,y,z]=m[u,v,w]。8.一种位于三维多平面文本的识别装置,其特征在于,包括:数据获取模块,用于获取含有连续多平面的文本块的图像数据;提取模块,用于对所述图像数据进行处理,得到特征向量数据;第一处理模块,用于根据所述特征向量数据,得到图像数据内的平面信息数据;第二处理模块,用于根据所述特征向量数据,得到图像数据内的文本图像信息数据;文本处理模块,用于根据所述平面信息数据与所述文本图像信息数据,得到文本数据;以及文字识别模块,用于根据所述文本数据,得到文字内容数据。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述位于三维多平面文本的识别方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述位于三维多平面文本的识别方法的步骤。

技术总结
本发明提供一种位于三维多平面文本的识别方法,包括:获取含有连续多平面的文本块的图像数据;对所述图像数据进行处理,得到特征向量数据;根据所述特征向量数据,得到图像数据内的平面信息数据;根据所述特征向量数据,得到图像数据内的文本图像信息数据;根据所述平面信息数据与所述文本图像信息数据,得到文本数据;根据所述文本数据,得到文字内容数据。通过本发明公开的一种位于三维多平面文本的识别方法,能够对三维场景下的文字进行识别。能够对三维场景下的文字进行识别。能够对三维场景下的文字进行识别。


技术研发人员:路强 王子逸 尚季蔚 邹通成 戴艺璟 薛峰 余烨
受保护的技术使用者:合肥工业大学
技术研发日:2022.03.28
技术公布日:2022/8/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献