技术新讯 > 计算推算,计数设备的制造及其应用技术 > 物体识别方法、装置、电子设备及存储介质与流程 > 正文

物体识别方法、装置、电子设备及存储介质与流程

国知局
2024-07-31 22:41:57

本技术涉及人工智能，特别是涉及一种物体识别方法、装置、电子设备及存储介质。

背景技术：

1、随着人工智能技术的迅速发展，物体识别技术成为了热度较高的研究方向。物体识别是指在图像、视频中识别出存在的目标物体(比如老鼠等)。

2、现有的物体识别算法，通常采用cnn(convolutional neural network，卷积神经网络)进行特征提取，利用物体检测、目标跟踪等算法对目标物体进行检测与识别。然而，受到光线、遮挡、复杂背景的影响，以及实际环境中目标物体和周围环境存在重叠部分的情况，这些方法往往无法准确识别出画面中的目标物体，因此，现有的物体识别算法的准确度较低。

技术实现思路

1、鉴于上述问题，本技术实施例提出了一种物体识别方法、装置、电子设备及存储介质，用以提高物体识别的准确度。

2、根据本技术的实施例的一个方面，提供了一种物体识别方法，所述方法包括：

3、获取待识别图像；

4、将所述待识别图像输入预先训练的物体识别模型，在所述物体识别模型中，通过编码器基于所述待识别图像进行局部特征和全局特征的提取，得到中间编码特征图、目标编码特征图和目标物体的存在概率，通过解码器基于所述中间编码特征图和所述目标编码特征图进行语义分割，得到所述目标物体的位置信息。

5、可选地，所述编码器包括串行连接的第一普通卷积层、特征提取层和分类映射层；

6、通过编码器基于所述待识别图像进行局部特征和全局特征的提取，得到中间编码特征图、目标编码特征图和目标物体的存在概率，包括：

7、通过所述第一普通卷积层，对所述待识别图像进行卷积操作，得到第一特征图；

8、通过所述特征提取层，对所述第一特征图进行局部特征和全局特征的提取，得到所述中间编码特征图和所述目标编码特征图；

9、通过所述分类映射层，对所述目标编码特征图进行分类解析，得到所述目标物体的存在概率。

10、可选地，所述特征提取层包括串行交叉连接的倒残差层和稀疏视觉变换器；

11、通过所述特征提取层，对所述第一特征图进行局部特征和全局特征的提取，得到所述中间编码特征图和所述目标编码特征图，包括：

12、通过所述倒残差层，对自身的输入进行特征提取，得到第二特征图；

13、通过所述稀疏视觉变换器，对自身的输入进行局部特征和全局特征的提取，得到第三特征图；

14、其中，所述第二特征图和除最后一个第三特征图之外的其他第三特征图中的至少一个为所述中间编码特征图，最后一个第三特征图为所述目标编码特征图。

15、可选地，所述倒残差层包括串行连接的第二普通卷积层、第一深度卷积层、第三普通卷积层和残差连接层。

16、可选地，所述稀疏视觉变换器包括串行连接的第二深度卷积层、第四普通卷积层、特征变换层、轴向变换器、第五普通卷积层、拼接层和第六普通卷积层。

17、可选地，通过所述稀疏视觉变换器，对自身的输入进行局部特征和全局特征的提取，得到第三特征图，包括：

18、通过所述第二深度卷积层对自身的输入进行卷积操作，得到第四特征图；

19、通过所述第四普通卷积层，对所述第四特征图进行卷积操作，得到第五特征图；

20、通过所述特征变换层，对所述第五特征图进行变换，得到第一特征序列；

21、通过所述轴向变换器，对所述第一特征序列进行局部特征和全局特征的提取，得到第二特征序列；

22、通过所述第五普通卷积层，对所述第二特征序列进行卷积操作，得到第六特征图；

23、通过所述拼接层，对所述第六特征图和所述第二深度卷积层自身的输入进行拼接，得到第七特征图；

24、通过所述第六普通卷积层，对所述第七特征图进行卷积操作，得到所述第三特征图。

25、可选地，所述轴向变换器包括竖直方向自注意力层和水平方向自注意力层；

26、通过所述轴向变换器，对所述第一特征序列进行局部特征和全局特征的提取，得到第二特征序列，包括：

27、通过所述竖直方向自注意力层，对所述第一特征序列进行竖直方向自注意力操作，得到第一中间特征序列；

28、通过所述水平方向自注意力层，对所述第一中间特征序列进行水平方向自注意力操作，得到第二中间特征序列；

29、基于所述第二中间特征序列，获取所述第二特征序列。

30、可选地，对所述第一特征序列进行竖直方向自注意力操作，得到第一中间特征序列，包括：

31、基于所述第一特征序列获取第一查询向量、第一键向量和第一值向量；

32、将所述第一查询向量与所述第一键向量的转置相乘，得到第一注意力图；

33、从所述第一注意力图中筛选出注意力得分最高的至少两个，得到第二注意力图；

34、对所述第二注意力图进行激活函数自注意力操作，得到所述第一中间特征序列。

35、可选地，所述解码器包括串行交叉连接的反卷积层和拼接层，以及与所述反卷积层连接的膨胀空间金字塔算子和与所述拼接层连接的膨胀空间金字塔算子；

36、与所述反卷积层连接的膨胀空间金字塔算子的输入为所述目标编码特征图，与所述拼接层连接的膨胀空间金字塔算子的输入为所述中间编码特征图；

37、所述拼接层的输入为自身连接的膨胀空间金字塔算子的输出以及自身连接的反卷积层的输出。

38、可选地，所述膨胀空间金字塔算子包括串行的至少一个第七普通卷积层和至少一个膨胀卷积层。

39、可选地，所述物体识别模型通过如下方式训练：

40、利用第一样本集对待训练编码器进行训练，得到训练完成的编码器；

41、利用第二样本集对待训练物体识别模型进行训练，得到训练完成的物体识别模型，所述待训练物体识别模型包括所述训练完成的编码器和待训练解码器。

42、根据本技术的实施例的另一方面，提供了一种物体识别装置，所述装置包括：

43、获取模块，用于获取待识别图像；

44、识别模块，用于将所述待识别图像输入预先训练的物体识别模型，在所述物体识别模型中，通过编码器基于所述待识别图像进行局部特征和全局特征的提取，得到中间编码特征图、目标编码特征图和目标物体的存在概率，通过解码器基于所述中间编码特征图和所述目标编码特征图进行语义分割，得到所述目标物体的位置信息。

45、可选地，所述编码器包括串行连接的第一普通卷积层、特征提取层和分类映射层；所述识别模块包括：

46、卷积子模块，用于通过所述第一普通卷积层，对所述待识别图像进行卷积操作，得到第一特征图；

47、提取子模块，用于通过所述特征提取层，对所述第一特征图进行局部特征和全局特征的提取，得到所述中间编码特征图和所述目标编码特征图；

48、分类子模块，用于通过所述分类映射层，对所述目标编码特征图进行分类解析，得到所述目标物体的存在概率。

49、可选地，所述特征提取层包括串行交叉连接的倒残差层和稀疏视觉变换器；所述提取子模块包括：

50、第一提取单元，用于通过所述倒残差层，对自身的输入进行特征提取，得到第二特征图；

51、第二提取单元，用于通过所述稀疏视觉变换器，对自身的输入进行局部特征和全局特征的提取，得到第三特征图；

52、其中，所述第二特征图和除最后一个第三特征图之外的其他第三特征图中的至少一个为所述中间编码特征图，最后一个第三特征图为所述目标编码特征图。

53、可选地，所述倒残差层包括串行连接的第二普通卷积层、第一深度卷积层、第三普通卷积层和残差连接层。

54、可选地，所述稀疏视觉变换器包括串行连接的第二深度卷积层、第四普通卷积层、特征变换层、轴向变换器、第五普通卷积层、拼接层和第六普通卷积层。

55、可选地，所述第二提取单元包括：

56、第一卷积子单元，用于通过所述第二深度卷积层对自身的输入进行卷积操作，得到第四特征图；

57、第二卷积子单元，用于通过所述第四普通卷积层，对所述第四特征图进行卷积操作，得到第五特征图；

58、特征变换子单元，用于通过所述特征变换层，对所述第五特征图进行变换，得到第一特征序列；

59、特征提取子单元，用于通过所述轴向变换器，对所述第一特征序列进行局部特征和全局特征的提取，得到第二特征序列；

60、第三卷积子单元，用于通过所述第五普通卷积层，对所述第二特征序列进行卷积操作，得到第六特征图；

61、拼接子单元，用于通过所述拼接层，对所述第六特征图和所述第二深度卷积层自身的输入进行拼接，得到第七特征图；

62、第四卷积子单元，用于通过所述第六普通卷积层，对所述第七特征图进行卷积操作，得到所述第三特征图。

63、可选地，所述轴向变换器包括竖直方向自注意力层和水平方向自注意力层；所述特征提取子单元，具体用于通过所述竖直方向自注意力层，对所述第一特征序列进行竖直方向自注意力操作，得到第一中间特征序列；通过所述水平方向自注意力层，对所述第一中间特征序列进行水平方向自注意力操作，得到第二中间特征序列；基于所述第二中间特征序列，获取所述第二特征序列。

64、可选地，所述特征提取子单元，具体用于基于所述第一特征序列获取第一查询向量、第一键向量和第一值向量；将所述第一查询向量与所述第一键向量的转置相乘，得到第一注意力图；从所述第一注意力图中筛选出注意力得分最高的至少两个，得到第二注意力图；对所述第二注意力图进行激活函数自注意力操作，得到所述第一中间特征序列。

65、可选地，所述解码器包括串行交叉连接的反卷积层和拼接层，以及与所述反卷积层连接的膨胀空间金字塔算子和与所述拼接层连接的膨胀空间金字塔算子；

66、与所述反卷积层连接的膨胀空间金字塔算子的输入为所述目标编码特征图，与所述拼接层连接的膨胀空间金字塔算子的输入为所述中间编码特征图；

67、所述拼接层的输入为自身连接的膨胀空间金字塔算子的输出以及自身连接的反卷积层的输出。

68、可选地，所述膨胀空间金字塔算子包括串行的至少一个第七普通卷积层和至少一个膨胀卷积层。

69、可选地，所述物体识别模型通过如下方式训练：

70、利用第一样本集对待训练编码器进行训练，得到训练完成的编码器；

71、利用第二样本集对待训练物体识别模型进行训练，得到训练完成的物体识别模型，所述待训练物体识别模型包括所述训练完成的编码器和待训练解码器。

72、根据本技术的实施例的另一方面，提供了一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个计算机可读存储介质；当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一项所述的物体识别方法。

73、根据本技术的实施例的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行如上任一项所述的物体识别方法。

74、本技术实施例中，获取待识别图像；将所述待识别图像输入预先训练的物体识别模型，在所述物体识别模型中，通过编码器基于所述待识别图像进行局部特征和全局特征的提取，得到中间编码特征图、目标编码特征图和目标物体的存在概率，通过解码器基于所述中间编码特征图和所述目标编码特征图进行语义分割，得到所述目标物体的位置信息。由此可知，本技术实施例中，物体识别模型采用非对称的编码器-解码器架构网络对目标物体进行识别和分割，编码器能够提取待识别图像的局部特征和全局特征，有助于准确识别目标物体，解码器利用了来自编码器的不同尺寸的特征图进行语义分割，有助于精细分割目标物体，因此物体识别模型对物体识别的准确性更高，并且采用编码器和解码器两种不同的任务降低了模型对数据的依赖性，提高了模型的泛化能力和鲁棒性。