技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、计算机设备、存储介质和程序产品与流程 > 正文

语音识别方法、装置、计算机设备、存储介质和程序产品与流程

国知局
2024-06-21 10:38:53

本申请涉及人工智能，特别是涉及一种语音识别方法、装置、计算机设备、存储介质和程序产品。

背景技术：

1、随着现代化社会的高速发展，银行在开展业务时，通常会使用智能语音识别系统对用户语音交流的内容进行识别，以获得用户的情绪或意图。用户在语音交流时，除了可以通过正常语句进行交流外，笑声也是一种交流的方式，不同种类的笑声会反映出一个人不同的情绪。因此，智能语音识别系统在识别正常语句时，也需要对用户的笑声种类进行识别。

2、现有技术中，利用经典的卷积神经网络模型对用户的笑声种类进行识别，然而，利用上述语音识别方法对笑声种类识别时，存在识别速度慢的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高识别速度的语音识别方法、装置、计算机设备、存储介质和程序产品。

2、第一方面，本申请提供了一种语音识别方法。该方法包括：

3、利用语音识别模型中的第一卷积层对待识别语音信息进行时频转换，得到该待识别语音信息的频域信息，并基于该频域信息确定第一卷积结果；

4、利用该语音识别模型中的第二卷积层对该第一卷积结果中部分卷积结果进行卷积处理，得到第二卷积结果；

5、基于该语音识别模型中的全连接层和该第二卷积结果，确定该全连接层的输出结果；

6、将该输出结果输入到该语音识别模型中的输出层，得到该输出层输出的笑声类型。

7、在其中一个实施例中，该基于该频域信息确定第一卷积结果，包括：

8、根据预设卷积核的尺寸对该频域信息进行切分，得到多个子频域信息；

9、将各该子频域信息中各元素与该预设卷积核中该元素对应的权重参数进行点乘，得到多个乘积结果；

10、根据各该乘积结果，得到该第一卷积结果。

11、在其中一个实施例中，该根据各该乘积结果，得到该第一卷积结果，包括：

12、将各该乘积结果中的对应的特征数据相加得到求和结果；

13、根据该求和结果得到该第一卷积结果。

14、在其中一个实施例中，该基于该语音识别模型中的全连接层和该第二卷积结果，确定该全连接层的输出结果，包括：

15、利用预设线性变换算法对该第二卷积结果进行线性变换处理，得到线性变换结果；

16、根据该第二卷积结果、该线性变换结果和该全连接层，确定该全连接层的输出结果。

17、在其中一个实施例中，该根据该第二卷积结果、该线性变换结果和该全连接层，确定该全连接层的输出结果，包括：

18、将该第二卷积结果与该线性变换结果进行拼接处理，得到拼接结果；

19、利用该全连接层对该拼接结果进行压缩处理，得到该全连接层的输出结果。

20、在其中一个实施例中，该将该输出结果输入到该语音识别模型中的输出层，得到该输出层输出的笑声类型，包括：

21、将该输出结果输入到该语音识别模型中的输出层，得到该待识别语音信息的多个笑声类型的概率值；

22、根据各该笑声类型的概率值，得到该输出层输出的笑声类型。

23、在其中一个实施例中，该根据各该笑声类型的概率值，得到该输出层输出的笑声类型，包括：

24、将最大的该概率值对应的笑声类型作为该输出层输出的笑声类型。

25、在其中一个实施例中，该方法还包括：

26、获取语音样本集合；该语音样本集合包括多个不同性别、多个年龄段和多个地域的笑声数据；

27、基于该语音样本集合对初始语音识别模型进行训练，得到该语音识别模型。

28、第二方面，本申请还提供了一种语音识别装置。该装置包括：

29、第一确定模块，用于利用语音识别模型中的第一卷积层对待识别语音信息进行时频转换，得到该待识别语音信息的频域信息，并基于该频域信息确定第一卷积结果；

30、卷积处理模块，用于利用该语音识别模型中的第二卷积层对该第一卷积结果中部分卷积结果进行卷积处理，得到第二卷积结果；

31、第二确定模块，用于基于该语音识别模型中的全连接层和该第二卷积结果，确定该全连接层的输出结果；

32、第三确定模块，用于将该输出结果输入到该语音识别模型中的输出层，得到该输出层输出的笑声类型。

33、第三方面，本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现以上方法的步骤。

34、第四方面，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以上方法的步骤。

35、第五方面，本申请还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以上方法的步骤。

36、上述语音识别方法、装置、计算机设备、存储介质和程序产品，利用语音识别模型中的第一卷积层对待识别语音信息进行时频转换，得到待识别语音信息的频域信息，并基于频域信息确定第一卷积结果，利用语音识别模型中的第二卷积层对第一卷积结果中部分卷积结果进行卷积处理，得到第二卷积结果，基于语音识别模型中的全连接层和第二卷积结果，确定全连接层的输出结果，将输出结果输入到语音识别模型中的输出层，得到输出层输出的笑声类型。现有技术中，利用经典的卷积神经网络模型对用户的笑声种类进行识别，然而，利用该语音识别方法对笑声种类识别时，存在识别速度慢的问题。而本申请实施例中，在第一卷积层时将待识别语音信息转化至频域信息以卷积处理得到第一卷积结果，在第二卷积层时只对部分第一卷积结果进行卷积操作，并且，减少了经典的卷积神经网络模型中的池化层，因此，能够提高识别速度。

技术特征：

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述频域信息确定第一卷积结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据各所述乘积结果，得到所述第一卷积结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述语音识别模型中的全连接层和所述第二卷积结果，确定所述全连接层的输出结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二卷积结果、所述线性变换结果和所述全连接层，确定所述全连接层的输出结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述输出结果输入到所述语音识别模型中的输出层，得到所述输出层输出的笑声类型，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据各所述笑声类型的概率值，得到所述输出层输出的笑声类型，包括：

8.根据权利要求1-7任意一项所述的方法，其特征在于，所述方法还包括：

9.一种语音识别装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结本申请涉及一种语音识别方法、装置、计算机设备、存储介质和程序产品。方法包括：利用语音识别模型中的第一卷积层对待识别语音信息进行时频转换，得到待识别语音信息的频域信息，并基于频域信息确定第一卷积结果，利用语音识别模型中的第二卷积层对第一卷积结果中部分卷积结果进行卷积处理，得到第二卷积结果，基于语音识别模型中的全连接层和第二卷积结果，确定全连接层的输出结果，将输出结果输入到语音识别模型中的输出层，得到输出层输出的笑声类型，能够提高识别速度。技术研发人员：赵志超受保护的技术使用者：中国银行股份有限公司技术研发日：技术公布日：2024/1/15