技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法及相关装置与流程 > 正文

语音识别方法及相关装置与流程

国知局
2024-06-21 11:44:38

本技术涉及语音识别，尤其涉及一种语音识别方法及相关装置。

背景技术：

1、语音识别是实现人机交互的重要技术手段，通过语音识别能够使机器识别并理解用户语音指令，进而实现对机器的有效控制。

2、在多音区声学环境中还需要通过语音识别来确认多通道(一个音区对应一个通道)采集的混合音频中的语音来自于哪个音区的说话人。比如在车载场景中，对多个音区的麦克风采集的多通道混合音频进行语音识别时，需要准确识别音频中的语音是哪个音区的说话人发出的，进而便于机车准确响应用户语音。现有的语音识别方法重点在于准确识别语音内容，对说话人的区分能力不足。

技术实现思路

1、基于上述技术现状，本技术提出一种语音识别方法及相关装置，能够准确识别混合音频中的语音内容，以及同时准确识别混合语音的语音内容的说话人。

2、为了达到上述技术目的，本技术具体提出如下技术方案：

3、本技术第一方面提出一种语音识别方法，包括：

4、获取混合音频中的各个通道音频的音频特征；

5、通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；

6、对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

7、在一些实现方式中，通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道，包括：

8、将各个通道音频的音频特征输入预先训练的语音识别模型，以使所述语音识别模型通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道；

9、其中，所述音频通道对应的辅助特征，是对所述语音识别模型进行语音识别训练过程中所确定的。

10、在一些实现方式中，通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征，包括：

11、为各个通道音频的音频特征分别添加音频通道对应的辅助特征，得到各个通道音频的复合音频特征；

12、对各个通道音频的复合音频特征分别进行基于注意力机制的特征上下文融合运算，得到各个通道音频的增强音频特征。

13、在一些实现方式中，所述辅助特征包括通道特征和说话人识别特征；

14、所述为各个通道音频的音频特征分别添加音频通道对应的辅助特征，包括：

15、将各个通道音频的音频特征分别与对应的音频通道的通道特征叠加，得到各个通道音频的第一复合音频特征；

16、在各个通道音频的第一复合音频特征的头部分别添加音频通道对应的说话人识别特征，得到各个通道音频的第二复合音频特征。

17、在一些实现方式中，所述语音识别模型的训练过程包括：

18、获取训练数据，所述训练数据包括混合音频、所述混合音频中包含的语音内容的标签，以及所述语音内容的说话人对应的音频通道标签；

19、分别获取所述训练数据的混合音频中的各个通道音频的音频特征；

20、将各个通道音频的音频特征输入语音识别模型，以使所述语音识别模型通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道，得到所述语音识别模型输出的语音内容识别结果和音频通道识别结果；

21、将所述语音内容识别结果与所述语音内容的标签进行对比，计算第一损失函数，以及，将所述音频通道识别结果与所述音频通道标签进行对比，计算第二损失函数；

22、基于所述第一损失函数和所述第二损失函数，对所述辅助特征以及所述语音识别模型的语音识别运算参数进行优化。

23、在一些实现方式中，基于所述第一损失函数和所述第二损失函数，对所述辅助特征以及所述语音识别模型的语音识别运算参数进行优化，包括：

24、基于所述第一损失函数和所述第二损失函数，计算得到融合损失函数；

25、以降低所述融合损失函数为目标，对所述辅助特征以及所述语音识别模型的语音识别运算参数进行优化。

26、在一些实现方式中，获取混合音频中的各个通道音频的音频特征，包括：

27、将混合音频中的各个通道音频分别输入预先训练的特征提取模型，得到各个通道音频的音频特征；

28、其中，所述特征提取模型通过对音频训练数据进行掩码预测训练以及语音分离和降噪训练得到。

29、本技术第二方面提出一种语音识别装置，包括：

30、特征提取单元，用于获取混合音频中的各个通道音频的音频特征；

31、特征处理单元，用于通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；

32、语音识别单元，用于对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

33、本技术第三方面提出一种音频系统，包括：

34、多个音频采集装置，以及与所述多个音频采集装置连接的音频处理器；

35、所述多个音频采集装置分别用于采集音频，从而得到由所述多个音频采集装置采集的多个通道音频组成的混合音频；

36、所述音频处理器，用于获取所述混合音频中的各个通道音频的音频特征；通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

37、在一些实现方式中，所述音频处理器上运行有特征提取模型和语音识别模型，所述特征提取模型用于获取所述混合音频中的各个通道音频的音频特征；

38、所述语音识别模型用于通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

39、本技术第四方面提出一种音频处理器，包括处理器和接口电路，所述处理器通过所述接口电路与音频采集装置连接；

40、所述处理器用于通过执行上述的语音识别方法，对所述音频采集装置采集的音频进行语音识别。

41、本技术第五方面提出一种电子设备，包括存储器和处理器；

42、所述存储器与所述处理器连接，用于存储程序；

43、所述处理器用于通过运行所述存储器中的程序，实现上述的语音识别方法。

44、本技术第六方面提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音识别方法。

45、本技术提出的语音识别方法在混合音频的各个通道音频的音频特征中，分别添加用于辅助进行说话人识别的辅助特征，从而使各个通道音频的音频特征中都显式增加了用于识别说话人对应音频通道的特征成分，也就使得各个通道音频的音频特征更加有利于从混合音频中识别语音内容以及区分语音内容的说话人对应的音频通道。因此，采用本技术实施例提出的语音识别方法，能够从多通道混合音频中识别语音内容，并且能够准确识别语音内容的说话人对应的音频通道，即实现了既能识别语音内容，又能准确识别语音说话人的目的。