技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于深度学习的手提电脑语音识别方法及系统与流程 > 正文

基于深度学习的手提电脑语音识别方法及系统与流程

国知局
2024-06-21 11:37:22

本技术涉及人工智能，具体而言，涉及一种基于深度学习的手提电脑语音识别方法及系统。

背景技术：

1、随着科技的快速发展和人工智能技术的广泛应用，语音识别技术已成为人机交互领域的重要研究方向。手提电脑作为一种便携的计算设备，其语音识别功能的需求也日益增长。然而，在实际应用场景中，手提电脑的语音识别系统常常受到环境噪音、多声源干扰等因素的影响，导致识别准确率低、用户体验差等问题。

2、传统的语音识别方法主要依赖于信号处理和模式识别技术，对于复杂的声学环境和多变的语音特征，其识别性能往往受到限制。因此，如何提高是在复杂环境下的语音识别性能，以及如何利用语音识别结果进行智能控制，是当前语音识别技术亟待解决的问题。

技术实现思路

1、为了至少克服现有技术中的上述不足，本技术的目的在于提供一种基于深度学习的手提电脑语音识别方法及系统，通过引入时空优化模型，对待识别语音数据中的各语音区块进行时空优化处理，从而提高了语音识别的准确性和鲁棒性。同时，还通过引入干扰特征参数，对语音数据中的干扰特征进行识别和量化，进一步提高了语音识别的性能。此外，还实现了对待识别语音数据的优化处理和语义意图识别，使得用户可以通过语音指令方便、快捷地控制手提电脑，提高了用户的使用体验。

2、第一方面，本技术提供一种基于深度学习的手提电脑语音识别方法，应用于语音识别系统，所述方法包括：

3、获取输入到所述手提电脑中的包含目标声源的待识别语音数据，并对所述待识别语音数据包含的各语音区块进行声学属性向量解析，生成对应的区块声学属性向量；

4、基于在先完成模型参数学习的时空优化模型，依据所述各语音区块分别在所述待识别语音数据中的时空信息，分别对对应的区块声学属性向量进行时空优化，生成对应的包含时空信息的优化属性向量；

5、依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离，分别确定所述各语音区块分别关联的干扰特征参数；其中，各模板属性向量是依据干扰屏蔽音频数据进行解析的，且每个模板属性向量包含相应语音区块的时空信息，所述干扰屏蔽音频数据包含不存在干扰特征的目标声源；

6、依据生成的各干扰特征参数，确定所述待识别语音数据的干扰状态数据，并基于所述待识别语音数据的干扰状态数据对所述待识别语音数据进行优化处理以生成对应的目标语音数据，对所述目标语音数据进行语义意图识别，获得对应的目标语义意图数据后，基于所述目标语义意图数据对所述手提电脑进行功能控制。

7、在第一方面的一种可能的实施方式中，在所述基于在先完成模型参数学习的时空优化模型，依据所述各语音区块分别在所述待识别语音数据中的时空信息，分别对对应的区块声学属性向量进行时空优化，生成对应的包含时空信息的优化属性向量之前，所述方法还包括：

8、依据多个模板音频数据与分别关联的先验知识标注数据，对初始化权重参数的时空优化模型进行循环模型参数学习，直至符合模型收敛要求时终止，生成所述在先完成模型参数学习的时空优化模型；每个先验知识标注数据表征：相应模板音频数据中各语音区块为干扰语音区块的置信度；

9、在任意一轮模型参数学习过程中，对于一个模板音频数据，对该模板音频数据的各语音区块进行声学属性向量解析，生成对应的模板声学属性向量；

10、依据本轮调用的时空优化模型，依据各语音区块在该模板音频数据中的时空信息，分别对对应的模板声学属性向量进行时空优化，生成对应的包含时空信息的优化属性向量；

11、依据该模板音频数据的各语音区块分别关联的优化属性向量，生成该模板音频数据的干扰状态数据；

12、依据生成的多个干扰状态数据与对应的先验知识标注数据之间的偏离度，对本轮调用的时空优化模型进行模型参数学习。

13、在第一方面的一种可能的实施方式中，在依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离，分别确定所述各语音区块分别关联的干扰特征参数之前，所述方法还包括：

14、依据第二声学属性向量解析模型，分别对各干扰屏蔽音频数据包含的各语音区块进行声学属性向量解析，生成基础声学属性向量序列，所述基础声学属性向量序列包括所述各干扰屏蔽音频数据的各语音区块分别关联的基础声学属性向量；

15、对于多个作为训练样本的模板音频数据中的一个模板音频数据，依据所述第二声学属性向量解析模型，分别对该模板音频数据中各语音区块进行声学属性向量解析，生成对应的模板声学属性向量；

16、依据生成的各模板声学属性向量与所述基础声学属性向量序列之间的特征距离，确定相应语音区块的区块知识数据，每个区块知识数据表征：相应语音区块为干扰语音区块的置信度，依据生成的各区块知识数据，生成该模板音频数据的先验知识标注数据；

17、依据多个所述模板音频数据与分别关联的先验知识标注数据，对干扰状态检测模型进行循环模型参数学习，直至符合模型收敛要求时终止；其中，所述干扰状态检测模型包括第一声学属性向量解析模型和所述时空优化模型，所述第一声学属性向量解析模型与所述第二声学属性向量解析模型共用相同的模型参数配置数据；

18、依据完成参数学习的所述干扰状态检测模型中的第一声学属性向量解析模型，分别对所述各干扰屏蔽音频数据进行声学属性向量解析，并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化，生成模板属性向量序列，所述模板属性向量序列包括所述预先定义的模板属性向量。

19、在第一方面的一种可能的实施方式中，依据完成参数学习的所述干扰状态检测模型中的第一声学属性向量解析模型，分别对所述各干扰屏蔽音频数据进行声学属性向量解析，并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化，生成模板属性向量序列，包括：

20、依据所述第一声学属性向量解析模型，分别对所述各干扰屏蔽音频数据的各语音区块进行声学属性向量解析，并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化，生成优化声学属性向量序列，所述优化声学属性向量序列包括所述各干扰屏蔽音频数据的各语音区块分别关联的优化声学属性向量；

21、从所述优化声学属性向量序列中游走至少一个优化声学属性向量，对所述模板属性向量序列进行初始化；

22、轮询优化所述模板属性向量序列；其中，在每次轮询优化时，对于所述优化声学属性向量序列中的各优化声学属性向量，分别确定对应的声学属性向量组合，每个声学属性向量组合包含一个优化声学属性向量，以及所述模板属性向量序列中与该优化声学属性向量特征距离最小的模板属性向量；

23、对于各声学属性向量组合包含的各模板属性向量，将与每个模板属性向量的特征距离最大的优化声学属性向量加载到所述模板属性向量序列。

24、在第一方面的一种可能的实施方式中，基于在先完成模型参数学习的时空优化模型，依据所述各语音区块分别在所述待识别语音数据中的时空信息，分别对对应的区块声学属性向量进行时空优化，生成对应的包含时空信息的优化属性向量，包括：

25、依据所述在先完成模型参数学习的时空优化模型，对于所述各语音区块中的一个语音区块，依据该语音区块在所述待识别语音数据中的时序信息，生成对应的时序特征向量；

26、依据该语音区块在所述待识别语音数据中的频谱信息，生成对应的频谱特征向量；

27、依据该语音区块的区块声学属性向量、时序特征向量和频谱特征向量，生成对应的优化属性向量。

28、在第一方面的一种可能的实施方式中，对所述待识别语音数据包含的各语音区块进行声学属性向量解析，生成对应的区块声学属性向量，包括：

29、基于递归处理策略，对所述待识别语音数据进行声学属性向量解析；在每轮递归流程中，依据设定的滤波器，对本轮递归的声学知识特征进行滤波，生成滤波特征向量；其中，在第一轮递归时，所述声学知识特征为所述待识别语音数据，在非第一轮递归时，所述声学知识特征为上一轮递归的滤波特征向量；

30、依据所述滤波特征向量与所述声学知识特征进行跳跃链接，生成融合特征向量；

31、如果本轮递归为末轮递归，将所述融合特征向量作为本轮递归的滤波特征向量；

32、如果本轮递归并非末轮递归，对所述融合特征向量进行基于特征域的自注意力处理，并将生成的自注意力特征向量作为本轮递归的滤波特征向量。

33、在第一方面的一种可能的实施方式中，所述依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离，分别确定所述各语音区块分别关联的干扰特征参数，包括：

34、对于所述各优化属性向量中的一个优化属性向量，确定与该优化属性向量特征距离最小的模板属性向量；

35、依据所述模板属性向量与该优化属性向量之间的偏离度，确定该优化属性向量对应的语音区块的干扰特征参数。

36、在第一方面的一种可能的实施方式中，所述依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离，分别确定所述各语音区块分别关联的干扰特征参数，包括：

37、对于所述各优化属性向量中的一个优化属性向量，确定与该优化属性向量特征距离最小的模板属性向量；

38、从所述预先定义的模板属性向量中，确定与所述特征距离最小的模板属性向量之间的特征距离不小于设定距离的多个模板属性向量；

39、依据所述特征距离最小的模板属性向量以及所述多个模板属性向量各自与该优化属性向量之间的偏离度，确定该优化属性向量对应的语音区块的干扰特征参数。

40、在第一方面的一种可能的实施方式中，对所述待识别语音数据包含的各语音区块进行声学属性向量解析，生成对应的区块声学属性向量，包括：

41、依据所述目标声源的目标声源场景标签，从预先定义的多个样例音频数据中，生成对应的目标样例音频数据；

42、依据所述目标样例音频数据中的预定义的声学矢量节点，对所述待识别语音数据进行声学对齐处理，生成对齐后的音频数据；

43、依据所述目标样例音频数据中的预先界定的语音区块范围，从所述对齐后的音频数据中，生成所述目标声源占据的目标语音区块；

44、对所述目标语音区块包含的各语音区块进行声学属性向量解析，生成对应的区块声学属性向量。

45、第二方面，本技术实施例还提供一种语音识别系统，所述语音识别系统包括处理器和机器可读存储介质，所述机器可读存储介质中存储有计算机程序，所述计算机程序依据该处理器加载并执行以实现以上第一方面的基于深度学习的手提电脑语音识别方法。

46、依据以上任意方面的技术方案，通过对待识别语音数据包含的各语音区块进行声学属性向量解析，可以有效地从复杂的待识别语音数据中获取关键信息，提高了语音识别的准确性和效率。其次，使用时空优化模型进行属性向量优化，能够充分利用语音信号中的时空信息，进一步增强语音识别的精确性。此外，通过确定各语音区块关联的干扰特征参数，能够有效地处理并削减语音信号中的干扰，使得在噪声环境下的语音识别更加准确。最后，根据目标语义意图数据对手提电脑进行功能控制，实现了智能交互，极大地提升了用户体验。

47、也即是说，本实施例通过对待识别语音数据包含的各语音区块进行声学属性向量解析，生成了能够准确表征语音区块声学特性的区块声学属性向量。进一步地，利用在先完成模型参数学习的时空优化模型，对各语音区块的声学属性向量进行时空优化，生成了包含丰富时空信息的优化属性向量，从而提高了语音识别的准确性和鲁棒性。此外，还通过引入干扰特征参数，有效地识别并量化了各语音区块中的干扰特征。依据各优化属性向量与预先定义的模板属性向量之间的特征距离，确定了各语音区块关联的干扰特征参数，进而生成了待识别语音数据的干扰状态数据。这使得本发明能够在复杂的声学环境中，准确地识别并屏蔽干扰特征，从而显著提高了语音识别的性能。最后，还通过对待识别语音数据进行优化处理，生成了高质量的目标语音数据，并对其进行语义意图识别，实现了对手提电脑的功能控制。这使得用户可以通过语音指令方便、快捷地控制手提电脑，极大地提高了用户的使用体验。由此，本实施例通过深度学习技术和时空优化模型的结合，实现了高效、准确的语音识别功能，并在复杂的声学环境中表现出了优异的性能。