技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于电力人机交互场景的多模态语音拒识方法和系统与流程 > 正文

用于电力人机交互场景的多模态语音拒识方法和系统与流程

国知局
2024-06-21 11:44:32

本技术涉及信息，具体涉及一种用于电力人机交互场景的多模态语音拒识方法及系统。

背景技术：

1、随着语音识别和自然语言处理等人机交互核心技术的发展和人机交互应用场景的不断扩展，无关人声拒识是语音交互过程中实现连续对话的关键组成部分，它用于区分语音信号和语音交互指令是否指向语音助手，通过过滤环境噪声、干扰音频以及其他任何非指向特点指令集合的语音，帮助用户在不重复使用唤醒词的情况下连续发出指令，提升用户与语音助手之间的连续对话体验。

2、在智能交互过程中准确识别有效语音信号和指定用户指令集的语音指令至关重要。在智能人机交互过程中，除了用户的指向性语音指令集，还存在大量的环境噪声、干扰音频等无效人声信号和其它非指向性语音指令。如果这些无关声音得不到有效的识别和过滤，会导致人机交互过程中语音助手误识别和误操作，影响用户的语音交互体验。简而言之，在智能语音交互过程实现无效语音的有效拒识提高语音交互效率和实现连续对话目标至关重要。因此，通过识别和过滤掉背景噪声和其他非语音声音，可以增强语音助手的语音识别性能，提高用户体验。

3、现有技术中，缺少一种电力人机交互场景的无效语音的有效拒识方法。

技术实现思路

1、本技术提供一种用于电力人机交互场景的多模态语音拒识方法及系统，可以解决现有技术中存在的电力人机交互场景的语音交互过程中，如何有效拒识无效语音的技术问题。

2、第一方面，本技术提供了一种用于电力人机交互场景的多模态语音拒识方法，包括以下步骤：

3、采集获取电力人机交互场景的语音信号；

4、对获取的语音信号进行人声判别；

5、当获取的语音信号为人声语音时，实时转换人声语音为文本，获取文本；

6、对获取的文本和原始语音进行多模态融合处理，获取多模态融合特征，根据获取的多模态融合特征，控制执行不同的多模态语音拒识策略。

7、结合第一方面，在一种实施方式中，所述对获取的语音信号进行人声判别步骤，具体包括以下步骤：

8、构建电力场景非人声语音分类模型，包括基于能量带的非人声判别模型和基于深度学习的非人声判别模型；

9、输入语音信号至基于能量带的非人声判别模型，获取第一非人声概率；

10、输入语音信号至基于深度学习的非人声判别模型，获取第二非人声概率；

11、根据获取的第一非人声概率和第二非人声概率，计算获取语音信号的非人声概率；

12、比对非人声概率和非人声概率阈值，获取比对结果；

13、根据获取的比对结果，获取语音信号的人声判别结果。

14、结合第一方面，在一种实施方式中，所述当获取的语音信号为人声语音时，实时转换人声语音为文本，获取文本，根据获取的识别结果，对其执行不同的拒识策略步骤，具体包括以下步骤：

15、构建电力领域语音转文字的语音识别模型；

16、当获取的语音信号为人声语音时，输入人声语音至构建的语音识别模型进行实时文本转换，获取文本。

17、结合第一方面，在一种实施方式中，所述构建电力领域语音转文字的语音识别模型步骤，具体包括以下步骤：

18、构建电力语音指令集；

19、基于电力领域语音语料和构建的电力语音指令集，构建电力领域语音转文字的语音识别模型。

20、结合第一方面，在一种实施方式中，所述电力语音指令集包括指令集文本和对应的语音语料。

21、结合第一方面，在一种实施方式中，所述基于电力领域语音语料和构建的电力语音指令集，构建电力领域语音转文字的语音识别模型步骤，具体包括以下步骤：

22、获取电力语音指令集中的每条语音指令的识别准确率；

23、当获取的电力语音指令集中的每条语音指令的识别准确率均大于准确率阈值时，基于电力领域语音语料和构建的电力语音指令集，构建电力领域语音转文字的语音识别模型。

24、结合第一方面，在一种实施方式中，所述当获取的语音信号为人声语音时，输入人声语音至构建的语音识别模型进行实时文本转换，获取文本步骤，具体包括以下步骤：

25、构建电力场景人机交互“文本+语音”多模态拒识模型；

26、分别输入人声语音的文本和原始语音至多模态拒识模型，通过文本编码器和语音编码进行实时语义提取，获取文本特征和语音特征；

27、输入文本特征和语音特征至多模态融合模块，获取多模态融合特征；

28、输入多模态融合特征至分类器，根据指定电力语音指令集控制执行不同的语音拒识策略。

29、第二方面，本技术提供了一种用于电力人机交互场景的多模态语音拒识系统，包括：

30、信号采集模块，用于采集获取电力人机交互场景的语音信号；

31、人声判别模块，与所述信号采集模块通信连接，用于对获取的语音信号进行人声判别；

32、语音转换模块，与所述人声判别模块通信连接，用于当获取的语音信号为人声语音时，实时转换人声语音为文本，获取文本；

33、语音拒识模块，与所述信号采集模块和所述语音转换模块通信连接，用于对获取的文本和原始语音进行多模态融合处理，获取多模态融合特征，根据获取的多模态融合特征，控制执行不同的多模态语音拒识策略。

34、结合第二方面，在一种实施方式中，所述人声判别模块包括：

35、模型构建单元，用于构建电力场景非人声语音分类模型，包括基于能量带的非人声判别模型和基于深度学习的非人声判别模型；

36、第一概率获取单元，与所述模型构建单元和所述信号采集模块通信连接，用于输入语音信号至基于能量带的非人声判别模型，获取第一非人声概率；

37、第二概率获取单元，与所述模型构建单元和所述信号采集模块通信连接，用于输入语音信号至基于深度学习的非人声判别模型，获取第二非人声概率；

38、非人声概率获取单元，与所述第一概率获取单元和所述第二概率获取单元通信连接，用于根据获取的第一非人声概率和第二非人声概率，计算获取语音信号的非人声概率；

39、比对单元，与所述非人声概率获取单元通信连接，用于比对非人声概率和非人声概率阈值，获取比对结果；

40、判别结果获取单元，与所述比对单元通信连接，用于根据获取的比对结果，获取语音信号的人声判别结果。

41、第三方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有用于电力人机交互场景的多模态语音拒识程序，其中所述用于电力人机交互场景的多模态语音拒识程序被处理器执行时，实现如上所述的用于电力人机交互场景的多模态语音拒识方法的步骤。

42、本技术实施例提供的技术方案带来的有益效果至少包括：

43、本技术提供的一种用于电力人机交互场景的多模态语音拒识方法，通过人声判别，获取人声语音信号，再将其转换成文本，将文本和原始语音进行多模态融合处理，获取多模态融合特征，据此执行无效语音的拒识，与传统语音或者文本等单一模态的无关人声拒识相比，多模态级的无关人声语音拒识技术无需复杂的特征工程，可以直接从原始的语音和文本模态中进行学习，由于融入了多模态信息，通过模态间的互补，多模态的拒识模型可以提供更高的拒识精度，具有更强的实用性；

44、增强语音助手的语音识别性能，有效提高语音交互效率，有利于实现连续对话，提升用户体验。