技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音处理方法及电子设备与流程 > 正文

一种语音处理方法及电子设备与流程

国知局
2024-10-15 10:02:57

本申请涉及语音，尤其涉及一种语音处理方法及电子设备。

背景技术：

1、电子设备可以支持人机交互功能，人机交互功能支持用户唤醒语音助手，对电子设备发送语音指令，与电子设备进行对话和问答等，从而使用户快捷获取知识和控制设备。

2、在一些复杂的人机交互场景中，例如用户在客厅环境中与电子设备进行远场语音交互时，由于客厅是家庭中的公共区域，远场声学环境复杂且干扰因素较多，导致语音信号可能混杂有噪声、电子人声、多个用户人声等。这样，电子设备无法精准识别和响应语音指令，导致误响应和不响应等问题，导致人机交互出错甚至失败。

技术实现思路

1、本申请实施例提供一种语音处理方法及电子设备，以提高电子设备对语音指令识别和响应的准确性。

2、第一方面，本申请实施例提供一种电子设备，包括：

3、声音采集器，用于采集用户输入的语音信号；

4、控制器，用于执行：

5、对声音采集器采集的语音信号进行唤醒词识别；

6、在从所述语音信号中识别到唤醒词时，对发出所述唤醒词的目标人声进行增强；

7、对增强后的所述目标人声进行声纹识别，确定目标发声对象；

8、从所述语音信号中提取目标发声对象的语音指令，响应所述语音指令。

9、在一些实施例中，所述控制器还用于执行：获取人机对话历史，对所述人机对话历史进行分词，得到历史对话分词；所述人机对话历史包括用户与所述电子设备的历史对话内容；根据所述电子设备的设备专用词、所述历史对话分词和使用历史，构建用户词库；其中，所述设备专用词是与所述电子设备软硬件配置相关的词汇，所述使用历史包含用户使用所述电子设备时产生的关联词；根据用户词库，构建动态语言模型；根据所述动态语言模型和基础语言模型，生成个性化语言模型。

10、在一些实施例中，在响应所述语音指令之前，所述控制器还用于执行：根据声学模型和所述个性化语言模型，对所述语音指令进行识别，以将所述语音指令转换为目标文本。

11、在一些实施例中，在响应所述语音指令之前，所述控制器还用于执行：调用尾点集合和非尾点集合；其中，所述尾点集合包括用户历史输入的完整且无歧义的指令文本，所述非尾点集合包括所述电子设备在不同业务中产生的非完整指令文本；如果所述尾点集合包括所述目标文本，确定所述语音信号达到尾点，控制所述声音采集器停止采集语音信号；如果所述尾点集合不包括所述目标文本，并且所述非尾点集合包括所述目标文本，则确定所述语音信号未达到尾点，控制所述声音采集器继续采集语音信号。

12、在一些实施例中，在响应所述语音指令之前，所述控制器还用于执行：如果所述非尾点集合不包括所述目标文本，利用尾点判别模型提取所述语音指令的语音特征；利用所述尾点判别模型对所述对话历史进行编码，并将所述编码后的对话历史和所述语音特征进行拼接，得到上下文特征；根据所述上下文特征，如果确定所述语音信号达到尾点，控制所述声音采集器停止采集语音信号；根据所述上下文特征，如果确定所述语音信号未达到尾点，控制所述声音采集器继续采集语音信号。

13、在一些实施例中，在确定所述语音信号达到尾点之后，所述控制器还用于执行：对所述目标文本进行通用拒识判别，以确定所述目标文本是否通顺；如果所述目标文本不通顺，拒绝响应所述语音指令；如果所述目标文本通顺，对所述目标文本进行业务拒识判别，以确定所述语音指令是否包含明确的业务意图；如果所述语音指令包括明确的业务意图，允许响应所述语音指令。

14、在一些实施例中，在控制所述声音采集器停止采集语音信号之后，所述控制器还用于执行：如果所述语音指令不包括明确的业务意图，根据对话历史的上下文关系，进行非交互拒识判别，以确定所述语音指令是否包含非交互意图；其中，所述非交互意图是用户向除电子设备以外的其他交互对象传递的意图；如果所述语音指令不包含所述非交互意图，允许响应所述语音指令；如果所述语音指令包含所述非交互意图，拒绝响应所述语音指令。

15、在一些实施例中，所述电子设备还包括音频输出装置，所述控制器响应所述语音指令，包括：获取机器的第一回复语句；根据对话历史的上下文关系，在所述第一回复语句中添加插入语，得到第二回复语句；为所述第二回复语句设置韵律特征，所述韵律特征用于表征语句呈现的语气、语调、语速和对话氛围；根据所述第二回复语句和所述韵律特征进行语音合成，以转换为机器的回复音频；控制所述音频输出装置播报所述回复音频。

16、在一些实施例中，所述电子设备还包括音频输出装置，所述控制器还用于执行：在确定所述语音信号未达到尾点时，预测反馈语概率分布，所述反馈语概率分布包括至少一个待输出反馈语以及所述待输出反馈语的概率值；获取最大概率值对应的目标反馈语；控制所述音频输出装置播报所述目标反馈语。

17、第二方面，本申请实施例还提供一种语音处理方法，包括：

18、对声音采集器采集的语音信号进行唤醒词识别；

19、在从所述语音信号中识别到唤醒词时，对发出所述唤醒词的目标人声进行增强；

20、对增强后的所述目标人声进行声纹识别，确定目标发声对象；

21、从所述语音信号中提取目标发声对象的语音指令，响应所述语音指令。

22、第三方面，本申请一些实施例还提供一种计算机存储介质，该计算机存储介质中存储有程序指令，当程序指令在计算机上运行时，使得计算机执行以上各方面及其各个实现方式中涉及的方法。

23、本申请以上各方面实施例中，针对用户输入的语音信号，识别唤醒词，将发出唤醒词的用户锁定为目标发声对象。由于在环境场景中可能存在噪声、电子人声和其他非目标人声等干扰，这些声音混杂在语音信号中，极容易导致语音指令识别出错而出现误响应问题，因此在识别到唤醒词时，本申请将发出唤醒词的目标人声进行增强，使目标人声在语音信号中更为突出显著，从而抑制其他干扰声音，通过对目标人声进行声纹识别，准确锁定目标发声对象的身份，这样电子设备可以从语音信号中提取出该目标发声对象的语音指令并响应，通过唤醒词识别和增强，建立唤醒词和语音指令的发声对象的强关联性，从而精准识别和响应语音指令，提升人机交互系统语音指令响应的准确性和性能。

技术特征：

1.一种电子设备，其特征在于，包括：

2.根据权利要求1所述的电子设备，其特征在于，所述控制器还用于执行：

3.根据权利要求2所述的电子设备，其特征在于，在响应所述语音指令之前，所述控制器还用于执行：

4.根据权利要求3所述的电子设备，其特征在于，在响应所述语音指令之前，所述控制器还用于执行：

5.根据权利要求4所述的电子设备，其特征在于，在响应所述语音指令之前，所述控制器还用于执行：

6.根据权利要求4或5所述的电子设备，其特征在于，在确定所述语音信号达到尾点之后，所述控制器还用于执行：

7.根据权利要求6所述的电子设备，其特征在于，在控制所述声音采集器停止采集语音信号之后，所述控制器还用于执行：

8.根据权利要求1所述的电子设备，其特征在于，所述电子设备还包括音频输出装置，所述控制器响应所述语音指令，包括：

9.根据权利要求4或5所述的电子设备，其特征在于，所述电子设备还包括音频输出装置，所述控制器还用于执行：

10.一种语音处理方法，其特征在于，包括：

技术总结本申请实施例公开一种语音处理方法及电子设备，该方法包括：对声音采集器采集的语音信号进行唤醒词识别；在从所述语音信号中识别到唤醒词时，对发出所述唤醒词的目标人声进行增强；对增强后的所述目标人声进行声纹识别，确定目标发声对象；从所述语音信号中提取目标发声对象的语音指令，响应所述语音指令。这样，电子设备通过对唤醒词进行识别和增强，锁定目标发声对象，建立唤醒词和语音指令的发声对象的强关联性，从而精准识别和响应语音指令，提升人机交互系统的性能。技术研发人员：马明受保护的技术使用者：海信视像科技股份有限公司技术研发日：技术公布日：2024/10/10