技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音检测处理方法及装置与流程 > 正文

语音检测处理方法及装置与流程

国知局
2024-06-21 10:45:19

本申请涉及语音数据处理，尤其涉及一种语音检测处理方法及装置。

背景技术：

1、随着人工智能技术的不断发展，智能语音技术得到了迅速发展。智能语音技术的应用领域也越来越广泛，比如利用智能语音技术实现智能客服与用户之间的智能语音会话，智能客服以更加自然便捷的语音交互方式，也越来越受到用户的青睐，而智能语音会话大多为多轮对话，在此过程中，如何更好地管理智能客服与用户之间的语音会话逐渐成为智能语音技术的研究者面临的挑战。

技术实现思路

1、第一方面，本申请实施例提供了一种语音检测处理方法，应用于服务器，所述方法包括：

2、接收客户端发送的在智能客服播报过程中采集的第一用户语音流；

3、对所述第一用户语音流进行语音活动检测，得到活动语音片段；

4、将所述活动语音片段发送给声纹识别组件和语音识别组件，以及获取所述声纹识别组件返回的所述活动语音片段的声纹类别和所述语音识别组件返回的所述活动语音片段的语音识别结果；

5、若所述活动语音片段的声纹类别是用户声纹类别，则检测所述活动语音片段的语音识别结果中是否包含中断关键词；

6、若所述活动语音片段的语音识别结果中包含中断关键词，则向所述客户端发送播报中断指令，所述播报中断指令用于对所述智能客服播报进行中断处理。

7、可以看出，在本申请实施例中，在与客户端配合进行语音检测处理的过程中，接收客户端发送的在智能客服播报过程中采集的第一用户语音流，对接收到的第一用户语音流进行语音活动检测，得到活动语音片段，将活动语音片段向声纹识别组件和语音识别组件发送，以及获取声纹识别组件返回的活动语音片段的声纹类别和语音识别组件返回的活动语音片段的语音识别结果，以此通过对活动语音片段进行声纹识别和语音识别，提升声纹识别和语音识别的精确度，避免直接对第一用户语音流进行声纹识别和语音识别增大识别误差，进一步，若活动语音片段的声纹类别是用户声纹类别且活动语音片段的语音识别结果中包含中断关键词，向客户端发送播报中断指令，以在客户端对智能客服播报进行中断处理，以此，结合声纹维度和语音内容维度确定是否对智能客服播报进行播报中断，提升播报中断的有效性和精确度，避免误中断造成用户的不佳使用体验。

8、第二方面，本申请实施例提供了一种语音检测处理方法，应用于客户端，所述方法包括：

9、采集智能客服播报过程中的第一用户语音流；

10、将所述第一用户语音流发送给服务器；

11、若接收到所述服务器发送的播报中断指令，则基于所述播报中断指令向语音播报引擎发送播报停止消息，以停止所述智能客服播报；

12、其中，所述播报中断指令，在活动语音片段的声纹类别是用户声纹类别且所述活动语音片段的语音识别结果中包含中断关键词的情况下生成；所述声纹类别，在对所述第一用户语音流进行语音活动检测，得到所述活动语音片段，以及对所述活动语音片段进行声纹识别后获得；所述语音识别结果，在对所述活动语音片段进行语音识别后获得。

13、可以看出，在本申请实施例中，在与服务器配合进行语音检测处理的过程中，将在智能客服播报过程中采集的第一用户语音流发送给服务器，服务器在对第一用户语音流进行语音活动检测，对检测得到的活动语音片段进行声纹识别和语音识别，在声纹识别获得的活动语音片段的声纹类别是用户声纹类别且语音识别获得的活动语音片段的语音识别结果中包含中断关键词的情况下生成播报中断指令，向客户端发送，在客户端接收到服务器发送的播报中断指令的情况下，向语音播报引擎发送播报停止消息，以停止智能客服播报，以此，结合声纹维度和语音内容维度确定是否对智能客服播报进行播报中断，提升播报中断的有效性和精确度，避免误中断造成用户的不佳使用体验。

14、第三方面，本申请实施例提供了一种语音检测处理装置，运行于服务器，所述装置包括：

15、语音流接收模块，用于接收客户端发送的在智能客服播报过程中采集的第一用户语音流；

16、语音活动检测模块，用于对所述第一用户语音流进行语音活动检测，得到活动语音片段；

17、识别结果获取模块，用于将所述活动语音片段发送给声纹识别组件和语音识别组件，以及获取所述声纹识别组件返回的所述活动语音片段的声纹类别和所述语音识别组件返回的所述活动语音片段的语音识别结果；

18、识别结果检测模块，用于若所述活动语音片段的声纹类别是用户声纹类别，则检测所述活动语音片段的语音识别结果中是否包含中断关键词；

19、中断指令发送模块，用于若所述活动语音片段的语音识别结果中包含中断关键词，则向所述客户端发送播报中断指令，所述播报中断指令用于对所述智能客服播报进行中断处理。

20、第四方面，本申请实施例提供了一种语音检测处理装置，运行于客户端，所述装置包括：

21、语音流采集模块，用于采集智能客服播报过程中的第一用户语音流；

22、语音流发送模块，用于将所述第一用户语音流发送给服务器；

23、停止消息发送模块，用于若接收到所述服务器发送的播报中断指令，则基于所述播报中断指令向语音播报引擎发送播报停止消息，以停止所述智能客服播报；

24、其中，所述播报中断指令，在活动语音片段的声纹类别是用户声纹类别且所述活动语音片段的语音识别结果中包含中断关键词的情况下生成；所述声纹类别，在对所述第一用户语音流进行语音活动检测，得到所述活动语音片段，以及对所述活动语音片段进行声纹识别后获得；所述语音识别结果，在对所述活动语音片段进行语音识别后获得。

25、第五方面，本申请实施例提供了一种语音检测处理设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行第一方面所述的语音检测处理方法。

26、第六方面，本申请实施例提供了一种语音检测处理设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行第二方面所述的语音检测处理方法。

27、第七方面，本申请实施例提供了一种计算机可读存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如第一方面所述的语音检测处理方法。

28、第八方面，本申请实施例提供了一种计算机可读存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如第二方面所述的语音检测处理方法。

技术特征：

1.一种语音检测处理方法，其特征在于，应用于服务器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，若所述检测所述活动语音片段的语音识别结果中是否包含中断关键词执行之后的执行结果为所述语音识别结果中不包含中断关键词，执行如下操作：

3.根据权利要求1所述的方法，其特征在于，所述声纹识别组件返回的所述活动语音片段的声纹类别，通过如下方式获得：

4.根据权利要求1所述的方法，其特征在于，所述接收客户端发送的在智能客服播报过程中采集的第一用户语音流执行之后，所述对所述第一用户语音流进行语音活动检测，得到活动语音片段执行之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述若所述活动语音片段的语音识别结果中包含中断关键词，则向所述客户端发送播报中断指令执行之后，还包括：

6.一种语音检测处理方法，其特征在于，应用于客户端，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述第一用户语音流发送给服务器执行之后，还包括：

8.一种语音检测处理装置，其特征在于，运行于服务器，所述装置包括：

9.一种语音检测处理装置，其特征在于，运行于客户端，所述装置包括：

10.一种语音检测处理设备，其特征在于，所述设备包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如权利要求1-5任一项所述的语音检测处理方法；或者实现如权利要求6-7任一项所述的语音检测处理方法。

技术总结本说明书实施例提供了语音检测处理方法及装置，其中，一种语音检测处理方法包括：接收客户端发送的在智能客服播报过程中采集的第一用户语音流；对所述第一用户语音流进行语音活动检测，得到活动语音片段；将所述活动语音片段发送给声纹识别组件和语音识别组件，以及获取所述声纹识别组件返回的所述活动语音片段的声纹类别和所述语音识别组件返回的所述活动语音片段的语音识别结果；若所述声纹类别是用户声纹类别，则检测所述语音识别结果中是否包含中断关键词；若所述语音识别结果中包含中断关键词，则向所述客户端发送播报中断指令，所述播报中断指令用于对所述智能客服播报进行中断处理。采用本申请实施例能够提升播报中断的准确率。技术研发人员：周丽君,蒋宁,陆全,郝征鹏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/2/6