技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法、装置、服务器及存储介质与流程 > 正文

语音交互方法、装置、服务器及存储介质与流程

国知局
2024-06-21 11:36:54

本公开涉及人机交互领域，尤其涉及一种语音交互方法、装置、服务器及存储介质。

背景技术：

1、在语音交互领域中，拒识技术是指拒绝识别非目标任务的声音，比如误唤醒、干扰声音和背景噪音等，这在语音识别领域有着重要的应用。

2、语音助手的工作流程一般包括asr(automatic speech recognition，自动语音识别)、nlp(natural language processing，自然语言处理)和tts(text to speech，文本转语音)三个主要环节。拒识技术一般在nlp环节上，通过nlp技术解析和理解经过asr转换后的文本信息，从而避免无效的用户请求被误处理，进而对用户造成打扰。例如，用户可能无意识地说话或者与他人交谈，尽管这些语音可能被asr正确地转换为文字，但是并不应该被语音助手处理。这种情况下，拒识技术可以根据语境和语义内容判断用户是否正在给语音助手发出指令，从而避免误操作，这种拒识我们将其称之为后置拒识。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种语音交互方法、装置、服务器及存储介质。

2、根据本公开实施例的第一方面，提供一种语音交互方法，包括：

3、获取语音输入消息；

4、对所述语音输入消息进行拒识判断，得到第一拒识结果；

5、在所述第一拒识结果表征所述语音输入消息是人机交互请求消息的情况下，通过自然语言处理nlp对所述语音输入消息进行拒识判断，得到第二拒识结果；

6、根据所述第二拒识结果进行语音交互。

7、可选地，所述对所述语音输入消息进行拒识判断，得到第一拒识结果包括：

8、对所述语音输入消息进行语音识别，得到识别文本；

9、根据所述语音输入消息和所述识别文本对所述语音输入消息进行拒识判断，得到所述第一拒识结果。

10、可选地，所述根据所述语音输入消息和所述识别文本对所述语音输入消息进行拒识判断包括：

11、获取所述语音输入消息对应的音频特征以及所述识别文本对应的文本特征；

12、将所述音频特征和所述文本特征输入预先训练得到的第一拒识模型后，得到所述语音输入消息对应的所述第一拒识结果。

13、可选地，所述第一拒识结果包括所述语音输入消息对应的第一识别分值；所述第一识别分值越高，表征所述语音输入消息为非人机交互请求消息的概率越高；所述方法还包括：

14、在所述第一识别分值大于或者等于第一预设分值阈值的情况下，确定所述语音输入消息为所述非人机交互请求消息；或者，

15、在所述第一识别分值小于所述第一预设分值阈值的情况下，确定所述语音输入消息为所述人机交互请求消息。

16、可选地，所述方法还包括：

17、在所述第一拒识结果表征所述语音输入消息是非人机交互请求消息的情况下，输出第一控制指令，所述第一控制指令用于指示客户端不对所述语音输入消息进行响应。

18、可选地，所述通过自然语言处理nlp对所述语音输入消息进行拒识判断，得到第二拒识结果包括：

19、将所述识别文本输入所述nlp对应的预设nlp模型后，获取所述识别文本对应的nlp高阶特征，所述nlp高阶特征表征所述识别文本的语义信息和/或结构信息；

20、获取所述识别文本对应的文本特征和所述语音输入消息对应的音频特征；

21、将所述音频特征、所述文本特征和所述nlp高阶特征，输入预先训练得到的第二拒识模型后，得到所述第二拒识结果。

22、可选地，所述第二拒识结果包括所述语音输入消息对应的第二识别分值；所述第二识别分值越高，表征所述语音输入消息为非人机交互请求消息的概率越高；所述方法还包括：

23、在所述第二识别分值大于或者等于第二预设分值阈值的情况下，确定所述语音输入消息为所述非人机交互请求消息；或者，

24、在所述第二识别分值小于所述第二预设分值阈值的情况下，确定所述语音输入消息为所述人机交互请求消息；

25、其中，所述第一预设分值阈值大于所述第二预设分值阈值。

26、可选地，所述根据所述第二拒识结果进行语音交互包括：

27、在所述第二拒识结果表征所述语音输入消息是人机交互请求消息的情况下，获取所述nlp输出的文本处理结果；

28、根据所述文本处理结果对所述语音输入消息进行响应。

29、根据本公开实施例的第二方面，提供一种语音交互装置，包括：

30、获取模块，被配置为获取语音输入消息；

31、第一拒识模块，被配置为对所述语音输入消息进行拒识判断，得到第一拒识结果；

32、第二拒识模块，被配置为在所述第一拒识结果表征所述语音输入消息是人机交互请求消息的情况下，通过自然语言处理nlp对所述语音输入消息进行拒识判断，得到第二拒识结果；

33、语音交互模块，被配置为根据所述第二拒识结果进行语音交互。

34、根据本公开实施例的第三方面，提供一种服务器，包括：

35、处理器；

36、用于存储处理器可执行指令的存储器；

37、其中，所述处理器被配置为：执行本公开第一方面所述的语音交互方法的步骤。

38、根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的语音交互方法的步骤。

39、本公开的实施例提供的技术方案可以包括以下有益效果：可以在语音输入消息进入nlp阶段之前，对该语音输入消息进行一次拒识判断，得到该第一拒识结果，在第一拒识结果表征语音输入消息是人机交互请求消息的情况下，再通过nlp对语音输入消息进行拒识判断，这样可以在语音输入消息进入nlp阶段之前，提前过滤掉非人机交互请求消息，从而可以降低进入nlp的非人机交互请求的数量，进而可以显著降低非人机语音输入带来的nlp流量增长，节约服务器资源。同时还可以降低误响应，提升语音助手的交互效率和性能。

40、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

技术特征：

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述语音输入消息进行拒识判断，得到第一拒识结果包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音输入消息和所述识别文本对所述语音输入消息进行拒识判断包括：

4.根据权利要求1所述的方法，其特征在于，所述第一拒识结果包括所述语音输入消息对应的第一识别分值；所述第一识别分值越高，表征所述语音输入消息为非人机交互请求消息的概率越高；所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述通过自然语言处理nlp对所述语音输入消息进行拒识判断，得到第二拒识结果包括：

7.根据权利要求4所述的方法，其特征在于，所述第二拒识结果包括所述语音输入消息对应的第二识别分值；所述第二识别分值越高，表征所述语音输入消息为非人机交互请求消息的概率越高；所述方法还包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述第二拒识结果进行语音交互包括：

9.一种语音交互装置，其特征在于，包括：

10.一种服务器，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

技术总结本公开涉及一种语音交互方法、装置、服务器及存储介质。可以获取语音输入消息；对所述语音输入消息进行拒识判断，得到第一拒识结果；在所述第一拒识结果表征所述语音输入消息是人机交互请求消息的情况下，通过自然语言处理NLP对所述语音输入消息进行拒识判断，得到第二拒识结果；根据所述第二拒识结果进行语音交互。技术研发人员：周清洁受保护的技术使用者：小米科技（武汉）有限公司技术研发日：技术公布日：2024/3/17