技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法、装置及存储介质与流程 > 正文

语音交互方法、装置及存储介质与流程

国知局
2024-06-21 10:41:59

本公开涉及语音交互，尤其涉及一种语音交互方法、装置及存储介质。

背景技术：

1、针对语音交互，包括三个阶段，自动语音识别、自然语音处理和语音合成，通过自动语音识别先将用户输入的原始音频转化为文本，然后对该文本进行自然语音处理以获取对应的交互文本，最后通过语音合成将交互文本转化为音频播放给用户。

2、相关技术中，在自动语音识别阶段，为了提升判停速度，经常出现判停时间不准确而导致用户的语音被过早地判停，从而导致用户的语音被截断，进而导致输出错误的交互内容，影响用户体验。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种语音交互方法、装置及存储介质，在当前语音交互阶段，在获取第一语音文本并对该第一语音文本进行自然语音处理的过程中，以得到与第一语音文本对应的交互文本的时刻为止，若未出现与第一语音文本不相同的语音文本，则表征没有监听到新的语音，第一语音文本就是完整的语音所对应的识别文本。并在判定该第一语音文本就是完整的语音所对应的语音识别文本的情况下，才对该第一语音文本对应的交互文本进行语音合成并输出，避免将被截断的语音识别得到的语音识别文本对应的交互内容输出而出现的交互错误，能够提高用户的语音交互体验。

2、根据本公开实施例的第一方面，提供一种语音交互方法，包括：

3、在当前语音交互阶段，确定识别得到的第一语音文本，所述第一语音文本为目标判停时刻之前所监听到的语音所对应的语音识别文本，所述目标判停时刻为最近的判停时刻；

4、开启对所述第一语音文本进行自然语音处理的过程，以得到与所述第一语音文本对应的交互文本；

5、以得到与所述第一语音文本对应的交互文本的时刻为止，在未识别得到与所述第一语音文本不相同的语音文本的情况下，停止当前语音交互阶段的语音监听；

6、对得到的所述交互文本进行语音合成并输出，以完成当前语音交互阶段的语音交互。

7、可选地，在开启对所述第一语音文本进行自然语音处理的过程之后，所述方法还包括：

8、在得到与所述第一语音文本对应的交互文本之前，若识别得到与所述第一语音文本不相同的第二语音文本，则停止对所述第一语音文本进行自然语音处理，并返回步骤：在当前语音交互阶段，确定识别得到的第一语音文本。

9、可选地，在开启对所述第一语音文本进行自然语音处理的过程之后，所述方法还包括：

10、确定得到与所述第一语音文本对应的交互文本的获得时刻；

11、获取在所述获得时刻之前所监听到的语音所对应的第三语音文本；

12、在所述第三语音文本与所述第一语音文本不相同的情况下，返回步骤：在当前语音交互阶段，确定识别得到的第一语音文本。

13、可选地，所述确定识别得到的第一语音文本，包括：

14、根据监听到的语音确定所述目标判停时刻；

15、将所述目标判停时刻之前所监听到的语音所对应的语音识别文本确定为所述第一语音文本。

16、可选地，所述根据监听到的语音确定所述目标判停时刻，包括：

17、实时进行语音监听；

18、在确定最新监听到的语音存在静音的持续时长超过预设时长阈值的情况下，将当前时刻确定为所述目标判停时刻。

19、可选地，所述方法还包括：

20、确定监听到的每一帧语音所对应的帧能量；

21、将帧能量小于预设帧能量所对应的语音帧确定为所述静音。

22、可选地，所述方法还包括：

23、在停止当前语音交互阶段的语音监听预设时长后，重新开启下一语音交互阶段，以便在所述下一语音交互阶段实时对语音进行监听。

24、根据本公开实施例的第二方面，提供一种语音交互装置，包括：

25、第一确定模块，被配置为在当前语音交互阶段，确定识别得到的第一语音文本，所述第一语音文本为目标判停时刻之前所监听到的语音所对应的语音识别文本，所述目标判停时刻为最近的判停时刻；

26、处理模块，被配置为开启对所述第一语音文本进行自然语音处理的过程，以得到与所述第一语音文本对应的交互文本；

27、停止模块，被配置为以得到与所述第一语音文本对应的交互文本的时刻为止，在未识别得到与所述第一语音文本不相同的语音文本的情况下，停止当前语音交互阶段的语音监听；

28、输出模块，被配置为对得到的所述交互文本进行语音合成并输出，以完成当前语音交互阶段的语音交互。

29、根据本公开实施例的第三方面，提供一种语音交互装置，包括：

30、处理器；

31、用于存储处理器可执行指令的存储器；

32、其中，所述处理器被配置为执行时实现本公开第一方面所提供的语音交互方法的步骤。

33、根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的语音交互方法的步骤。

34、本公开的实施例提供的技术方案可以包括以下有益效果：

35、本公开通过在当前语音交互阶段，确定识别得到的第一语音文本，该第一语音文本为目标判停时刻之前所监听到的语音所对应的语音识别文本，该目标判停时刻为最近的判停时刻，并开启对第一语音文本进行自然语音处理的过程，以得到与第一语音文本对应的交互文本，并以得到与第一语音文本对应的交互文本的时刻为止，在未识别得到与第一语音文本不相同的语音文本的情况下，停止当前语音交互阶段的语音监听，最后对得到的交互文本进行语音合成并输出，以完成当前语音交互阶段的语音交互。

36、通过在当前语音交互阶段，在获取第一语音文本并对该第一语音文本进行自然语音处理的过程中，以得到与第一语音文本对应的交互文本的时刻为止，若未出现与第一语音文本不相同的语音文本，则表征没有监听到新的语音，第一语音文本就是完整的语音所对应的识别文本。并在判定该第一语音文本就是完整的语音所对应的语音识别文本的情况下，才对该第一语音文本对应的交互文本进行语音合成并输出，避免将被截断的语音识别得到的语音识别文本对应的交互内容输出而出现的交互错误，能够提高用户的语音交互体验。

37、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

技术特征：

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，在开启对所述第一语音文本进行自然语音处理的过程之后，所述方法还包括：

3.根据权利要求1所述的语音交互方法，其特征在于，在开启对所述第一语音文本进行自然语音处理的过程之后，所述方法还包括：

4.根据权利要求1所述的语音交互方法，其特征在于，所述确定识别得到的第一语音文本，包括：

5.根据权利要求4所述的语音交互方法，其特征在于，

6.根据权利要求5所述的语音交互方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

8.一种语音交互装置，其特征在于，包括：

9.一种语音交互装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～7中任一项所述语音交互方法的步骤。

技术总结本公开涉及一种语音交互方法、装置及存储介质，涉及语音交互技术领域，该方法包括：在当前语音交互阶段，在获取第一语音文本并对该第一语音文本进行自然语音处理的过程中，以得到与第一语音文本对应的交互文本的时刻为止，若未出现与第一语音文本不相同的语音文本，则表征没有监听到新的语音，第一语音文本就是完整的语音所对应的识别文本，并在判定该第一语音文本就是完整的语音所对应的语音识别文本的情况下，才对该第一语音文本对应的交互文本进行语音合成并输出，避免将被截断的语音识别得到的语音识别文本对应的交互内容输出而出现的交互错误，能够提高用户的语音交互体验。技术研发人员：周清洁,赵钰,刘强进,熊磊,秦斌,梁荣堂受保护的技术使用者：小米科技（武汉）有限公司技术研发日：技术公布日：2024/2/1