技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音交互方法、装置及介质与流程 > 正文

一种语音交互方法、装置及介质与流程

国知局
2024-06-21 11:28:43

本发明涉及声学语言领域，具体涉及一种语音交互方法、装置及介质。

背景技术：

1、语音交互作为在人机交互领域已得到较好效果的应用，通常来说，语音交互是通过对用户输入的语音进行语义识别，从识别的语义中抽取领域、意图和词槽信息，进而得到与用户做交互的语音文本，再采用默认语音对待交互的语音文本与用户做交互。这种交互方式，没有结合用户的声学特征来对人机交互装置输出的语音文本做限制。

2、此外，从现有技术来看，语音识别、语音合成和语音交互三者均有成熟的模型，各模型通常独立运行，在各自模型内对输入数据处理后再输出数据到其他模型进行再次处理，语音识别、合成和交互部分相关性较低，影响效率，存在不足。

技术实现思路

1、为解决背景技术中存在的技术问题，本发明提出一种语音交互方法、装置及介质，具有生成语音的语义音色准确和语音识别、合成和交互各部分协同程度高的特点。

2、本发明的技术方案为：

3、一方面，本发明提供了一种语音交互方法，包括：

4、对用户输入的语音信号做分帧处理，得到语音帧序列；所述语音帧序列中，位置在后的后一帧语音包含在其之前的前一帧语音；

5、根据所述语音帧序列中的声学特征信息，获得最终合成语音；

6、根据所述语音帧序列中的语义特征信息，获得最终反馈文本；

7、根据最终合成语音和最终反馈文本，生成用于语音交互的语音文本。

8、优选地，所述方法还包括：

9、根据用户输入的语音信号中的目标声学特征信息，确定与用户语音交互时的情绪类别、语速和音量；

10、按照所述情绪类别、所述语速和所述音量，将所述语音文本输出给用户，实现语音交互。

11、优选地，对用户输入的语音信号做分帧处理，得到语音帧序列的步骤，包括：

12、对输入的语音信号进行数字转换；

13、按照预设字节对经过数字转换后的语音信号进行分帧，得到多帧语音，对多帧语音按照时间先后顺序进行排列得到所述语音帧序列。

14、优选地，根据所述语音帧序列中的声学特征信息，获得最终合成语音的步骤，包括：

15、对所述语音帧序列中的每帧语音的声学特征分别进行标记；

16、根据每帧语音的声学特征标记，在预设语音数据库中匹配每帧语音对应的目标语音数据集；位置在前的前一帧语音对应的目标语音数据集部分包括在其之后的后一帧语音对应的目标语音数据集；

17、对全部目标语音数据集取交集，并将取得的目标语音数据交集进行合成，得到最终合成语音。

18、优选地，根据每帧语音的声学特征标记，在预设语音数据库中匹配每帧语音对应的目标语音数据集的步骤，包括：

19、根据每帧语音的声学特征标记，

20、在预设语音数据库中查找与所述声学特征标记的匹配值达到或超过预定阈值的一种或多种目标语音，构成目标语音数据集；

21、每帧语音的声学特征标记越短，目标语音数据集中的语音种类越多。

22、优选地，每帧语音的声学特征包括：音色、音强、音长和音高，

23、根据每帧语音的声学特征标记，在预设语音数据库中查找与所述声学特征标记的匹配阈值达到或超过预定阈值的一种或多种目标语音，构成目标语音数据集的步骤包括：

24、根据每帧语音的多种声学特征标记，在预设语音数据库中查找与至少一种声学特征标记的匹配值达到或超过对应的预定阈值的一种或多种目标语音，构成目标语音数据集；

25、其中，一种声学特征对应有一个预定阈值。

26、优选地，根据各帧语音中的语义特征信息，获得最终反馈文本的步骤，包括:

27、对每帧语音的语义特征分别进行领域、意图和词槽抽取；

28、针对不能抽取出领域或意图的对应帧语音，做无效处理；

29、针对能抽取出领域、意图和词槽的对应帧语音，根据抽取出的领域、意图和词槽生成对应帧语音信号对应的文本数据集；

30、对所有文本数据集取交集，得到最终反馈文本。

31、优选地，在对输入的语音信号做分帧处理，得到语音帧序列的步骤之前，所述方法还包括：

32、对输入的语音信号进行环境噪声消除。

33、另一方面，本发明还提供了一种语音交互装置，包括：

34、语音帧序列获取模块，用于用户对输入的语音信号做分帧处理，得到语音帧序列；所述语音帧序列中，位置在后的后一帧语音包含在其之前的前一帧语音；

35、语音合成模块，用于根据所述语音帧序列中的声学特征信息，获得最终合成语音；

36、文本合成模块，用于根据所述语音帧序列中的语义特征信息，获得最终反馈文本；

37、语音文本生成模块，用于根据最终合成语音和最终反馈文本，生成用于语音交互的语音文本。

38、另一方面，本发明还提供了一种语音交互装置，包括：

39、处理器；

40、用于存储处理器可执行指令的存储器；

41、其中，所述处理器被配置为执行上述的语音交互方法的步骤。

42、另一方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现上述的语音交互方法的步骤。

43、本发明的有益效果为：

44、根据最终反馈文本与最终合成语音的结合生成交互用的语音文本，语音文本是在多个样本中选择的，最贴近用户输入的语音所需的反馈，提高了交互的准确性。

45、对用户输入的语音信号做分帧、声学特征信息和语义特征信息的提取作为语音识别部分，根据声学特征信息得到最终合成语音和根据语义特征信息得到最终反馈文本作为语音合成部分。语音识别部分得到的结果作为语音合成部分的输入，语音合成部分的输出进一步结合输入语音的目标声学特征作为语音交互部分，各部分互相配合，快速进行识别、合成及交互，提升处理效率，提升使用体验。

46、将对用户的输入语音进行分帧、针对分帧语音生成多个目标语音数据集和文本数据集，且位置靠后的后一帧语音，可依托靠位置在前的前一帧语音生成的文本数据集和目标语音数据集进行快速检索，只需对新生成词语部分进行限制即可得到新的目标语音数据集和文本数据集，解决模型的占用，提高模型使用效率。

技术特征：

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的语音交互方法，其特征在于，对用户输入的语音信号做分帧处理，得到语音帧序列的步骤，包括：

4.根据权利要求1所述的语音交互方法，其特征在于，根据所述语音帧序列中的声学特征信息，获得最终合成语音的步骤，包括：

5.根据权利要求4所述的语音交互方法，其特征在于，根据每帧语音的声学特征标记，在预设语音数据库中匹配每帧语音对应的目标语音数据集的步骤，包括：

6.根据权利要求5所述的语音交互方法，其特征在于，每帧语音的声学特征包括：音色、音强、音长和音高，根据每帧语音的声学特征标记，在预设语音数据库中查找与所述声学特征标记的匹配阈值达到或超过预定阈值的一种或多种目标语音，构成目标语音数据集的步骤包括：

7.根据权利要求1所述的语音交互方法，其特征在于，根据各帧语音中的语义特征信息，获得最终反馈文本的步骤，包括:

8.根据权利要求1所述的语音交互方法，其特征在于，在对输入的语音信号做分帧处理，得到语音帧序列的步骤之前，所述方法还包括：

9.一种语音交互装置，其特征在于，包括：

10.一种语音交互装置，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1至8中任一项所述的语音交互方法的步骤。

技术总结本发明提出一种语音交互方法、装置及介质，具有生成语音的语义音色准确和各部分协同程度高的特点。该语音交互方法，包括：对输入的语音信号做分帧处理，得到语音帧序列；所述语音帧序列中，位置在后的后一帧语音包含在其之前的前一帧语音；根据所述语音帧序列中的声学特征信息，获得最终合成语音；根据所述语音帧序列中的语义特征信息，获得最终反馈文本；根据最终合成语音和最终反馈文本，生成用于语音交互的语音文本。技术研发人员：陈光银受保护的技术使用者：重庆长安汽车股份有限公司技术研发日：技术公布日：2024/2/19