技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音交互的方法、装置和存储介质与流程 > 正文

一种语音交互的方法、装置和存储介质与流程

国知局
2024-06-21 11:53:50

本发明属于语音处理的，尤其涉及一种语音交互的方法、装置和存储介质。

背景技术：

1、语音交互是一种通过语音指令和语音识别技术进行人机交互的方式。它允许用户通过口头指令来与计算机系统、智能手机、智能助手等设备进行沟通和控制。语音交互技术已经在智能音响、智能手机、智能家居等领域得到广泛应用，它使得用户可以更自然地与设备进行交互，不再需要使用键盘或触摸屏幕。通过语音交互，用户可以实现语音搜索、语音识别、语音控制等功能，极大地提高了用户体验和便利性。

2、语音交互的基础是针对语音数据的文本识别。它能够将说话人的口语转换为文本形式。这项技术通过使用计算机算法来识别和解释人类语音的内容，将说话者的语音信号转换成文本形式，使得计算机系统能够理解并处理这些文本信息。

3、然而，传统的语音识别方案中，对于语音特征的提取存在较大的局限性，导致语音识别的准确率较低，这是一个亟需解决的技术问题。

技术实现思路

1、有鉴于此，本发明实施例提供了一种语音交互的方法、装置和存储介质，以解决传统的语音识别中，对于语音特征的提取存在较大的局限性，导致语音识别的准确率较低的技术问题。

2、本发明实施例的第一方面提供了一种语音交互的方法，所述语音交互的方法包括：

3、获取原始语音数据，将所述原始语音数据进行预处理并进行分帧处理，得到多个语音帧；

4、将所述多个语音帧进行傅里叶变换，得到多个频域数据；

5、将所述频域数据进行经验模态分解，得到多个本征模态函数和残余分量；

6、根据所述本征模态函数，计算第一特征系数；

7、将所述第一特征系数转换为谱包络系数；

8、根据每个所述本征模态函数对应的所述谱包络系数和残余分量，构建特征数据；

9、根据所述特征数据进行语音识别，得到所述原始语音数据对应的文本数据；所述文本数据用于进行语音交互。

10、进一步地，所述根据所述本征模态函数，计算第一特征系数的步骤包括：

11、将所述本征模态函数和所述本征模态函数对应的多个预测系数代入如下公式一，得到所述本征模态函数对应的结果值；

12、所述公式一为：

13、

14、其中，表示第i个本征模态函数的第j个特征系数在次迭代时的特征系数，在达到预设迭代次数时得到所述第一特征系数，表示第i个本征模态函数的第j个特征系数的原始值，表示第i个本征模态函数的第j个预测系数在次迭代时的值，是预设的参数数量，表示步长参数，表示第i个本征模态函数在时刻的原始值，表示第i个本征模态函数在时刻的值，表示第i个本征模态函数在时刻的预测值，表示预测误差值；

15、将所述结果值进行系数变形处理，得到所述第一特征数据。

16、进一步地，所述将所述第一特征系数转换为谱包络系数的步骤包括：

17、将所述第一特征系数代入如下公式二，得到所述谱包络系数；

18、所述公式二为：其中，表示所述谱包络系数，表示所述第一特征系数，表示缩放因子，表示函数。

19、

20、进一步地，所述根据每个所述本征模态函数对应的所述谱包络系数和残余分量，构建特征数据的步骤包括：

21、计算所述残余分量的能量和零交叉率；

22、基于所述谱包络系数、所述能量和所述零交叉率，构建所述特征数据。

23、进一步地，所述基于所述谱包络系数、所述能量和所述零交叉率，构建所述特征数据的步骤包括：

24、计算所述谱包络系数的一阶差分，得到多个所述谱包络系数各自对应差分值；

25、将多个所述谱包络系数、多个所述谱包络系数各自对应的差分值、所述能量和所述零交叉率组合为向量，得到所述特征数据。

26、进一步地，所述根据所述特征数据进行语音识别，得到所述原始语音数据对应的文本数据的步骤包括：

27、将多个所述特征数据输入循环神经网络，得到由所述循环神经网络输出的关于时间序列的第二特征数据；所述循环神经网络包括长短时记忆网络和注意力机制；

28、将所述第二特征数据进行ctc解码，得到所述原始语音数据对应的文本数据。

29、进一步地，所述获取原始语音数据，将所述原始语音数据进行预处理并进行分帧处理，得到多个语音帧的步骤包括：

30、获取所述原始语音数据，对所述原始语音数据进行预加重处理，得到预加重后的原始语音数据；

31、将所述预加重后的原始语音数据进行分帧处理，得到多个帧数据；

32、基于窗函数，对所述帧数据进行加窗处理，得到所述语音帧。

33、进一步地，所述将所述第一特征系数转换为谱包络系数的步骤包括：

34、将所述第一特征系数代入公式三，得到所述谱包络系数；所述公式三为：

35、

36、其中，表示第n个所述谱包络系数，表示第n个所述第一特征系数，表示增益系数，表示第k个所述谱包络系数，表示第n-k 个所述第一特征系数，表示循环索引值，k小于n。

37、本发明实施例的第二方面提供了一种语音交互的装置，包括：

38、获取单元，用于获取原始语音数据，将所述原始语音数据进行预处理并进行分帧处理，得到多个语音帧；

39、变换单元，用于将所述多个语音帧进行傅里叶变换，得到多个频域数据；

40、分解单元，用于将所述频域数据进行经验模态分解，得到多个本征模态函数和残余分量；

41、计算单元，用于根据所述本征模态函数，计算第一特征系数；

42、转换单元，用于将所述第一特征系数转换为谱包络系数；

43、构建单元，用于根据每个所述本征模态函数对应的所述谱包络系数和残余分量，构建特征数据；

44、识别单元，用于根据所述特征数据进行语音识别，得到所述原始语音数据对应的文本数据；所述文本数据用于进行语音交互。

45、本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。

46、本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述方法的步骤。

47、本发明实施例与现有技术相比存在的有益效果是：通过对原始语音数据的预处理和分帧处理，这种方法能够有效地准备数据以供后续分析，确保数据的质量和可处理性。接下来，通过对每个语音帧进行傅里叶变换，本方案能够将语音信号从时域转换到频域，这是理解和分析语音信号复杂特性的重要步骤。频域数据提供了关于信号频率成分的重要信息，这对于后续的特征提取至关重要。将频域数据进行经验模态分解（emd），以得到多个本征模态函数（imf）和残余分量。揭示了语音信号的本质动态特性，更细致地分解信号，从而允许更精确的特征提取。将第一特征系数转换为谱包络系数，进一步提炼了信号特征，使其更加适合于语音识别任务。谱包络系数反映了语音信号的能量分布特性，对于区分不同语音和发音至关重要。通过构建基于谱包络系数和残余分量的特征数据。通过以上步骤实现了从原始语音数据到文本数据的高精度转换，提高了语音特征的提取精度，进而提升了语音交互的质量和用户体验。这种技术的应用，提高了语音识别系统的性能。