技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多语种语音转换文本方法、系统、存储介质及电子设备与流程 > 正文

多语种语音转换文本方法、系统、存储介质及电子设备与流程

国知局
2024-06-21 11:38:45

本发明属于深度学习的，特别是涉及一种多语种语音转换文本方法、系统、存储介质及电子设备。

背景技术：

1、语音识别技术应用在多种场景中，例如在智能对话场景中，通过对对话者的语音数据进行语音识别，进而转换为对应的文本信息，从而便于处理应用。

2、在实际使用中，不同对话者的语音可能涉及不同的语种，如中文、英文、德文。现有技术中，针对每个语种，需要采用专门的模型进行语音到文本之间的转换。在多语种的场景下，上述转换方法具有以下不足。

3、（1）不同的模型需要单独设计，会占用不同的硬件资源。

4、（2）各个任务需要分别处理，无法同时处理，导致效率低下。

技术实现思路

1、鉴于以上所述现有技术的缺点，本发明的目的在于提供一种多语种语音转换文本方法、系统、存储介质及电子设备，能够将不同语种的语音转换为同一语种的文本信息，快速高效。

2、第一方面，本发明提供一种多语种语音转换文本方法，所述方法包括以下步骤：获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本；基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；训练所述多语种语音文本转换模型包括获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息；抽取所述语音音频信息的声学特征；对所述声学特征进行压缩处理，获取有效声学特征；对所述有效声学特征进行编码，获取编码声学特征；基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息；基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息。

3、在第一方面的一种实现方式中，获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息包括以下步骤：

4、对所述语音转换文本请求和所述语音转换文本进行分词，获取分词信息；

5、将所述分词信息映射为文本嵌入信息。

6、在第一方面的一种实现方式中，抽取所述语音音频信息的声学特征包括以下步骤：

7、抽取所述语音音频信息的短时傅里叶频谱特征；

8、基于对数梅尔滤波器组对所述短时傅里叶频谱特征进行滤波，获取所述声学特征。

9、在第一方面的一种实现方式中，对所述声学特征进行压缩处理，获取有效声学特征包括以下步骤：

10、移除所述声学特征中的空字符；

11、将连续相同的字符保留为单个字符。

12、在第一方面的一种实现方式中，对所述有效声学特征进行编码，获取编码声学特征包括以下步骤：

13、将所述声学特征依次输入四个transformer模型的编码层；

14、获取所述四个transformer模型的编码层输出的编码声学特征。

15、在第一方面的一种实现方式中，基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息包括以下步骤：

16、将所述文本嵌入信息和所述编码声学特征进行正则处理，获取输入信息；

17、对所述输入信息进行注意力机制操作，得到注意力机制的矩阵q、k、v；

18、基于所述矩阵q、k、v生成注意力权重矩阵；

19、对所述注意力权重矩阵的非相关向量进行掩膜处理；

20、将掩膜处理后的注意力权重与矩阵v进行矩阵相乘，再经过线性层后得到矩阵v’，根据t=v’*sigmoid(p*v’) +w*v’获取输出向量，其中t表示输出向量，p和w表示预定义矩阵；

21、将所述输出向量经过线性层和softmax函数后，再转换为补充文本嵌入信息；根据所述补充文本嵌入信息、所述文本嵌入信息和所述编码声学特征再次获取输入信息，并得到对应的输出向量，直至所获取的所有输出向量与所述语音转换文本相一致，所述所有输出向量即为所述文本信息。

22、在第一方面的一种实现方式中，基于所述q、k、v生成注意力权重包括以下步骤：

23、生成与矩阵q形状相同的矩阵a和矩阵b，所述矩阵a的元素为cos(m)，所述矩阵b的元素为sin(m)，其中m = 2000(-2i / d)，d为维度数，i为q中向量对应的序号；

24、生成与矩阵k相同形状的矩阵c和矩阵d，其中矩阵c的元素与矩阵a的元素相同，矩阵d的元素与矩阵b的元素相同；

25、根据q’=q*a+q*b，k’=k*c+k*d对矩阵q和矩阵k进行位置编码；

26、将q’和v’进行矩阵相乘后经过softmax函数得到注意力权重。

27、第二方面，本发明提供一种多语种语音转换文本系统，所述系统包括获取模块、训练模块和转换模块；

28、所述获取模块用于获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本；

29、所述训练模块用于基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；训练所述多语种语音文本转换模型包括获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息；抽取所述语音音频信息的声学特征；对所述声学特征进行压缩处理，获取有效声学特征；对所述有效声学特征进行编码，获取编码声学特征；基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息；

30、所述转换模块用于基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息。

31、第三方面，本发明提供一种电子设备，所述电子设备包括：处理器和存储器；

32、所述存储器用于存储计算机程序；

33、所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的多语种语音转换文本方法。

34、第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被电子设备执行时实现上述的多语种语音转换文本方法。

35、如上所述，本发明所述的多语种语音转换文本方法、系统、存储介质及电子设备，具有以下有益效果。

36、（1）能够将不同语种的语音转换为同一语种的文本信息，快速高效。

37、（2）无需针对不同的语种设置不同的模型，有效地减少了硬件资源和处理耗时。

38、（3）智能化程度高，极具实用性。

技术特征：

1.一种多语种语音转换文本方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的多语种语音转换文本方法，其特征在于：获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息包括以下步骤：

3.根据权利要求1所述的多语种语音转换文本方法，其特征在于：抽取所述语音音频信息的声学特征包括以下步骤：

4.根据权利要求1所述的多语种语音转换文本方法，其特征在于：对所述声学特征进行压缩处理，获取有效声学特征包括以下步骤：

5.根据权利要求1所述的多语种语音转换文本方法，其特征在于：对所述有效声学特征进行编码，获取编码声学特征包括以下步骤：

6.根据权利要求1所述的多语种语音转换文本方法，其特征在于：基于所述矩阵q、k、v生成注意力权重包括以下步骤：

7.一种多语种语音转换文本系统，其特征在于，所述系统包括获取模块、训练模块和转换模块；

8.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现权利要求1至6中任一项所述的多语种语音转换文本方法。

技术总结本发明提供一种多语种语音转换文本方法、系统、存储介质及电子设备，所述方法包括以下步骤：获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本；基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息。本发明的多语种语音转换文本方法、系统、存储介质及电子设备能够将不同语种的语音转换为同一语种的文本信息，快速高效。技术研发人员：孔欧受保护的技术使用者：上海蜜度科技股份有限公司技术研发日：技术公布日：2024/3/24