技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音语种转化的方法及设备与流程 > 正文

一种语音语种转化的方法及设备与流程

国知局
2024-06-21 11:57:31

本申请涉及计算机领域，尤其涉及一种语音语种转化的方法及设备。

背景技术：

1、随着科学技术的不断发展，人们已经能够通过电子设备(如手机、笔记本电脑、平板电脑、翻译笔等)进行声音的录制、播放或进行语音翻译。语音翻译是将某种语言的语音输入转化为其他语言的文本或语音，打破语言障碍的关键技术之一。语音翻译已经得到广泛的应用，业务主要应用于日常对话聊天、大会同声传译以及视频实时字幕等场景中。

2、目前进行语音翻译时，是基于深度学习的方法，该方法在训练时就必须规定是单一语种的转换，比如中文转换为英文或者英文转换为中文，因此无法进行扩展，也无法进行任意语种的转换，若想多语种的转换，则需要多个模型同时工作，这样就部署方式对于时效性和资源利用率都不可观。

技术实现思路

1、本申请的一个目的是提供一种语音语种转化的方法及设备，解决现有技术中使用一个模型时不能任意进行多语种转换，多个模型的部署方式时效性和资源利用率低的问题。

2、根据本申请的一个方面，提供了一种语音语种转化的方法，该方法包括：

3、对获取到的源语种语音加入噪音后进行提取特征，得到源语种特征；

4、对目标语种进行文本编码，得到标识特征；

5、将源语种特征与标识特征进行拼接，对拼接后的特征进行去噪处理，得到目标特征；

6、对目标特征进行语音空间的转换，得到目标语种语音。

7、可选地，对获取到的源语种语音加入噪音后进行提取特征，得到源语种特征，包括：

8、从高斯噪音中采样一个与源语种语音相同形状的噪音，将所述噪音与所述源语种语音进行元素相加；

9、将相加后的语音经过变分自编码器的编码模块，将语音分布转换为高斯分布，得到源语种特征。

10、可选地，对目标语种进行文本编码，得到标识特征，包括：

11、将目标语种输入到clip的文本编码器中，进行文本特征提取，得到目标语种标识的标识特征。

12、可选地，将源语种特征与标识特征进行拼接，包括：

13、将标识特征放在源语种特征前面，在时间维度上进行拼接。

14、可选地，对拼接后的特征进行去噪处理，包括：

15、将拼接后的特征输入到深度学习模型unet中，输出噪音；

16、从拼接后的特征中去掉噪音，完成去噪处理。

17、可选地，对目标特征进行语音空间的转换，包括：

18、利用变分自编码器的解码模块对目标特征从高斯分布转换为目标语种语音的分布，得到目标语种语音。

19、可选地，从高斯噪音中采样一个与源语种语音相同形状的噪音，将所述噪音与所述源语种语音进行元素相加，包括：

20、确定源语种语音矩阵的形状；

21、从高斯噪音中采样一个与源语种语音矩阵的形状相同的噪音矩阵；

22、将源语种语音矩阵与噪音矩阵对应位置元素相加。

23、根据本申请又一个方面，还提供了一种修改图片中目标位置的设备，所述设备包括：

24、一个或多个处理器；以及

25、存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

26、根据本申请再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

27、与现有技术相比，本申请通过对获取到的源语种语音加入噪音后进行提取特征，得到源语种特征；对目标语种进行文本编码，得到标识特征；将源语种特征与标识特征进行拼接，对拼接后的特征进行去噪处理，得到目标特征；对目标特征进行语音空间的转换，得到目标语种语音。从而实现一种开放类别的语音语种转化方法，可以完成任意源语种到任意目标语种的转化。

技术特征：

1.一种语音语种转化的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对获取到的源语种语音加入噪音后进行提取特征，得到源语种特征，包括：

3.根据权利要求1所述的方法，其特征在于，对目标语种进行文本编码，得到标识特征，包括：

4.根据权利要求1所述的方法，其特征在于，将源语种特征与标识特征进行拼接，包括：

5.根据权利要求1所述的方法，其特征在于，对拼接后的特征进行去噪处理，包括：

6.根据权利要求2所述的方法，其特征在于，对目标特征进行语音空间的转换，包括：

7.根据权利要求2所述的方法，其特征在于，从高斯噪音中采样一个与源语种语音相同形状的噪音，将所述噪音与所述源语种语音进行元素相加，包括：

8.一种语音语种转化的设备，其特征在于，所述设备包括：

9.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。

技术总结本申请的目的是提供一种语音语种转化的方法及设备，本申请通过对获取到的源语种语音加入噪音后进行提取特征，得到源语种特征；对目标语种进行文本编码，得到标识特征；将源语种特征与标识特征进行拼接，对拼接后的特征进行去噪处理，得到目标特征；对目标特征进行语音空间的转换，得到目标语种语音。从而可以完成任意源语种到任意目标语种的转化。技术研发人员：武嘉妮,孔欧,刘益东受保护的技术使用者：上海蜜度数字科技有限公司技术研发日：技术公布日：2024/6/11