技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音转换方法、装置、设备及介质与流程 > 正文

一种语音转换方法、装置、设备及介质与流程

国知局
2024-06-21 11:53:12

本发明涉及金融科技，尤其涉及一种语音转换方法、装置、设备及介质。

背景技术：

1、随着人工智能技术的快速发展，语音转换在各领域取得了显著成果，而智能客服系统能第一时间响应用户咨询需求而广泛应用于金融服务平台中，金融服务平台可以是保险平台、银行平台、交易平台、订单平台等，不仅可以支持购物、社交、互动游戏、资源转移等功能，还可以具有申请贷款、信用卡或者购买保险、理财产品等功能，并且常涉及语音转换的问题。

2、传统方案中，语音转换技术通常需要基于特征量化的语音转换方案利用预训练的语音大模型进行文本特征的提取，从而对源语音整体进行转换，实现目标语音整体输出，但是特征提取的预训练模型通常是需要在asr数据上进行调优的，且这些模型存在显著的语音读错和音色泄露问题，进而使语音转换步骤复杂，导致语音转换完成后得到的语音质量较差，因此，如何提高语音转换完成后的语音质量已成为本领域技术人员亟待解决的技术问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种语音转换方法、装置、设备及介质，以解决现有技术容易导致语音转换完成后得到的语音质量较差的问题。

2、本申请实施例的第一方面提供了一种语音转换方法，所述语音转换方法包括：

3、获取原始样本音频，对所述原始样本音频进行声音特征提取及向量化处理，得到语音向量；

4、将所述语音向量输入到预设的频谱编码器中，得到语义特征；

5、采用预设的量化器对所述语义特征进行量化处理得到量化特征；

6、将所述量化特征与预设特征输入至预设的解码器中，预测得到目标语音特征；

7、根据所述目标语音特征，利用预设的声码器对待处理语音数据进行语音转换，得到目标语音数据，其中，所述待处理语音数据按照预设的采样率从所述原始样本音频中进行采样。

8、本申请实施例的第二方面提供了一种语音转换装置，所述语音转换装置包括：

9、获取模块，用于获取原始样本音频，对所述原始样本音频进行声音特征提取及向量化处理，得到语音向量；

10、得到模块，用于将所述语音向量输入到预设的频谱编码器中，得到语义特征；

11、处理模块，用于采用预设的量化器对所述语义特征进行量化处理得到量化特征；

12、预测模块，用于将所述量化特征与预设特征输入至预设的解码器中，预测得到目标语音特征；

13、转换模块，用于根据所述目标语音特征，利用预设的声码器对待处理语音数据进行语音转换，得到目标语音数据，其中，所述待处理语音数据按照预设的采样率从所述原始样本音频中进行采样。

14、第三方面，本发明实施例提供了一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的语音转换方法。

15、第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音转换方法。

16、综上所述，本发明提供了一种语音转换方法、装置、设备及存储介质，通过获取原始样本音频，对原始样本音频进行声音特征提取及向量化处理，得到语音向量，将语音向量输入到预设的频谱编码器中，得到语义特征，采用预设的量化器对语义特征进行量化处理得到量化特征，将量化特征与预设特征输入至预设的解码器中，预测得到目标语音特征，进而根据目标语音特征，利用预设的声码器对待处理语音数据进行语音转换，得到目标语音数据，其中，待处理语音数据按照预设的采样率从所述原始样本音频中进行采样。本方案通过利用频谱编码器获取真实的语义特征，进而利用量化器对语义特征的量化进行监督，使量化过程的目的性非常的明确，能高效的抓取量化特征，进而减少了语音转换的步骤，从而提高了语音转换的效率和语音转换质量，以满足各种金融场景。

技术特征：

1.一种语音转换方法，其特征在于，包括：

2.如权利要求1所述的语音转换方法，其特征在于，所述对所述原始样本音频进行声音特征提取及向量化处理，得到语音向量，包括：

3.如权利要求2所述的语音转换方法，其特征在于，所述利用预设的图片分类模型对所述目标声谱图进行向量化处理，得到语音向量，包括：

4.如权利要求1所述的语音转换方法，其特征在于，所述量化器包含有根据预设配置建立的量化空间，所述采用预设的量化器对所述语义特征进行量化处理得到量化特征，包括：

5.如权利要求1所述的语音转换方法，其特征在于，所述将所述量化特征与预设特征输入至预设的解码器中，预测得到目标语音特征，包括：

6.如权利要求5所述的语音转换方法，其特征在于，所述预设特征通过如下步骤得到：

7.如权利要求1所述的语音转换方法，其特征在于，所述频谱编码器、所述量化器、所述解码器和所述声码器基于预训练的语音转换模型训练得到，所述语音转换模型通过如下方式进行训练：

8.一种语音转换装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音转换方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音转换方法。

技术总结本发明涉及金融科技技术领域，尤其涉及一种语音转换方法、装置、设备及介质，通过获取原始样本音频，对原始样本音频进行声音特征提取转换及向量化处理，得到语音向量，将语音向量输入到预设的频谱编码器中，得到语义特征，采用预设的量化器对语义特征进行量化处理得到量化特征，将量化特征与预设特征输入至预设的解码器中，预测得到目标语音特征，进而根据目标语音特征，利用预设的声码器对待处理语音数据进行语音转换，得到目标语音数据。本方案通过利用量化器对语义特征的量化进行监督，使量化过程的目的性非常的明确，能高效的抓取量化特征，减少了语音转换的步骤，从而提高了语音转换的效率和语音转换质量，以满足各种金融场景。技术研发人员：朱清影,缪陈峰,陈闽川,马骏,王少军,肖京受保护的技术使用者：平安科技（深圳）有限公司技术研发日：技术公布日：2024/5/27