技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种显示设备及语音转换方法与流程 > 正文

一种显示设备及语音转换方法与流程

国知局
2024-06-21 11:41:20

本申请涉及语音信号处理，尤其涉及一种显示设备及语音转换方法。

背景技术：

1、智能电视等显示设备不仅可以输出视频、音频等媒资，还可以唱歌、玩游戏或进行直播等，以提升显示设备的娱乐性和使用率。例如，显示设备中可以安装有录歌软件或者娱乐软件，通过这些软件，用户可以模仿某个人的声音，如模仿某个人唱歌、说话等，同时，在需要保护个人隐私的情况下，还可以将用户的语音转换为目标类型的语音，也就是说，通过显示设备可以实现语音转换功能。

2、语音转换是一种用目标语音来替换源语音、但是保持语音内容不变的一种转换方式。语音转换的实质是改变一段语音中的语音的声音，例如，某一段源语音的语音特色是温柔的，想要在语音内容不变的情况下，将该段语音转换为严厉的声音，语音转换的目的在于，在保持语音内容不变的前提下，将源声音转换为目标语音。

3、为了实现语音转换功能，在一些实施例中，可以通过现有的将任意语音转换到其他任意语音的转换方法。但是，该方式中对语音的训练和推理的要求较高，导致语音转换的复杂度较高。

技术实现思路

1、本申请一些实施例提供一种显示设备及语音转换方法，以解决语音转换复杂度高的问题。

2、第一方面，本申请一些实施例提供一种显示设备，包括：

3、显示器，被配置为显示用户界面；

4、控制器，被配置为：

5、获取源语音中的查询帧，以及计算所述查询帧中第一特征向量与参考语音的匹配集中的第二特征向量的余弦距离；所述匹配集为所述参考语音的自监督特征向量池；

6、根据所述余弦距离在所述匹配集中提取目标数量个向量，以及计算目标数量个所述向量的平均值，得到近邻平均值；

7、基于所述近邻平均值在所述第二特征向量中提取目标向量；

8、将所述第一特征向量替换为所述目标向量；

9、通过声码器将所述目标向量转换为音频波形。

10、在一些实施例中，所述控制器进一步被配置为：

11、设定执行语音转换的语音内容对应的目标语音；

12、查询所述目标语音的语音特征；

13、如果查询到所述语音特征，执行通过声码器将所述目标向量转换为音频波形的步骤；

14、如果未查询到所述语音特征，采集所述目标语音的语音信息，以及在所述语音信息采集完成后，执行通过声码器将所述目标向量转换为音频波形的步骤。

15、在一些实施例中，所述控制器进一步被配置为：

16、获取用于对编码器执行预训练的混合语音音频；所述编码器包括卷积编码器和变压编码器；

17、通过所述卷积编码器对所述混合语音音频执行特征提取，生成混合音频特征；

18、通过所述变压编码器对所述混合音频特征执行建模，生成目标标签；

19、根据所述目标标签计算所述混合语音音频的掩膜预测损失；

20、通过所述掩膜预测损失预训练所述卷积编码器和所述变压编码器，生成预训练编码器。

21、在一些实施例中，编码器采用wav语言模型，所述控制器进一步被配置为：

22、提取所述wav语言模型中的目标层；所述目标层的数量小于数量阈值；

23、通过所述目标层提取源语音和参考语音的自监督特征。

24、在一些实施例中，所述控制器在执行通过声码器将所述目标向量转换为音频波形步骤之前，进一步被配置为：

25、对所述源语音依次执行预加重处理、分帧加汉宁窗处理、快速傅里叶变换处理、幅值求平方处理、梅尔滤波器组滤波处理、求对数功率处理、离散余弦变换处理和提取mel频率倒谱系数处理，以生成所述源语音的第一特征向量。

26、在一些实施例中，所述控制器进一步被配置为：

27、获取所述源语音以及所述参考语音；

28、提取所述源语音和所述参考语音中的特征序列；

29、组合所述特征序列，以分别形成所述源语音和所述参考语音的自监督特征向量池。

30、在一些实施例中，所述控制器在执行通过声码器将所述目标向量转换为音频波形的步骤之前，进一步被配置为：

31、获取训练语音，所述训练语音为包含所述目标语音的语音数据；

32、通过k近邻算法基于所述训练语音建立声码器训练集。

33、在一些实施例中，所述控制器进一步被配置为：

34、将所述训练语音作为查询序列，以及使用所述训练语音构建声码匹配集；

35、通过k近邻算法使用所述声码匹配集重建查询序列，以通过所述声码器预测所述目标语音的初始波形。

36、在一些实施例中，所述控制器进一步被配置为：

37、对所述音频波形执行采样和加窗处理；

38、对采样和加窗处理后的音频波形执行重叠相加计算；

39、输出重叠相加计算后的目标语音。

40、第二方面，本申请一些实施例提供一种语音转换方法，可以应用于第一方面的显示设备，所述显示设备包括显示器和控制器，所述语音转换方法包括：

41、获取源语音中的查询帧，以及计算所述查询帧中第一特征向量与参考语音的匹配集中的第二特征向量的余弦距离；所述匹配集为所述参考语音的自监督特征向量池；

42、根据所述余弦距离在所述匹配集中提取目标数量个向量，以及计算目标数量个所述向量的平均值，得到近邻平均值；

43、基于所述近邻平均值在所述第二特征向量中提取目标向量；

44、将所述第一特征向量替换为所述目标向量；

45、通过声码器将所述目标向量转换为音频波形。

46、由以上技术方案可知，本申请一些实施例提供一种显示设备及语音转换方法，所述方法包括：获取源语音中的查询帧，以及计算查询帧中第一特征向量与参考语音的匹配集中的第二特征向量的余弦距离；之后根据余弦距离确定匹配集中与查询帧中距离最近的目标数量个向量，以及计算向量的平均值，得到近邻平均值；基于近邻平均值在第二特征向量中确定与第一特征向量匹配的目标向量；再将第一特征向量替换为目标向量，以将源语音映射到目标语音；最后通过声码器将目标向量转换为音频波形，以实现语音转换。所述显示设备采用k近邻算法实现语音转换的过程，在执行语音转换的过程中无需人为使用函数的方式进行显示转换，可以降低计算的复杂度，进而解决语音转换复杂度高的问题。

技术特征：

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述控制器进一步被配置为：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器进一步被配置为：

4.根据权利要求3所述的显示设备，其特征在于，编码器采用wav语言模型，所述控制器进一步被配置为：

5.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行通过声码器将所述目标向量转换为音频波形步骤之前，进一步被配置为：

6.根据权利要求1所述的显示设备，其特征在于，所述控制器进一步被配置为：

7.根据权利要求2所述的显示设备，其特征在于，所述控制器在执行通过声码器将所述目标向量转换为音频波形的步骤之前，进一步被配置为：

8.根据权利要求7所述的显示设备，其特征在于，所述控制器进一步被配置为：

9.根据权利要求1所述的显示设备，其特征在于，所述控制器进一步被配置为：

10.一种语音转换方法，应用于权利要求1-9任一项所述的显示设备，所述显示设备包括显示器和控制器，其特征在于，所述语音转换方法包括：

技术总结本申请提供一种显示设备及语音转换方法，所述方法包括：获取源语音中的查询帧，以及计算查询帧中第一特征向量与参考语音的匹配集中的第二特征向量的余弦距离；之后根据余弦距离确定匹配集中与查询帧中距离最近的目标数量个向量，以及计算向量的平均值，得到近邻平均值；基于近邻平均值在第二特征向量中确定与第一特征向量匹配的目标向量；再将第一特征向量替换为目标向量，以将源语音映射到目标语音；最后通过声码器将目标向量转换为音频波形，以实现语音转换。所述方法采用K近邻算法实现语音转换的过程，无需人为使用函数的方式进行显示转换，可以降低计算的复杂度，进而解决语音转换复杂度高的问题。技术研发人员：周鉴星,林子毅,陶廉洁,杨毅受保护的技术使用者：海信电子科技（深圳）有限公司技术研发日：技术公布日：2024/4/7