技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于语音自监督学习表征的重读可控语音合成方法及装置与流程 > 正文

基于语音自监督学习表征的重读可控语音合成方法及装置与流程

国知局
2024-06-21 11:33:53

本发明涉及语音合成，尤其涉及一种基于语音自监督学习表征的重读可控语音合成方法及装置。

背景技术：

1、随着人工智能技术的发展，语音合成技术越来越受到人们的重视，语音合成技术被广泛应用在人机交互或者将文本转化成自然语言输出等领域。

2、目前，在语音合成中建模重读的方法主要有以下两种：一种是使用人工标注的重读硬标签，例如使用数字0，1来分别代表重读和不重读；第二种是使用连续小波变化算法自动地从语音中提取韵律特征并分析得到重读标记。然而由于高质量语音合成数据录制的时间和金钱成本较高，语音合成数据量有限，导致语音重读标签不具有泛化性，因此这两种重读方法限制了重读语音合成的自然度和表现力。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种基于语音自监督学习表征的重读可控语音合成方法、装置、计算机设备及存储介质，以解决上述现有技术中存在的至少一个问题。

2、本技术实施例是这样实现的，提供了一种基于语音自监督学习表征的重读可控语音合成方法，包括如下步骤：

3、获取原始语音信号，通过预设的语音自监督预训练模型从所述原始音频信号中提取帧级表征；

4、通过预设的微调模块对所述帧级表征进行加权和处理以及池化处理，以得到字级表征；

5、获取待处理文本数据，将所述待处理文本数据转换为对应的离散音素序列，将所述离散音素序列编码为连续音素嵌入表征，并输入至预设的编码器中进行处理，以得到文本隐层表征；

6、将所述文本隐层表征与所述字级表征输入至预设的自监督学习表征编码器中进行处理，以得到解码器输入特征；

7、将所述解码器输入特征输入至预设的解码器中进行解码处理，以得到音频的梅尔频谱表征，并将所述梅尔频谱表征还原为语音波形。

8、在一实施例中，所述通过预设的微调模块对所述帧级表征进行加权和处理以及池化处理，以得到字级表征之后，包括：

9、对所述字级表征进行重读分类预测，以得到每个字的字级重读表征；

10、基于所述字级重读表征，对所述预设的语音自监督预训练模型进行迭代训练。

11、在一实施例中，所述通过预设的语音自监督预训练模型从所述原始音频信号中提取帧级表征，包括：

12、通过梅尔滤波器组对所述原始音频信号进行处理，以提取音频特征；

13、将所述音频特征依次输入至多个编码器层中进行特征提取，以得到多个所述帧级表征。

14、在一实施例中，所述通过预设的微调模块对所述帧级表征进行加权和处理以及池化处理，以得到字级表征，包括：

15、对多个所述帧级表征进行加权和操作，以得到最终的帧级表征；

16、对所述最终的帧级表征进行池化处理，以得到所述字级表征。

17、在一实施例中，所述对所述最终的帧级表征进行池化处理，以得到所述字级表征，包括：

18、确定每个字对应的时间帧范围，所述时间帧范围包括起始时间帧以及结束时间帧；

19、基于所述起始时间帧以及结束时间帧，对每个字所属的帧级表征进行平均池化操作，以得到所述字级表征。

20、在一实施例中，所述将所述离散音素序列编码为连续音素嵌入表征，包括：

21、获取预训练的音素查询表；

22、通过所述音素查询表查找所述离散音素序列中每个音素对应的音素嵌入向量，以得到音素嵌入向量序列，所述音素嵌入向量序列构成所述连续音素嵌入表征。

23、在一实施例中，所述输入至预设的编码器中进行处理，以得到文本隐层表征，包括：

24、获取说话人id，并基于预设说话人查询表，得到说话人嵌入向量；

25、将所述连续音素嵌入表征与所述说话人嵌入向量进行相加的结果输入至所述预设的编码器中进行处理，以得到所述文本隐层表征。

26、在一实施例中，所述将所述文本隐层表征与所述字级重读表征输入至预设的自监督学习表征编码器中进行处理，以得到解码器输入特征，包括：

27、根据每个字对应的音素数，将所述字级重读表征转换为音素级重读表征；

28、对所述音素级重读表征进行线性变换，得到线性变换后的音素级重读表征，所述线性变换后的音素级重读表征与所述文本隐层表征的维度一致；

29、对所述线性变换后的音素级重读表征进行卷积以及归一化处理，并与所述文本隐层表征进行相加，以得到所述解码器输入特征。

30、在一实施例中，所述将所述解码器输入特征输入至预设的解码器中进行解码处理，以得到音频的梅尔频谱表征，并将所述梅尔频谱表征还原为语音波形，包括：

31、将所述解码器输入特征从音素级表征拓展为目标帧级表征；

32、将所述目标帧级表征输入至所述预设的解码器中进行处理，以得到所述音频的梅尔频谱表征，并将所述梅尔频谱表征还原为语音波形。

33、第二方面，提供了一种基于语音自监督学习表征的重读可控语音合成装置，包括：

34、帧级表征提取单元，用于获取原始语音信号，通过预设的语音自监督预训练模型从所述原始音频信号中提取帧级表征；

35、字级表征获取单元，用于通过预设的微调模块对所述帧级表征进行加权和处理以及池化处理，以得到字级表征；

36、文本隐层表征获取单元，用于获取待处理文本数据，将所述待处理文本数据转换为对应的离散音素序列，将所述离散音素序列编码为连续音素嵌入表征，并输入至预设的编码器中进行处理，以得到文本隐层表征；

37、预测特征获取单元，用于将所述文本隐层表征与所述字级表征输入至预设的自监督学习表征编码器中进行处理，以得到解码器输入特征；

38、梅尔频谱表征获取单元，用于将所述解码器输入特征输入至预设的解码器中进行解码处理，以得到音频的梅尔频谱表征，并将所述梅尔频谱表征还原为语音波形。

39、第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述所述基于语音自监督学习表征的重读可控语音合成方法的步骤；

40、第四方面，提供了一种可读存储介质，所述可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述所述基于语音自监督学习表征的重读可控语音合成方法的步骤。

41、上述基于语音自监督学习表征的重读可控语音合成方法、装置、计算机设备及存储介质，其方法实现，包括：获取原始语音信号，通过预设的语音自监督预训练模型从所述原始音频信号中提取帧级表征；通过预设的微调模块对所述帧级表征进行加权和处理以及池化处理，以得到字级表征；获取待处理文本数据，将所述待处理文本数据转换为对应的离散音素序列，将所述离散音素序列编码为连续音素嵌入表征，并输入至预设的编码器中进行处理，以得到文本隐层表征；将所述文本隐层表征与所述字级表征输入至预设的自监督学习表征编码器中进行处理，以得到解码器输入特征；将所述解码器输入特征输入至预设的解码器中进行解码处理，以得到音频的梅尔频谱表征，并将所述梅尔频谱表征还原为语音波形。本技术实施例中，通过语音自监督预训练模型以及微调模块对每个字进行重读标记，然后基于该重读标记引入声学模型中进行重读建模以及重读语音合成处理，借助大规模数据训练的语音自监督模型知识帮助提升重度可控语音合成的自然度和表现力。