技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频获取方法及装置、计算机可读存储介质、电子设备与流程 > 正文

音频获取方法及装置、计算机可读存储介质、电子设备与流程

国知局
2024-06-21 11:51:38

本发明涉及语音合成，尤其涉及一种音频获取方法及装置、计算机可读存储介质、电子设备。

背景技术：

1、随着技术的发展，人们对语音合成的要求也不再仅仅是“能听清”，语音合成的个性化需求日益增多。为此，声音复刻(voice reproduce service，vrs)技术应运而生，用户可以利用声音复刻技术克隆自己的专属声音。然而，现有的声音复刻的效率有待提高。

技术实现思路

1、本申请实施例解决的技术问题是如何提高声音复刻的效率。

2、有鉴于此，第一方面，本申请实施例提供一种音频获取方法，所述方法包括：采集用户的音频数据；提取所述音频数据的特征信息；根据所述特征信息判断所述音频数据是否为合格音频数据，所述合格音频数据至少与所述用户的语音风格特征相匹配；若所述音频数据为所述合格音频数据，则将所述音频数据添加至所述用户的音频数据集合中，所述用户的音频数据集合用于所述用户的声音复刻。

3、可选的，所述特征信息包括：声纹特征向量，根据所述特征信息判断所述音频数据是否为合格音频数据包括：计算第一相似度，所述第一相似度是指所述声纹特征向量和用户的参考声纹特征向量的相似度；若所述第一相似度大于或等于第一阈值，则确定所述音频数据和用户的语音风格特征匹配。

4、可选的，所述方法还包括：每当所述音频数据集合中的音频数据更新，利用所述音频数据集合中的音频数据更新所述用户的参考声纹特征。

5、可选的，所述特征信息包括音频韵律特征向量，根据所述特征信息判断所述音频数据是否为合格音频数据包括：根据所述音频韵律特征向量判断所述音频数据的韵律与所述音频数据对应的文本的韵律是否匹配；若所述音频数据和所述语音风格特征匹配，且所述音频数据的韵律与所述音频数据对应的文本的韵律匹配，则确定所述音频数据为所述合格音频数据。

6、可选的，根据所述音频韵律特征向量判断所述音频数据的韵律与所述音频数据对应的文本的韵律是否匹配，包括：计算第二相似度，所述第二相似度是指所述音频韵律特征向量和文本韵律特征向量的相似度，所述文本韵律特征向量基于所述音频数据对应的文本得到；若所述第二相似度大于或等于第二阈值，则确定所述音频数据的韵律与所述音频数据对应的文本的韵律匹配。

7、可选的，所述方法还包括：若所述音频数据的韵律与所述音频数据对应的文本的韵律不匹配，则将所述音频韵律特征向量转换为第一文字序列，以及将所述文本韵律特征向量转换为第二文字序列，其中，所述第一文字序列和所述第二文字序列为带有停顿标识符的所述音频数据对应的文本，所述停顿标识符用于表示停顿以及停顿的时长；向用户输出所述第一文字序列和所述第二文字序列。

8、可选的，提取所述音频数据的特征信息之前，所述方法还包括：对所述音频数据进行预处理。

9、第二方面，本申请实施例提供一种音频获取装置，所述装置包括：采集模块，用于采集用户的音频数据；特征提取模块，用于提取所述音频数据的特征信息；判断模块，用于根据所述特征信息判断所述音频数据是否为合格音频数据，所述合格音频数据至少与所述用户的语音风格特征相匹配；更新模块，用于若所述音频数据为合格音频数据，则将所述音频数据添加至所述用户的音频数据集合中，所述用户的音频数据集合用于所述用户的声音复刻。

10、第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的音频获取方法的步骤。

11、第四方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的音频获取方法的步骤。

12、与现有技术相比，本发明实施例的技术方案具有以下有益效果：

13、本申请实施例的方案中，采集用户的音频数据，提取音频数据的特征信息，然后根据特征信息判断音频数据是否是合格音频数据，如果音频数据是合格音频数据，则将音频数据添加至用户的音频数据集合中，以用于用户的声音复刻。相较于现有技术中人为审核判定的方案，上述方案能够自动且客观地对用于声音复刻的音频进行质量判定，有利于提高用于声音复刻的数据采集效率。

14、此外，上述方案中，基于特征信息来判断采集的音频数据是否与用户的语音风格特征相匹配，以保证用于同一用户的声音复刻的音频数据在语音风格特征上的一致性，能够避免同一用户录制的音频数据因个人状态变化等原因，导致语音风格特征不一致、需要采集更多的音频以较好地还原用户声音的情况。因此，本申请实施例的方案还能够有效降低声音复刻的训练数据的收集时间，进一步有利于提高声音复刻在数据采集阶段的效率。

15、进一步，本申请实施例的方案中，根据音频韵律特征向量判断音频数据的韵律与音频数据对应的文本的韵律是否匹配；若音频数据和语音风格特征匹配，且音频数据的韵律与音频数据对应的文本的韵律匹配，则确定音频数据为合格音频数据。上述方案中，通过音频数据的韵律和音频数据对应的文本的韵律是否匹配的判断来识别音频数据中停顿不合理的情况，以保证合格音频数据的质量，从而实现高质量的声音复刻。

16、进一步，若音频数据的韵律和音频数据对应的文本的韵律不匹配，则可以向用户输出第一文字序列和第二文字序列。第一文字序列和第二文字序列均为带有停顿标识符的音频数据对应的文本。其中，停顿标识符的位置用于指示停顿位置，停顿标识符的类型用于指示停顿的时长。采用这样的方案，能够直观地展示音频数据中停顿不合理的具体情况，实现及时纠错和正确引导，使得用户能够有针对性地进行调整，降低声音复刻的训练数据的收集时间，从而提高合格音频数据的采集效率。

技术特征：

1.一种音频获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的音频获取方法，其特征在于，所述特征信息包括：声纹特征向量，根据所述特征信息判断所述音频数据是否为合格音频数据包括：

3.根据权利要求2所述的音频获取方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的音频获取方法，其特征在于，所述特征信息包括音频韵律特征向量，根据所述特征信息判断所述音频数据是否为合格音频数据包括：

5.根据权利要求4所述的音频获取方法，其特征在于，根据所述音频韵律特征向量判断所述音频数据的韵律与所述音频数据对应的文本的韵律是否匹配，包括：

6.根据权利要求5所述的音频获取方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的音频获取方法，其特征在于，提取所述音频数据的特征信息之前，所述方法还包括：

8.一种音频获取装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，执行权利要求1至7中任一项所述的音频获取方法的步骤。

10.一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至7中任一项所述的音频获取方法的步骤。

技术总结一种音频获取方法及装置、计算机可读存储介质、电子设备，所述方法包括：采集用户的音频数据；提取所述音频数据的特征信息；根据所述特征信息判断所述音频数据是否为合格音频数据，所述合格音频数据至少与所述用户的语音风格特征相匹配；若所述音频数据为所述合格音频数据，则将所述音频数据添加至所述用户的音频数据集合中，所述用户的音频数据集合用于所述用户的声音复刻。本申请提供的方案，有利于提高声音复刻的效率。技术研发人员：周邦健,沈伟林受保护的技术使用者：华院计算技术（上海）股份有限公司技术研发日：技术公布日：2024/5/12