技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种数据处理方法、装置及相关设备与流程 > 正文

一种数据处理方法、装置及相关设备与流程

国知局
2024-06-21 11:29:24

本申请属于音频处理，具体涉及一种数据处理方法、装置及相关设备。

背景技术：

1、随着荷尔蒙分泌水平、喉结增长、声带厚度以及肺活量的变化，人们在不同的年龄声音特征也不同。然而，现有技术中年龄化的呈现一般都基于面部图像，并没有考虑声音的年龄化。例如，在元宇宙的虚拟人养成类场景中，虚拟人在不同的年龄可以呈现出不同的外貌特征。虽然不同虚拟人的声音各不相同，但是对于同一个虚拟人，在其不同的年龄声音特征却是相同的。

2、可见，现有的数据处理方法并没有考虑音频年龄化的特征，导致输出的音频效果不能随年龄变化而发生变化，拟真效果差。

技术实现思路

1、本申请实施例的目的是提供一种数据处理方法、装置及相关设备，能够解决现有的音频拟真效果差的问题。

2、第一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

3、对用户的第一数据进行特征提取，得到第一音频数据对应的第一音频特征信息，所述第一数据包括所述第一音频数据，所述第一音频特征信息为所述用户在第一年龄具有的音频特征信息；

4、对所述第一音频特征信息进行预测处理，得到第二音频特征信息，所述第二音频特征信息为所述用户在第二年龄具有的音频特征信息，所述第二年龄与所述第一年龄为不同年龄；

5、根据所述第二音频特征信息，输出所述用户的第二音频数据。

6、可选地，所述对用户的第一数据进行特征提取，得到第一音频数据对应的第一音频特征信息，包括：

7、提取所述第一音频数据的音频频率、音频振幅和音频时间；

8、根据所述第一音频数据的音频频率、音频振幅和音频时间，对所述第一音频数据进行图像化，得到第一频谱图像，所述第一频谱图像用于表示所述第一音频特征信息。

9、可选地，所述根据所述第一音频数据的音频频率、音频振幅和音频时间，对所述第一音频数据进行图像化，得到第一频谱图像，包括：

10、以所述音频时间为横轴、所述音频频率为纵轴，构建预设像素区域；

11、将所述预设像素区域各点对应的音频振幅转换为红绿蓝rgb维度的颜色值，得到所述第一频谱图像。

12、可选地，所述对所述第一音频特征信息进行预测处理，得到第二音频特征信息，包括：

13、基于预先获取的网络模型计算所述第一频谱图与第二频谱图的损失值，所述第二频谱图为第一生成器根据第三频谱图生成的，所述第三频谱图为第二生成器根据所述第一频谱图生成的，所述网络模型包括所述第一生成器和所述第二生成器，所述第一生成器和所述第二生成器互为反向生成器；

14、在所述第一频谱图与所述第二频谱图的损失值小于或等于第一阈值的情况下，确定所述第三频谱图用于表示所述第二音频特征信息。

15、可选地，所述对所述第一音频特征信息进行预测处理，得到第二音频特征信息，包括：

16、通过预先获取的网络模型对所述第一音频特征信息进行预测处理，得到第二音频特征信息，所述网络模型为用于基于所述第一音频特征信息生成至少一个年龄的音频特征信息的网络模型，所述至少一个年龄包括所述第二年龄。

17、可选地，所述网络模型包括训练后的第一生成器、第一判别器、训练后的第二生成器和第二判别器，所述训练后的第一生成器和所述训练后的第二生成器互为反向生成器，所述网络模型通过如下方式训练得到；

18、所述第一判别器根据第一预测音频特征信息和第二样本音频特征信息之间的相似度，对第一生成器进行迭代，所述第一预测音频特征信息为所述第一生成器根据样本用户在第一预设年龄的第一样本音频特征信息生成的所述样本用户在第二预设年龄的预测音频特征信息，所述第二样本音频特征信息为所述样本用户在第二预设年龄的样本音频特征信息；

19、在所述第一预测音频特征信息和所述第二样本音频特征信息之间的相似度达到第一预设值的情况下，得到所述训练后的第一生成器；

20、所述第二判别器根据第二预测音频特征信息和所述第一样本音频特征信息之间的相似度，对第二生成器进行迭代，所述第二预测音频特征信息为所述第二生成器根据所述第一预测音频特征信息生成的所述样本用户在第一预设年龄的预测音频特征信息，所述第一样本音频特征信息为所述样本用户在第一预设年龄的样本音频特征信息；

21、在所述第二预测音频特征信息和所述第一样本音频特征信息之间的相似度达到第二预设值的情况下，得到所述训练后的第二生成器。

22、可选地，所述根据所述第二音频特征信息，输出所述用户的第二音频数据，包括：

23、获取虚拟人的外貌特征；

24、根据所述外貌特征确定所述虚拟人的年龄达到所述第二年龄的情况下，根据所述第二音频特征信息对所述第一音频数据进行调整，通过所述虚拟人输出所述第二音频数据。

25、第二方面，本申请实施例提供了一种数据处理装置，所述装置包括：

26、提取模块，用于对用户的第一数据进行特征提取，得到第一音频数据对应的第一音频特征信息，所述第一数据包括所述第一音频数据，所述第一音频特征信息为所述用户在第一年龄具有的音频特征信息；

27、处理模块，用于对所述第一音频特征信息进行预测处理，得到第二音频特征信息，所述第二音频特征信息为所述用户在第二年龄具有的音频特征信息，所述第二年龄与所述第一年龄为不同年龄；

28、输出模块，用于根据所述第二音频特征信息，输出所述用户的第二音频数据。

29、第三方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的方法的步骤。

30、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。

31、在本申请实施例中，根据第一音频数据中的第一音频特征信息确定用户的初始年龄为第一年龄，然后根据第一音频特征信息预测该用户在不同的年龄对应的音频特征信息，并基于用户在第二年龄具有的第二音频特征信息对用户在第一年龄的第一音频数据进行调整，模拟出用户在第二年龄的第二音频数据。这样，将音频数据进行了年龄化的调整，使得输出的音频效果可以随年龄变化而发生变化，提升了音频的拟真效果。

技术特征：

1.一种数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对用户的第一数据进行特征提取，得到第一音频数据对应的第一音频特征信息，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第一音频数据的音频频率、音频振幅和音频时间，对所述第一音频数据进行图像化，得到第一频谱图像，包括：

4.如权利要求2所述的方法，其特征在于，所述对所述第一音频特征信息进行预测处理，得到第二音频特征信息，包括：

5.如权利要求1所述的方法，其特征在于，所述对所述第一音频特征信息进行预测处理，得到第二音频特征信息，包括：

6.如权利要求5所述的方法，其特征在于，所述网络模型包括训练后的第一生成器、第一判别器、训练后的第二生成器和第二判别器，所述训练后的第一生成器和所述训练后的第二生成器互为反向生成器，所述网络模型通过如下方式训练得到；

7.如权利要求1所述的方法，其特征在于，所述根据所述第二音频特征信息，输出所述用户的第二音频数据，包括：

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

技术总结本申请公开了一种数据处理方法、装置及相关设备，属于音频处理技术领域，所述方法包括：对用户的第一数据进行特征提取，得到第一音频数据对应的第一音频特征信息，所述第一数据包括所述第一音频数据，所述第一音频特征信息为所述用户在第一年龄具有的音频特征信息；对所述第一音频特征信息进行预测处理，得到第二音频特征信息，所述第二音频特征信息为所述用户在第二年龄具有的音频特征信息，所述第二年龄与所述第一年龄为不同年龄；根据所述第二音频特征信息，输出所述用户的第二音频数据。将音频数据进行了年龄化的调整，使得输出的音频效果可以随年龄变化而发生变化，提升了音频的拟真效果。技术研发人员：杨苏,卢志强受保护的技术使用者：咪咕文化科技有限公司技术研发日：技术公布日：2024/2/21