技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频处理方法、装置、设备及介质与流程 > 正文

一种音频处理方法、装置、设备及介质与流程

国知局
2024-06-21 11:33:00

本技术属于音频领域，尤其涉及一种音频处理方法、装置、设备及介质。

背景技术：

1、家庭智能语音交互设备、以及用户实时聊天软件中的音频功能，方便了用户使用。但是随着声纹识别算法日趋成熟，用户交互的音频有暴露声纹的风险。现在已经达到了收集用户5条以上的音频，即可通过识别该音频的声纹，在万计的用户中检测出该音频的归属用户，导致用户的隐私无法得到保护。

2、关于声纹保护，现有的方案为通过变声器将用户的音频的频率转换，或者将用户的音频转换为文本后，再调用声音合成算法将文本转换为音频，以实现声纹保护。但是如上两种声纹保护方式，都需要在用户录音后，再对整个录音音频进行转换，不能实时保护；同时，如上两种方式，在用户对讲或发送录音等场景，接收方用户听取转换后的音频仅有内容一致，音色发生了极大变换，接收方用户会感觉换了个人，无法达到友好交互的目的，以及交互较机械生硬，不具备感情色彩。

3、因此迫切需要一种使音频听起来和原音频相似，但是声纹已被改变的声纹保护方法。

技术实现思路

1、本技术提供了一种音频处理方法、装置、设备及介质，用以解决现有技术的音频处理方法中使音频音色发生了较大变换，无法达到友好交互的问题。

2、第一方面，本技术提供了一种音频处理方法，所述方法包括：

3、针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类；

4、识别所述音频中每个音素的起始位置，并选取待混淆音素；

5、在预先保存的各音频种类的各音素对应的混淆数据中，确定所述目标音频种类的所述待混淆音素对应的目标混淆数据；

6、在所述音频中确定所述待混淆音素所在的时间区间，根据所述目标混淆数据对所述时间区间内的音频进行处理。

7、在一种可能的实施方式中，所述混淆数据为基频及泛频的频率及能量值，所述根据所述目标混淆数据对所述时间区间内的音频进行处理包括：

8、过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频；

9、将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内。

10、在一种可能的实施方式中，所述在所述音频中确定所述待混淆音素所在的时间区间之后，所述过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频之前，所述方法还包括：

11、确定所述时间区间内所述待混淆音素对应的原基频及泛频的原能量和；

12、确定所述目标基频及目标泛频的目标能量和；

13、根据所述原能量和与所述目标能量和的比值确定增益衰减系数；

14、所述将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内包括：

15、采用所述增益衰减系数对所述目标基频及目标泛频的能量值处理，将所述目标基频及目标泛频的频率及处理后的能量值添加到所述音频的所述时间区间内。

16、在一种可能的实施方式中，所述混淆数据为混淆音频，所述在所述音频中确定所述待混淆音素所在的时间区间之后，所述根据所述目标混淆数据对所述时间区间内的音频进行处理包括：

17、将所述目标混淆音频与所述时间区间内的音频进行采样合成。

18、在一种可能的实施方式中，所述采用预先训练完成的识别模型，确定所述音频的目标音频种类包括：

19、采用预先训练完成的第一模型，确定所述音频归属的目标用户的年龄段及性别；

20、采用预先训练完成的第二模型，确定所述音频与预设的各个声音风格的音频的相似度；根据所述与预设的各个声音风格的音频的相似度，确定所述音频的目标声音风格；

21、将所述年龄段、性别及目标声音风格确定为所述音频的目标音频种类。

22、在一种可能的实施方式中，所述根据所述相似度，确定所述音频的目标声音风格包括：

23、若所述与预设的各个声音风格的音频的相似度中存在第一相似度阈值与第二相似度阈值范围内的相似度，则将位于所述范围内且最大的相似度对应的音频的声音风格确定为所述目标声音风格；其中所述第一相似度阈值大于所述第二相似度阈值；

24、若不存在位于所述范围内的相似度，且相似度均大于所述第一相似度阈值，则确定最小的相似度对应的音频的声音风格为所述目标声音风格；

25、若不存在位于所述范围内的相似度，且相似度均小于所述第二相似度阈值，则确定最大的相似度对应的音频的声音风格为所述目标声音风格。

26、在一种可能的实施方式中，所述选取待混淆音素包括：

27、根据预设的混淆比例及所述音频中出现的音素的总数量，确定选取的待混淆音素的数量；

28、根据所述数量及所述总数量，确定每组包含的音素数量；

29、根据所述音频中音素出现的顺序，按照所述音素数量进行分组，在每组中任一选取一个音素作为待混淆音素。

30、第二方面，本技术提供了一种音频处理装置，所述装置包括：

31、确定模块，用于针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类；识别所述音频中每个音素的起始位置，并选取待混淆音素；在预先保存的各音频种类的各音素对应的混淆数据中，确定所述目标音频种类的所述待混淆音素对应的目标混淆数据；

32、处理模块，用于在所述音频中确定所述待混淆音素所在的时间区间，根据所述目标混淆数据对所述时间区间内的音频进行处理。

33、在一种可能的实施方式中，所述处理模块，具体用于过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频；将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内。

34、在一种可能的实施方式中，所述确定模块，具体用于确定所述时间区间内所述待混淆音素对应的原基频及泛频的原能量和；确定所述目标基频及目标泛频的目标能量和；根据所述原能量和与所述目标能量和的比值确定增益衰减系数；所述将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内包括：采用所述增益衰减系数对所述目标基频及目标泛频的能量值处理，将所述目标基频及目标泛频的频率及处理后的能量值添加到所述音频的所述时间区间内。

35、在一种可能的实施方式中，所述处理模块，具体用于将所述目标混淆音频与所述时间区间内的音频进行采样合成。

36、在一种可能的实施方式中，所述确定模块，具体用于采用预先训练完成的第一模型，确定所述音频归属的目标用户的年龄段及性别；采用预先训练完成的第二模型，确定所述音频与预设的各个声音风格的音频的相似度；根据所述与预设的各个声音风格的音频的相似度，确定所述音频的目标声音风格；将所述年龄段、性别及目标声音风格确定为所述音频的目标音频种类。

37、在一种可能的实施方式中，所述确定模块，具体用于若所述与预设的各个声音风格的音频的相似度中存在第一相似度阈值与第二相似度阈值范围内的相似度，则将位于所述范围内且最大的相似度对应的音频的声音风格确定为所述目标声音风格；其中所述第一相似度阈值大于所述第二相似度阈值；若不存在位于所述范围内的相似度，且相似度均大于所述第一相似度阈值，则确定最小的相似度对应的音频的声音风格为所述目标声音风格；若不存在位于所述范围内的相似度，且相似度均小于所述第二相似度阈值，则确定最大的相似度对应的音频的声音风格为所述目标声音风格。

38、在一种可能的实施方式中，所述确定模块，具体用于根据预设的混淆比例及所述音频中出现的音素的总数量，确定选取的待混淆音素的数量；根据所述数量及所述总数量，确定每组包含的音素数量；根据所述音频中音素出现的顺序，按照所述音素数量进行分组，在每组中任一选取一个音素作为待混淆音素。

39、第三方面，本技术还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述音频处理方法的步骤。

40、第四方面，本技术还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述音频处理方法的步骤。

41、在本技术中，针对待处理的音频，确定音频的目标音频种类后，在音频中选取待混淆音素，采用待混淆音素对应的目标混淆数据对该待混淆音素对应的时间区间内的音频进行处理，因为只对部分音素进行了处理，因此能够保证音频听起来与原音频相似，但因音频中包含的声纹特征已经发生变化，因此实现了用户声纹特征的混淆，保护了用户的声纹。