技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、电子设备以及存储介质与流程 > 正文

音频处理方法、装置、电子设备以及存储介质与流程

国知局
2024-06-21 11:39:10

本申请涉及音频处理，更具体地，涉及一种音频处理方法、装置、电子设备以及存储介质。

背景技术：

1、特效音频就是指是指为增进一场面之真实感、气氛或戏剧讯息，而加于声带上的杂音或声音。目前存在一部分视频，在人物说完话后会播放一些特效音频，以增强表达效果。

2、相关技术中，在视频中添加特效音频的方案具体如下：视频编辑人员观看视频，已选择与视频中说话人的情绪匹配的特效音频，然后确定特效音频的添加位置，最后在确定出的位置处添加选择的特效音频。

3、相关技术中，特效音频的添加效率较低。

技术实现思路

1、本申请实施例提供一种音频处理方法、装置、电子设备以及存储介质。

2、第一方面，本申请实施例提供一种音频处理方法，方法包括：获取目标音频片段；基于目标音频片段中至少一个维度的特征，确定目标音频片段对应的目标情绪类别；在目标情绪类别为指定情绪类别的情况下，对目标音频片段进行语义识别，得到目标情绪类型；目标情绪类别对应的情绪类型集合包括目标情绪类型；获取与目标情绪类型匹配的目标特效音频；将目标音频片段中语音激活检测阈值小于指定阈值，且语音激活检测阈值小于指定阈值的持续时长大于指定时长的音频片段，确定为目标音频片段中停顿位置，指定时长是指目标特效音频的持续时长；在停顿位置处添加目标特效音频。

3、第二方面，本申请实施例提供一种音频处理装置，装置包括：音频片段获取模块，用于获取目标音频片段；情绪类别确定模块，用于基于目标音频片段中至少一个维度的特征，确定目标音频片段对应的目标情绪类别；情绪类型确定模块，用于在目标情绪类别为指定情绪类别的情况下，对目标音频片段进行语义识别，得到目标情绪类型；目标情绪类别对应的情绪类型集合包括目标情绪类型；特效音频获取模块，用于获取与目标情绪类型匹配的目标特效音频；停顿位置检测模块，用于将目标音频片段中语音激活检测阈值小于指定阈值，且语音激活检测阈值小于指定阈值的持续时长大于指定时长的音频片段，确定为目标音频片段中停顿位置，指定时长是指目标特效音频的持续时长；音频处理模块，用于在停顿位置处添加目标特效音频。

4、第三方面，本申请实施例提供一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个所述应用程序配置用于执行如第一方面所述的方法。

5、第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，程序代码被处理器调用执行如第一方面所述的方法。

6、第五方面，本申请实施例提供一种计算机程序产品，当该计算机程序产品执行时，其用于实现如第一方面所述的方法。

7、本申请实施例提供一种音频处理方法，通过在获取到某个音频片段后，先基于该音频片段的特征获取到该音频片段所反映的说话人的情绪类别，在说话人的情绪类别为指定情绪类别的情况下，再通过对目标音频片段进行语义分析，以进一步确定说话人的情绪类型，之后检测出目标音频片段中的停顿位置后，在上述停顿位置添加与该情绪类型匹配的特效音频，一方面，由于目标情绪类型是对目标音频片段进行分析处理得到的，因此添加的目标特效音频能准确表达目标音频片段中说话人的当前情绪，增加该音频片段的表达效果，另一方面，相比于相关技术中通过人工形式来增加特效音频，本申请实施例提供的技术方案，可以提高音频处理效率。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频片段中至少一个维度的特征，确定所述目标音频片段对应的目标情绪类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一分类模型的训练过程包括：

4.根据权利要求1所述的方法，其特征在于，所述所述基于所述目标音频片段中至少一个维度的特征，确定所述目标音频片段对应的目标情绪类别，包括：

5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述对所述目标音频片段进行语义识别，得到所述目标情绪类型，包括：

6.根据权利要求5所述的方法，其特征在于，所述第二分类模型的训练过程包括：

7.根据权利要求1至4中任意一项所述的方法，其特征在于，所述在所述停顿位置处添加所述目标特效音频之前，还包括：

8.一种音频处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码被处理器调用执行如权利要求1-7中任意一项所述的方法。

技术总结本申请实施例提供一种音频处理方法、装置、电子设备以及存储介质。该方法包括：获取目标音频片段；基于目标音频片段中至少一个维度的特征，确定目标音频片段对应的目标情绪类别；在目标情绪类别为指定情绪类别的情况下，对目标音频片段进行语义识别，得到目标情绪类型；获取与目标情绪类型匹配的目标特效音频；将目标音频片段中语音激活检测阈值小于指定阈值，且语音激活检测阈值小于指定阈值的持续时长大于指定时长的音频片段，确定为目标音频片段中停顿位置；在停顿位置处添加目标特效音频。本申请实施例提供的技术方案，添加的目标特效音频能准确表达目标音频片段中说话人的当前情绪，增加音频片段的表达效果，且可以提高音频处理效率。技术研发人员：彭子娇,张伟彬,陈东鹏受保护的技术使用者：深圳市声扬科技有限公司技术研发日：技术公布日：2024/3/27