技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、设备、介质和程序产品与流程 > 正文

音频处理方法、装置、设备、介质和程序产品与流程

国知局
2024-06-21 11:36:19

本申请实施例涉及人工智能领域，特别涉及一种音频处理方法、装置、设备、介质和程序产品。

背景技术：

1、对表述文本内容的音频进行处理时，存在对音频增加音效的需求，根据不同文本内容对应的语境，可选择匹配的音效插入至音频中，以增加内容表达效果。

2、相关技术中，需要人工对音频中的文本内容进行阅读理解，并确定是否需要对音频中的句子添加音效、添加音效的目标位置等，并根据目标位置将音效插入至音频中。

3、然而，上述人工添加音效的方式较为繁琐，效率较低，在工作人员对长音频(音频时长较长且文本内容较多)进行音效添加的情况下，需要消耗大量时间和精力。

技术实现思路

1、本申请实施例提供了一种音频处理方法、装置、设备、介质和程序产品，能够自动将音效音频叠加至文本音频中，得到具有音效的文本音频，提高音频处理的效率和准确率。所述技术方案如下：

2、一方面，提供了一种音频处理方法，所述方法包括：

3、获取第一文本数据，所述第一文本数据中包括第一文本内容和基于所述第一文本内容识别得到的第一音效标签，所述第一音效标签用于指示与所述第一文本内容关联的音效类型；

4、获取所述第一音效标签对应的第一音效音频；

5、获取文本音频，所述文本音频中包括所述第一文本内容对应的第一音频内容，所述第一文本数据中还标注有所述第一音频内容在所述文本音频中的第一起止时间戳；

6、基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中，得到具有音效的文本音频。

7、另一方面，提供了一种音频处理装置，所述装置包括：

8、获取模块，用于获取第一文本数据，所述第一文本数据中包括第一文本内容和基于所述第一文本内容识别得到的第一音效标签，所述第一音效标签用于指示与所述第一文本内容关联的音效类型；

9、所述获取模块，还用于获取所述第一音效标签对应的第一音效音频；

10、所述获取模块，还用于获取文本音频，所述文本音频中包括所述第一文本内容对应的第一音频内容，所述第一文本数据中还标注有所述第一音频内容在所述文本音频中的第一起止时间戳；

11、音效叠加模块，用于基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中，得到具有音效的文本音频。

12、另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。

13、另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。

14、另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的音频处理方法。

15、本申请实施例提供的技术方案带来的有益效果至少包括：

16、通过获取具有音效标签的文本数据，基于音效标签获取对应的音效音频，并基于文本数据中所指示的起止时间戳，自动将音效音频叠加至文本音频中，得到具有音效的文本音频，提高了音频处理的效率和准确率，相较于对文本音频进行手动添加音效的方式，能够节省时间和人力资源。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一音效标签对应的第一音效音频，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一匹配结果获取所述第一音效标签对应的第一音效音频，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述获取所述第一音效标签对应的第一音效音频，包括：

5.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中，得到具有音效的文本音频之前，还包括：

6.根据权利要求1至3任一所述的方法，其特征在于，所述文本音频对应的文本内容中还包含背景音乐关键词，所述背景音乐关键词用于指示与所述文本音频对应的文本内容关联的背景音乐类型；

7.根据权利要求6所述的方法，其特征在于，所述将所述目标背景音乐音频叠加至所述文本音频中作为所述文本音频的背景音乐，包括：

8.根据权利要求1至3任一所述的方法，其特征在于，所述文本音频还叠加有第二音效音频；

9.一种音频处理装置，其特征在于，所述装置包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一所述的音频处理方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的音频处理方法。

12.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一所述的音频处理方法。

技术总结本申请公开了一种音频处理方法、装置、设备、介质和程序产品，涉及人工智能领域。该方法包括如下步骤：获取第一文本数据，第一文本数据中包括第一文本内容和基于第一文本内容识别得到的第一音效标签，第一音效标签用于指示与第一文本内容关联的音效类型；获取第一音效标签对应的第一音效音频；获取文本音频，文本音频中包括第一文本内容对应的第一音频内容，第一文本数据中还标注有第一音频内容在文本音频中的第一起止时间戳；基于第一起止时间戳将第一音效音频叠加至文本音频中，得到具有音效的文本音频。能够自动将音效音频叠加至文本音频中，得到具有音效的文本音频，提高音频处理的效率和准确率。技术研发人员：黄杰雄受保护的技术使用者：广州酷狗计算机科技有限公司技术研发日：技术公布日：2024/3/12