技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音视频非静音段检测方法、装置、设备及存储介质与流程 > 正文

音视频非静音段检测方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:48:48

本发明涉及音视频领域，尤其涉及一种音视频非静音段检测方法、装置、设备及存储介质。

背景技术：

1、在绝大部分视频剪辑的场景，有意义和有价值的音频段(非静音段)散落在整个视频中，呈现分布零散、长度不均匀、与环境音混杂等复杂情况，进而需要将视频中的非静音段落进行精准的筛选整理，快速给视频编辑者提供其所关心的音频内容，提升视频编辑者的工作效率。这类非静音段落检测技术使用广泛且价值巨大。

2、目前常见的非静音段检测技术有：传统的语音活动度检测(又称端点检测)和使用神经网络进行分析。鉴于上述的非静音段落并非全部是人声，还包括了其它有意义的声音，诸如音乐声，动物声等，使用传统的语音活动度检测方法复杂度高，且在这种复杂环境下的表现也并不理想，而使用神经网络方法则会有相当大的性能消耗，且耗时更长，无法达到实时性，应用局限。

技术实现思路

1、本发明的主要目的在于解决如何提高非静音段检测效率的技术问题。

2、本发明第一方面提供了一种音视频非静音段检测方法，所述音视频非静音段检测方法包括：

3、接收音视频非静音段检测请求，所述音视频非静音段检测请求中携带有音视频文件，并读取所述音视频文件中的音频段；

4、根据预设音量阈值及所述音频段中的音频帧，获取非静音段，并将所述非静音段的持续时间与预设最小持续时间比较，对所述非静音段进行筛选；

5、根据预设缓冲长度，对筛选后的非静音段进行延展，并将延展的非静音段进行合并，得到合并音频段；

6、输出所述合并音频段中的非静音帧。

7、可选的，在本发明第一方面的第一种实现方式中，所述根据预设音量阈值及所述音频段中的音频帧，获取非静音段，并将所述非静音段的持续时间与预设最小持续时间比较，对所述非静音段进行筛选包括：

8、计算所述音频段中每一帧音频帧的平均音量；

9、获取所述音频段的最大帧音量，根据所述平均音量、所述最大帧音量及预设音量阈值，获取非静音段；

10、将所述非静音段的持续时间与预设最小持续时间比较，对所述非静音段进行筛选。

11、可选的，在本发明第一方面的第二种实现方式中，所述获取所述音频段的最大帧音量，根据所述平均音量、所述最大帧音量及预设音量阈值，获取非静音段包括：

12、获取所述音频段的最大帧音量，并根据所述最大帧音量，计算得到每一帧音频帧的平均音量与最大帧音量比值；

13、将所述每一帧音频帧的平均音量与最大帧音量比值和预设音量阈值比较，判断所述每一帧音频帧的平均音量与最大帧音量比值是否大于所述预设音量阈值；

14、若是，则判断音频帧是非静音帧；

15、若否，则判断音频帧是静音帧。

16、可选的，在本发明第一方面的第三种实现方式中，所述将所述非静音段的持续时间与预设最小持续时间比较，对所述非静音段进行筛选包括：

17、修正夹在所述非静音段中的静音帧；

18、获取修正后非静音段中的每一帧音频帧的持续时间，得到所述非静音段的持续时间；

19、将所述非静音段的持续时间与预设最小持续时间比较，判断所述非静音段的持续时间是否小于所述预设最小持续时间，以对所述非静音段进行筛选。

20、可选的，在本发明第一方面的第四种实现方式中，所述将所述非静音段的持续时间与预设最小持续时间比较，判断所述非静音段的持续时间是否小于所述预设最小持续时间，以对所述非静音段进行筛选包括：

21、若所述非静音段的持续时间不小于所述预设最小持续时间，则将所述非静音段保留；

22、若所述非静音段的持续时间小于所述预设最小持续时间，则将所述非静音段删除。

23、可选的，在本发明第一方面的第五种实现方式中，所述根据预设缓冲长度，对筛选后的非静音段进行延展，并将延展的非静音段进行合并，得到合并音频段包括：

24、获取当前筛选后的非静音段；

25、根据预设缓冲长度，对当前筛选后的非静音段进行延展；

26、若当前延展的非静音段与上一个延展的非静音段重叠或相连，则将所述当前延展的非静音段及所述上一个延展的非静音段合并，得到合并音频段。

27、可选的，在本发明第一方面的第六种实现方式中，所述接收音视频非静音段检测请求，所述音视频非静音段检测请求中携带有音视频文件，并读取所述音视频文件中的音频段包括：

28、接收音视频非静音段检测请求，所述音视频非静音段检测请求中携带有音视频文件；

29、获取音频读取起始时间及结束时间，根据所述音频读取起始时间及结束时间，通过多媒体文件解码器，进行逐帧解码，读取所述音视频文件中的音频段。

30、本发明第二方面提供了一种音视频非静音段检测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述音视频非静音段检测设备执行上述的音视频非静音段检测方法。

31、本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的音视频非静音段检测方法。

32、在本发明实施例中，接收音视频非静音段检测请求，所述音视频非静音段检测请求中携带有音视频文件，并读取所述音视频文件中的音频段；根据预设音量阈值及所述音频段中的音频帧，获取非静音段，并将所述非静音段的持续时间与预设最小持续时间比较，对所述非静音段进行筛选；根据预设缓冲长度，对筛选后的非静音段进行延展，并将延展的非静音段进行合并，得到合并音频段；输出所述合并音频段中的非静音帧。本发明中，根据预设音量阈值及音频段中的音频帧，获取非静音段，并将非静音段的持续时间与预设最小持续时间比较，对非静音段进行筛选，根据预设缓冲长度，对筛选后的非静音段进行延展，能通过设音量阈值、预设最小持续时间、预设缓冲长度，在获得更灵活、适用面更广的检测结果的同时，可以大大降低计算量和计算时间，从而提高非静音段检测效率。

技术特征：

1.一种音视频非静音段检测方法，其特征在于，所述音视频非静音段检测方法包括：

2.根据权利要求1所述的音视频非静音段检测方法，其特征在于，所述根据预设音量阈值及所述音频段中的音频帧，获取非静音段，并将所述非静音段的持续时间与预设最小持续时间比较，对所述非静音段进行筛选包括：

3.根据权利要求2所述的音视频非静音段检测方法，其特征在于，所述获取所述音频段的最大帧音量，根据所述平均音量、所述最大帧音量及预设音量阈值，获取非静音段包括：

4.根据权利要求2所述的音视频非静音段检测方法，其特征在于，所述将所述非静音段的持续时间与预设最小持续时间比较，对所述非静音段进行筛选包括：

5.根据权利要求4所述的音视频非静音段检测方法，其特征在于，所述将所述非静音段的持续时间与预设最小持续时间比较，判断所述非静音段的持续时间是否小于所述预设最小持续时间，以对所述非静音段进行筛选包括：

6.根据权利要求1所述的音视频非静音段检测方法，其特征在于，所述根据预设缓冲长度，对筛选后的非静音段进行延展，并将延展的非静音段进行合并，得到合并音频段包括：

7.根据权利要求1所述的音视频非静音段检测方法，其特征在于，所述接收音视频非静音段检测请求，所述音视频非静音段检测请求中携带有音视频文件，并读取所述音视频文件中的音频段包括：

8.一种音视频非静音段检测装置，其特征在于，所述音视频非静音段检测装置包括：

9.一种音视频非静音段检测设备，其特征在于，所述音视频非静音段检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的音视频非静音段检测方法。

技术总结本发明涉及音视频领域，公开了一种音视频非静音段检测方法、装置、设备及存储介质。该方法包括：接收音视频非静音段检测请求，并读取音视频文件中的音频段；根据预设音量阈值及音频段中的音频帧，获取非静音段，并将非静音段的持续时间与预设最小持续时间比较，对非静音段进行筛选；根据预设缓冲长度，对筛选后的非静音段进行延展，并将延展的非静音段进行合并，得到合并音频段；输出合并音频段中的非静音帧。在本发明实施例中，能在获得更灵活、适用面更广的检测结果的同时，可以大大降低计算量和计算时间，从而提高非静音段检测效率。技术研发人员：李绍帅受保护的技术使用者：深圳牛学长科技有限公司技术研发日：技术公布日：2024/5/6