技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于舞蹈视频的音频净化方法、装置及电子设备与流程 > 正文

基于舞蹈视频的音频净化方法、装置及电子设备与流程

国知局
2024-09-05 14:25:40

本技术涉及计算机及互联网的，特别涉及一种基于舞蹈视频的音频净化方法、装置及电子设备。

背景技术：

1、通常制作用于教学的一个舞蹈视频可能会包含很多舞曲的音频文件，从每首舞曲中可摘取其一部分，然后混编变成一个串烧舞曲的舞蹈视频，该串烧舞曲的舞蹈视频可能会存在音乐串烧各片段音量不同的问题；当用于教学的一个舞蹈视频只含有一个舞曲时，舞蹈视频教学过程中可能会存在背景音乐声音太大盖过老师口播音、节奏音太大、环境音太吵或者配乐音太低等问题，从而导致用户在学习舞蹈视频的过程中体验感差。

技术实现思路

1、本技术的目的是提供一种基于舞蹈视频的音频净化方法、装置及电子设备。

2、本技术实施例提供一种基于舞蹈视频的音频净化方法，包括：获取当前舞蹈视频中的歌名信息集；其中，所述当前舞蹈视频包括多个分段视频，且每个分段视频具有相对应的片段混合音频；所述歌名信息集包括至少一个歌名；根据文本相似度对所述歌名信息集中的歌名进行检索，以得到多个候选舞曲音频；其中，候选舞曲的歌名与歌名信息集中的歌名的文本相似度值达到设定的阈值；将每个候选舞曲音频与相对应的片段混合音频进行匹配，以得到目标舞曲音频；其中，目标舞曲音频为与当前舞蹈视频中相对应的片段混合音频波形相似度最高的候选舞曲音频；根据目标舞曲音频的类别信息以及语音分离技术将与所述目标舞曲音频相对应的片段混合音频进行分离，以得到多个分离音轨数据；计算各个分离音轨数据在不同的设定时间窗口内的音量调节参数；其中，设定时间窗口为每个分段视频的起始时间至结束时间；根据音量调节参数调节每个片段混合音频中各个分离音轨的振幅。

3、进一步地，在所述获取当前舞蹈视频中的歌名信息集之前，所述的方法还包括：判断所述当前舞蹈视频是否具有一个原始舞曲音频，若是，则将原始舞曲音频作为目标舞曲音频。

4、进一步地，所述获取当前舞蹈视频中的歌名信息集，包括：获取当前舞蹈视频中的多个第一类分段视频信息，并基于当前舞蹈视频中的第一类分段视频信息提取相对应的第一种歌名信息，以得到第一种歌名信息集；其中，多个第一类分段视频信息对应不同的舞曲；或者，基于当前舞蹈视频获取每帧图片序列，并基于每帧图片序列获取相对应的歌名信息；根据相对应的歌名信息确定相对应的舞曲起始及结束时间点信息，以得到第一种歌名信息集；其中，第一种歌名信息集包括多个歌名及顺序、每个舞曲起始及结束时间点信息。

5、进一步地，所述获取当前舞蹈视频中的歌名信息集，还包括：基于当前舞蹈视频的标题得到相对应的第二种歌名信息；获取当前舞蹈视频中的多个第二类分段视频信息，并基于当前舞蹈视频中的第二类分段视频信息得到同一个舞曲重复的时间点信息；其中，多个第二类分段视频信息对应同一个舞曲；或者，基于当前舞蹈视频获取每帧图片序列，并基于每帧图片序列获取同一个舞曲重复的时间点信息；基于第二种歌名信息和同一个舞曲重复的时间点信息，得到第二种歌名信息集；其中，第二种歌名信息集包括歌名、同一个舞曲重复的起始及结束时间点信息。

6、进一步地，在所述根据文本相似度对所述歌名信息集中的歌名进行检索，以得到多个候选舞曲音频之后，所述的方法还包括：基于所述候选舞曲音频和第一种歌名信息集得到候选舞曲数据集；或者，基于所述候选舞曲音频和第二种歌名信息集得到候选舞曲数据集；其中，候选舞曲数据集包括多个候选舞曲的歌名、候选舞曲音频和候选舞曲音频起始及结束时间点信息。

7、进一步地，所述将每个候选舞曲音频与当前舞蹈视频中的混合音频进行波形相似度的匹配，以得到目标舞曲音频，包括：获取每个候选舞曲音频波形；获取与每个候选舞曲音频相对应的分段视频的片段混合音频波形；将候选舞曲音频波形采用第一设定时间间隔进行划分，以得到m个采样点；将片段混合音频波形采用第一设定时间间隔进行划分，以得到n个采样点；若m≧n，采用n个采样点所间隔的滑动窗口将候选舞曲音频以β个点为间隔划分为q份；若m<n，则采用m个采样点所间隔的滑动窗口将片段混合音频以β个点为间隔划分为q份；其中，β为正整数；将每个候选舞曲音频波形与相对应的片段混合音频波形通过损失函数计算得到各个损失函数值，比较各个损失函数值的大小，以得到目标舞曲音频波形；其中，目标舞曲音频波形为损失函数值最小的候选舞曲音频波形；其中，损失函数的条件式如下：

8、

9、式中，c(c≥1)为视频片段数，f(f≥1)为一个歌名对应的候选舞曲音频个数，q(q≥1)为候选舞曲音频、片段混合音频较长者被滑动窗口划分的个数，n＝min(m，n)，yai表示候选舞曲音频第i个抽样点的音量振幅，ybi表示片段混合音频第i个抽样点的音量振幅，δ表示音量振幅调节系数。

10、进一步地，在所述将每个候选舞曲音频与相对应的片段混合音频进行匹配，以得到目标舞曲音频之后，所述的方法还包括：基于目标舞曲音频得到目标舞曲数据集；其中，目标舞曲数据集包括多个目标舞曲音频的顺序、目标舞曲音频的歌名、目标舞曲音频、目标舞曲音频开始及结束时间点、目标舞曲音频对应的片段混合音频及其开始及结束时间点、音量振幅调节系数。

11、进一步地，所述根据目标舞曲音频的类别信息以及语音分离技术将与所述目标舞曲音频相对应的片段混合音频进行分离，以得到多个分离音轨数据，包括：将片段混合音频波形减去匹配的目标舞曲音频波形，以得到第一种混合波形；其中，第一种混合波形包括老师口播音和环境音；将所述第一种混合波形通过滤波器将环境音过滤掉，以得到老师口播音的音轨数据；若当前目标舞曲音频的类别信息为现代舞，则目标舞曲音频波形中携带有节奏音波形，则从目标舞曲音频波形中将节奏音波形进行分离，以得到节奏音的音轨数据和舞曲音频的音轨数据；若当前目标舞曲音频的类别信息为古典舞，则目标舞曲音频波形中未携带有节奏音波形，则由目标舞曲音频波形得到舞曲音频的音轨数据。

12、进一步地，所述计算各个分离音轨数据在不同的设定时间窗口内的音量调节参数，包括：获取各个分离音轨数据在不同的设定时间窗口内的最大振幅；根据各个分离音轨数据在不同的设定时间窗口内的最大振幅得到各个分离音轨的基础振幅；其中，各个分离音轨的基础振幅为各个分离音轨数据在不同的设定时间窗口内的最大振幅的均值；根据各个分离音轨的基础振幅和预设调节参数得到归一化后的音量调节参数。

13、本技术实施例提供一种基于舞蹈视频的音频净化装置，包括：获取模块，其用于获取当前舞蹈视频中的歌名信息集；其中，所述当前舞蹈视频包括多个分段视频，且每个分段视频具有相对应的片段混合音频；所述歌名信息集包括至少一个歌名；检索模块，其用于根据文本相似度对所述歌名信息集中的歌名进行检索，以得到多个候选舞曲音频；其中，候选舞曲的歌名与第一种歌名信息集或第二种歌名信息集中的歌名的文本相似度值达到设定的阈值；匹配模块，其用于将每个候选舞曲音频与相对应的片段混合音频进行匹配，以得到目标舞曲音频；其中，目标舞曲音频为与当前舞蹈视频中相对应的片段混合音频波形相似度最高的候选舞曲音频；分离模块，其用于根据目标舞曲音频的类别信息以及语音分离技术将与所述目标舞曲音频相对应的片段混合音频进行分离，以得到多个分离音轨数据；计算模块，其用于计算各个分离音轨数据在不同的设定时间窗口内的音量调节参数；其中，设定时间窗口为每个分段视频的起始时间至结束时间；调节模块，其用于根据音量调节参数调节每个片段混合音频中各个分离音轨的振幅。

14、本技术实施例提供一种电子设备，所述电子设备包括处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如上所述的方法的步骤。

15、本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如上所述的方法的步骤。

16、本技术实施例提供一种计算机程序产品，所述计算机程序产品中包括计算机程序指令，所述计算机程序指令被处理器执行时实现如上所述的方法的步骤。

17、本技术的上述技术方案具有如下有益的技术效果：

18、通过将各个片段混合音频分离为多个音轨，优化计算各片段混合音频下各个分离音轨在不同的设定时间窗口内的音量调节参数，根据音量调节参数调节每个片段混合音频中各个分离音轨的振幅，以实现对各分离音轨的音量大小进行调节，可得到各个片段混合音频下相对应的老师口播音、节奏音或配乐音的振幅一致，而且可使老师口播音音量大于节奏音和配乐音，环境音则可调节为零或很小，进而达到所需的音频净化效果，用户播放净化后的音频，可为用户提供更好的学习氛围，并可提升用户在学习舞蹈视频的过程中体验感。