技术新讯 > 电子通信装置的制造及其应用技术 > 基于AI的视频、音乐卡点匹配方法及介质与流程 > 正文

基于AI的视频、音乐卡点匹配方法及介质与流程

国知局
2024-08-02 14:26:55

本发明涉及人工智能，尤其涉及一种基于ai的视频、音乐卡点匹配方法及介质。

背景技术：

1、随着信息技术和人工智能技术的迅猛发展，视频剪辑和音乐创作领域正在经历前所未有的变革。传统的视频剪辑方法大多依赖于人工操作，不仅耗时耗力，而且需要操作者具备一定的专业技能。同时，音乐与视频的匹配也往往是一个复杂的过程，需要制作者手动调整音频和视频的节奏，以实现两者的同步，成本较高且效率较低。

技术实现思路

1、本发明提供一种基于ai的视频、音乐卡点匹配方法及介质，其主要目的在于解决现有的卡点视频剪辑成本高以及效率低的问题。

2、为实现上述目的，本发明提供的一种基于ai的视频、音乐卡点匹配方法，包括：

3、获取需要进行卡点匹配的目标视频以及目标音频；

4、识别所述目标音频的频谱，提取所述频谱的频谱特征；

5、利用预先训练的鼓点识别模型根据所述频谱特征对所述目标音频进行鼓点识别，得到鼓点时间戳列表；

6、根据所述目标视频建立运动轨迹模型；

7、对所述运动轨迹模型的每一个动作帧进行特征提取，得到动作特征集合；

8、计算所述动作特征集合中相邻的动作特征之间的差异值，其中，利用如下公式计算所述差异值：

9、

10、其中，c为所述动作特征集合的协方差矩阵，n为所述动作特征集合的动作特征数量，fk表示所述动作特征集合中第k个动作特征，d为所述差异值，δfi表示所述相邻的动作特征的特征向量在第i个维度上的差值，δfj示所述相邻的动作特征的特征向量在第j个维度上的差值，n为向量的维度,cii表示所述动作特征集合的协方差矩阵c第i行第i列的元素，cij表示所述动作特征集合的协方差矩阵c第i行第j列的元素；

11、提取所有差异值大于或等于预设的差异值阈值的相邻的动作特征中的后一个动作特征，得到关键动作特征集合；

12、根据所述关键动作特征集合对所述目标视频进行关键帧匹配，得到关键帧时间戳列表；

13、根据所述鼓点时间戳列表以及所述关键帧时间戳列表对所述目标视频以及目标音频进行卡点匹配，得到卡点视频。

14、可选地，所述识别所述目标音频的频谱，提取所述频谱的频谱特征，包括：

15、利用如下公式对所述目标音频进行傅里叶变换，得到频域特征：

16、

17、其中，f表示所述频域特征，xn表示所述目标音频中的第n个采样点，n表示所述目标音频的采样点总数，e为自然对数的底数，j为虚数单位，满足j2＝-1；

18、根据所述频域特征绘制频谱图；

19、提取所述频谱图中的频谱信息，得到频谱；

20、提取所述频谱的频率分量；

21、对所述频率分量进行归一化处理，得到频谱特征。

22、可选地，所述利用预先训练的鼓点识别模型根据所述频谱特征对所述目标音频进行鼓点识别，得到鼓点时间戳列表，包括：

23、对所述目标音频进行去噪处理，得到去噪音频；

24、根据预设的分区数量对所述去噪音频进行分区，得到分区音频；

25、利用所述鼓点识别模型根据所述频谱特征对所述分区音频中每一个分区进行鼓点概率预测，得到所述分区音频中每个分区的鼓点概率；

26、利用所述鼓点识别模型根据预先确定的卡点任务需求设置鼓点概率阈值；

27、利用所述鼓点识别模型根据所述鼓点概率阈值对所述分区音频进行鼓点标记，得到鼓点时间戳列表。

28、可选地，所述对所述目标音频进行去噪处理，得到去噪音频，包括：

29、对所述目标音频进行噪声类型识别，得到噪声类型；

30、根据所述噪声类型获取所述目标音频的噪声样本；

31、计算所述目标音频的功率谱，得到音频功率谱，以及计算所述噪声样本的功率谱，得到噪声功率谱；

32、利用所述音频功率谱减去所述噪声功率谱，得到去噪频域信号；

33、利用如下公式对所述去噪频域信号进行逆傅里叶变换，得到去噪音频：

34、

35、其中，xn表示所述目标音频中的第n个采样点，n表示所述目标音频的采样点总数，f表示所述频域特征，e为自然对数的底数，j为虚数单位，满足j2＝-1。

36、可选地，所述计算所述目标音频的功率谱，得到音频功率谱，包括：

37、对所述目标音频的频谱进行分帧处理，得到频谱帧集合

38、利用如下公式计算所述频谱帧集合中每一帧的帧能量，得到频谱能量：

39、

40、其中,e为所述能量频谱，l为所述频谱帧集合的样本数量，xs表示所述频谱帧集合中第s个样本，w为窗函数，ws表示所述频谱帧集合中第s个样本在窗函数中的值；

41、根据所述频谱能量生成功率谱，得到音频功率谱。

42、可选地，所述利用所述鼓点识别模型根据所述频谱特征对所述分区音频中每一个分区进行鼓点概率预测，得到所述分区音频中每个分区的鼓点概率，包括：

43、将所述频谱特征输入所述鼓点识别模型的隐藏层；

44、按照预设的分区数量对所述频谱特征进行分区，得到分区频谱特征集合；

45、利用所述隐藏层调用如下公式根据所述分区频谱特征集合计算所述鼓点识别模型中每个神经元的输出，得到所述分区音频每一个分区的隐藏层输出：

46、

47、其中,z为所述分区音频中任意一个分区的隐藏层输出，n为所述隐藏层的神经元数量，w为所述鼓点识别模型的权重参数，xi为所述分区频谱特征集合中第i个分区频谱，b为所述鼓点识别模型的偏置项；

48、利用激活函数将所述分区音频每一个分区的隐藏层输出转化为激活值，得到所述分区音频每一个分区的激活值；

49、利用所述鼓点识别模型的输出层调用如下公式根据所述分区音频每一个分区的激活值计算出所述分区音频中每一个分区的鼓点概率：

50、

51、其中，p为所述分区音频中任意一个分区的鼓点概率，n为所述隐藏层的神经元数量，w为所述权重参数，ai为所述分区音频中第i个分区的激活值，b为所述偏置项，e为自然对数的底数。

52、可选地，所述根据所述目标视频建立运动轨迹模型，包括：

53、利用计算机视觉算法对所述目标视频进行关键点捕捉，得到关键点；

54、根据所述关键点随时间的变化创建动作变化序列；

55、根据所述关键点建立骨架模型；

56、利用所述动作变化序列驱动所述骨架模型，得到运动轨迹模型。

57、可选地，所述根据所述关键动作特征集合对所述目标视频进行关键帧匹配，得到关键帧时间戳列表，包括：

58、据所述关键动作特征集合中的所有关键动作特征匹配出所述运动轨迹模型中所有对应的动作帧，得到关键动作帧集合；

59、提取所述关键动作集合中每一个关键动作的时间信息，得到时间信息集合；

60、根据所述时间信息集合中的每一个时间信息截取所述目标视频中对应时间的帧画面，得到关键帧时间戳列表。

61、可选地，所述根据所述时间戳列表以及所述关键帧时间戳列表对所述目标视频以及目标音频进行卡点匹配，得到卡点视频，包括：

62、获取所述鼓点时间戳列表中的鼓点数量；

63、根据所述鼓点数量对所述关键帧时间戳列表进行自适应调整，得到自适应关键帧列表；

64、根据所述自适应关键帧列表将所述目标视频中的关键帧与所述鼓点时间戳列表中的鼓点进行对齐，得到对齐视频；

65、将所述对齐视频与所述目标音频进行融合，得到卡点视频。

66、为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于ai的视频、音乐卡点匹配方法。

67、本发明实施例通过获取需要进行卡点匹配的目标视频以及目标音频，识别出所述目标音频的频谱并提取频谱的频谱特征，提高了后续鼓点识别的效率，利用预先训练的鼓点识别模型根据所述频谱特征对所述目标音频进行鼓点识别，得到鼓点时间戳列表，提高了后续卡点匹配的准确度，根据所述目标视频建立运动轨迹模型，对所述运动轨迹模型的每一个动作帧进行特征提取，并计算相邻的动作特征之间的差异值，提取所有差异值大于或等于预设的差异值阈值的相邻的动作特征中的后一个动作特征，得到关键动作特征集合，提高了关键动作特征识别的准确度和效率，根据所述关键动作特征集合对所述目标视频进行关键帧匹配，得到关键帧时间戳列表，提高了卡点匹配的准确度和效率，根据所述鼓点时间戳列表以及所述关键帧时间戳列表对所述目标视频以及目标音频进行卡点匹配，得到卡点视频。因此本发明提出的基于ai的视频、音乐卡点匹配方法、及介质，可以解决现有的卡点视频剪辑成本高且效率低的问题。