技术新讯 > 乐器声学设备的制造及制作,分析技术 > 演奏时长统计方法及相关产品与流程 > 正文

演奏时长统计方法及相关产品与流程

国知局
2024-06-21 11:44:21

本技术涉及计算机音频，尤其涉及一种演奏时长统计方法及相关产品。

背景技术：

1、在进行乐器演奏的同时在终端设备中播放示范、伴奏、节拍器等音视频文件是音乐学习中非常普遍的练习方法，为了自动统计乐器演奏的具体时长我们需要将演奏过程中的声音进行录制，再通过乐器识别的方式统计演奏时长。但是在各种恶劣的录音环境进行录制会存在各种干扰，导致基于信号处理或深度学习的声源分离方法无法使用，造成统计演奏时长的精度低。

技术实现思路

1、本技术提供一种演奏时长统计方法及相关产品，其中相关产品包括装置、电子设备及计算机可读存储介质。

2、第一方面，提供了一种演奏时长统计方法，上述方法用于根据录制音频确定演奏时长，上述录制音频为在目标设备播放示例音频，且按照上述示例音频进行演奏的过程中录制得到的音频，上述方法包括：

3、获取上述示例音频、上述录制音频和传播时延；上述录制音频包括上述目标设备播放上述示例音频的回声和演奏声；上述演奏声是在上述目标设备播放上述示例音频的过程中，按照上述示例音频进行演奏的声音；上述传播时延是上述目标设备播放上述示例音频与上述目标设备接收上述示例音频的回声的时间差；

4、根据上述传播时延确定上述示例音频的幅度与上述回声的幅度的幅度衰减值；上述幅度衰减值与上述传播时延呈正相关；

5、按照上述幅度衰减值，对上述示例音频的幅度进行衰减，得到上述回声；

6、去除上述录制音频中的上述回声，得到待处理演奏音频；

7、根据上述待处理演奏音频的时长，确定上述演奏声的演奏时长。

8、结合本技术任一实施方式，上述传播时延为上述回声在目标路径上传播的时延；上述目标路径为上述回声在上述目标设备所处的空间中的传播路径。

9、结合本技术任一实施方式，上述传播时延为上述回声在上述目标设备所处的空间中传播时间最短的时延。

10、结合本技术任一实施方式，上述根据上述传播时延确定上述示例音频的幅度与上述回声的幅度的幅度衰减值之前，上述方法还包括：

11、根据上述传播时延，将上述示例音频和上述录制音频中的上述回声在时间上进行对齐。

12、结合本技术任一实施方式，上述去除上述录制音频中的上述回声，得到待处理演奏音频，包括：

13、去除上述录制音频中的上述回声，得到第一待处理演奏音频；

14、对上述第一待处理演奏音频进行非线性滤波，得到上述待处理演奏音频。

15、结合本技术任一实施方式，上述对上述第一待处理演奏音频进行非线性滤波，得到上述待处理演奏音频，包括：

16、对上述第一待处理演奏音频进行非线性滤波，得到第二待处理演奏音频；

17、消除上述第二待处理演奏音频中幅度小于阈值的信号，得到上述待处理演奏音频。

18、结合本技术任一实施方式，上述对上述第一待处理演奏音频进行非线性滤波，得到第二待处理演奏音频，包括：

19、根据上述示例音频、上述录制音频和上述第一待处理演奏音频，得到第a帧的掩膜值；上述掩膜值与上述录制音频信号和上述示例音频信号成反比，与上述录制音频跟上述第一待处理演奏音频的相似度呈正比；

20、将上述第一待处理演奏音频中的幅度值乘以上述掩膜值，得到上述第二待处理演奏音频。

21、结合本技术任一实施方式，上述对上述第一待处理演奏音频进行非线性滤波，得到上述待处理演奏音频，包括：

22、根据上述示例音频、上述录制音频和上述第一待处理演奏音频，得到第a帧的掩膜值；上述掩膜值与上述录制音频信号和上述示例音频信号成反比，与上述录制音频跟上述第一待处理演奏音频的相似度呈正比；

23、将上述第一待处理演奏音频中的幅度值乘以上述掩膜值，得到上述待处理演奏音频。

24、本技术实施例中，通过计算第一待处理演奏音频幅度谱上的每个频点对应的掩膜值，并将第一待处理演奏音频幅度谱上的每个频点乘以对应的掩膜值，得到待处理演奏音频。以此来达到抑制非线性回声的目的。

25、结合本技术任一实施方式，上述根据上述待处理演奏音频的时长，确定上述演奏声的演奏时长，包括：

26、将上述待处理演奏音频进行切分，得到m个第三待处理演奏音频；

27、根据上述m个第三待处理演奏音频，得到上述m个第三待处理演奏音频的对数梅尔谱图；

28、根据上述m个对数梅尔谱图，从上述m个第三待处理演奏音频中确定n个待统计演奏音频；上述待统计演奏音频为具有上述演奏声的音频；

29、根据上述n个待统计演奏音频的时长，得到上述演奏时长。

30、本技术实施例中，通过对待处理演奏音频切分成m个第三待处理演奏音频，同一待处理演奏音频切分数量越多精度越高，但计算时间也越久。对m个第三待处理演奏音频进行特征提取，得到对数梅尔谱图，对对数梅尔谱图进行特征识别，得到存在演奏声的第三待处理演奏音频，即待统计演奏音频。根据待统计演奏音频的时长与数量，统计演奏时长。当单个待统计演奏音频的时长越长，演奏时长越长。当待统计演奏音频的数量越多，演奏时长越长。

31、结合本技术任一实施方式，上述根据上述m个第三待处理演奏音频，得到上述m个第三待处理演奏音频的对数梅尔谱图，包括：

32、通过对上述第三待处理演奏音频的幅度谱进行压缩，得到上述对数梅尔谱图。

33、结合本技术任一实施方式，上述根据上述n个待统计演奏音频的时长，得到上述演奏时长，包括：

34、确定上述待统计演奏音频的第一参考时长；

35、根据上述第一参考时长的和，得到上述演奏时长；上述第一参考时长的和与上述演奏时长呈正相关。

36、结合本技术任一实施方式，上述根据上述n个待统计演奏音频的时长，得到上述演奏时长，包括：

37、在上述m个第三待处理演奏音频中，时间戳相邻的两个上述待统计演奏音频之间的非待统计演奏音频的数量不超过阈值的情况下，确定上述时间戳相邻的两个上述待统计演奏音频的第二参考时长；

38、计算上述第二参考时长的和，得到上述演奏时长；上述第二参考时长和与上述演奏时长呈正相关。

39、结合本技术任一实施方式，上述根据上述n个待统计演奏音频的时长，得到上述演奏时长，包括：

40、在上述m个第三待处理演奏音频中，x秒内上述待统计演奏音频数量超过阈值的情况下，确定x秒为第三参考时长；

41、计算上述第三参考时长的和，得到上述演奏时长；上述第三参考时长的和与上述演奏时长呈正相关。

42、第二方面，提供了一种演奏时长统计装置，上述装置包括：

43、获取单元，用于获取上述示例音频、上述录制音频和传播时延；

44、回声计算单元，用于根据上述传播时延确定上述示例音频的幅度与上述回声的幅度的幅度衰减值；

45、衰减单元，用于按照上述幅度衰减值，对上述示例音频的幅度进行衰减，得到上述回声；

46、回声消除单元，用于去除上述录制音频中的上述回声，得到待处理演奏音频；

47、时长统计单元，用于根据上述待处理演奏音频的时长，确定上述演奏声的演奏时长。

48、结合本技术任一实施方式，上述传播时延为上述回声在目标路径上传播的时延；上述目标路径为上述回声在上述目标设备所处的空间中的传播路径。

49、结合本技术任一实施方式，上述传播时延为上述回声在上述目标设备所处的空间中传播时间最短的时延。

50、结合本技术任一实施方式，上述计算单元，用于：

51、根据上述传播时延，将上述示例音频和上述录制音频中的上述回声在时间上进行对齐。

52、结合本技术任一实施方式，上述回声消除单元，用于：

53、去除上述录制音频中的上述回声，得到第一待处理演奏音频；

54、对上述第一待处理演奏音频进行非线性滤波，得到上述待处理演奏音频。

55、结合本技术任一实施方式，上述回声消除单元，用于：

56、对上述第一待处理演奏音频进行非线性滤波，得到第二待处理演奏音频；

57、消除上述第二待处理演奏音频中幅度小于阈值的信号，得到上述待处理演奏音频。

58、结合本技术任一实施方式，上述回声消除单元，用于：

59、根据上述示例音频、上述录制音频和上述第一待处理演奏音频，得到第a帧的掩膜值；上述掩膜值与上述录制音频信号和上述示例音频信号成反比，与上述录制音频跟上述第一待处理演奏音频的相似度呈正比；

60、将上述第一待处理演奏音频中的幅度值乘以上述掩膜值，得到上述第二待处理演奏音频。

61、结合本技术任一实施方式，上述回声消除单元，用于：

62、根据上述示例音频、上述录制音频和上述第一待处理演奏音频，得到第a帧的掩膜值；上述掩膜值与上述录制音频信号和上述示例音频信号成反比，与上述录制音频跟上述第一待处理演奏音频的相似度呈正比；

63、将上述第一待处理演奏音频中的幅度值乘以上述掩膜值，得到上述待处理演奏音频。

64、结合本技术任一实施方式，上述时长统计单元，用于：

65、将上述待处理演奏音频进行切分，得到m个第三待处理演奏音频；

66、根据上述m个第三待处理演奏音频，得到上述m个第三待处理演奏音频的对数梅尔谱图；

67、根据上述m个对数梅尔谱图，从上述m个第三待处理演奏音频中确定n个待统计演奏音频；上述待统计演奏音频为具有上述演奏声的音频；

68、根据上述n个待统计演奏音频的时长，得到上述演奏时长。

69、结合本技术任一实施方式，上述时长统计单元，用于：

70、通过对上述第三待处理演奏音频的幅度谱进行压缩，得到上述对数梅尔谱图。

71、结合本技术任一实施方式，上述时长统计单元，用于：

72、确定上述待统计演奏音频的第一参考时长；

73、根据上述第一参考时长的和，得到上述演奏时长；上述第一参考时长的和与上述演奏时长呈正相关。

74、结合本技术任一实施方式，上述时长统计单元，用于：

75、在上述m个第三待处理演奏音频中，时间戳相邻的两个上述待统计演奏音频之间的非待统计演奏音频的数量不超过阈值的情况下，确定上述时间戳相邻的两个上述待统计演奏音频的第二参考时长；

76、计算上述第二参考时长的和，得到上述演奏时长；上述第二参考时长和与上述演奏时长呈正相关。

77、结合本技术任一实施方式，上述时长统计单元，用于：

78、在上述m个第三待处理演奏音频中，x秒内上述待统计演奏音频数量超过阈值的情况下，确定x秒为第三参考时长；

79、计算上述第三参考时长的和，得到上述演奏时长；上述第三参考时长的和与上述演奏时长呈正相关。

80、第三方面，提供了一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

81、第四方面，提供了另一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

82、第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

83、第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

84、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本技术。

85、本技术实施例中，演奏时长统计装置在获取示例音频、录制音频、传播时延的情况下，根据传播时延计算示例音频在传播到终端设备麦克风的幅度衰减值，并根据示例音频和幅度衰减值计算得到回声，消除录制音频中的回声，得到待处理演奏音频，对待处理演奏音频中的进行特征识别，从待处理演奏音频中识别包含演奏信号的片段，由此实现演奏时长的统计，提高演奏时长统计的精度。