技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频处理方法、音频处理器及相关装置与流程 > 正文

一种音频处理方法、音频处理器及相关装置与流程

国知局
2024-06-21 11:51:20

本技术涉及人工智能，尤其涉及一种音频处理方法、音频处理器及相关装置。

背景技术：

1、在常规的音频处理应用中，声音信号经过adc模数转换和音频编码器进行压缩后，可以有效降低存储空间和传输带宽；当音频播放时，来自存储设备或网络传输接收到的压缩音频数据经过对应的音频解码以及dac数模转换后的音频模拟信号，通过硬件播放设备进行播放。

2、现有音频编码器大部分输入帧尺寸在启动编码器的时候被设定和固化，在音频编码过程中不会进行调整，采用固定帧大小的编码方式，每个输入帧对应输出一帧码流，而每一帧码流传输时需要额外增加外层协议信息相关比特空间进行封装，编码输出帧数越多带来的额外比特消耗越大，因此固定帧尺寸的音频编码方式不利于音频信号的进一步压缩，例如，对于网络电话的音频信号进行编码的场景中，由于通话双方或多方都是交互发声，对于通话音频中的大量的非发声段，如静音、小噪声、可被忽略的弱音频信号，若采用与通话音频中的发声段相同的固定帧对通话音频信号进行编码，则会造成传输带宽和存储空间的浪费，因此，采用固定帧大小的编码的方式不利于音频信号的优化压缩。

技术实现思路

1、本技术实施例提供了一种音频处理方法、音频处理器以及相关装置，通过可变帧长的方式对音频信号进行压缩编码，优化了音频信号的压缩方式，对优化压缩后的音频信号进行编码的占用较少的传输带宽和存储空间。

2、本技术的一方面提供一种音频处理方法，包括：

3、获取音频信号对应的音频序列，其中，音频序列中包括k个音频帧，k为大于1的整数；

4、将音频序列输入至分组预测网络中，输出l个音频特征组，其中，l个音频特征组对应于l个音频组帧数，分组预测网络包括组帧预测子网络，组帧预测子网络用于预测音频序列对应的l个音频组帧数，每个音频特征组包括至少一个音频帧，l为大于等于1的整数；

5、根据l个音频特征组对应的l个音频组帧数，确定l个音频特征组对应的l个压缩次数；

6、根据l个音频特征组对应的l个压缩次数对l个音频特征组进行压缩，得到l个压缩音频特征；

7、对l个压缩音频特征进行编码，得到音频信号对应的l个编码音频。

8、本技术的另一方面提供了一种音频处理器，包括：组帧决策及压缩模型及编码模型；具体的：

9、组帧决策及压缩模型，用于获取音频信号对应的音频序列，其中，音频序列中包括k个音频帧，k为大于1的整数；

10、将音频序列输入至分组预测网络中，输出l个音频特征组，其中，l个音频特征组对应于l个音频组帧数，分组预测网络包括组帧预测子网络，组帧预测子网络用于预测音频序列对应的l个音频组帧数，每个音频特征组包括至少一个音频帧，l为大于等于1的整数；

11、根据l个音频特征组对应的l个音频组帧数，确定l个音频特征组对应的l个压缩次数；

12、根据l个音频特征组对应的l个压缩次数对l个音频特征组进行压缩，得到l个压缩音频特征；

13、编码模型，用于对l个压缩音频特征进行编码，得到音频信号对应的l个编码音频。

14、在本技术实施例的另一种实现方式中，音频处理器还包括：量化模型、解码模型及组帧解压模型；具体的：

15、量化模型，用于对l个编码音频进行量化处理，得到l个音频量化特征；

16、解码模型，用于对l个音频量化特征进行解码，得到l个解码音频；

17、组帧解压模型，用于根据l个音频特征组对应的l个音频组帧数，确定l个解码音频对应的l个解压次数；

18、根据l个音频特征组对应的l个解压次数对l个解码音频进行解压，得到l个解压序列；

19、根据l个解压序列生成音频信号。

20、本技术的另一方面提供了一种音频处理装置，包括：音频序列获取模块、分组模块、压缩次数确定模块、压缩模块及编码模块；具体的：

21、音频序列获取模块，用于获取音频信号对应的音频序列，其中，音频序列中包括k个音频帧，k为大于1的整数；

22、分组模块，用于将音频序列输入至分组预测网络中，输出l个音频特征组，其中，l个音频特征组对应于l个音频组帧数，分组预测网络包括组帧预测子网络，组帧预测子网络用于预测音频序列对应的l个音频组帧数，每个音频特征组包括至少一个音频帧，l为大于等于1的整数；

23、压缩次数确定模块，用于根据l个音频特征组对应的l个音频组帧数，确定l个音频特征组对应的l个压缩次数；

24、压缩模块，用于根据l个音频特征组对应的l个压缩次数对l个音频特征组进行压缩，得到l个压缩音频特征；

25、编码模块，用于对l个压缩音频特征进行编码，得到音频信号对应的l个编码音频。

26、在本技术实施例的另一种实现方式中，分组模块，还用于：

27、将音频序列输入至分组预测网络中，通过分组预测网络中的缓存模块将k个音频帧依次进行缓存；

28、对音频序列进行频谱特征提取，得到音频特征序列，其中，音频特征序列包括k个音频特征；

29、将音频特征序列输入至分组预测网络中的组帧预测子网络，输出l个音频组帧数，其中，音频组帧数用于表征每个音频特征组中的音频帧的数量；

30、根据l个音频组帧数对缓存模块中的k个音频帧进行分组，得到l个音频特征组。

31、在本技术实施例的另一种实现方式中，分组模块，还用于：

32、获取预设音频组帧数n，其中，n为大于等于1且小于等于k的整数；

33、从音频特征序列中的k个音频特征中，提取连续的n个音频特征；

34、将n个音频特征输入至组帧预测子网络，输出第一预测音频组帧数m，其中，m为大于等于1且小于等于n的整数；

35、从音频特征序列中的k个音频特征中，提取n个音频特征之后的连续的m个音频特征；

36、将m个音频特征输入至组帧预测子网络，输出第二预测音频组帧数p，其中，p为大于等于1且小于等于n的整数，第二预测音频组帧数用于从音频特征序列中的k个音频特征中，提取m个音频特征之后的连续的p个音频特征，根据p个音频特征进行音频组帧数预测，直到k个音频特征均完成分组，结束预测音频组帧数。

37、在本技术实施例的另一种实现方式中，组帧预测子网络包括全连接层、第一卷积层、门控层及归一化层；分组模块，还用于：

38、将n个音频特征输入至组帧预测子网络中的全连接层，通过全连接层输出音频全连接特征；

39、将音频全连接特征输入至组帧预测子网络中的第一卷积层，通过第一卷积层输出音频卷积特征；

40、将音频卷积特征输入至组帧预测子网络中的门控层，通过门控层输出音频门控特征；

41、将音频门控特征输入至组帧预测子网络中的归一化层，通过归一化层输出n个预测音频组帧数对应的n个概率值；

42、根据n个预测音频组帧数对应的n个概率值，从n个预测音频组帧数中确定第一预测音频组帧数m，其中，第一预测音频组帧数m对应的概率值为n个概率值中的最大值。

43、在本技术实施例的另一种实现方式中，分组模块，还用于：

44、从音频序列中的k个音频帧中获取第i个音频帧，其中，i为大于1且小于等于k的整数；

45、确定第i个音频帧对应的缓存模块的写入指针地址，其中，第i个音频帧对应的缓存模块的写入指针地址为根据第i-1个音频帧对应的缓存模块的写入指针地址加一得到；

46、根据第i个音频帧对应的缓存模块的写入指针地址，将第i个音频帧缓存至缓存模块；

47、根据第i个音频帧对应的缓存模块的写入指针地址，计算第i+1个音频帧对应的缓存模块的写入指针地址。

48、在本技术实施例的另一种实现方式中，分组模块，还用于：

49、根据l个音频组帧数确定l个读取指针地址；

50、根据l个读取指针地址依次对缓存模块中的k个音频帧进行读取，得到l个音频特征组。

51、在本技术实施例的另一种实现方式中，压缩次数确定模块，还用于：

52、根据l个音频特征组对应的l个音频组帧数，确定对l个音频特征组中的每个音频特征组进行压缩的压缩层，得到l个压缩层数；

53、根据l个压缩层数确定l个音频特征组对应的l个压缩次数。

54、在本技术实施例的另一种实现方式中，压缩模块，还用于：

55、将l个音频特征组输入至压缩网络中，根据l个音频特征组对应的l个压缩层数，确定对l个音频特征组进行压缩的l个压缩层组，其中，每个压缩层组包括至少一个压缩网络层；

56、根据l个压缩层组对l个音频特征组进行压缩，得到l个压缩音频特征。

57、在本技术实施例的另一种实现方式中，压缩模块，还用于：

58、对l个音频特征组中的每个音频特征组均执行：

59、确定第j个音频特征组对应的第j个压缩层组，其中，第j个压缩层组中包括d个压缩网络层，j为大于等于1且小于等于l的整数，d为大于等于1的整数；

60、将第j个音频特征组输入至第j个压缩层组，得到第j个音频特征组对应的压缩音频特征，其中，每个压缩网络层的输入为上一个压缩网络层的输出。

61、在本技术实施例的另一种实现方式中，压缩网络层包括第二卷积层、第一激励层、第二激励层及第三卷积层，其中，第一激励层通过sigmoid函数实现，第二激励层通过双曲正切函数实现；压缩模块，还用于：

62、将第j个音频特征组输入至第j个压缩层组，得到第j个音频特征组对应的压缩音频特征，包括：

63、将第j个音频特征组输入至第j个压缩层组中的第二卷积层，输出音频卷积特征；

64、将音频卷积特征输入至第j个压缩层组中的第一激励层，输出第一音频激励特征；

65、以及，将音频卷积特征输入至第j个压缩层组中的第二激励层，输出第二音频激励特征；

66、将第一音频激励特征与第二音频激励特征相乘，得到音频激励乘积特征；

67、将音频激励乘积特征输入至第j个压缩层组中的第三卷积层，得到第j个音频特征组对应的压缩音频特征。

68、在本技术实施例的另一种实现方式中，音频处理装置，还包括：量化模块、解码模块、解压次数确定模块、解压模块及音频信号还原模块；具体的：

69、量化模块，用于对l个编码音频进行量化处理，得到l个音频量化特征；

70、解码模块，用于对l个音频量化特征进行解码，得到l个解码音频；

71、解压次数确定模块，用于根据l个音频特征组对应的l个音频组帧数，确定l个解码音频对应的l个解压次数；

72、解压模块，用于根据l个音频特征组对应的l个解压次数对l个解码音频进行解压，得到l个解压序列；

73、音频信号还原模块，用于根据l个解压序列生成音频信号。

74、在本技术实施例的另一种实现方式中，解压次数确定模块，还用于：

75、根据l个音频特征组对应的l个音频组帧数，确定对l个解码音频中的每个解码音频进行解压的解压层，得到l个解压层数；

76、根据l个解压层数，确定l个解码音频对应的l个解压次数。

77、在本技术实施例的另一种实现方式中，解压模块，还用于：

78、将l个解码音频输入至解压网络中，根据l个解码音频对应的l个解压层数，确定对l个解码音频进行解压的l个解压层组，其中，每个解压层组包括至少一个解压网络层；

79、根据l个解压层组对l个解码音频进行解压，得到l个解压序列。

80、在本技术实施例的另一种实现方式中，解压模块，还用于：

81、对l个解码音频中的每个解码音频均执行：

82、确定第k个解码音频对应的第k个解压层组，其中，第k个解压层组中包括u个解压网络层，k为大于等于1且小于等于l的整数，u为大于等于1的整数；

83、将第k个解码音频输入至第k个解压层组，得到第k个解码音频对应的解压序列，其中，每个解压网络层的输入为上一个解压网络层的输出。

84、在本技术实施例的另一种实现方式中，解压网络层包括第四卷积层、第三激励层、第四激励层、第五卷积层及逆卷积层，其中，第三激励层通过sigmoid函数实现，第四激励层通过双曲正切函数实现；解压模块，还用于：

85、将第k个解码音频输入至第k个解压层组中的第四卷积层，输出第一解码音频卷积特征；

86、将第一解码音频卷积特征输入至第k个解压层组中的第三激励层，输出第一解码音频激励特征；

87、以及，将第一解码音频卷积特征输入至第k个解压层组中的第四激励层，输出第二解码音频激励特征；

88、将第一解码音频激励特征与第二解码音频激励特征相乘，得到解码音频激励乘积特征；

89、将解码音频激励乘积特征输入至第k个解压层组中的第五卷积层，输出第二解码音频卷积特征；

90、将第二解码音频卷积特征输入至第k个解压层组中的逆卷积层，得到第k个解码音频对应的解压序列。

91、在本技术实施例的另一种实现方式中，音频序列获取模块，还用于：

92、获取音频信号；

93、对音频信号进行时频转换，得到频域特征；

94、对频域特征进行分帧，得到k个音频帧；

95、根据k个音频帧生成音频序列。

96、本技术的另一方面提供了一种计算机设备，包括：

97、存储器、收发器、处理器以及总线系统；

98、其中，存储器用于存储程序；

99、处理器用于执行存储器中的程序，包括执行上述各方面的方法；

100、总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

101、本技术的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

102、本技术的另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

103、从以上技术方案可以看出，本技术实施例具有以下优点：

104、本技术提供了一种音频处理方法、音频处理器以及相关装置，通过对音频信号对应的音频序列中的k个音频帧进行预测分组，得到l个音频特征组，根据l个音频特征组中每个音频特征组中的音频帧的数量，确定对应的音频特征组的压缩次数，进而根据压缩次数对音频特征组进行压缩，从而对压缩后的压缩音频特征进行编码，实现了按照音频帧的特征将音频帧进行分组压缩和编码，有效解决了由于固定帧数编码造成的对传输带宽和存储空间的浪费的问题，通过可变帧长的分组压缩和编码的方式，优化了音频信号的压缩方式，减少编码帧输出，降低编码码率，进一步节省传输带宽和存储空间。