技术新讯 > 乐器声学设备的制造及制作,分析技术 > 量化方法、反量化方法及其装置与流程 > 正文

量化方法、反量化方法及其装置与流程

国知局
2024-06-21 10:41:45

本技术涉及音频信号处理，特别涉及一种量化方法、反量化方法及其装置。

背景技术：

1、随着生活质量的提高，人们对高质量音频的需求不断增大。为了利用有限的带宽更好地传输音频信号，通常需要先在编码端对音频信号进行数据压缩，然后将经过压缩的码流传输到解码端。解码端对接收到的码流进行解码处理，得到解码后的音频信号，解码后的音频信号用于回放。

2、然而，在音频信号的传输过程中，音频发送设备和音频接收设备之间的连接吞吐量和稳定性对音频信号的质量有较大的影响。例如，有数据表明蓝牙连接质量在接收信号强度指示(received signal strength indication，rssi)处于-80(分贝毫瓦，dbm)以下时，所有编解码器都会受影响。而对于蓝牙编解码器而言，在蓝牙连接质量受到严重干扰时，如果码率波动大，音频发送设备向音频接收设备发送的信号的占空比高，较容易出现丢包和断续情况，造成人耳主观听感体验的严重下降。因此，保障传输过程中的码率稳定性是蓝牙等短距场景中亟需解决的技术问题。

技术实现思路

1、本技术提供了一种量化方法、反量化方法及其装置，有助于根据目标码率将每帧的码率保持在恒定状态，能够提高传输过程中的码率稳定性，进而提高发送音频信号的编码码流的抗干扰性。所述技术方案如下：

2、第一方面，本技术提供了一种量化方法。该方法应用于编码端，该方法包括：基于对音频信号进行编码使用的目标位深和每个子带的标度因子，得到每个子带的心理声学谱包络系数；基于子带的心理声学谱包络系数确定子带中需要被量化的目标频谱值，其中，编码帧中目标频谱值耗费的第一比特总数小于或等于每帧信号的可用比特数，可用比特数基于编码端向解码端传输音频信号能够使用的目标码率确定；基于目标频谱值，得到目标频谱值的量化值。

3、在本技术提供的量化方法中，可以基于对音频信号进行编码使用的目标位深和每个子带的标度因子，得到每个子带的心理声学谱包络系数，并基于子带的心理声学谱包络系数确定子带中需要被量化的目标频谱值，然后基于目标频谱值，得到目标频谱值的量化值。其中，编码帧中目标频谱值耗费的第一比特总数小于或等于每帧信号的可用比特数，且可用比特数基于编码端向解码端传输音频信号能够使用的目标码率确定。根据本技术的描述可知，该量化方法实际是根据目标码率进行比特分配，从而根据目标码率实现对量化精度进行控制的过程。且该过程通过调整子带的心理声学谱系数，并根据心理声学谱系数对子带内的频谱值进行掩蔽指导实现。因此，通过根据该量化方法进行量化，有助于根据目标码率将每帧的码率保持在恒定状态，能够提高传输过程中的码率稳定性，进而提高发送音频信号的编码码流的抗干扰性。

4、在一种实现方式中，基于子带的心理声学谱包络系数确定子带中需要被量化的目标频谱值，包括：基于子带的心理声学谱包络系数，确定对音频信号的频谱进行掩蔽的心理声学谱；在音频信号的频谱值中，获取子带中未被心理声学谱掩蔽的待定频谱值；基于待定频谱值，确定子带中需要被量化的目标频谱值。

5、可选地，基于待定频谱值，确定子带中需要被量化的目标频谱值，包括：获取编码帧中待定频谱值耗费的第二比特总数；当第二比特总数小于或等于每帧信号的可用比特数时，将待定频谱值确定为目标频谱值；当第二比特总数大于每帧信号的可用比特数时，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第二比特总数，直至基于调整后的心理声学谱包络系数确定的编码帧中待定频谱值耗费的第二比特总数小于或等于每帧信号的可用比特数，将待定频谱值确定为目标频谱值。

6、其中，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第二比特总数，包括：按照第一调整方式调整音频信号中子带的心理声学谱包络系数；基于调整后的心理声学谱包络系数更新待定频谱值；基于更新后的待定频谱值，获取编码帧中更新后的待定频谱值耗费的第二比特总数。

7、可选地，第一调整方式基于目标位深得到。

8、可选地，第一调整方式指示当第二比特总数大于每帧信号的可用比特数时，增大音频信号中子带的心理声学谱包络系数。

9、可选地，第一调整方式指示在完成音频信号中第一子带的心理声学谱包络系数的调整后，对音频信号中第二子带的心理声学谱包络系数进行调整，第一子带的频率高于第二子带的频率。

10、在一种实现方式中，获取编码帧中待定频谱值耗费的第二比特总数，包括：基于子带的心理声学谱包络系数，对待定频谱值进行量化，得到待定频谱值的量化值；获取编码端编码每帧信号的每个量化值耗费的比特数，得到第二比特总数。

11、可选地，在获取编码帧中待定频谱值耗费的第二比特总数之前，基于待定频谱值，确定子带中需要被量化的目标频谱值，还包括：基于子带的心理声学谱包络系数，预估编码帧中待定频谱值耗费的第三比特总数；当第三比特总数与每帧信号的可用比特数的差值在第一阈值范围内时，确定执行获取编码帧中待定频谱值耗费的第二比特总数的过程；当第三比特总数与每帧信号的可用比特数的差值在第一阈值范围外时，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第三比特总数，直至基于调整后的心理声学谱包络系数确定的编码帧中待定频谱值耗费的第三比特总数与每帧信号的可用比特数的差值在第一阈值范围内，确定执行获取编码帧中待定频谱值耗费的第二比特总数的过程。

12、其中，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第三比特总数，包括：按照第二调整方式调整音频信号中子带的心理声学谱包络系数；基于调整后的心理声学谱包络系数更新待定频谱值；基于更新后的待定频谱值，获取编码帧中更新后的待定频谱值耗费的第三比特总数。

13、在一种实现方式中，基于待定频谱值，确定子带中需要被量化的目标频谱值，包括：基于子带的心理声学谱包络系数，预估编码帧中待定频谱值耗费的第三比特总数；当第三比特总数与每帧信号的可用比特数的差值在第一阈值范围内时，将待定频谱值确定为目标频谱值；当第三比特总数与每帧信号的可用比特数的差值在第一阈值范围外时，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第三比特总数，直至基于调整后的心理声学谱包络系数确定的编码帧中待定频谱值耗费的第三比特总数与每帧信号的可用比特数的差值在第一阈值范围内，将待定频谱值确定为目标频谱值。

14、其中，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第三比特总数，包括：按照第二调整方式调整音频信号中子带的心理声学谱包络系数；基于调整后的心理声学谱包络系数更新待定频谱值；基于更新后的待定频谱值，获取编码帧中更新后的待定频谱值耗费的第三比特总数。

15、可选地，第二调整方式基于目标位深得到。

16、可选地，第二调整方式指示当第三比特总数大于每帧信号的可用比特数时，增大音频信号中子带的心理声学谱包络系数，当第三比特总数小于每帧信号的可用比特数时，减小音频信号中子带的心理声学谱包络系数。

17、可选地，第二调整方式指示在完成音频信号中第三子带的心理声学谱包络系数的调整后，对音频信号中第四子带的心理声学谱包络系数进行调整，第三子带的频率高于第四子带的频率。

18、在一种实现方式中，基于子带的心理声学谱包络系数，预估编码帧中待定频谱值耗费的第三比特总数，包括：基于子带的心理声学谱包络系数，获取子带中每个频谱值消耗的平均比特数；基于子带的平均比特数和子带包括的频谱值的总数，获取子带中频谱值耗费的第四比特总数；基于子带耗费的第四比特总数，获得第三比特总数。

19、第二方面，本技术提供了一种量化方法，该方法应用于编码端，该方法包括：当编码帧中目标频谱值耗费的第一比特总数小于每帧信号的可用比特数时，基于音频信号的频谱值表示的信息的重要程度，在其他频谱值中确定需要被量化的残余频谱值，其他频谱值为音频信号的频谱值中除目标频谱值外的频谱值；基于残余频谱值，得到残余频谱值的量化值；基于残余频谱值，得到残余频谱值的量化指示信息，量化指示信息用于指示对残余频谱值进行反量化的方式；向解码端提供量化指示信息。

20、在该量化方法中，当编码帧中目标频谱值耗费的第一比特总数小于每帧信号的可用比特数时，基于音频信号的频谱值表示的信息的重要程度，在其他频谱值中确定需要被量化的残余频谱值，基于残余频谱值，得到残余频谱值的量化值，能够有效利用剩余比特，有助于根据目标码率将每帧的码率保持在恒定状态，能够提高传输过程中的码率稳定性，进而提高发送音频信号的编码码流的抗干扰性。

21、在一种实现方式中，重要程度通过频谱值所属频点所在的子带的标度因子反映。

22、在一种实现方式中，基于音频信号的频谱值表示的信息的重要程度，在其他频谱值中确定需要被量化的残余频谱值，包括：在音频信号的所有子带中，确定具有最大标度因子的基准子带；基于每个子带到基准子带的距离，确定子带的其他频谱值成为残余频谱值的权重；按照权重由高到低的顺序，依次确定对应子带的其他频谱值是否为残余频谱值，直至编码帧中目标频谱值和残余频谱值耗费的第五比特总数与每帧信号的可用比特数的差值在第二阈值范围内；其中，当将子带的其他频谱值作为残余频谱值时，若编码帧中目标频谱值和所有已确定为残余频谱值耗费的第五比特总数大于每帧信号的可用比特数，则子带的其他频谱值及小于或等于子带的权重的其他子带中的其他频谱值均不能成为残余频谱值。

23、在一种实现方式中，任一子带的权重与任一子带到基准子带的距离反相关。

24、在一种实现方式中，子带的权重还基于子带被心理声学谱掩蔽的情况得到，被心理声学谱掩蔽的子带的权重大于未被心理声学谱掩蔽的子带的权重。

25、在一种实现方式中，基于残余频谱值，得到残余频谱值的量化指示信息，包括：对残余频谱值执行取舍处理；基于经过取舍处理的残余频谱值，确定对残余频谱值进行量化的量化方式，得到量化指示信息。

26、可选地，目标频谱值基于本技术第一方面提供的任一的方法确定。

27、第三方面，本技术提供了一种反量化方法，该方法应用于解码端，该方法包括：接收编码端提供的经编码码流；基于经编码码流，获取音频信号的频谱值表示的信息的重要程度；基于重要程度，确定经编码码流中残余频谱值的码值和量化指示信息，量化指示信息用于指示编码端对残余频谱值进行反量化的方式；基于残余频谱值的量化指示信息，对残余频谱值的码值执行反量化操作，得到反量化后的码值。

28、在该反量化方法中，当编码帧中目标频谱值耗费的第一比特总数小于每帧信号的可用比特数时，基于音频信号的频谱值表示的信息的重要程度，在其他频谱值中确定需要被量化的残余频谱值，基于残余频谱值，得到残余频谱值的量化值，能够有效利用剩余比特，有助于根据目标码率将每帧的码率保持在恒定状态，能够提高传输过程中的码率稳定性，进而提高发送音频信号的编码码流的抗干扰性。

29、在一种实现方式中，重要程度通过频谱值所属频点所在的子带的标度因子反映，其中，子带的标度因子基于对经编码码流解码得到。

30、在一种实现方式中，基于重要程度，确定经编码码流中残余频谱值的码值和量化指示信息，包括：在音频信号的所有子带中，确定具有最大标度因子的基准子带；基于每个子带到基准子带的距离，在经编码码流中确定每个子带的残余频谱值的码值和量化指示信息。

31、在一种实现方式中，当第一子带到基准子带的距离小于第二子带到基准子带的距离时，第一子带的残余频谱值的码值在第二子带的残余频谱值的码值之前，第一子带的残余频谱值的量化指示信息在第二子带的残余频谱值的量化指示信息之前。

32、在一种实现方式中，每个子带的残余频谱值的码值和量化指示信息在经编码码流中的位置还基于子带被心理声学谱掩蔽的情况得到，被心理声学谱掩蔽的子带的残余频谱值的码值在未被心理声学谱掩蔽的子带的残余频谱值的码值之前，被心理声学谱掩蔽的子带的残余频谱值的量化指示信息在未被心理声学谱掩蔽的子带的残余频谱值的量化指示信息之前，子带被心理声学谱掩蔽的情况基于经编码码流得到。

33、在一种实现方式中，基于残余频谱值的量化指示信息，对残余频谱值的码值执行反量化操作，得到反量化后的码值，包括：基于残余频谱值的量化指示信息，确定对残余频谱值执行反量化操作的偏移值；基于残余频谱值的码值和偏移值执行反量化操作，得到反量化后的码值。

34、第四方面，本技术提供了一种量化装置，量化装置应用于编码端，量化装置包括：第一处理模块、第二处理模块和第三处理模块。其中，第一处理模块，用于基于对音频信号进行编码使用的目标位深和每个子带的标度因子，得到每个子带的心理声学谱包络系数；第二处理模块，用于基于子带的心理声学谱包络系数确定子带中需要被量化的目标频谱值，其中，编码帧中目标频谱值耗费的第一比特总数小于或等于每帧信号的可用比特数，可用比特数基于编码端向解码端传输音频信号能够使用的目标码率确定；第三处理模块，用于基于目标频谱值，得到目标频谱值的量化值。

35、可选地，第二处理模块用于：基于子带的心理声学谱包络系数，确定对音频信号的频谱进行掩蔽的心理声学谱；在音频信号的频谱值中，获取子带中未被心理声学谱掩蔽的待定频谱值；基于待定频谱值，确定子带中需要被量化的目标频谱值。

36、可选地，第二处理模块用于：获取编码帧中待定频谱值耗费的第二比特总数；当第二比特总数小于或等于每帧信号的可用比特数时，将待定频谱值确定为目标频谱值；当第二比特总数大于每帧信号的可用比特数时，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第二比特总数，直至基于调整后的心理声学谱包络系数确定的编码帧中待定频谱值耗费的第二比特总数小于或等于每帧信号的可用比特数，将待定频谱值确定为目标频谱值；其中，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第二比特总数，包括：按照第一调整方式调整音频信号中子带的心理声学谱包络系数；基于调整后的心理声学谱包络系数更新待定频谱值；基于更新后的待定频谱值，获取编码帧中更新后的待定频谱值耗费的第二比特总数。

37、可选地，第一调整方式基于目标位深得到。

38、可选地，第一调整方式指示当第二比特总数大于每帧信号的可用比特数时，增大音频信号中子带的心理声学谱包络系数。

39、可选地，第一调整方式指示在完成音频信号中第一子带的心理声学谱包络系数的调整后，对音频信号中第二子带的心理声学谱包络系数进行调整，第一子带的频率高于第二子带的频率。

40、可选地，第二处理模块用于：基于子带的心理声学谱包络系数，对待定频谱值进行量化，得到待定频谱值的量化值；获取编码端编码每帧信号的每个量化值耗费的比特数，得到第二比特总数。

41、可选地，第二处理模块用于：基于子带的心理声学谱包络系数，预估编码帧中待定频谱值耗费的第三比特总数；当第三比特总数与每帧信号的可用比特数的差值在第一阈值范围内时，确定执行获取编码帧中待定频谱值耗费的第二比特总数的过程；当第三比特总数与每帧信号的可用比特数的差值在第一阈值范围外时，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第三比特总数，直至基于调整后的心理声学谱包络系数确定的编码帧中待定频谱值耗费的第三比特总数与每帧信号的可用比特数的差值在第一阈值范围内，确定执行获取编码帧中待定频谱值耗费的第二比特总数的过程；其中，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第三比特总数，包括：按照第二调整方式调整音频信号中子带的心理声学谱包络系数；基于调整后的心理声学谱包络系数更新待定频谱值；基于更新后的待定频谱值，获取编码帧中更新后的待定频谱值耗费的第三比特总数。

42、可选地，第二处理模块用于：基于子带的心理声学谱包络系数，预估编码帧中待定频谱值耗费的第三比特总数；当第三比特总数与每帧信号的可用比特数的差值在第一阈值范围内时，将待定频谱值确定为目标频谱值；当第三比特总数与每帧信号的可用比特数的差值在第一阈值范围外时，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第三比特总数，直至基于调整后的心理声学谱包络系数确定的编码帧中待定频谱值耗费的第三比特总数与每帧信号的可用比特数的差值在第一阈值范围内，将待定频谱值确定为目标频谱值；其中，对子带的心理声学谱包络系数进行调整，并基于调整后的心理声学谱包络系数，确定编码帧中待定频谱值耗费的第三比特总数，包括：按照第二调整方式调整音频信号中子带的心理声学谱包络系数；基于调整后的心理声学谱包络系数更新待定频谱值；基于更新后的待定频谱值，获取编码帧中更新后的待定频谱值耗费的第三比特总数。

43、可选地，第二调整方式基于目标位深得到。

44、可选地，第二调整方式指示当第三比特总数大于每帧信号的可用比特数时，增大音频信号中子带的心理声学谱包络系数，当第三比特总数小于每帧信号的可用比特数时，减小音频信号中子带的心理声学谱包络系数。

45、可选地，第二调整方式指示在完成音频信号中第三子带的心理声学谱包络系数的调整后，对音频信号中第四子带的心理声学谱包络系数进行调整，第三子带的频率高于第四子带的频率。

46、可选地，第二处理模块用于：基于子带的心理声学谱包络系数，获取子带中每个频谱值消耗的平均比特数；基于子带的平均比特数和子带包括的频谱值的总数，获取子带中频谱值耗费的第四比特总数；基于子带耗费的第四比特总数，获得第三比特总数。

47、第五方面，本技术提供了一种量化装置，量化装置应用于编码端，量化装置包括：第一处理模块、第二处理模块、第三处理模块和提供模块。其中，第一处理模块，用于当编码帧中目标频谱值耗费的第一比特总数小于每帧信号的可用比特数时，基于音频信号的频谱值表示的信息的重要程度，在其他频谱值中确定需要被量化的残余频谱值，其他频谱值为音频信号的频谱值中除目标频谱值外的频谱值；第二处理模块，用于基于残余频谱值，得到残余频谱值的量化值；第三处理模块，用于基于残余频谱值，得到残余频谱值的量化指示信息，量化指示信息用于指示对残余频谱值进行反量化的方式；提供模块，用于向解码端提供量化指示信息。

48、可选地，重要程度通过频谱值所属频点所在的子带的标度因子反映。

49、可选地，第一处理模块用于：在音频信号的所有子带中，确定具有最大标度因子的基准子带；基于每个子带到基准子带的距离，确定子带的其他频谱值成为残余频谱值的权重；按照权重由高到低的顺序，依次确定对应子带的其他频谱值是否为残余频谱值，直至编码帧中目标频谱值和残余频谱值耗费的第五比特总数与每帧信号的可用比特数的差值在第二阈值范围内；其中，当将子带的其他频谱值作为残余频谱值时，若编码帧中目标频谱值和所有已确定为残余频谱值耗费的第五比特总数大于每帧信号的可用比特数，则子带的其他频谱值及小于或等于子带的权重的其他子带中的其他频谱值均不能成为残余频谱值。

50、可选地，任一子带的权重与任一子带到基准子带的距离反相关。

51、可选地，子带的权重还基于子带被心理声学谱掩蔽的情况得到，被心理声学谱掩蔽的子带的权重大于未被心理声学谱掩蔽的子带的权重。

52、可选地，第三处理模块用于：对残余频谱值执行取舍处理；基于经过取舍处理的残余频谱值，确定对残余频谱值进行量化的量化方式，得到量化指示信息。

53、可选地，目标频谱值基于第一方面中任一设计的量化方法确定。

54、第六方面，本技术提供了一种反量化装置，反量化装置应用于解码端，反量化装置包括：接收模块、获取模块、确定模块和处理模块。其中，接收模块，用于接收编码端提供的经编码码流；获取模块，用于基于经编码码流，获取音频信号的频谱值表示的信息的重要程度；确定模块，用于基于重要程度，确定经编码码流中残余频谱值的码值和量化指示信息，量化指示信息用于指示编码端对残余频谱值进行反量化的方式；处理模块，用于基于残余频谱值的量化指示信息，对残余频谱值的码值执行反量化操作，得到反量化后的码值。

55、可选地，重要程度通过频谱值所属频点所在的子带的标度因子反映，其中，子带的标度因子基于对经编码码流解码得到。

56、可选地，确定模块用于：在音频信号的所有子带中，确定具有最大标度因子的基准子带；基于每个子带到基准子带的距离，在经编码码流中确定每个子带的残余频谱值的码值和量化指示信息。

57、可选地，当第一子带到基准子带的距离小于第二子带到基准子带的距离时，第一子带的残余频谱值的码值在第二子带的残余频谱值的码值之前，第一子带的残余频谱值的量化指示信息在第二子带的残余频谱值的量化指示信息之前。

58、可选地，每个子带的残余频谱值的码值和量化指示信息在经编码码流中的位置还基于子带被心理声学谱掩蔽的情况得到，被心理声学谱掩蔽的子带的残余频谱值的码值在未被心理声学谱掩蔽的子带的残余频谱值的码值之前，被心理声学谱掩蔽的子带的残余频谱值的量化指示信息在未被心理声学谱掩蔽的子带的残余频谱值的量化指示信息之前，子带被心理声学谱掩蔽的情况基于经编码码流得到。

59、可选地，处理模块用于：基于残余频谱值的量化指示信息，确定对残余频谱值执行反量化操作的偏移值；基于残余频谱值的码值和偏移值执行反量化操作，得到反量化后的码值。

60、第七方面，本技术提供了一种计算机设备，包括存储器和处理器，存储器存储有程序指令，处理器运行程序指令以执行第一方面、第二方面和第三方面中任一涉及的方法。

61、第八方面，本技术提供了一种计算机可读存储介质，存储介质内存储有计算机程序，计算机程序被处理器执行时实现第一方面、第二方面和第三方面中任一涉及的方法的步骤。

62、第九方面，本技术提供了一种计算机程序产品，计算机程序产品内存储有计算机指令，计算机指令被处理器执行时实现第一方面、第二方面和第三方面中任一涉及的方法的步骤。