技术新讯 > 乐器声学设备的制造及制作,分析技术 > 数据传输方法、模型训练方法、装置、芯片及终端与流程 > 正文

数据传输方法、模型训练方法、装置、芯片及终端与流程

国知局
2024-06-21 11:40:54

本发明涉及声码器，尤其涉及一种数据传输方法、模型训练方法、装置、芯片及终端。

背景技术：

1、向量量化(vector quantization，vq)，也可译为矢量量化，是20世纪70年代后期发展起来的一种数据压缩和编码技术。基本原理为构建一个码本，对于任意一个向量(提取到的特征向量)可用码本中最相似的向量近似表示。存储时只需记录码字对应的索引值，便可达到压缩的目的。向量量化首次被引入到人工智能(artificial intelligence，ai)模型，码本可经大规模数据集训练得到，随后被应用到ai语音编码器。现有可变码率ai声码器模型的可选码率必须是log2n的倍数，其中n为码本大小。为了满足客户定制化需求，必须重新设计训练模型，将耗费大量时间和资源。

2、因此，有必要提出一种数据传输方法、模型训练方法、装置、芯片及终端以解决上述问题。

技术实现思路

1、本发明的目的在于提供一种数据传输方法、模型训练方法、装置、芯片及终端，用以改善现有可变码率ai声码器模型的可选码率必须是log2n的倍数的问题。

2、第一方面，本发明提供了一种语音数据传输方法，所述方法包括：

3、获取所述语音数据，通过编码模型对所述语音数据进行编码得到nq个码字索引值，其中，所述编码模型包括nq个编码向量量化器，nq为正整数；

4、根据当前网络环境确定目标码率，根据所述目标码率从nq个所述编码向量量化器中确定前nt个所述编码向量量化器，其中，nt为小于等于nq的正整数；

5、所述目标码率在所述编码模型的可选码率范围内，则将前nt个所述编码向量量化器的码字索引值确定为待处理数据，所述目标码率不在所述可选码率范围内，则根据所述目标码率对所述编码向量量化器进行裁剪，得到裁剪后的前nt个编码向量量化器以及包含所述目标码率的裁剪后可选码率范围，将所述裁剪后的前nt个编码向量量化器的码字索引值确定为待处理数据；

6、对所述待处理数据进行数据处理得到数据包，按照所述目标码率将所述数据包发送给接收端。

7、在一种可能的实施例中，根据所述目标码率对所述编码向量量化器进行裁剪，得到裁剪后的前nt个编码向量量化器以及包含所述目标码率的裁剪后可选码率范围，包括：

8、根据所述目标码率和nt值，计算得到第二个至第nt个所述编码向量量化器的目标码本，第一个所述编码向量量化器保持不变，根据第二个至第nt个所述编码向量量化器的目标码本，对应地裁切第二个至第nt个所述编码向量量化器，得到第二个至第nt个裁剪后编码向量量化器以及包含所述目标码率的裁剪后可选码率范围。

9、在一种可能的实施例中，通过编码模型对所述语音数据进行编码得到nq个码字索引值，包括：

10、通过编码模型的编码器对所述语音数据进行特征提取得到特征数据，将所述特征数据输入nq个编码向量量化器得到nq个码字索引值。

11、第二方面，本发明提供了一种模型训练方法，所述方法包括：

12、利用训练样本集对上述实施例中的编码模型以及解码模型进行训练，其中，所述编码模型包括编码器和残差向量量化编码模块，所述残差向量量化编码模块包括nq个编码向量量化器，所述解码模型包括残差向量量化译码模块和解码器，所述残差向量量化译码模块包括nq个译码向量量化器，nq为正整数；

13、冻结训练后的编码模型的模型参数，利用第一测试样本集对冻结后的编码模型进行测试，统计测试得到的各个码字索引值出现的频率，按照频率由高到低，对测试得到的码字重新排序，得到新的码本并更新码字对应的码字索引值。

14、第三方面，本发明提供了一种语音数据传输方法，应用于接收端，所述方法包括：

15、接收来自发送端发送的数据包，对所述数据包进行解析得到解析后数据，所述数据包括前nt个码字索引值；

16、通过解码模型对所述解析后数据进行解码，得到解码后语音数据，其中，所述解码模型包括nq个译码向量量化器，nq为正整数，nt为小于等于nq的正整数。

17、在一种可能的实施例中，通过解码模型对所述解析后数据进行解码，得到解码后语音数据，包括：

18、确定包含前nt个所述码字索引值的nq个码字索引值，其中，前nt个所述码字索引值为有效值，除前nt个所述码字索引值外的码字索引值为无效值；

19、将nq个所述码字索引值中的无效值赋值为0，得到更新后的nq个码字索引值，将所述更新后的nq个码字索引值输入nq个所述译码向量量化器得到nq个码字，将所述无效索引值对应的码字赋值为全0向量，将所有码字累加得到反量化后向量，通过所述解码模型的解码器对所述反量化后向量进行解码，得到解码后语音数据。

20、第四方面，本发明提供了一种模型训练方法，所述方法包括：

21、利用训练样本集对编码模型以及上述实施例中的解码模型进行训练，其中，所述编码模型包括编码器和残差向量量化编码模块，所述残差向量量化编码模块包括nq个编码向量量化器，所述解码模型包括残差向量量化译码模块和解码器，所述残差向量量化译码模块包括nq个译码向量量化器，nq为正整数；

22、冻结训练后的解码模型的模型参数，利用第二测试样本集对冻结后的解码模型进行测试，以评估所述解码模型的性能。

23、第五方面，本发明实施例中还提供了一种语音数据传输装置，该装置包括执行上述第一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

24、第六方面，本发明实施例中还提供了一种模型训练装置，该装置包括执行上述第一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

25、第七方面，本发明实施例中还提供了一种语音数据传输装置，该装置包括执行上述第三方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

26、第八方面，本发明实施例中还提供了一种模型训练装置，该装置包括执行上述第三方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

27、第九方面，本发明实施例中还提供了一种芯片，应用于电子设备，所述芯片用于执行上述第一方面至第四方面的任意一种可能的设计的方法。

28、第十方面，本发明实施例提供了一种终端，包括处理器和存储器。其中，存储器用于存储一个或多个计算机程序；当存储器存储的一个或多个计算机程序被处理器执行时，使得该终端能够实现上述第一方面至第四方面的任意一种可能的设计的方法。

29、本发明的有益效果在于：所述目标码率不在所述可选码率范围内，可根据所述目标码率对所述编码向量量化器进行裁剪，以调整所述编码向量量化器的码本大小，得到裁剪后的前nt个编码向量量化器以及包含所述目标码率的裁剪后可选码率范围，从而在不重新训练模型的情况下，定制化可选码率以满足不同应用场景下对语音编码和数据传输的多样化需求。