技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于神经网络的多路补偿自适应语音编解码方法与流程 > 正文

一种基于神经网络的多路补偿自适应语音编解码方法与流程

国知局
2024-06-21 11:58:09

本发明涉及语音编解码领域，具体涉及一种基于神经网络的多路补偿自适应语音编解码方法。

背景技术：

1、本节中的陈述仅提供与本公开相关的背景信息，并且可能不构成现有技术。

2、话音通信是最基本且重要的通信方式。信道是语音信号传输的通道，信道分为有线信道和无线信道。信道质量影响话音通信质量，信道质量受多种信道干扰因素所影响。信道干扰来源于外部电磁干扰、多径效应、多普勒效应、不同程度衰减、大小尺度衰落、带宽限制、网络拥塞等。这些因素都能导致信道干扰，影响信道质量。尤其在当前应用越来越广泛的无线通信中，无线信道一直是动态变化的，这种变化具有随机性。当前话音设备不能实时精准检测当前随机动态变化的信道质量，不能进行话音自适应补偿和选择最优的语音编解码算法，影响通话体验。

3、综上所述，在话音通话中，当前无法实时精准检测当前动态信道质量变化情况，无法进行话音自适应补偿和语音编解码的自适应选择，导致通话话音质量差的问题，影响用户体验。

技术实现思路

1、本发明的目的在于：针对目前在话音通话中，当前无法实时精准检测当前动态信道质量变化情况，无法进行话音自适应补偿和语音编解码的自适应选择，导致通话话音质量差的问题，影响用户体验，提供了一种基于神经网络的多路补偿自适应语音编解码方法，利用基于神经网络的多路补偿自适应语音编解码算法实时精准检测当前随机动态变化的信道质量，对话音数据进行补偿优化，选择最优的语音编解码算法，提高用户通话话音质量，提升用户体验，从而解决了上述问题。

2、本发明的技术方案如下：

3、一种基于神经网络的多路补偿自适应语音编解码方法，包括：在话音发送终端，基于神经网络模型的多路补偿自适应语音编解码算法模块对公用原始pcm样本数据进行多路语音编码，并发送到话音接收终端；话音接收终端经过多路语音解码，基于神经网络模型对解码出的多路pcm数据进行补偿，结合多路补偿结果与公用原始pcm样本对语音编解码类型进行自适应调节。

4、进一步地，所述基于神经网络模型的多路补偿自适应语音编解码算法模块的工作流程如下：

5、步骤s1：生成公用原始pcm话音数据和对应的各类语音编解码目标pcm话音数据；

6、步骤s2：话音发送终端进行数据组帧和周期内随机发送；

7、步骤s3：话音接收终端对接收数据进行多路语音解码；

8、步骤s4：基于神经网络语音编解码补偿模型进行多路pcm话音数据补偿；

9、步骤s5：语音编解码智能评估和自适应调节。

10、进一步地，所述步骤s1，包括：

11、话音模拟信号经过采样量化，生成公用原始k个pcm话音数据，经过codec_x编码生成codec_x编码话音数据；

12、将codec_x编码话音数据通过codec_x解码生成k个codec_x编码目标pcm话音数据。

13、进一步地，所述话音发送终端和话音接收终端预置并使用相同的公用原始pcm话音数据和codec_x编码目标pcm话音数据。

14、进一步地，所述步骤s2，包括：

15、将codec_x编码话音数据按顺序组成检测通信数据帧，用“t_adj”毫秒表示为语音编解码类型检测调整周期；话音发送终端在每个周期开始的randomnum毫秒发送通信数据帧，以实现周期内随机发送；检测通信数据帧经过通信信道到达话音接收终端。

16、进一步地，所述randomnum为生成的随机数，randomnum小于t_adj。

17、进一步地，所述步骤s3，包括：

18、话音接收终端接对接收到的检测通信数据帧分别根据对应的codec_x编解码算法进行语音解码，得到codec_x补偿前pcm话音数据。

19、进一步地，所述步骤s4，包括：

20、对话音终端支持的每一种语音编解码类型codec_x都构建一个单隐藏层的多层感知机神经网络模型；所述单隐藏层的多层感知机神经网络模型，包括：输入层、隐藏层和输出层；所述输入层n个输入，分别为x1,x2,…,xn，其中，n个输入由当前周期codec_x补偿前pcm话音数据、前一个周期codec_x补偿前pcm话音数据、……、前(d-1)个周期codec_x补偿前pcm话音数据的按照顺序进行排列组合而成；所述隐藏层包含p个神经元，分别为h1,h2,…,hp；所述输出层共有k个输出，分别为表示当前周期codec_x补偿后pcm话音数据。

21、进一步地，所述步骤s5，包括：

22、在当前语音编解码类型检测调整周期内，对话音终端支持的每一种语音编解码类型codec_x利用基于神经网络语音编解码补偿模型进行多路pcm话音数据补偿算法得到k个当前周期codec_x补偿后pcm话音数据输出，记作公用原始pcm话音数据记作g1,g2,…,gk；用均方误差mse来衡量codec_x的话音质量；遍历话音终端所支持的所有语音编解码类型，并选择均方误差mse最小的语音编解码类型作为下一个语音编解码类型检测调整周期的语音编解码类型，以实现智能语音编解码自适应功能。

23、进一步地，所述均方误差mse公式如下：

24、

25、与现有的技术相比本发明的有益效果是：

26、一种基于神经网络的多路补偿自适应语音编解码方法，解决了话音通话中无法实时精准检测当前动态信道质量变化情况且无法进行话音自适应补偿和编解码自适应调节从而导致通话话音质量差的问题，利用基于神经网络的多路补偿自适应语音编解码算法实时精准检测当前随机动态变化的信道质量，对话音数据进行补偿优化，选择最优的语音编解码算法，提高用户通话话音质量，提升用户体验。

技术特征：

1.一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，包括：在话音发送终端，基于神经网络模型的多路补偿自适应语音编解码算法模块对公用原始pcm样本数据进行多路语音编码，并发送到话音接收终端；话音接收终端经过多路语音解码，基于神经网络模型对解码出的多路pcm数据进行补偿，结合多路补偿结果与公用原始pcm样本对语音编解码类型进行自适应调节。

2.根据权利要求1所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述基于神经网络模型的多路补偿自适应语音编解码算法模块的工作流程如下：

3.根据权利要求2所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述步骤s1，包括：

4.根据权利要求3所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述话音发送终端和话音接收终端预置并使用相同的公用原始pcm话音数据和codec_x编码目标pcm话音数据。

5.根据权利要求3所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述步骤s2，包括：

6.根据权利要求5所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述randomnum为生成的随机数，randomnum小于t_adj。

7.根据权利要求5所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述步骤s3，包括：

8.根据权利要求7所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述步骤s4，包括：

9.根据权利要求2所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述步骤s5，包括：

10.根据权利要求8所述的一种基于神经网络的多路补偿自适应语音编解码方法，其特征在于，所述多层感知机神经网络模型的训练包括前向传播过程和反向传播过程，前向传播算法按照顺序利用上一层的输出计算下一层的输出，一直计算到输出层；反向传播算法值的是计算神经网络参数梯度的方法，通过使用反向传播算法来学习每层每个神经元的权重和偏置，从而使神经网络的输出尽可能接近真实值；某一个训练样本表示为(x，y)，其中x是输入，是n个codec_x补偿前pcm话音数据，y是k个codec_x目标pcm话音数据；

技术总结本发明公开了一种基于神经网络的多路补偿自适应语音编解码方法，涉及语音编解码领域，包括：在话音发送终端，基于神经网络模型的多路补偿自适应语音编解码算法模块对公用原始PCM样本数据进行多路语音编码，并发送到话音接收终端；话音接收终端经过多路语音解码，基于神经网络模型对解码出的多路PCM数据进行补偿，结合多路补偿结果与公用原始PCM样本对语音编解码类型进行自适应调节。本发明，利用基于神经网络的多路补偿自适应语音编解码算法实时精准检测当前随机动态变化的信道质量，对话音数据进行补偿优化，选择最优的语音编解码算法，提高用户通话话音质量，提升用户体验。技术研发人员：邱春毓,张桂祥,陈良良,孙超山,邹晶晶,邓伟华,姜永广,咸立文受保护的技术使用者：中国电子科技集团公司第三十研究所技术研发日：技术公布日：2024/6/13