技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于语音质量分级模型的变速率语音编码方法及系统与流程 > 正文

基于语音质量分级模型的变速率语音编码方法及系统与流程

国知局
2024-06-21 11:51:42

本公开涉及语音信号处理，具体涉及基于语音质量分级模型的变速率语音编码方法及系统。

背景技术：

1、本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

2、变速率语音编码技术在语音通信系统中有着广泛的应用，其可以根据当前编码语音的特点或信道的需求自适应地调整编码速率，从而在语音自然度、可懂度和系统容量间得到最佳平衡。

3、在变速率语音编码技术中，用来进行编码模式选择的核心是速率判决技术，可以分为源控制变速率语音编码和信道或网络控制变速率语音编码。源控制变速率语音编码是根据发送端语音信号本身的特征进行编码模式的选择，信道或网络控制变速率语音编码则根据信道质量估计选择编码模式。

4、但上述速率判决技术都不能对通信时的语音质量进行实时地直接的客观评估，不能根据语音质量的变化情况实时、动态的调整当前的语音编码速率，无法在语音自然度、可懂度和系统容量间得到最佳平衡，从而缺乏主动性、实时性和灵活性。

技术实现思路

1、本公开为了解决上述问题，提出了基于语音质量分级模型的变速率语音编码方法及系统，利用语音质量分级模型对通话时的语音质量进行实时评估，将评估结果的变化情况作为变速率语音编码的判决条件，从而实现实时、动态的变速率语音编码，进而在系统容量、语音自然度和可懂度之间得到最佳平衡。

2、根据一些实施例，本公开采用如下技术方案：

3、基于语音质量分级模型的变速率语音编码方法，包括：

4、获取编码器在不同误码率下得到的合成语音文件；

5、将所述合成语音文件输入至语音质量分级模型中，得到语音质量的预测结果；对未来可能出现的语音质量的变化情况进行模态划分；

6、判断当前预测出的语音质量的所属模态，并根据当前所属模态，实时地对语音编码的速率进行自适应调整，在语音编码的自然度、可懂度和系统容量间得到最佳平衡；

7、其中，所述语音质量的变化情况被划分为三种模态，分别为平衡态、休眠态以及激活态。

8、根据一些实施例，本公开采用如下技术方案：

9、基于语音质量分级模型的变速率语音编码系统，包括：

10、数据获取模块，用于获取编码器在不同误码率下得到的合成语音文件；

11、预测模块，用于将所述合成语音文件输入至语音质量分级模型中，得到语音质量的预测结果；

12、模态划分模块，用于对未来可能出现的语音质量的变化情况进行模态划分；并判断当前预测出的语音质量的所属模态；

13、其中，语音质量的变化情况被划分为三种模态，分别为平衡态、休眠态以及激活态；

14、编码速率调整模块，用于根据当前所属模态，实时地对语音编码的速率进行自适应调整，在语音编码的自然度、可懂度和系统容量间得到最佳平衡。

15、根据一些实施例，本公开采用如下技术方案：

16、一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的基于语音质量分级模型的变速率语音编码方法。

17、根据一些实施例，本公开采用如下技术方案：

18、一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的基于语音质量分级模型的变速率语音编码方法。

19、与现有技术相比，本公开的有益效果为：

20、本公开的基于语音质量分级模型的变速率语音编码方法，利用语音质量分级模型对通话时的语音质量进行实时评估，将评估结果的变化情况作为变速率语音编码的判决条件，将语音质量的变化分为三种情况，划分为平衡态、休眠态以及激活态三种模态，根据语音质量变化情况划分的模态并进行相应的速率调整，从而实现实时、动态的变速率语音编码，进而在系统容量、语音自然度和可懂度之间得到最佳平衡。

21、本公开的基于语音质量分级模型的变速率语音编码方法，将语音质量分级模型的评估结果变化情况作为变速率语音编码中编码速率选择的判决条件，提出了基于语音质量分级模型的探索式三模态速率判决技术，并将其应用于包含三种编码速率的melpe声码器，从而能够根据实时通话语音质量自适应调整编码速率，在语音自然度、可懂度和系统容量间得到最佳平衡，有效保障通话语音质量。

技术特征：

1.基于语音质量分级模型的变速率语音编码方法，其特征在于，包括：

2.如权利要求1所述的基于语音质量分级模型的变速率语音编码方法，其特征在于，将长语音数据输入编码器进行编码，设置不同大小的误码率模拟信道对语音编码码流的影响，进一步保存为不同误码率下的合成语音文件；将不同误码率下合成语音文件的语音质量分为完全可懂、基本可懂、不可懂三个等级。

3.如权利要求1所述的基于语音质量分级模型的变速率语音编码方法，其特征在于，模态的划分具体包括：若当前帧的语音质量为基本可懂，则将其被判定为平衡态；若当前帧的语音质量为不可懂，则将其判定为休眠态。

4.如权利要求1所述的基于语音质量分级模型的变速率语音编码方法，其特征在于，若语音质量连续在设置帧数下为完全可懂，则判定为激活态；当不满足上述条件时，若当前帧的语音质量为完全可懂，则需结合上一帧的语音质量进行判断；若存在上一帧语音质量，当上一帧的语音质量为不可懂或基本可懂时，表明通信状况有所改善，判定为激活态；若上一帧语音质量为完全可懂或上一帧语音质量不存在时，判定为平衡态。

5.如权利要求4所述的基于语音质量分级模型的变速率语音编码方法，其特征在于，上一帧语音质量不存在包括两种情况：第一种情况：当前语音帧为首帧，所以不存在上一帧语音质量的预测结果；第二种情况：当前语音帧为编码速率调整后的首帧，不考虑此前编码速率下的语音质量预测结果。

6.如权利要求1所述的基于语音质量分级模型的变速率语音编码方法，其特征在于，实时地对语音编码的速率进行自适应调整，包括：

7.如权利要求6所述的基于语音质量分级模型的变速率语音编码方法，其特征在于，若当前语音质量判定为激活态时，表示通信状态良好且稳定或信道状况有所改善，则自适应向上探索，若存在更高编码速率，则降低信道编码的带宽而选择更高的语音编码速率以获得更高的语音通话自然度，若不存在更高编码速率，则保持当前编码速率。

8.基于语音质量分级模型的变速率语音编码系统，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-7任一项所述的基于语音质量分级模型的变速率语音编码方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-7任一项所述的基于语音质量分级模型的变速率语音编码方法。

技术总结本公开提供了基于语音质量分级模型的变速率语音编码方法及系统，涉及语音信号处理技术领域，包括：获取编码器不同误码率下得到的合成语音文件；将所述合成语音文件输入至语音质量分级模型中，得到语音质量的预测结果；对未来可能出现的语音质量的变化情况进行模态划分；其中，语音质量的变化情况包括三种模态，分别为平衡态、休眠态以及激活态；判断当前预测出的语音质量的所属模态，并根据当前所属模态，实时地对语音编码的速率进行自适应调整，在语音编码的自然度、可懂度和系统容量间得到最佳平衡。技术研发人员：李晔,吝灵霞,于兴业,张鹏,蔡田雨受保护的技术使用者：山东省计算中心（国家超级计算济南中心）技术研发日：技术公布日：2024/5/12