技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音质量检测方法和相关方法、装置、设备和存储介质与流程 > 正文

语音质量检测方法和相关方法、装置、设备和存储介质与流程

国知局
2024-06-21 11:45:09

本申请涉及语音处理领域，特别是涉及一种语音质量检测方法和相关方法、装置、设备和存储介质。

背景技术：

1、随着语音识别技术的发展，能够对语音信息进行自动转写，以将语音转化为文字，便于后续的质量检测和分析。

2、示例性的，在教育场景中，用户可以通过例如自由说等试题类型，检测用户的口语能力。现有技术中，通常基于用户的目标语音所转写得到的识别文本，确定目标语音的质量。但是，由于在目标语音的识别过程中，会参考语境以及前后文关系等辅助信息以生成识别文本，所以识别文本并不能有效反映目标语音的发音准确度，进而导致对目标语音发音质量检测的准确度较低。有鉴于此，如何提高对目标语音发音质量检测的准确度，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音质量检测方法和相关方法、装置、设备和存储介质，能够提高对目标语音发音质量检测的准确度。

2、为了解决上述技术问题，本申请第一方面提供了一种语音质量检测方法，包括提取目标语音的声学特征；基于声学特征进行识别，得到目标语音中各音频帧的音素概率和目标语音的识别文本；基于参考词典，获取识别文本中各个字符的音素发音，并基于识别文本中各个字符的音素发音，得到若干候选发音路径；其中，若干候选发音路径上各音素形成候选音素序列；基于音频帧的音素概率和若干候选发音路径，得到目标语音关于至少一种发音质量指标的检测值。

3、为了解决上述技术问题，本申请第二方面提供了一种自由说评测方法，包括获取目标对象进行自由说的目标语音进行检测，得到目标语音关于至少一种发音质量指标的检测值；其中，检测值由上述第一方面所述的语音质量检测方法得到；至少基于目标语音关于至少一种发音质量指标的检测值，得到目标对象进行自由说的评价值。

4、为了解决上述技术问题，本申请第三方面提供了一种语音质量检测装置，包括提取模块、识别模块、获取模块和生成模块，提取模块用于提取目标语音的声学特征；识别模块用于基于所述声学特征进行识别，得到所述目标语音中各音频帧的音素概率和所述目标语音的识别文本；获取模块用于基于参考词典，获取所述识别文本中各个字符的音素发音，并基于所述识别文本中各个字符的音素发音，得到若干候选发音路径；其中，所述若干候选发音路径上各音素形成候选音素序列；生成模块用于基于所述音频帧的音素概率和所述若干候选发音路径，得到所述目标语音关于至少一种发音质量指标的检测值。

5、为了解决上述技术问题，本申请第四方面提供了一种自由说评测装置，包括检测模块和评价模块，检测模块用于获取目标对象进行自由说的目标语音进行检测，得到目标语音关于至少一种发音质量指标的检测值；其中，检测值由上述第三方面所述的语音质量检测装置得到；评价模块用于至少基于目标语音关于至少一种发音质量指标的检测值，得到目标对象进行自由说的评价值。

6、为了解决上述技术问题，本申请第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面所述的语音质量检测方法，或，以实现上述第二方面所述的自由说评测方法。

7、为了解决上述技术问题，本申请第六方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面所述的语音质量检测方法，或，用于实现上述第二方面所述的自由说评测方法。

8、上述方案，获取目标语音后，提取目标语音的声学特征，基于声学特征进行识别，得到目标语音中各音频帧的音素概率和目标语音的识别文本，并基于参考词典获取识别文本中各个字符的音素发音，基于识别文本中各个字符的音素发音，得到若干候选发音路径，候选发音路径上各音素形成候选音素序列，基于音频帧的音素概率和若干候选发音路径，得到目标语音关于至少一种发音质量指标的检测值，因此，在无法得到关于目标语音对应的参考文本的前提下，识别文本中各个字符在参考词典中的音素发音可用于表征目标语音的标准发音情况，目标语音中各音频帧的音素概率可用于表征目标语音的真实发音情况，基于关于目标语音的标准发音情况和真实发音情况，能够为获取关于发音质量指标的检测值提供尽可能准确的参考信息，故能提高对目标语音发音质量检测的准确度。

技术特征：

1.一种语音质量检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述音频帧的音素概率和所述若干候选发音路径，得到所述目标语音关于至少一种发音质量指标的检测值，包括：

3.根据权利要求2所述的方法，其特征在于，所述至少一种发音质量指标包括发音准确度，所述至少基于所述目标音素序列和所述帧信息，得到所述目标语音关于至少一种发音质量指标的检测值，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标音素序列和所述帧信息，确定所述目标音素序列中各音素在所述目标语音中的实际发音，包括：

5.根据权利要求4所述的方法，其特征在于，所述全概率集合由发音概率模型预测得到，所述发音概率模型包括编码器和解码器，所述基于所述目标音素序列中所述音素的帧信息，得到包含所述音素预测为音素体系下各个音素的全概率集合，包括：

6.根据权利要求2所述的方法，其特征在于，所述至少一种发音质量指标包括语音流畅度，在所述基于所述音频帧的音素概率和所述若干候选发音路径，得到所述目标语音关于至少一种发音质量指标的检测值之前，所述方法还包括：

7.一种自由说评测方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，在所述至少基于所述目标语音关于至少一种发音质量指标的检测值，得到所述目标对象进行自由说的评价值之前，所述方法还包括：

9.一种语音质量检测装置，其特征在于，包括：

10.一种自由说评测装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至6任一项所述的语音质量检测方法，或，以实现权利要求7至8任一项所述的自由说评测方法。

12.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至6任一项所述的语音质量检测方法，或，实现权利要求7至8任一项所述的自由说评测方法。

技术总结本申请公开了一种语音质量检测方法和相关方法、装置、设备和存储介质。该方法包括：提取目标语音的声学特征；基于声学特征进行识别，得到目标语音中各音频帧的音素概率和目标语音的识别文本；基于参考词典，获取识别文本中各个字符的音素发音，并基于识别文本中各个字符的音素发音，得到若干候选发音路径；其中，若干候选发音路径上各音素形成候选音素序列；基于音频帧的音素概率和若干候选发音路径，得到目标语音关于至少一种发音质量指标的检测值。上述方案，能够提高对目标语音发音质量检测的准确度。技术研发人员：杨康,李宝善,吴奎,张凯波,盛志超受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/4/22