一种语音评价方法、装置、设备及存储介质与流程
- 国知局
- 2024-06-21 11:28:51
本公开涉及人工智能领域,尤其涉及一种语音评价方法、装置、设备及存储介质。
背景技术:
1、近年来,计算机辅助的发音训练系统已经被证明可以帮助人们练习和提升发音技巧,作为其核心组件之一,语音评价模型主要负责评估语音中发音的好坏。相关技术是通过获取音素和文本的强制对齐结果以及基于音素循环网络的语音识别结果,并利用强制对齐音素的时间边界计算两者的似然值的差作为评估音素发音好坏的主要指标。但是在我们日常产生语音的过程中,声音的变换是一连续平滑的过程,变换过程包括从一个音素转换到下一个音素的过渡信息,相关技术会使用到上述过渡信息进行评价,但是该过渡信息会引入噪声,降低评价结果的精度。
技术实现思路
1、本公开提供了一种语音评价方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
2、根据本公开的第一方面,提供了一种语音评价方法,该方法包括:
3、对输入语音进行特征提取,得到声学特征;
4、结合所述声学特征和语音文本,对所述输入语音进行划分,生成音素片段;
5、根据所述音素片段对应的声学特征,生成所述音素片段的熵修正后验特征和音系学特征,所述熵修正后验特征用于表示熵修正处理后的声学特征,所述音系学特征用于表示所述音素片段的发音位置和发音方法;
6、对所述熵修正后验特征和所述音系学特征进行分类,得到所述输入语音的评价结果。
7、根据本公开的第二方面,提供了一种语音评价装置,该装置包括:
8、声学特征提取模块,用于对输入语音进行特征提取,得到声学特征;
9、强制对齐模块,用于结合所述声学特征和语音文本,对所述输入语音进行划分,生成音素片段;
10、评测特征提取模块,用于根据所述音素片段对应的声学特征,生成所述音素片段的熵修正后验特征和音系学特征,所述熵修正后验特征用于表示熵修正处理后的声学特征,所述音系学特征用于表示音素片段的发音位置和发音方法;
11、分类模块,用于对所述熵修正后验特征和所述音系学特征进行分类,得到所述输入语音的评价结果。
12、在一可实施方式中,所述熵修正后验特征包括熵加权后验和熵修正后验差中的至少一种;所述评测特征提取模块,还用于利用所述音素片段和音素集合中各个音素的声学特征,生成所述熵加权后验;根据所述音素片段的声学特征和所述熵加权后验,生成所述熵修正后验差;根据索引表和所述输入语音中各个音素,得到所述音系学特征。
13、在一可实施方式中,所述熵加权后验包括第一熵加权后验,所述第一熵加权后验是基于参考音素生成的,所述参考音素是所述音素集合中的任意音素;所述评测特征提取模块,还用于在所述输入语音中,确定目标音素对应的目标音素片段,所述目标音素是所述输入语音中的任意音素,所述目标音素片段与t时刻对应;根据所述参考音素和所述目标音素片段的声学特征,计算所述输入语音的熵值,所述熵值用于表示所述输入语音在所述t时刻的熵值;根据所述熵值,得到所述第一熵加权后验。
14、在一可实施方式中,所述熵加权后验还包括第二熵加权后验,所述第二熵加权后验是基于所述目标音素生成的所述评测特征提取模块,还用于利用所述音素片段和所述输入语音中各个音素,得到所述第二熵加权后验;计算所述第一熵加权后验和所述第二熵加权后验的差值,得到所述熵修正后验差。
15、在一可实施方式中,所述强制对齐模块,还用于对所述语音文本进行归一化处理后,生成语法图;根据上下文相关、所述语法图和发音字典,生成解码图;结合所述声学特征和所述解码图,得到所述语音文本在所述输入语音中的时间边界;根据所述时间边界对所述输入语音进行划分,得到所述音素片段。
16、在一可实施方式中,所述分类模块,还用于融合所述熵修正后验特征和所述音系学特征,得到评测特征;对所述评测特征进行分类处理,得到所述输入语音的评价结果。
17、在一可实施方式中,所述声学特征提取模块,还用于获取样本训练集,所述样本训练集包括样本输入语音、样本语音文本和人工标注集,所述样本输入语音与所述样本语音文本相对应,所述人工标注集是所述样本输入语音的真实标注;对所述样本输入语音进行特征提取,得到样本声学特征;所述强制对齐模块,还用于结合所述样本声学特征和所述样本语音文本,对所述样本输入语音进行划分,生成样本音素片段;所述评测特征提取模块,还用于根据所述样本音素片段对应的样本声学特征,生成所述音素片段的样本熵修正后验特征和样本音系学特征;所述分类模块,还用于对所述熵修正后验特征和所述音系学特征进行分类,得到所述输入语音的评价结果调用分类器,对所述样本熵修正后验特征和所述样本音系学特征进行分类,得到所述样本输入语音的样本评价结果;根据所述样本评价结果和所述人工标注集之间的差值,对所述分类器进行训练。
18、根据本公开的第三方面,提供了一种电子设备,包括:
19、至少一个处理器;以及,
20、与所述至少一个处理器通信连接的存储器;其中,
21、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
22、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
23、本公开的语音评价方法、装置、设备及存储介质,利用音素片段的发音位置和发音方法生成的音系学特征,以及熵修正处理后提取的熵修正后验特征来进行语音评价。本公开使用的熵修正后验特征有效抑制在发音过程中发音文本改变带来的发音方式变化而引入的噪声,从而让语音评价聚焦在核心发音阶段。而使用的音系学特征可以有效地区分各音素的差异性,在向量表征空间内,发音相似的音素具有更近的距离,又有效改善由于个别音素训练数据不均衡,导致的模型训练不充分的情况。
24、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
技术特征:1.一种语音评价方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述熵修正后验特征包括熵加权后验和熵修正后验差中的至少一种;
3.根据权利要求2所述的方法,其特征在于,所述熵加权后验包括第一熵加权后验,所述第一熵加权后验是基于参考音素生成的,所述参考音素是所述音素集合中的任意音素;
4.根据权利要求3所述的方法,其特征在于,所述熵加权后验还包括第二熵加权后验,所述第二熵加权后验是基于所述目标音素生成的;
5.根据权利要求1至4任一项所述的方法,其特征在于,结合所述声学特征和语音文本,对所述输入语音进行划分,生成音素片段,包括:
6.根据权利要求1至4任一项所述的方法,其特征在于,对所述熵修正后验特征和所述音系学特征进行分类,得到所述输入语音的评价结果,包括:
7.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
8.一种语音评价装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
技术总结本公开提供了一种语音评价方法、装置、设备及存储介质,涉及人工智能领域,本方法包括:对输入语音进行特征提取,得到声学特征;结合声学特征和语音文本,对输入语音进行划分,生成音素片段;根据音素片段对应的声学特征,生成音素片段的熵修正后验特征和音系学特征,熵修正后验特征用于表示熵修正处理后的声学特征,音系学特征用于表示音素片段的发音位置和发音方法;对熵修正后验特征和音系学特征进行分类,得到输入语音的评价结果。该方法在评价语音时会用到熵修正后验特征和音系学特征,让语音评价更关注于核心发音阶段,并且能克服模型训练不充分的问题,提高评价结果的准确性。技术研发人员:戚自力,胡新辉,徐欣康受保护的技术使用者:浙江同花顺智能科技有限公司技术研发日:技术公布日:2024/2/19本文地址:https://www.jishuxx.com/zhuanli/20240618/21751.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。