技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多音字读音的确定方法和装置、存储介质及电子设备与流程  >  正文

多音字读音的确定方法和装置、存储介质及电子设备与流程

  • 国知局
  • 2024-06-21 11:33:36

本技术涉及语音合成领域,具体而言,涉及一种多音字读音的确定方法和装置、存储介质及电子设备。

背景技术:

1、目前,在语音合成技术所用到的文字转语音的过程中往往需要提前确定第一多音字的正确读音。现有技术中一般采用基于规则确定读音的方法或基于深度学习确定读音的方法来确定文字中第一多音字的读音,基于规则的方法需要人工在字典中定义词语与读音的对应规则,然后将文本分割成词语在字典中匹配读音,但是此方法需要维护复杂的规则以及字典,且在面对同一个词语具备多个读音时无法区分正确读音。而基于学习的方法需要使用大量数据训练用于预测第一多音字发音的神经网络模型,但是现有的关于第一多音字消歧的数据集样本数量少,数据分布不平衡。所以通过以上两种方法确定第一多音字读音的准确率较低。

2、因此,相关技术中,存在如何准确确认多音字的读音的问题。

3、针对相关技术中,如何准确确认多音字的读音的问题,尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种多音字读音的确定方法和装置、存储介质及电子设备,以至少解决相关技术中,如何准确确认多音字的读音的问题。

2、根据本技术实施例的一个实施例,提供了一种多音字读音的确定方法,包括:对待处理语料进行解析,确定出所述待处理语料中的第一多音字,其中,所述第一多音字对应有字符特征;使用字符编码模型对所述待处理语料中的待处理语句进行掩码处理,得到所述待处理语句的语句嵌入向量;根据所述语句嵌入向量,所述字符特征以及与所述字符特征对应的相关词特征生成特征向量;将所述特征向量输入至训练后的深度学习模型,根据所述深度学习模型的输出结果确定出所述第一多音字对应的目标读音,其中,所述深度学习模型是以训练语料中的第二多音字对应的历史特征向量为输入样本,以所述第二多音字的每个读音的样本概率为输出样本训练得到的。

3、在一个示例性实施例中,在根据所述语句嵌入向量,所述字符特征以及与所述字符特征对应的相关词特征生成特征向量之前,包括:确定出与所述第一多音字的相邻字符,以及从预设词向量数据库内确定出与所述相邻字符对应的所有词语;获取将所述所有词语进行向量化得到的预训练词向量,其中,所述预训练词向量的维数与所述所有词语的个数一致;将所述预训练词向量确定为所述相关词特征。

4、在一个示例性实施例中,根据所述语句嵌入向量,所述字符特征以及与所述字符特征对应的相关词特征生成特征向量,包括:获取对所述语句嵌入向量进行编码得到的编码结果,以及确定出对所述相关词特征进行非线性变换得到的变换结果;基于所述编码结果和所述变换结果计算所述相关词特征对应的相关度;根据所述相关度和所述字符特征生成特征向量。

5、在一个示例性实施例中,基于所述编码结果和所述变换结果计算所述相关词特征对应的相关度,包括:获取所述编码结果,所述变换结果和预设权重矩阵之间的乘积;使用激活函数对所述乘积进行归一化计算,将所述归一化计算得到的结果确定为所述相关度。

6、在一个示例性实施例中,根据所述相关度和所述字符特征生成特征向量,包括:针对所有相关词特征,确定出所述所有相关词特征中的每一个相关词特征对应的目标变换结果以及目标相关度的乘积,得到多个乘积;确定出所述多个乘积之和,并将所述多个乘积之和与所述字符特征之间的和值确定为所述特征向量。

7、在一个示例性实施例中,根据所述深度学习模型的输出结果确定出所述第一多音字对应的读音,包括:从所述深度学习模型的输出结果中确定出所述第一多音字的所有读音的概率;从所述所有读音的概率中确定出最大值,并将所述最大值对应的读音确定为所述第一多音字对应的读音。

8、在一个示例性实施例中,所述方法还包括:计算所述所有读音的概率对应的信息熵;在确定所述信息熵满足预设阈值的情况下,从所述训练语料中确定其他样本,其中,所述其他样本至少包括所述第一多音字样本的相邻词样本,以及所述训练语料中除了所述第一多音字样本,所述相邻词样本之外的词样本;以所述其他样本的特征向量和所述第二多音字对应的历史特征向量为输入样本,以所述第二多音字的每个读音的样本概率为输出样本对所述深度学习模型进行训练。

9、根据本技术实施例的另一个实施例,还提供了一种多音字读音的确定装置,包括:解析模块,用于对待处理语料进行解析,确定出所述待处理语料中的第一多音字,其中,所述第一多音字对应有字符特征;处理模块,用于使用字符编码模型对所述待处理语料中的待处理语句进行掩码处理,得到所述待处理语句的语句嵌入向量;生成模块,用于根据所述语句嵌入向量,所述字符特征以及与所述字符特征对应的相关词特征生成特征向量;确定模块,用于将所述特征向量输入至训练后的深度学习模型,根据所述深度学习模型的输出结果确定出所述第一多音字对应的目标读音,其中,所述深度学习模型是以训练语料中的第二多音字对应的历史特征向量为输入样本,以所述第二多音字的每个读音的样本概率为输出样本训练得到的。

10、在一个示例性实施例中,上述生成模块还用于:确定出与所述第一多音字的相邻字符,以及从预设词向量数据库内确定出与所述相邻字符对应的所有词语;获取将所述所有词语进行向量化得到的预训练词向量,其中,所述预训练词向量的维数与所述所有词语的个数一致;将所述预训练词向量确定为所述相关词特征。

11、在一个示例性实施例中,上述生成模块还包括:获取单元,用于获取对所述语句嵌入向量进行编码得到的编码结果,以及确定出对所述相关词特征进行非线性变换得到的变换结果;计算单元,用于基于所述编码结果和所述变换结果计算所述相关词特征对应的相关度;生成单元,用于根据所述相关度和所述字符特征生成特征向量。

12、在一个示例性实施例中,上述计算单元还用于:获取所述编码结果,所述变换结果和预设权重矩阵之间的乘积;使用激活函数对所述乘积进行归一化计算,将所述归一化计算得到的结果确定为所述相关度。

13、在一个示例性实施例中,上述生成单元还用于:针对所有相关词特征,确定出所述所有相关词特征中的每一个相关词特征对应的目标变换结果以及目标相关度的乘积,得到多个乘积;确定出所述多个乘积之和,并将所述多个乘积之和与所述字符特征之间的和值确定为所述特征向量。

14、在一个示例性实施例中,上述确定模块还用于:从所述深度学习模型的输出结果中确定出所述第一多音字的所有读音的概率;从所述所有读音的概率中确定出最大值,并将所述最大值对应的读音确定为所述第一多音字对应的读音。

15、在一个示例性实施例中,上述确定模块还用于:计算所述所有读音的概率对应的信息熵;在确定所述信息熵满足预设阈值的情况下,从所述训练语料中确定其他样本,其中,所述其他样本至少包括所述第一多音字样本的相邻词样本,以及所述训练语料中除了所述第一多音字样本,所述相邻词样本之外的词样本;以所述其他样本的特征向量和所述第二多音字对应的历史特征向量为输入样本,以所述第二多音字的每个读音的样本概率为输出样本对所述深度学习模型进行训练。

16、根据本技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述多音字读音的确定方法。

17、根据本技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的多音字读音的确定方法。

18、在本技术实施例中,解析出待处理语料中第一多音字对应的字符特征,使用字符编码模型对待处理语料中的待处理语句进行掩码处理得到语句嵌入向量,将语句嵌入向量和字符特征以及与字符特征对应的相关词特征生成的特征向量输入由第二多音字的特征向量训练的深度学习模型,得到第一多音字的每个读音的样本概率根据每个读音的样本概率确定第一多音字的读音。采用上述技术方案,解决了如何准确确定多音字的读音的问题,进而实现了准确确定多音字的读音的效果。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22243.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。