技术新讯 > 计算推算,计数设备的制造及其应用技术 > 多音字读音识别方法、装置、设备及存储介质与流程 > 正文

多音字读音识别方法、装置、设备及存储介质与流程

国知局
2024-09-14 14:23:34

本申请涉及读音识别，尤其涉及一种多音字读音识别方法、装置、设备及存储介质。

背景技术：

1、语音合成是指使用机器学习模型从文本合成类似于人的阅读音频。现有的技术方案包括常用的开源工具包如pypinyin，pypinyin是汉字拼音转换工具(python版)，深度学习模型如g2pm等，g2pm是基于新的开放基准数据集的中文字形到音素转换包。发明人发现，开源工具包多数基于词表，最大的问题是准确率低。在公开数据集cpp(chinese graphemeto phoneme)的测试集上，pypinyin的准确率为86.13％，甚至比使用简单多数投票策略的准确率(92.08％)要低。发明人还发现，深度学习模型使用了字信息，未充分使用上下文信息和语法信息等，性能受到约束。

技术实现思路

1、针对上述技术问题，本申请的目的在于提供一种多音字读音识别方法、装置、设备及存储介质，旨在提高多音字识别的准确率。

2、本申请实施例提供一种多音字读音识别方法，包括：

3、获取待识别的文本；

4、确定所述文本中的多音字；

5、对所述文本的每一个字进行编码，将编码结果输入预训练语言模型，得到所述文本每一个字的语义向量；

6、对所述文本进行分词编码，将分词编码结果输入分词嵌入表示模块，得到所述文本每一个字的分词向量；

7、对所述文本进行词性编码，将词性编码结果输入词性嵌入表示模块，得到所述文本每一个字的词性向量；

8、将所述语义向量、分词向量以及词性向量相加，基于相加结果，经过自注意力模块和层归一化，得到每一个字的最终向量；

9、筛选出所述多音字的最终向量；

10、基于所述多音字的最终向量，使用全连接层对所述多音字的读音进行分类，得到所述多音字的读音。

11、进一步的，所述确定所述文本中的多音字，包括：

12、获取预设的字典；

13、通过查询所述字典查确定所述文本中的多音字。

14、进一步的，所述字典为一表格，所述表格的每一条记录均记载了一个字以及该字的读音。

15、进一步的，所述预训练语言模型为ernie3模型。

16、进一步的，所述对所述文本进行分词编码的步骤包括：

17、获取分词工具；

18、利用所述分词工具对所述文本进行分词，得到分词结果；

19、对所述分词结果进行编码，得到所述分词编码结果。

20、进一步的，所述对所述文本进行词性编码，包括：

21、获取词性分析工具；

22、利用所述词性分析工具分析所述文本每一个词的词性；

23、根据词的词性，对所述文本中的每个词进行编码，得到所述词性编码结果。

24、进一步的，所述分词工具为jieba或nltk。

25、第二方面，本申请实施例提供一种多音字读音识别方法，包括：

26、文本获取模块，用于获取待识别的文本；

27、多音字确定模块，用于确定所述文本中的多音字；

28、语义向量生成模块，用于对所述文本的每一个字进行编码，将编码结果输入预训练语言模型，得到所述文本每一个字的语义向量；

29、分词向量生成模块，用于对所述文本进行分词编码，将分词编码结果输入分词嵌入表示模块，得到所述文本每一个字的分词向量；

30、词性向量生成模块，用于对所述文本进行词性编码，将词性编码结果输入词性嵌入表示模块，得到所述文本每一个字的词性向量；

31、相加模块，用于将所述语义向量、分词向量以及词性向量相加，基于相加结果，经过自注意力模块和层归一化，得到每一个字的最终向量；

32、筛选模块，用于筛选出所述多音字的最终向量；

33、多音字读音确定模块，用于基于所述多音字的最终向量，使用全连接层对所述多音字的读音进行分类，得到所述多音字的读音。

34、第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如上述任一项所述方法的步骤。

35、第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述方法的步骤。

36、本申请的有益效果：

37、本申请实施例提供的一种多音字读音识别方法，包括：获取待识别的文本；确定所述文本中的多音字；对所述文本的每一个字进行编码，将编码结果输入预训练语言模型，得到所述文本每一个字的语义向量；对所述文本进行分词编码，将分词编码结果输入分词嵌入表示模块，得到所述文本每一个字的分词向量；对所述文本进行词性编码，将词性编码结果输入词性嵌入表示模块，得到所述文本每一个字的词性向量；将所述语义向量、分词向量以及词性向量相加，基于相加结果，经过自注意力模块和层归一化，得到每一个字的最终向量；筛选出所述多音字的最终向量；基于所述多音字的最终向量，使用全连接层对所述多音字的读音进行分类，得到所述多音字的读音。需要说明的是，根据汉语的特性，多数情况下，分词的边界和词性的不同能直接决定多音字的读音，因此，相比于现有的深度学习模型方法(g2pm等)，本申请实施例通过引入分词和词性信息，提高了多音字识别的准确率。

技术特征：

1.一种多音字读音识别方法，其特征在于，包括：

2.根据权利要求1所述的多音字读音识别方法，其特征在于，所述确定所述文本中的多音字，包括：

3.根据权利要求2所述的多音字读音识别方法，其特征在于，所述字典为一表格，所述表格的每一条记录均记载了一个字以及该字的读音。

4.根据权利要求1所述的多音字读音识别方法，其特征在于，所述预训练语言模型为ernie3模型。

5.根据权利要求1所述的多音字读音识别方法，其特征在于，所述对所述文本进行分词编码的步骤包括：

6.根据权利要求1所述的多音字读音识别方法，其特征在于，所述对所述文本进行词性编码，包括：

7.根据权利要求5所述的多音字读音识别方法，其特征在于，所述分词工具为jieba或nltk。

8.一种多音字读音识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

技术总结本申请涉及读音识别技术领域，提供一种多音字读音识别方法、装置、设备及存储介质，方法包括：获取待识别的文本；确定文本中的多音字；对文本的每一个字进行编码，将编码结果输入预训练语言模型，得到每一个字的语义向量；对文本进行分词编码，将分词编码结果输入分词嵌入表示模块，得到每一个字的分词向量；对文本进行词性编码，将词性编码结果输入词性嵌入表示模块，得到每一个字的词性向量；将语义向量、分词向量以及词性向量相加，基于相加结果，经过自注意力模块和层归一化，得到每一个字的最终向量；筛选出多音字的最终向量；基于多音字的最终向量，使用全连接层对多音字的读音进行分类，得到多音字的读音。本申请提高多音字识别的准确率。技术研发人员：张似衡受保护的技术使用者：广州视源电子科技股份有限公司技术研发日：技术公布日：2024/9/12