技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多音字语音处理方法及装置、可读存储介质与流程 > 正文

多音字语音处理方法及装置、可读存储介质与流程

国知局
2024-06-21 11:49:33

本申请涉及人工智能，尤其涉及一种多音字语音处理方法及装置、可读存储介质。

背景技术：

1、目前的处理汉语多音字判别输出的方式是通过语言识别模型的方法，本质上是把多音字的每个读音以及它们所组成的每个词当成不同的词。例如，“都”字有du、dou两种读音，都可以单独成词，也可以组成“首都”、“都是”等词。“都(dou)是”的“都”在语言模型中会有不同的概率，比如在“不”字后面，“dou”的概率就比“du”的概率大得多。这样，当输入语音说的是“在首都的不都是北京人”的时候，语言识别模型基于概率挑选最可能的单词或单字串：在首都(du)的不都(dou)是北京人。

2、上述多音字语言识别技术仅能判别一个汉字在具体的词组内出现的较大概率的语音，并不能判断并识别出具体段落的有效读音，目前，这只能靠人工来识别正误，但人工识别耗费的人力财力较大，且经常发生错误的汉语语音输出。

技术实现思路

1、本申请实施例的目的是提供一种多音字语音处理方法及装置、可读存储介质，用以解决现有多音字语言识别成本高、效率低的问题。

2、为了解决上述技术问题，本说明书是这样实现的：

3、第一方面，提供了一种多音字语音处理方法，包括：

4、接收包括多音字的文档；

5、基于预设多音字识别规则，确定所述文档中的目标多音字对应词语属于特殊多音字词库或常用多音字词库；

6、如果属于特殊多音字词库，则确定所述目标多音字对应词语为预设专用词汇的读音；

7、如果属于常用多音字词库，则基于预设标签确定确定所述目标多音字对应词语的读音；

8、基于所述文档包括的多音字对应词语的读音和非多音字对应词语的读音进行语音合成并输出。

9、可选地，所述基于预设多音字识别规则，确定所述文档中的目标多音字对应词语属于特殊多音字词库或常用多音字词库，包括：

10、将所述文档的文本与预设多音字库进行比对，以确定所述目标多音字；

11、将所述目标多音字在所述文档中对应组成的目标词语与所述常用多音字词库进行比对；

12、若匹配，则识别所述目标词语属于所述常用多音字词库；

13、否则，识别所述目标词语属于所述特殊多音字词库。

14、可选地，所述确定所述目标多音字对应词语为预设专用词汇的读音，包括：

15、基于预设的读音与词语的映射关系，确定所述目标多音字对应词语的读音。

16、可选地，所述基于预设标签确定确定所述目标多音字对应词语的读音，包括：

17、基于词性标签、声调标签、特殊词组标签和单字组合词语标签中一项或多项的组合确定所述目标多音字对应词语的读音。

18、可选地，所述确定所述目标多音字对应词语的读音之后，还包括：

19、将所述目标多音字对应词语的读音与所述常用多音字词库的读音进行比对；

20、若所述常用多音字词库中存在至少两个与所述目标多音字对应词语对应的读音相同的读音，则确定所述词语的读音为对应所述常用多音字词库的读音。

21、可选地，所述基于预设多音字识别规则，确定所述文档中的目标多音字对应词语属于特殊多音字词库或常用多音字词库之前，还包括：

22、对所述文档的文本进行分词，以确定所述文档中的各多音字；

23、确定各多音字属于高频多音字还是低频多音字；

24、如果高频多音字音在所述文档中出现的频率和低频多音字在所述文档中出现的频率的差值不超出预设阈值，则基于预设多音字识别规则确定所述文档中的目标多音字对应词语属于特殊多音字词库或常用多音字词库。

25、可选地，所述基于所述文档包括的多音字对应词语的读音和非多音字对应词语的读音进行语音合成，包括：

26、通过对所述文档的文本进行拆词处理，得到多个词语；

27、确定所述多个词语中对应多音字的词语和对应非多音字的词语；

28、获取对应多音字的词语的读音和对应非多音字的词语的读音；

29、基于预设的预测模型，确定多个词语对应的声学参数；

30、基于所述声学参数和多个词语的读音进行语音合成。

31、可选地，所述方法的步骤采用机器人流程自动化技术实现。

32、第二方面，提供了一种多音字语音处理装置，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

33、第三方面，提供了一种可读存储介质，该可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

34、在本申请实施例中，通过接收包括多音字的文档；基于预设多音字识别规则，确定所述文档中的目标多音字对应词语属于特殊多音字词库或常用多音字词库；如果属于特殊多音字词库，则确定所述目标多音字对应词语为预设专用词汇的读音；如果属于常用多音字词库，则基于预设标签确定确定所述目标多音字对应词语的读音；基于所述文档包括的多音字对应词语的读音和非多音字对应词语的读音进行语音合成并输出，由此可以自动且准确识别出文档中多音字的有效读音，降低多音字语言识别的成本，提高多音字语言识别的效率。

技术特征：

1.一种多音字语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设多音字识别规则，确定所述文档中的目标多音字对应词语属于特殊多音字词库或常用多音字词库，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标多音字对应词语为预设专用词汇的读音，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于预设标签确定确定所述目标多音字对应词语的读音，包括：

5.根据权利要求3所述的方法，其特征在于，所述确定所述目标多音字对应词语的读音之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于预设多音字识别规则，确定所述文档中的目标多音字对应词语属于特殊多音字词库或常用多音字词库之前，还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述文档包括的多音字对应词语的读音和非多音字对应词语的读音进行语音合成，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法的步骤采用机器人流程自动化技术实现。

9.一种多音字语音处理装置，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-8中任一项所述的多音字语音处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-8中任一项所述的多音字语音处理方法的步骤。

技术总结本申请公开了一种多音字语音处理方法及装置、可读存储介质，包括：接收包括多音字的文档；基于预设多音字识别规则，确定所述文档中的目标多音字对应词语属于特殊多音字词库或常用多音字词库；如果属于特殊多音字词库，则确定所述目标多音字对应词语为预设专用词汇的读音；如果属于常用多音字词库，则基于预设标签确定确定所述目标多音字对应词语的读音；基于所述文档包括的多音字对应词语的读音和非多音字对应词语的读音进行语音合成并输出。技术研发人员：张森,王金刚,常青,冯国华受保护的技术使用者：中移雄安信息通信科技有限公司技术研发日：技术公布日：2024/5/8