技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种文本读音的自动判别方法及系统与流程 > 正文

一种文本读音的自动判别方法及系统与流程

国知局
2024-06-21 11:32:43

本发明涉及语音合成，尤其涉及一种文本读音的自动判别方法及系统。

背景技术：

1、语音合成过程是指能将任意文字信息实时转化为标准流畅的语音朗读出来。语音合成技术已经从最初的统计学方法进入到深度学习阶段。在文本的预处理阶段，需要对大量的文本进行准确判定，其中主要包括多音字读音、数字读音。多音字读音是指多音字在文本中根据具体的词语、句子场景的不同会有不同的发音或音调。数字读音是指文本中包含的文本根据具体语境不同进行数字规范化。其中，多音字读音、数字读音有很多的应用场景，如语音助手、序数读音、电报读音。例如，30年过去了，他似乎没有一点变化；这位老人是30年出生的，身子骨还十分硬朗。两个句子中第一个读三十，第二个读三零，说明数字30语境不同读音也不相同。再例如：小明长高了很多；这个木棍好长。两个句子中的”长”，第一个读zhang(三声)，第二个读chang(二声)。具体在什么样的语境下文本是什么样读音现在还未见到一个具体的研究方法。以往的判定方法大都是基于规则进行判别，存在覆盖率低的问题，不能全面解决问题。为了保证文本中文本读音的正确性，该领域还有待进一步研究开发。

2、目前，文本读音自动判定的相关的方法并不多见，相关研究也大多集中在基于规则的文本读音判定。相关的专利和研究如下：

3、专利【cn107729313a基于深度神经网络的多音字读音的判别方法和装置】讲述了一种基于深度神经网络的多音字读音的判别方法和装置，主要特征包括文本、声母、韵母和声调特征，各种组合的概率，以概率最高的组合作为所述汉字的读音。但是常规的这些特征，不够全面，不能全方位的解析各种语境，而且不同深度的模型的特征含义和作用也不同。同时需要人工标注训练数据进行有监督的模型训练。

4、综合以上方法，现有的涉及用于语音合成的文本读音判定的方法非常少见，大都是基于规则、常规深度学习的方法，无法更加广泛的准确判断文本中文本的读音、覆盖率低，或者人工标注训练数据，基于深度学习的方式训练模型，考虑的特征不够全面，准确率低，同时需要消耗大量的人力物力进行数据标注。

5、但是在合成语音时，又迫切需要对文本中包含的大量文本进行读音判定。所以，这里提出了一种基于文本多层特征融合的文本文本读音的自动判定方法与装置，结合基于规则的方式和深度学习的方式，同时加入依存句法分析特征以考虑不同场景的影响，进行文本上下文语义特征扩充，可以有效判定出文本的读音。基于规则的方式、加入依存句法分析，解决了基于深度学习有监督模型训练的冷启动问题，节省了人工标注数据的环节。

技术实现思路

1、鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种文本读音的自动判别方法及系统。

2、根据本发明的一个方面，提供了一种文本读音的自动判别方法，所述判别方法包括：

3、步骤s1：采集文本数据；

4、步骤s2：将所述文本数据进行文本序列清洗；

5、步骤s3：文本表征模式特征挖掘及判定；

6、步骤s4：文本浅层句法特征挖掘与判定；

7、步骤s5：文本深层语义特征融合；

8、步骤s6：文本深层语义特征训练；

9、步骤s7：判定文本读音的文本。

10、可选的，所述步骤s1：采集文本数据：获取待处理的数据，所述数据包括无标签的和带标签的数据。

11、可选的，所述步骤s2：将所述文本数据进行文本序列清洗具体包括：

12、过滤出带有多音字的文本，基于完善的多音字统计词典进行过滤；

13、再基于停用词，对过短文本进行过滤；

14、基于聚类、频率进行分析、去重，利于文本读音模型的训练。

15、可选的，所述步骤s3：文本表征模式特征挖掘及判定具体包括：

16、提取文本表征模式特征，包括文本表征规则挖掘子单元和文本表征特征判别；

17、文本表征规则挖掘包括：首先挖掘出文本表征规则，用于文本表征特征判别子单元使用；

18、文本表征特征判别包括：通过表征规则挖掘子单元提供的文本表征规则，进行第一阶段文本读音的判别，并通过可信度进行判别结果检验。

19、可选的，所述步骤s4：文本浅层句法特征挖掘与判定具体包括：

20、提取文本浅层的句法特征，基于依存句法分析获得句法特征；

21、由文本浅层句法特征挖掘和文本浅层句法特征判别；

22、文本浅层句法特征挖掘总结文本浅层句法规则，供文本浅层句法特征判别使用；

23、文本浅层句法特征判别使用文本浅层句法规则对文本的读音进行第二阶段的判定，并通过可信度进行判别结果检验。

24、可选的，所述步骤s5：文本深层语义特征融合具体包括：

25、文本深层语义特征生成生成器基于深度学习方式获得深层语义特征，与文本表征模式特征、文本浅层句法特征一起输入到特征融合器，得到最终用于模型训练的特征表示。

26、可选的，所述步骤s6：文本深层语义特征训练具体包括：

27、特征融合器得到的特征作为模型训练子单元的输入，模型训练完成训练后；

28、模型训练和模型评估与优化对输入特征样本进行训练，最后将训练的结果送入文本读音推理；

29、文本读音推理通过置信度判断结果的准确性，决定是否作为正确输出，进行第三阶段的判定。

30、本发明还提供了一种文本读音的自动判别系统，应用上述所述的一种文本读音的自动判别方法，所述判别系统包括：

31、文本数据单元，用于采集文本数据；

32、文本序列清洗单元，用于将所述文本数据进行文本序列清洗；

33、文本表征模式特征单元，用于文本表征模式特征挖掘及判定；

34、文本浅层句法特征单元，用于文本浅层句法特征挖掘与判定；

35、文本特征融合单元，用于文本深层语义特征融合；

36、深层语义特征训练推理单元，用于文本深层语义特征训练；

37、文本读音结果收集单元，判定文本读音的文本。

38、本发明提供的一种文本读音的自动判别方法及系统，所述判别方法包括：步骤s1：采集文本数据；步骤s2：将所述文本数据进行文本序列清洗；步骤s3：文本表征模式特征挖掘及判定；步骤s4：文本浅层句法特征挖掘与判定；步骤s5：文本深层语义特征融合；步骤s6：文本深层语义特征训练；步骤s7：判定文本读音的文本。结合基于规则的方式和深度学习的方式，同时加入依存句法分析特征以考虑不同场景的影响，进行文本上下文语义特征扩充，有效判定出文本的读音。基于规则的方式、加入依存句法分析，解决了基于深度学习有监督模型训练的冷启动问题，节省了人工标注数据的环节。

39、上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。