技术新讯 > 乐器声学设备的制造及制作,分析技术 > 注音方法、装置、语音合成系统、存储介质及电子设备与流程 > 正文

注音方法、装置、语音合成系统、存储介质及电子设备与流程

国知局
2024-06-21 11:37:04

本发明涉及计算机，具体涉及一种注音方法、装置、语音合成系统、存储介质及电子设备。

背景技术：

1、语音合成(speech synthesis)又称文语转换(text-to-speech，tts)，旨在实现将输入的文本转换为流畅自然的输出语音，是实现智能人机语音交互的关键技术。

2、语音合成一般需要经过文本分析、声学模型与声码器三个阶段的处理，各阶段结果都会对语音合成的效果产生影响，其中文本分析模块与前端资源构建具有紧密的联系。

3、完整的文本分析过程，一般包含文本正则化(text normalization)、分词、词性预测、韵律预测以及注音五大操作，根据具体合成方言语种不同，处理过程也会有所差异。其中，注音是对文本正则化、分词和词性预测处理后所得的词条的音素序列进行指派。

4、对于存在两个或两个以上读音的词条，也就是多音词，语音合成系统主要基于模型进行词条发音预测。而对于非多音词，语音合成系统的注音是直接根据目标语种引擎发音词典进行音素序列指派。

5、然而，现有语音合成系统在文本分析阶段经常输出错误的音素序列，影响语音合成效果。

技术实现思路

1、本发明要解决的问题是：提高文本分析阶段所输出音素序列的准确性。

2、为解决上述问题，本发明实施例提供了一种注音方法，所述方法包括：

3、当待注音词条为普通话非多音词词条时，查询目标方言引擎发音词典，得到与所述待注音词条匹配的第一词面；所述目标方言引擎发音词典包括：普通话词条及方言词条，至少部分普通话词条中包括对应方言词条的索引信息；

4、确定所述第一词面所在的普通话词条是否存在对应的方言词条；

5、当存在对应的方言词条时，获取所述对应的方言词条中音素序列信息，作为所述待注音词条指派的音素序列信息并输出。

6、可选地，所述方法还包括：

7、当不存在对应的方言词条时，获取所述第一词面所在的普通话词条中音素序列信息，作为所述待注音词条指派的音素序列信息并输出。

8、可选地，oov字词在所述目标方言引擎发音词典中的音素序列信息，是基于所在词条中词面的普通话音节信息及中古音韵信息进行统计分析，所得到的出现频率最高的音节所对应的音素序列信息。

9、可选地，所述方法还包括：

10、当待注音词条为方言非多音词词条时，查询所述目标方言引擎发音词典，得到与所述待注音词条匹配的第二词面；

11、获取所述第二词面所在方言词条中音素序列信息，作为所述待注音词条指派的音素序列信息并输出。

12、可选地，所述目标方言引擎发音词典是采用以下方法构建得到的：

13、基于已有字词典资源，得到目标方言中所述已有字词典资源已涵盖字词的词条信息；

14、确定已有字词典资源未涵盖的字词的词条信息。

15、可选地，所述确定已有字词典资源未涵盖的字词的词条信息，包括：通过人工筛选的方式，得到所述已有字词典资源未涵盖且单字发音未缺失的字词中的音素序列信息；基于普通话注音信息及方言注音信息进行统计分析，得到所述已有字词典资源未涵盖且单字发音缺失字词中的音素序列信息；确定除音素序列信息外其它词条信息，得到所述已有字词典资源未涵盖字词的完整词条信息。

16、可选地，所述基于普通话注音信息及方言注音信息进行统计分析，得到所述已有字词典资源未涵盖且单字发音缺失字词中的音素序列信息，包括：

17、生成关于所述已有字词典资源未涵盖且单字发音缺失字词的汉字字音表，汉字字音表中包括各已有字词典资源未涵盖字词的方言注音信息、普通话注音信息及中古注音信息；所述注音信息包括音节信息及声调信息；

18、基于已有字词典资源未涵盖字词且单字发音缺失字词的普通话注音信息中音节信息及声调信息，及中古注音信息中音节信息及声调信息，进行统计分析，得到的出现频率最高的音节所对应的音素序列信息；

19、基于所述出现频率最高的音节所对应的音素序列信息，得到所述已有字词典资源未涵盖且单字发音缺失字词中的音素序列信息。

20、可选地，所述注音信息还包括：声母信息及韵母信息；

21、所述基于所述出现频率最高的音节所对应的音素序列信息，得到所述已有字词典资源未涵盖且单字发音缺失字词中的音素序列信息，还包括：

22、基于已有字词典资源未涵盖字词的普通话注音信息中声母信息，及中古注音信息中声母信息进行统计分析，得到出现频率最高的声母所对应的音素序列信息；

23、基于已有字词典资源未涵盖字词的普通话注音信息中韵母信息及声调信息，及中古注音信息中韵母信息及声调信息进行统计分析，得到出现频率最高的韵母所对应的音素序列信息；

24、人工基于所述音节所对应的音素序列信息、声母所对应的音素序列信息及韵母所对应的音素序列信息进行校对，确定所述已有字词典资源未涵盖字词的词条的音素序列信息。

25、本发明实施例还提供了一种注音装置，所述注音装置包括：

26、查询单元，适于当待注音词条为普通话非多音词词条时，查询目标方言引擎发音词典，得到与所述待注音词条匹配的第一词面；所述目标方言引擎发音词典包括：普通话词条及方言词条，至少部分普通话词条中包括对应方言词条的索引信息；

27、确定单元，适于确定所述第一词面所在的普通话词条是否存在对应的方言词条；

28、音素序列输出单元，适于当存在对应的方言词条时，获取所述对应的方言词条中音素序列信息，作为所述待注音词条指派的音素序列信息并输出。

29、本发明实施例还提供了一种语音合成系统，所述系统包括上述的注音装置。

30、本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行，以实现上述任一种所述方法的步骤。

31、本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述任一种所述方法的步骤。

32、与现有技术相比，本发明实施例的技术方案具有以下优点：

33、应用本发明的方案，由于目标方言引擎发音词典中普通话词条及方言词条，即对普通话词条及方言词条进行了区分，并且，至少部分普通话词条中包括对应方言词条的索引信息，这样，在待注音词条匹配的第一词面，存在对应的方言词条时，可以直接获取对应的方言词条中音素序列信息，作为所述待注音词条指派的音素序列信息并输出，由此可以在待注音词条存在需进行方言地道表达转化的词条时，为待注音词条指派地道的音素序列，从而可以提升语音合成结果，改善用户体验。

34、进一步，oov字词在所述目标方言引擎发音词典中的音素序列信息，是基于所在词条中词面的普通话音节信息及中古音韵信息进行统计分析，所得到的出现频率最高的音节所对应的音素序列信息，基于统计分析结果对发音进行推断，相对于人工方式补充oov字词的发音，可以大大提高注音的准确性，从而可以进一步提升语音合成结果，改善用户体验。