技术新讯 > 乐器声学设备的制造及制作,分析技术 > 应用于方言的韵律文本生成方法及装置与流程 > 正文

应用于方言的韵律文本生成方法及装置与流程

国知局
2024-06-21 11:55:40

本发明涉及自然语言处理，尤其涉及应用于方言的韵律文本生成方法及装置。

背景技术：

1、韵律文本是在普通文本的基础上增加韵律信息的文本表示形式。韵律文本内嵌的韵律信息，包括汉字及数字的的发音。这些韵律信息是语言的一个重要组成部分，大大影响了语言的节奏和旋律。韵律文本的应用范围广泛，包括但不限于语音合成(text－to－speech，tts)、语音识别和语音情感分析。在语音合成中，韵律文本可以帮助生成更自然且具有表情的语音。在语音识别中，韵律信息可以帮助提高句子结构和标点的识别准确度。在语音情感分析中，韵律信息则可以用作情感状态的重要线索。

2、然而，现有的韵律文本往往是基于普通话的发音规则生成，由于方言的韵律特性与普通话等标准语言的韵律特性存在很大的差异，因此，基于普通话数据生成方言的韵律文本时，可能无法捕捉到其准确的韵律特性，从而导致根据这些韵律文本进行语音合成时，生成的语音无法精准表达方言的韵律特色。

技术实现思路

1、本发明所要解决的技术问题在于，提供应用于方言的韵律文本生成方法及装置，能够为方言生成符合方言韵律特性的韵律文本，提高语音合成时方言韵律表达的准确性。

2、为了解决上述技术问题，本发明第一方面公开了一种应用于方言的韵律文本生成方法，所述方法包括：

3、将目标方言的待标注文本按照预设的文本切分方式进行切分，得到所述待标注文本的所有原始单元，所有所述原始单元包括汉字字符、拼音字符串及数字字符串中的一种或多种；

4、根据所述目标方言的类型，从预先确定出的多个方言拼音编码中，确定与所述目标方言相匹配的目标方言拼音编码，所述目标方言拼音编码用于表示所述目标方言中所有音节的发音；

5、对于任一所述原始单元，基于所述目标方言拼音编码对所述原始单元进行编码，得到所述原始单元的目标单元；

6、根据每个所述目标单元对应的所述原始单元在所述待标注文本中的排序顺序，对所有所述目标单元进行排序，得到所述待标注文本对应的方言韵律文本。

7、作为一种可选的实施方式，在本发明第一方面中，所述应用于方言的韵律文本生成方法还包括：

8、对多个样本方言中任一所述样本方言，对所述样本方言中所有音素进行语音学分析，提取基本语音特征，多个所述样本方言包括所述目标方言；

9、根据所述基本语音特征，确定方言声母字符串集合和方言韵母字符串集合，所述方言声母字符串集合包括代表所述样本方言中所有音节开始部分发音的所有方言声母字符串，所述方言韵母字符串集合包括代表所述样本方言中所有音节非开始部分发音的所有方言韵母字符串；

10、根据所述基本语音特征，确定方言声调字符集合，所述方言声调字符集合包括代表所述样本方言中所有发音声调的所有方言声调字符；

11、对于所述样本方言的任一所述音节，根据该音节对应的方言声母字符串、方言韵母字符串及方言声调字符按照预定的方言拼音编码顺序，确定该音节对应的音节拼音编码，以所述样本方言的所有音节对应的所述音节拼音编码作为该样本方言对应的方言拼音编码，其中，方言声母字符串为能够缺省的字符串；

12、确定所有所述样本方言对应的方言拼音编码，为预先确定出的多个所述方言拼音编码。

13、作为一种可选的实施方式，在本发明第一方面中，所述根据所述基本语音特征，确定方言声母字符串集合和方言韵母字符串集合，包括：

14、对标准语言中所有音素进行语音学分析，提取标准语言语音特征；

15、对比所述基本语音特征与所述标准语言语音特征的发音差异，得到发音差异对比结果，并根据所述发音差异对比结果，对所述标准语言的声母字符串进行修改，得到方言声母字符串集合；根据发音差异对比结果，对所述标准语言的韵母字符串进行修改得到方言韵母字符串集合。

16、作为一种可选的实施方式，在本发明第一方面中，所述对于任一所述原始单元，基于所述目标方言拼音编码，对所述原始单元进行编码，得到所述原始单元的目标单元，包括：

17、当所述原始单元为所述数字字符串时，确定所述目标方言的当前应用场景，并从所述目标方言拼音编码中，获取预先确定出的所述当前应用场景下的所有单个位数的数字的方言数字发音编码及数字组合的方言数字组合发音方式，并判断所述数字字符串是否为一位数；当判断出所述数字字符串是一位数时，按照所述当前应用场景下所述数字字符串对应的所述单个位数的数字对应的所述方言数字发音编码对所述数字字符串进行编码，得到所述数字字符串的目标单元；当判断出所述数字字符串不是一位数时，按照所述当前应用场景下所述数字字符串中包括的所有所述单个位数的数字对应的所述方言数字发音编码及所述当前应用场景下所述数字字符串组成的所述数字组合对应的所述方言数字组合发音方式对所述数字字符串进行编码，得到所述数字字符串的目标单元，每个所述单个位数的数字在同一应用场景的所述方言数字发音编码相同，且每个所述单个位数的数字在不同应用场景下的所述方言数字发音编码各不相同，每种所述数字组合在同一应用场景下的所述方言数字组合发音方式相同，且每种所述数字组合在不同应用场景下的所述方言数字组合发音方式各不同，所述数字组合包括至少两个所述单个位数的数字，所述数字组合的种类由所述数字组合在所述待标注文本中的上下文确定，所述方言数字发音编码为所述当前应用场景下所述单个位数的数字在所述目标方言中对应的音节的唯一编码；

18、当所述原始单元为所述汉字字符时，从所述目标方言拼音编码中确定能够描述所述汉字字符在所述目标方言中对应的音节的唯一编码作为所述汉字字符的汉字发音编码，使用该汉字发音编码对所述汉字字符进行编码，得到所述汉字字符的目标单元；

19、当所述原始单元为所述拼音字符串时，从所述目标方言拼音编码中确定能够描述所述拼音字符串对应的汉字在所述目标方言中对应的音节的唯一编码作为所述拼音字符串的拼音发音编码，使用该拼音发音编码对所述拼音字符串进行编码，得到所述拼音字符串的目标单元。

20、作为一种可选的实施方式，在本发明第一方面中，所述原始单元还包括标点符号字符，所述根据每个所述目标单元对应的所述原始单元在所述待标注文本中的排序顺序，对所有所述目标单元进行排序，得到所述待标注文本对应的方言韵律文本之前，所述方法还包括：

21、根据所述目标方言的类型，确定每个所述标点符号字符对应的标点符号编码，所述标点符号编码用于表示所述标点符号字符在所述待标注文本中的所在位置的在语音流中对应位置的停顿时长；按照所述标点符号编码对所述标点符号字符进行编码得到所述标点符号字符的目标单元；

22、其中，所述标点符号编码由以下方式确定：

23、根据所述目标方言的类型，预定义至少一种语音停顿模式，每种所述语音停顿模式在语音流中保持不同时长的静音模式；

24、为每种所述语音停顿模式定义唯一的语音停顿模式编码符号；

25、确定所述目标方言的所有样本标点符号字符中每个所述样本标点符号字符匹配的语音停顿模式编码符号，得到所述标点符号编码，所有样本标点符号字符包含所述标点符号字符。

26、作为一种可选的实施方式，在本发明第一方面中，所述将所述目标方言的所述待标注文本按照预设的文本切分方式进行切分之前，所述方法还包括：

27、根据所述目标方言的类型，确定文本清洗方式，根据所述文本清洗方式对所述待标注文本进行文本清洗操作，所述文本清洗操作包括删除重复的字符和/或删除预先确定的非法字符；和/或

28、根据所述目标方言的类型，确定标点符号删除方式，根据所述标点符号删除方式对所述待标注文本进行标点符号删除操作；和/或

29、判断所述待标注文本中是否存在与所述目标方言类型不同的其他语言文本，如果存在所述其他语言文本，则将所述其他语言文本转换为与所述目标方言类型相同的文本。

30、作为一种可选的实施方式，在本发明第一方面中，在所述根据每个所述目标单元对应的所述原始单元在所述待标注文本中的排序顺序，对所有所述目标单元进行排序，得到所述待标注文本对应的方言韵律文本之后，所述方法还包括：

31、使用预先确定出的方言语音合成模型将所述方言韵律文本转换为能够播放的方言语音文件；

32、所述方言语音合成模型通过将所述方言韵律文本输入标准语言对应的语音合成模型进行迁移学习得到。

33、本发明第二方面公开了一种应用于方言的韵律文本生成装置，所述装置包括：

34、切分模块，用于将目标方言的待标注文本按照预设的文本切分方式进行切分，得到所述待标注文本的所有原始单元，所有所述原始单元包括汉字字符、拼音字符串及数字字符串中的一种或多种；

35、确定模块，用于根据所述目标方言的类型，从预先确定出的多个方言拼音编码中，确定与所述目标方言相匹配的目标方言拼音编码，所述目标方言拼音编码用于表示所述目标方言中所有音节的发音；

36、编码模块，用于对任一所述原始单元，基于所述目标方言拼音编码对所述原始单元进行编码，得到所述原始单元的目标单元；

37、排序模块，用于根据每个所述目标单元对应的所述原始单元在所述待标注文本中的排序顺序，对所有所述目标单元进行排序，得到所述待标注文本对应的方言韵律文本。

38、作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：

39、语音学分析模块，用于对多个样本方言中任一所述样本方言，对所述样本方言中所有音素进行语音学分析，提取基本语音特征，多个所述样本方言包括所述目标方言；

40、方言音节解析模块，用于根据所述基本语音特征，确定方言声母字符串集合和方言韵母字符串集合，所述方言声母字符串集合包括代表所述样本方言中所有音节开始部分发音的所有方言声母字符串，所述方言韵母字符串集合包括代表所述样本方言中所有音节非开始部分发音的所有方言韵母字符串；

41、所述方言音节解析模块，还用于根据所述基本语音特征，确定方言声调字符集合，所述方言声调字符集合包括代表所述样本方言中所有发音声调的所有方言声调字符；

42、方言音节编码模块，用于对于所述样本方言的任一所述音节，根据该音节对应的方言声母字符串、方言韵母字符串及方言声调字符按照预定的方言拼音编码顺序，确定该音节对应的音节拼音编码，以所述样本方言的所有音节对应的所述音节拼音编码作为该样本方言对应的方言拼音编码，其中，方言声母字符串为能够缺省的字符串。

43、所述确定模块，还用于在所述方言音节编码模块确定出所有所述样本方言对应的方言拼音编码后，确定所有所述样本方言对应的方言拼音编码，为预先确定出的多个所述方言拼音编码。

44、作为一种可选的实施方式，在本发明第二方面中，所述方言音节解析模块根据所述基本语音特征，确定方言声母字符串集合和方言韵母字符串集合的具体方式为：

45、对标准语言中所有音素进行语音学分析，提取标准语言语音特征；

46、对比所述基本语音特征与所述标准语言语音特征的发音差异，得到发音差异对比结果，并根据所述发音差异对比结果，对所述标准语言的声母字符串进行修改，得到方言声母字符串集合；根据发音差异对比结果，对所述标准语言的韵母字符串进行修改得到方言韵母字符串集合。

47、作为一种可选的实施方式，在本发明第二方面中，所述编码模块对任一所述原始单元，基于所述目标方言拼音编码，对所述原始单元进行编码，得到所述原始单元的目标单元的具体方式为：

48、当所述原始单元为所述数字字符串时，确定所述目标方言的当前应用场景，并从所述目标方言拼音编码中，获取预先确定出的所述当前应用场景下的所有单个位数的数字的方言数字发音编码及数字组合的方言数字组合发音方式，并判断所述数字字符串是否为一位数；当判断出所述数字字符串是一位数时，按照所述当前应用场景下所述数字字符串对应的所述单个位数的数字对应的所述方言数字发音编码对所述数字字符串进行编码，得到所述数字字符串的目标单元；当判断出所述数字字符串不是一位数时，按照所述当前应用场景下所述数字字符串中包括的所有所述单个位数的数字对应的所述方言数字发音编码及所述当前应用场景下所述数字字符串组成的数字组合对应的所述方言数字组合发音方式对所述数字字符串进行编码，得到所述数字字符串的目标单元，每个所述单个位数的数字在同一应用场景的所述方言数字发音编码相同，且每个所述单个位数的数字在不同应用场景下的所述方言数字发音编码各不相同，每种数字组合在同一应用场景下的所述方言数字组合发音方式相同，且每种所述数字组合在不同应用场景下的所述方言数字组合发音方式各不同，所述数字组合包括至少两个所述单个位数的数字，所述数字组合的种类由所述数字组合在所述待标注文本中的上下文确定，所述方言数字发音编码为所述当前应用场景下所述单个位数的数字在所述目标方言中对应的音节的唯一编码；

49、当所述原始单元为所述汉字字符时，从所述目标方言拼音编码中确定能够描述所述汉字字符在所述目标方言中对应的音节的唯一编码作为所述汉字字符的汉字发音编码，使用该汉字发音编码对所述汉字字符进行编码，得到所述汉字字符的目标单元；

50、当所述原始单元为所述拼音字符串时，从所述目标方言拼音编码中确定能够描述所述拼音字符串对应的汉字在所述目标方言中对应的音节的唯一编码作为所述拼音字符串的拼音发音编码，使用该拼音发音编码对所述拼音字符串进行编码，得到所述拼音字符串的目标单元。

51、作为一种可选的实施方式，在本发明第二方面中，所述原始单元还包括标点符号字符，所述装置还包括：

52、第二编码模块，用于在所述排序模块根据每个所述目标单元对应的所述原始单元在所述待标注文本中的排序顺序，对所有所述目标单元进行排序，得到所述待标注文本对应的方言韵律文本之前，根据所述目标方言的类型，确定每个所述标点符号字符对应的标点符号编码，所述标点符号编码用于表示所述标点符号字符在所述待标注文本中的所在位置的在语音流中对应位置的停顿时长；按照所述标点符号编码对所述标点符号字符进行编码得到所述标点符号字符的目标单元；

53、其中，所述标点符号编码由以下方式确定：

54、根据所述目标方言的类型，预定义至少一种语音停顿模式，每种所述语音停顿模式在语音流中保持不同时长的静音模式；

55、为每种所述语音停顿模式定义唯一的语音停顿模式编码符号；

56、确定所述目标方言的所有样本标点符号字符中每个所述样本标点符号字符匹配的语音停顿模式编码符号，得到所述标点符号编码，所有样本标点符号字符包含所述标点符号字符。

57、作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：

58、文本清洗模块，用于在所述切分模块将所述目标方言的所述待标注文本按照预设的文本切分方式进行切分之前，根据所述目标方言的类型，确定文本清洗方式，根据所述文本清洗方式对所述待标注文本进行文本清洗操作，所述文本清洗操作包括删除重复的字符和/或删除预先确定的非法字符；

59、标点符号删除模块，用于在所述切分模块将所述目标方言的所述待标注文本按照预设的文本切分方式进行切分之前，根据所述目标方言的类型，确定标点符号删除方式，根据所述标点符号删除方式对所述待标注文本进行标点符号删除操作；

60、语言转换模块，用于在所述切分模块将所述目标方言的所述待标注文本按照预设的文本切分方式进行切分之前，判断所述待标注文本中是否存在与所述目标方言类型不同的其他语言文本，如果存在所述其他语言文本，则将所述其他语言文本转换为与所述目标方言类型相同的文本。

61、作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：

62、语音合成模块，用于在所述排序模块根据每个所述目标单元对应的所述原始单元在所述待标注文本中的排序顺序，对所有所述目标单元进行排序，得到所述待标注文本对应的方言韵律文本之后，使用预先确定出的方言语音合成模型将所述方言韵律文本转换为能够播放的方言语音文件；

63、所述方言语音合成模型通过将所述方言韵律文本输入标准语言对应的语音合成模型进行迁移学习得到。

64、本发明第三方面公开了另一种应用于方言的韵律文本生成装置，所述装置包括：

65、存储有可执行程序代码的存储器；

66、与所述存储器耦合的处理器；

67、所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的应用于方言的韵律文本生成方法中的部分或全部步骤。

68、本发明第四方面公开了一种计算机可存储介质，计算机可存储介质存储有计算机指令，计算机指令被调用时，用于执行本发明第一方面公开的应用于方言的韵律文本生成方法中的部分或全部步骤。

69、与现有技术相比，本发明实施例具有以下有益效果：

70、本发明实施例中将目标方言的待标注文本按照预设的文本切分方式进行切分，得到待标注文本的所有原始单元，所有原始单元包括汉字字符、拼音字符串及数字字符串中的一种或多种；根据目标方言的类型，从预先确定出的多个方言拼音编码中，确定与目标方言相匹配的目标方言拼音编码，目标方言拼音编码用于表示目标方言中所有音节的发音；对于任一原始单元，基于目标方言拼音编码对原始单元进行编码，得到原始单元的目标单元；根据每个目标单元对应的原始单元在待标注文本中的排序顺序，对所有目标单元进行排序，得到待标注文本对应的方言韵律文本。可见，本发明将待标注文本切分为原始单元，并根据目标方言的类型确定目标方言拼音编码，并使用目标方言拼音编码以原始单元为单位对待标注文本进行顺序编码，通过目标方言拼音编码承载的方言韵律特征将待标注文本转换为符合方言发音特色的方言韵律文本，能够捕捉到其准确的韵律特性，从而提高方言韵律文本的生成准确性，进而有利于提高合成精准表达方言的韵律特色的语音。