技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于人工智能的声音克隆方法及系统与流程 > 正文

一种基于人工智能的声音克隆方法及系统与流程

国知局
2024-06-21 11:33:47

本发明属于声音克隆，特别涉及一种基于人工智能的声音克隆方法及系统。

背景技术：

1、声音克隆可以理解为定制化的语音合成，可以根据输入的文本，转换为符合对应用户声音的语音，目前的语音合成主要包含文本前端、声学模型和声码器这三个模块，其中，文本前端模块主要的工作是将原始文本转换为字符/音素，具体的，字符为语言书写系统的最小有意义单位，音素为区分单词的最小语音单位，通常情况下，为了有助于声音克隆自然性，会通过人工的方式进行文本预处理，即分段、分词等，但是不同人习惯不同，可能有不同的韵律，而仅依靠专业的语义学知识和经验进行人工设计，往往耗时耗力，且效果不好。

技术实现思路

1、基于此，本发明实施例当中提供了一种基于人工智能的声音克隆方法及系统，以解决现有技术中，仅依靠专业的语义学知识和经验进行人工设计，往往耗时耗力，且效果不好的问题。

2、本发明实施例的第一方面提供了一种基于人工智能的声音克隆方法，应用于汉语场景中，所述方法包括：

3、获取原始文本，将所述原始文本进行正则化处理，得到第一文本；

4、根据预设标识符，将所述第一文本，拆分为若干待转换句，并分别将所述待转换句进行分词处理，得到若干待转换词；

5、获取所述待转换词的拼音，并根据拼音的四声调，将所述待转换词中各字的拼音进行标注，得到各字的拼音的第一标注，其中，字的拼音至少存在一个第一标注；

6、将字的拼音中的声母和韵母拆分，并将字的拼音的第一标注赋给所述韵母，再对字的拼音中的声母进行标注；

7、根据预设规则，确定音素信息，所述音素信息包括所述第一标注中的目标标注；

8、重新组合词组，并根据用户说话语速，确定重新组合后的各词组之间的停顿时间；

9、根据字和对应的音素信息，转换为声学特征，并将所述声学特征转换为目标波形，根据所述目标波形，完成声音克隆。

10、进一步的，所述获取所述待转换词的拼音，并根据拼音的四声调，将所述待转换词中各字的拼音进行标注，得到各字的拼音的第一标注，其中，字的拼音至少存在一个第一标注的步骤包括：

11、建立声调符号与各第一标注的第一映射模型，所述第一映射模型用于输入所述声调符号，输出对应的第一标注；

12、识别待转换词中各字的拼音的声调符号，将待转换词中各字的拼音的声调符号输入所述第一映射模型中，输出对应的第一标注。

13、进一步的，所述根据预设规则，确定音素信息，所述音素信息包括所述第一标注中的目标标注的步骤包括：

14、识别所有字，并判断是否存在目标字，其中，所述目标字至少包括“一”和“不”；

15、若判断存在目标字，则当目标字为“一”时，判断目标字“一”是否处于词尾；

16、若判断目标字“一”不处于词尾，则判断目标字“一”的前和/或后是否存在表示数目的字；

17、若判断目标字“一”的前和/或后不存在表示数目的字，则判断标字“一”与后一个字的组词是否为量词；

18、若判断目标字“一”与后一个字的组词为量词，则判断后一个字的声调是否为第四声；

19、若判断后一个字的声调为第四声，则定义目标字“一”的目标标注为第二声对应的标注；

20、若判断后一个字的声调不为第四声，则定义目标字“一”的目标标注为第四声对应的标注；

21、若判断存在目标字，则当目标字为“不”时，判断目标字“不”后一个字的声调是否为第四声；

22、若判断目标字“不”后一个字的声调为第四声，则定义目标字“不”的目标标注为第二声对应的标注。

23、进一步的，所述若判断目标字“一”不处于词尾，则判断目标字“一”的前和/或后是否存在表示数目的字的步骤之后还包括：

24、若判断目标字“一”的前和/或后存在表示数目的字，则判断包括目标字“一”的词组是否为预设词组；

25、若判断包括目标字“一”的词组为预设词组，则定义目标字“一”的目标标注为预设词组对应的标注。

26、进一步的，所述根据预设规则，确定音素信息，所述音素信息包括所述第一标注中的目标标注的步骤还包括：

27、判断所述待转换词中是否存在连续的至少两个以上的标注为第三声，其中，不考虑声母的标注结果；

28、若判断所述待转换词中存在连续的至少两个以上的标注为第三声，则当存在连续的两个第三声的标注时，将第一个第三声的标注修改为第二声的标注；

29、若判断所述待转换词中存在连续的至少两个以上的标注为第三声，则当存在连续的三个第三声的标注时，判断对应的三个字是否为数字；

30、若判断对应的三个字为数字，则将第一个第三声和第二个第三声的标注均修改为第二声的标注；

31、若判断对应的三个字不为数字，则将第二个字分别与相邻的字组合，并判断第二个字与第一个字组合还是第二个字与第三个字组合；

32、若判断第二个字与第一个字组合，则将第一个第三声和第二个第三声的标注均修改为第二声的标注；

33、若判断第二个字与第三个字组合，则将第二个第三声的标注修改为第二声的标注。

34、进一步的，所述重新组合词组，并根据用户说话语速，确定重新组合后的各词组之间的停顿时间的步骤之前包括：

35、获取用户读出预设文本所用的总时间以及所述预设文本中各标记处的时间，其中，所述预设文本中的标记用于间隔相邻词组；

36、根据所述总时间、各标记处的时间以及所述预设文本的字数，计算单个字的平均发音时间；

37、根据聚类算法，将所述预设文本中各标记处的时间进行聚类，并根据聚类结果，确定预设数量的目标标记，其中，不同的所述目标标记对应不同的停顿时间。

38、进一步的，所述重新组合词组，并根据用户说话语速，确定重新组合后的各词组之间的停顿时间的步骤包括：

39、获取标点符号为逗号之间的重新组合后的词组的第一数量，判断所述第一数量是否大于等于第二数量，其中，所述第二数量为目标标记中除去标点符号后的数量；

40、若是，则将代表不同停顿时间的目标标记随机、平均插入各词组之间；

41、若否，则根据停顿时间，将各目标标记从小到大排序，按顺序选取与第一数量相同的各目标标记；

42、将选取后的各目标标记随机、平均插入各词组之间。

43、本发明实施例的第二方面提供了一种基于人工智能的声音克隆系统，应用于汉语场景中，所述系统包括：

44、正则化处理模块，用于获取原始文本，将所述原始文本进行正则化处理，得到第一文本；

45、第一拆分模块，用于根据预设标识符，将所述第一文本，拆分为若干待转换句，并分别将所述待转换句进行分词处理，得到若干待转换词；

46、标注模块，用于获取所述待转换词的拼音，并根据拼音的四声调，将所述待转换词中各字的拼音进行标注，得到各字的拼音的第一标注，其中，字的拼音至少存在一个第一标注；

47、第二拆分模块，用于将字的拼音中的声母和韵母拆分，并将字的拼音的第一标注赋给所述韵母，再对字的拼音中的声母进行标注；

48、第一确定模块，用于根据预设规则，确定音素信息，所述音素信息包括所述第一标注中的目标标注；

49、第二确定模块，用于重新组合词组，并根据用户说话语速，确定重新组合后的各词组之间的停顿时间；

50、转换模块，用于根据字和对应的音素信息，转换为声学特征，并将所述声学特征转换为目标波形，根据所述目标波形，完成声音克隆。

51、本发明实施例的第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面提供的基于人工智能的声音克隆方法。

52、本发明实施例的第四方面提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面提供的基于人工智能的声音克隆方法。

53、本发明实施例当中提供的一种基于人工智能的声音克隆方法及系统，该方法通过将原始文本正则化处理，并依次转换为若干待转换句和若干待转换词，获取待转换词的拼音，并将其中各字的拼音进行标注，得到第一标注，将字的拼音中的声母和韵母拆分，并将字的拼音的第一标注赋给韵母，再对字的拼音中的声母进行标注，根据预设规则，确定音素信息，音素信息包括第一标注中的目标标注，然后重新组合词组，并根据用户说话语速，确定重新组合后的各词组之间的停顿时间，最后根据字和对应的音素信息，转换为声学特征，并将声学特征转换为目标波形，根据目标波形，完成声音克隆，可以有效解决仅依靠专业的语义学知识和经验进行人工设计，往往耗时耗力，且效果不好的问题。