技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、存储介质及芯片与流程 > 正文

语音处理方法、装置、存储介质及芯片与流程

国知局
2024-06-21 10:39:04

本公开涉及音频处理领域，尤其涉及一种语音处理方法、装置、存储介质及芯片。

背景技术：

1、在相关技术中，传统的声音美化方法通常有两个方向，一种是通过给声音加混响、调整eq(音频均衡器)、调整drc(动态范围控制)等处理来实现声音的美化，另一种则是将输入的语音进行变声，但这些声音美化的方法并不适合日常生活中的通话或者录音等场景。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种语音处理方法、装置、存储介质及芯片。

2、根据本公开实施例的第一方面，提供一种语音处理方法，包括：

3、获取目标用户的第一语音；

4、通过特征提取模型从所述第一语音中，获取所述目标用户的声纹特征信息；

5、通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音。

6、可选地，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

7、通过所述指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音中的目标特征项进行调整，得到调整后的第二语音；其中，所述目标项的调整值小于设定阈值。

8、可选地，所述方法还包括：

9、从音频数据库中获取符合所述指定音色类型的多个样本语音；

10、将所述多个样本语音输入所述特征提取模型，得到所述特征提取模型输出的所述多个样本语音对应的多个声纹特征信息；

11、根据所述多个声纹特征信息，确定所述语音调整模型。

12、可选地，所述声纹特征信息包括一种或多种特征项，所述根据所述多个声纹特征信息，确定所述语音调整模型，包括：

13、根据每个所述声纹特征信息中的第一特征项，确定所述第一特征项对应的特征范围，所述第一特征项为所述一种或多种特征项中的任一种特征项，以得到多种特征项分别对应的多个特征范围，作为所述语音调整模型。

14、可选地，所述语音调整模型包括多种特征项对应的多个特征范围，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

15、将所述声纹特征信息中的各个特征项分别与所述多个特征范围中对应的特征范围进行对比，以确定所述各个特征项中不在对应特征范围内的目标特征项；

16、对所述目标特征项进行调整，以得到调整后的第二语音。

17、可选地，所述语音调整模型包括多种特征项对应的多个特征范围，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

18、获取当前所处环境的环境音；

19、根据所述环境音确定对应的环境模式；

20、根据所述环境模式，对所述多种特征项对应的多个特征范围进行调整，得到调整后的多个特征范围；

21、将所述声纹特征信息中的各个特征项分别与所述调整后的多个特征范围中对应的特征范围进行对比，以确定所述各个特征项中不在对应特征范围内的目标特征项；

22、对所述目标特征项进行调整，以得到调整后的第二语音。

23、可选地，所述从音频数据库中获取符合所述指定音色类型的多个样本语音，包括：

24、从所述音频数据库中获取多个原始语料；

25、通过与所述指定音色类型对应的评分模型确定所述多个原始语料对应的多个评分，所述评分用于表征原始语料与所述指定音色类型的符合程度；

26、根据所述多个评分，在所述多个原始语料中选择大于或等于设定分数的多个原始语料作为所述多个样本语音。

27、可选地，所述评分模型是通过训练集对初始评分模型进行机器学习得到的，所述训练集包括多个训练语料；所述方法还包括：

28、获取历史优化记录，所述历史优化包括已调整过的多个语音；

29、将所述已调整过的多个语音更新所述训练集，得到更新后的训练集；

30、通过更新后的训练集调整所述评分模型。

31、可选地，所述通过特征提取模型从所述第一语音中，获取所述目标用户的声纹特征信息，包括：

32、从所述第一语音中获取所述目标用户的声纹信息；

33、根据所述声纹信息确定所述第一语音中的属于所述目标用户的声音；

34、将所述第一语音除所述目标用户的声音之外的声音滤除，得到过滤后的第一语音；

35、将所述第一语音输入所述特征提取模型，得到所述特征提取模型输出的所述目标用户的声纹特征信息。

36、可选地，所述声纹特征信息包括基频信息、谐波分量、谐波比例、语速和语音延迟中的一种或多种特征项，所述谐波比例为奇次谐波和偶次谐波的比值。

37、可选地，所述指定音色类型对应的语音调整模型为：至少一种指定音色类型分别对应的至少一个语音调整模型。

38、根据本公开实施例的第二方面，提供一种语音处理装置，包括：

39、语音获取模块，被配置为获取目标用户的第一语音；

40、特征获取模块，被配置为通过特征提取模型从所述第一语音中，获取所述目标用户的声纹特征信息；

41、调整模块，被配置为通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音。

42、可选地，所述装置还包括：样本获取模块和训练模块；

43、样本获取模块，被配置为从音频数据库中获取符合所述指定音色类型的多个样本语音；

44、该特征获取模块，还被配置为将所述多个样本语音输入所述特征提取模型，得到所述特征提取模型输出的所述多个样本语音对应的多个声纹特征信息；

45、训练模块，被配置为根据所述多个声纹特征信息，确定所述语音调整模型。

46、可选地，所述声纹特征信息包括一种或多种特征项，所述训练模块，被配置为：

47、根据每个所述声纹特征信息中的第一特征项，确定所述第一特征项对应的特征范围，所述第一特征项为所述一种或多种特征项中的任一种特征项，以得到多种特征项分别对应的多个特征范围，作为所述语音调整模型。

48、可选地，所述语音调整模型包括多种特征项对应的多个特征范围，所述调整模块，被配置为：

49、将所述声纹特征信息中的各个特征项分别与所述多个特征范围中对应的特征范围进行对比，以确定所述各个特征项中不在对应特征范围内的目标特征项；

50、对所述目标特征项进行调整，以得到调整后的第二语音。

51、可选地，所述特征获取模块，被配置为：

52、从所述第一语音中获取所述目标用户的声纹信息；

53、根据所述声纹信息确定所述第一语音中的属于所述目标用户的声音；

54、将所述第一语音除所述目标用户的声音之外的声音滤除，得到过滤后的第一语音；

55、将所述第一语音输入所述特征提取模型，得到所述特征提取模型输出的所述目标用户的声纹特征信息。

56、可选地，所述声纹特征信息包括基频信息、谐波分量、谐波比例、语速和语音延迟中的一种或多种特征项，所述谐波比例为奇次谐波和偶次谐波的比值。

57、可选地，所述指定音色类型对应的语音调整模型为：至少一种指定音色类型分别对应的至少一个语音调整模型。

58、根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的语音处理方法的步骤。

59、根据本公开实施例的第四方面，提供一种芯片，包括处理器和接口；所述处理器用于读取指令以执行本公开第一方面所提供的语音处理方法的步骤。

60、本公开的实施例提供的技术方案可以包括以下有益效果：

61、在上述技术方案中，通过获取目标用户的第一语音，通过特征提取模型从该第一语音中，获取该目标用户的声纹特征信息，再通过指定音色类型对应的语音调整模型和该声纹特征信息对该第一语音进行调整，得到调整后的第二语音。通过上述方案，能够通过指定音色类型对应的语音调整模型和该声纹特征信息对该第一语音进行调整，得到调整后的符合该指定音色类型的第二语音，并且由于是基于目标用户的声纹特征信息进行调整，保留了目标用户的声音特点，从而在美化目标用户的语音的同时，保障了目标用户的语音的可辨识度，能够满足在日常生活中的通话或者录音等场景。

62、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。