技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于人工智能的语音处理方法、装置、计算机设备及介质与流程 > 正文

基于人工智能的语音处理方法、装置、计算机设备及介质与流程

国知局
2024-10-21 15:06:53

本技术涉及人工智能开发与金融科技领域，尤其涉及基于人工智能的语音处理方法、装置、计算机设备及存储介质。

背景技术：

1、随着金融科技不断发展，人工智能技术被应用于提高客户服务质量和效率。在金融业务领域，为了增强用户对相关金融业务的了解，普及相关的金融业务知识，将相关的金融业务知识文本进行语音合成后对用户解说普及，方便对相关金融业务的了解，例如：将车险业务办理要求文本进行语音合成得到合成语音，并将利用客服使用合成语音向用户解说，方便用户了解车险的办理要求。

2、目前，现有的与融业务知识的普及推送对应的语音处理方法，只会根据待合成语音文本(如车险业务办理要求文本)的文本特征，利用文本转语音模型进行语音合成相应的合成语音，进而通过智能客服使用该合成语音来对客户进行解说。然而，对于不同的客户而言，对推送的语音的语速、语调会有不同的喜好。而智能客服向各种客户推送的合成语音都是使用完全相同的语音数据，无法实现向各种客户推送符合其自身的对于语速、语调的个性化定制语音，从而导致语音推送的智能性较低，客户的使用体验较差，且对于客户的服务质量无法得到保障。

技术实现思路

1、本技术实施例的目的在于提出一种基于人工智能的语音处理方法、装置、计算机设备及存储介质，以解决现有技术中，智能客服向各种客户推送的合成语音都是使用完全相同的语音数据，无法实现向各种客户推送符合其自身的对于语速、语调的个性化定制语音，从而导致语音推送的智能性较低，客户的使用体验较差，且对于客户的服务质量无法得到保障的技术问题。

2、为了解决上述技术问题，本技术实施例提供一种基于人工智能的语音处理方法，采用了如下所述的技术方案：

3、从预设的客服评价数据库中获取与目标客户对应的目标客服评价信息；

4、从所述目标客服评价信息中筛选出评价等级满足预设等级条件的指定客服；

5、获取与所述指定客服对应的语速控制曲线与音高控制曲线；

6、获取待推送的初始语音；

7、基于所述语速控制曲线与所述音高控制曲线，调用预先构建的语音转换模型对所述初始语音进行语音转换处理，得到对应的目标语音；其中，所述语音转换模型至少包括自动语音识别模型、内容编码器、音高编码器、声纹识别网络以及解码器；

8、基于预设的智能客服将所述目标语音推送至目标客户。

9、进一步的，所述基于所述语速控制曲线与所述音高控制曲线，调用预先构建的语音转换模型对所述初始语音进行语音转换处理，得到对应的目标语音的步骤，具体包括：

10、基于时域基音同步重叠和添加算法与所述语速控制曲线对所述初始语音进行语速控制预处理，得到对应的指定语音；

11、将所述指定语音输入至所述自动语音识别模型内进行识别处理，并提取所述自动语音识别模型输出的瓶颈层特征；

12、将所述瓶颈层特征作为所述内容编码器的输入，获取所述内容编码器输出的内容嵌入；

13、通过预设的yaapt算法提取所述指定语音的音高序列；

14、基于所述音高控制曲线对所述音高序列进行控制处理，得到对应的指定音高序列；

15、将所述指定音高序列作为所述音高编码器的输入，获取所述音高编码器输出的音高嵌入；

16、通过预设的声纹识别网络提取所述初始语音的音色，并将所述音色作为说话人嵌入；

17、基于所述解码器对所述内容嵌入、所述音高嵌入以及所述说话人嵌入进行语音合成处理，得到对应的合成语音，并将所述合成语音作为所述目标语音。

18、进一步的，所述基于时域基音同步重叠和添加算法与所述语速控制曲线对所述初始语音进行语速控制预处理，得到对应的指定语音的步骤，具体包括：

19、基于所述时域基音同步重叠和添加算法对所述初始语音进行预处理，得到对应的第一语音；

20、对所述第一语音进行分段处理，得到对应的第二语音；其中，所述第二语音由多个时间段构成；

21、基于所述语速控制曲线对所述第二语音进行时间控制处理，得到对应的第三语音；

22、将所述第三语音作为所述指定语音。

23、进一步的，所述内容编码器包括连接层、卷积层、多层网络以及双向gru层；所述将所述瓶颈层特征作为所述内容编码器的输入，获取所述内容编码器输出的内容嵌入的步骤，具体包括：

24、将所述瓶颈层特征输入至所述连接层内进行处理，得到对应输出的第一特征；

25、将所述第一特征输入至所述卷积层内进行处理，得到对应输出的第二特征；

26、将所述第二特征输入至所述多层网络内进行处理，得到对应输出的第三特征；

27、将所述第三特征输入至所述双向gru层内进行处理，得到对应输出的第四特征；

28、将所述第四特征作为所述内容嵌入。

29、进一步的，所述基于所述音高控制曲线对所述音高序列进行控制处理，得到对应的指定音高序列的步骤，具体包括：

30、计算所述音高控制曲线与所述音高序列之间的乘积；

31、将所述乘积作为所述指定音高序列。

32、进一步的，在所述将所述指定音高序列作为所述音高编码器的输入，获取所述音高编码器输出的音高嵌入的步骤之前，还包括：

33、调用预设的对抗模块；其中，所述对抗模块包括梯度反转层与内容预测器；

34、基于所述对抗模块对所述音高编码器进行优化处理。

35、进一步的，在所述获取与所述指定客服对应的语速控制曲线与音高控制曲线的步骤之前，还包括：

36、判断所述指定客服的数量是否为多个；

37、若是，分别获取各所述指定客服的语速曲线；以及，

38、分别获取各所述指定客服的音高曲线；

39、计算所有所述语速曲线的第一平均曲线，并将所述第一平均曲线作为所述语速控制曲线；以及，

40、计算所有所述音高曲线的第二平均曲线，并将所述第二平均曲线作为所述音高控制曲线。

41、为了解决上述技术问题，本技术实施例还提供一种基于人工智能的语音处理装置，采用了如下所述的技术方案：

42、第一获取模块，用于从预设的客服评价数据库中获取与目标客户对应的目标客服评价信息；

43、筛选模块，用于从所述目标客服评价信息中筛选出评价等级满足预设等级条件的指定客服；

44、第二获取模块，用于获取与所述指定客服对应的语速控制曲线与音高控制曲线；

45、第三获取模块，用于获取待推送的初始语音；

46、处理模块，用于基于所述语速控制曲线与所述音高控制曲线，调用预先构建的语音转换模型对所述初始语音进行语音转换处理，得到对应的目标语音；其中，所述语音转换模型至少包括自动语音识别模型、内容编码器、音高编码器、声纹识别网络以及解码器；

47、推送模块，用于基于预设的智能客服将所述目标语音推送至目标客户。

48、为了解决上述技术问题，本技术实施例还提供一种计算机设备，采用了如下所述的技术方案：

49、从预设的客服评价数据库中获取与目标客户对应的目标客服评价信息；

50、从所述目标客服评价信息中筛选出评价等级满足预设等级条件的指定客服；

51、获取与所述指定客服对应的语速控制曲线与音高控制曲线；

52、获取待推送的初始语音；

53、基于所述语速控制曲线与所述音高控制曲线，调用预先构建的语音转换模型对所述初始语音进行语音转换处理，得到对应的目标语音；其中，所述语音转换模型至少包括自动语音识别模型、内容编码器、音高编码器、声纹识别网络以及解码器；

54、基于预设的智能客服将所述目标语音推送至目标客户。

55、为了解决上述技术问题，本技术实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

56、从预设的客服评价数据库中获取与目标客户对应的目标客服评价信息；

57、从所述目标客服评价信息中筛选出评价等级满足预设等级条件的指定客服；

58、获取与所述指定客服对应的语速控制曲线与音高控制曲线；

59、获取待推送的初始语音；

60、基于所述语速控制曲线与所述音高控制曲线，调用预先构建的语音转换模型对所述初始语音进行语音转换处理，得到对应的目标语音；其中，所述语音转换模型至少包括自动语音识别模型、内容编码器、音高编码器、声纹识别网络以及解码器；

61、基于预设的智能客服将所述目标语音推送至目标客户。

62、与现有技术相比，本技术实施例主要有以下有益效果：

63、本技术首先从预设的客服评价数据库中获取与目标客户对应的目标客服评价信息；然后从所述目标客服评价信息中筛选出评价等级满足预设等级条件的指定客服；之后获取与所述指定客服对应的语速控制曲线与音高控制曲线；后续获取待推送的初始语音；进而基于所述语速控制曲线与所述音高控制曲线，调用预先构建的语音转换模型对所述初始语音进行语音转换处理，得到对应的目标语音；最后基于预设的智能客服将所述目标语音推送至目标客户。本技术通过基于客服评价数据库的使用来从得到的目标客服评价信息中筛选出评价等级满足预设等级条件的指定客服，然后获取与所述指定客服对应的语速控制曲线与音高控制曲线，进而通过基于所述语速控制曲线与所述音高控制曲线，以及基于包括自动语音识别模型、内容编码器、音高编码器、声纹识别网络以及解码器的语音转换模型的使用来对获取的待推送的初始语音进行语音转换处理，可以实现对于初始语音的语速与语调的个性化定制，且生成的目标语音能够智能且准确的符合目标客户对于语速、语调的喜好。且后续通过使用智能客服将根据目标客户的个性化需求定制的目标语音推送至目标客户，可以有效提高语音推送的智能性以及提高目标客户的使用体验，进而提高目标客户的服务认可度，进而提高目标客户的服务认可度，以及有效保障对于目标客户的服务质量。