技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法、装置、存储介质及服务器与流程 > 正文

语音交互方法、装置、存储介质及服务器与流程

国知局
2024-06-21 10:40:42

本技术涉及物联网，具体涉及一种语音交互方法、装置、存储介质及服务器。

背景技术：

1、随着推荐算法和知识图谱等技术在各个行业的不断兴起，为每个用户提供个性化的服务已经成为了当前较为主流的方案，目前相关的智能语音交互方案中，通过预先设定较为单一音色供用户与智能设备进行语音交互，虽然多数产品支持自定义音色设置管理，但仍无法有效为每个不同的用户提供个性化音色的语音交互服务，导致用户语音交互体验有限。

技术实现思路

1、本技术实施例提供一种方案，可以有效为用户提供个性化音色的语音交互服务，提升用户语音交互体验。

2、本技术实施例提供以下技术方案：

3、根据本技术的一个实施例，一种语音交互方法，其包括：获取语音交互用户对应的用户识别信息、生理特征信息以及语音喜好信息；对所述生理特征信息以及语音喜好信息进行特征提取，得到用户表征特征；基于所述用户表征特征进行音色分配分析，得到所述语音交互用户对应的音色分配信息；将所述音色分配信息及所述用户识别信息关联，得到音色分配策略信息，所述音色分配策略信息用于所述语音交互用户的语音交互。

4、在本技术的一些实施例中，所述方法还包括：收集实时时间之前的预定时间段内的主流事件；根据所述主流事件进行事件音色检测，得到主流分配信息，所述主流分配信息用于在预定场景下代替所述音色分配策略信息。

5、在本技术的一些实施例中，所述用户识别信息包括所述语音交互用户的音色信息；在所述将所述音色分配信息及所述用户识别信息关联，得到音色分配策略信息之后，所述方法还包括：根据第一语音交互设备中接收到的交互语音，提取所述交互语音的音色信息；若所述交互语音的音色信息与所述语音交互用户的音色信息匹配，则根据所述音色分配信息进行音色分配，得到用于进行语音交互的第一音色；将所述第一音色设定为所述第一语音交互设备的音色。

6、在本技术的一些实施例中，在所述根据所述主流事件进行事件音色检测，得到主流分配信息之后，所述方法还包括：若确定所述语音交互用户处于所述预定场景，根据所述主流分配信息进行音色分配，得到用于进行语音交互的第二音色；将所述第二音色设定为所述语音交互用户所对应的第二语音交互设备的音色。

7、在本技术的一些实施例中，所述对所述生理特征信息以及语音喜好信息进行特征提取，得到用户表征特征，包括：将所述生理特征信息以及语音喜好信息输入综合特征提取神经网络，得到所述综合特征提取神经网络输出的综合输出特征；根据所述综合输出特征，得到所述用户表征特征。

8、在本技术的一些实施例中，所述语音喜好信息包括多组喜好数据，每组所述喜好数据分别对应一种交互条件；所述对所述生理特征信息以及语音喜好信息进行特征提取，得到用户表征特征，包括：将所述生理特征信息与每组所述喜好数据分别组合，得到多组组合信息；将所述多组组合信息分别输入对应的单组特征提取神经网络，得到每个所述单组特征提取神经网络输出的单组输出特征；将多组所述单组输出特征进行加权求和，得到所述用户表征特征。

9、在本技术的一些实施例中，所述根据所述音色分配信息进行音色分配，得到用于进行语音交互的第一音色，包括以下方式中一种：若所述音色分配信息包括唯一推荐音色，则将所述唯一推荐音色确定为所述第一音色；若所述音色分配信息包括不同交互条件下的单独推荐音色，则将所述语音交互用户匹配的交互条件对应的单独推荐音色，确定为所述第一音色。

10、根据本技术的一个实施例，一种语音交互装置，所述装置包括：获取模块，用于获取语音交互用户对应的用户识别信息、生理特征信息以及语音喜好信息；提取模块，用于对所述生理特征信息以及语音喜好信息进行特征提取，得到用户表征特征；分析模块，用于基于所述用户表征特征进行音色分配分析，得到所述语音交互用户对应的音色分配信息；关联模块，用于将所述音色分配信息及所述用户识别信息关联，得到音色分配策略信息，所述音色分配策略信息用于所述语音交互用户的语音交互。

11、在本技术的一些实施例中，所述装置还包括主体监测模块，用于：收集实时时间之前的预定时间段内的主流事件；根据所述主流事件进行事件音色检测，得到主流分配信息，所述主流分配信息用于在预定场景下代替所述音色分配策略信息。

12、在本技术的一些实施例中，所述用户识别信息包括所述语音交互用户的音色信息；在所述将所述音色分配信息及所述用户识别信息关联，得到音色分配策略信息之后，所述装置还包括第一分配模块，用于：根据第一语音交互设备中接收到的交互语音，提取所述交互语音的音色信息；若所述交互语音的音色信息与所述语音交互用户的音色信息匹配，则根据所述音色分配信息进行音色分配，得到用于进行语音交互的第一音色；将所述第一音色设定为所述第一语音交互设备的音色。

13、在本技术的一些实施例中，在所述根据所述主流事件进行事件音色检测，得到主流分配信息之后，所述装置还包括第二分配模块，用于：若确定所述语音交互用户处于所述预定场景，根据所述主流分配信息进行音色分配，得到用于进行语音交互的第二音色；将所述第二音色设定为所述语音交互用户所对应的第二语音交互设备的音色。

14、在本技术的一些实施例中，所述提取模块包括第一提取单元，用于：将所述生理特征信息以及语音喜好信息输入综合特征提取神经网络，得到所述综合特征提取神经网络输出的综合输出特征；根据所述综合输出特征，得到所述用户表征特征。

15、在本技术的一些实施例中，所述语音喜好信息包括多组喜好数据，每组所述喜好数据分别对应一种交互条件；所述提取模块包括第二提取单元，用于：将所述生理特征信息与每组所述喜好数据分别组合，得到多组组合信息；将所述多组组合信息分别输入对应的单组特征提取神经网络，得到每个所述单组特征提取神经网络输出的单组输出特征；将多组所述单组输出特征进行加权求和，得到所述用户表征特征。

16、在本技术的一些实施例中，所述第一分配模块，用于实现以下方式中一种：若所述音色分配信息包括唯一推荐音色，则将所述唯一推荐音色确定为所述第一音色；若所述音色分配信息包括不同交互条件下的单独推荐音色，则将所述语音交互用户匹配的交互条件对应的单独推荐音色，确定为所述第一音色。

17、根据本技术的另一实施例，一种存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行本技术实施例所述的方法。

18、根据本技术的另一实施例，一种服务器可以包括：存储器，存储有计算机程序；处理器，读取存储器存储的计算机程序，以执行本技术实施例所述的方法。

19、根据本技术的另一实施例，一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术实施例所述的各种可选实现方式中提供的方法。

20、本技术实施例中，获取语音交互用户对应的用户识别信息、生理特征信息以及语音喜好信息；对所述生理特征信息以及语音喜好信息进行特征提取，得到用户表征特征；基于所述用户表征特征进行音色分配分析，得到所述语音交互用户对应的音色分配信息；将所述音色分配信息及所述用户识别信息关联，得到音色分配策略信息，所述音色分配策略信息用于所述语音交互用户的语音交互。

21、以这种方式，获取语音交互用户的生理特征信息以及语音喜好信息，通过特征提取和音色分配分析得到语音交互用户对应的音色分配信息，将音色分配信息及所述用户识别信息关联得到音色分配策略信息，进而，基于该音色分配策略信息可以有效综合考虑语音交互用户的生理特征和语音喜好来分配语音交互的音色，可以有效为不同的语音交互用户提供个性化音色的语音交互服务，提升用户语音交互体验。