技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种人工智能交互方法及人工智能交互系统 > 正文

一种人工智能交互方法及人工智能交互系统

国知局
2024-06-21 11:36:08

本发明涉及语音交互，具体是涉及一种人工智能交互方法及人工智能交互系统。

背景技术：

1、智能问答机器人已经深入了各行各业，例如很多机场、银行、医院以及酒店都安装有智能问答机器，既能够帮助用户尽快的解决各类问题，又能够减少人力成本，现有的智能问答机器人虽然能够较好的去回答用户的问题，但是对于不同用户提出的问题，都是使用同一种音色、音调以及语速进行回答，不能够根据用户的性别和年龄做出适应性改变，体验感较为单一。因此，需要提供一种人工智能交互方法及人工智能交互系统，旨在解决上述问题。

技术实现思路

1、针对现有技术存在的不足，本发明的目的在于提供一种人工智能交互方法及人工智能交互系统，以解决上述背景技术中存在的问题。

2、本发明是这样实现的，一种人工智能交互方法，所述方法包括以下步骤：

3、接收目标用户语音输入信息，采集目标用户人脸图像；

4、对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；

5、对目标用户人脸图像进行分析，得到目标性别和目标年龄；

6、根据目标性别和目标年龄确定虚拟人像；

7、根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。

8、作为本发明进一步的方案：所述对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤，具体包括：

9、对目标用户语音输入信息进行文字转化得到文字信息；

10、对目标用户语音输入信息进行方言匹配得到方言信息，所述方言信息为方言类别，当方言匹配失败时，确定方言类别为普通话；

11、提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息。

12、作为本发明进一步的方案：所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤，具体包括：

13、采集多种方言数据，基于hadoop平台建立初始方言数据库；

14、提取所述初始方言数据库中的语音特征，使用vad技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型；

15、对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别。

16、作为本发明进一步的方案：所述根据目标性别和目标年龄确定虚拟人像的步骤，具体包括：

17、将目标性别和目标年龄输入至舒适对象库中，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色和音调；

18、输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像。

19、作为本发明进一步的方案：所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤，具体包括：

20、根据文字信息确定交互语音内容；

21、根据方言信息确定虚拟人像的发音方言；

22、根据语速信息确定虚拟人像的发音速度，使得虚拟人像的发音速度与目标用户的发音速度一致。

23、本发明的另一目的在于提供一种人工智能交互系统，所述系统包括：

24、用户信息采集模块，用于接收目标用户语音输入信息，采集目标用户人脸图像；

25、语音信息分析模块，用于对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；

26、人脸图像分析模块，用于对目标用户人脸图像进行分析，得到目标性别和目标年龄；

27、虚拟人像确定模块，用于根据目标性别和目标年龄确定虚拟人像；

28、交互语音确定模块，用于根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。

29、作为本发明进一步的方案：所述语音信息分析模块包括：

30、文字信息确定单元，用于对目标用户语音输入信息进行文字转化得到文字信息；

31、方言信息确定单元，用于对目标用户语音输入信息进行方言匹配得到方言信息，所述方言信息为方言类别，当方言匹配失败时，确定方言类别为普通话；

32、语速信息确定单元，用于提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息。

33、作为本发明进一步的方案：所述方言信息确定单元包括：

34、方言数据库子单元，用于采集多种方言数据，基于hadoop平台建立初始方言数据库；

35、网络模型建立子单元，用于提取所述初始方言数据库中的语音特征，使用vad技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型；

36、匹配检测子单元，用于对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别。

37、作为本发明进一步的方案：所述虚拟人像确定模块包括：

38、性别年龄输入单元，用于将目标性别和目标年龄输入至舒适对象库中，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色和音调；

39、虚拟对象输出单元，用于输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像。

40、作为本发明进一步的方案：所述交互语音确定模块包括：

41、交互内容确定单元，用于根据文字信息确定交互文字内容；

42、发音方言确定单元，用于根据方言信息确定虚拟人像的发音方言；

43、发音速度确定单元，用于根据语速信息确定虚拟人像的语速值，使得虚拟人像的语速值与目标用户的语速值一致；

44、虚拟语音生成单元，用于根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值，生成虚拟人像的交互语音信息。

45、与现有技术相比，本发明的有益效果是：

46、本发明通过对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；对目标用户人脸图像进行分析，得到目标性别和目标年龄；根据目标性别和目标年龄确定虚拟人像；根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。其中，虚拟人像的外形和声音特点更能符合用户的倾听喜好；另外，交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配，使得用户感到亲切，体验感更好。

技术特征：

1.一种人工智能交互方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种人工智能交互方法，其特征在于，所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤，具体包括：

3.根据权利要求2所述的一种人工智能交互方法，其特征在于，对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤之后，所述方法还包括如下步骤：

4.根据权利要求3所述的一种人工智能交互方法，其特征在于，文字信息的情感色彩值的计算公式表示为：

5.根据权利要求4所述的一种人工智能交互方法，其特征在于，所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤，具体包括：

6.根据权利要求5所述的一种人工智能交互方法，其特征在于，根据文字信息确定交互文字内容的方法包括如下步骤：

7.根据权利要求6所述的一种人工智能交互方法，其特征在于，当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值之后，所述方法还包括如下步骤：

8.一种人工智能交互系统，其特征在于，执行权利要求1至7任一项所述的人工智能交互方法，所述系统包括：

9.根据权利要求8所述的一种人工智能交互系统，其特征在于，所述语音信息分析模块包括：

技术总结本发明适用于语音交互技术领域，提供了一种人工智能交互方法及人工智能交互系统，所述方法包括以下步骤：接收目标用户语音输入信息，采集目标用户人脸图像；对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；对目标用户人脸图像进行分析，得到目标性别和目标年龄；根据目标性别和目标年龄确定虚拟人像；根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。本发明中，虚拟人像的外形和声音特点更能符合用户的倾听喜好；另外，交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配，使得用户感到亲切，体验感更好。技术研发人员：石司马,顾旭受保护的技术使用者：江西科技学院技术研发日：技术公布日：2024/3/12