技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种数字机器人语音交流控制方法及系统与流程  >  正文

一种数字机器人语音交流控制方法及系统与流程

  • 国知局
  • 2024-06-21 11:33:22

本发明涉及数字机器人,尤其涉及一种数字机器人语音交流控制方法及系统。

背景技术:

1、随着计算机技术的发展,各种类型的数字机器人被广泛地应用于人们生活的各个方面,例如,数字机器人通过语音来与别人进行打招呼或者交流,然而,现有的数字机器人语音交流控制方式一般都是通过预设的语音模板进行交流,导致缺乏适应性和自然感,尤其在面对不熟悉的人或者是没有预设应答模板的情况下,其回应往往会显得生硬、机械,同时,还不能根据不同情境调整语言输出,影响交流体验。

技术实现思路

1、有鉴于此,本发明提出一种数字机器人语音交流控制方法及系统,可以解决现有技术所存在的缺乏适应性和自然感、无法根据不同情境调整语言输出的缺陷。

2、本发明的技术方案是这样实现的:

3、一种数字机器人语音交流控制方法,具体包括:

4、构建人脸识别模型和自然语言生成模型;

5、基于计算机视觉技术获取人脸图像;

6、将人脸图像输入人脸识别模型中进行识别,得到人脸特征;

7、将人脸特征输入自然语言生成模型进行识别,生成与人脸图像相匹配的自然语言文本;

8、基于文本转语音技术将自然语言文本转换成语音进行输出,从而实现数字机器人语音交流控制。

9、作为所述数字机器人语音交流控制方法的进一步可选方案,所述构建人脸识别模型,具体包括:

10、收集人脸图像数据,并标注每个人脸图像数据的身份信息;

11、将标注身份信息的人脸图像数据进行划分,得到训练集和验证集;

12、将训练集输入facenet模型中,并依据三元损失训练策略进行训练,得到初始的人脸识别模型;

13、将验证集输入初始的人脸识别模型中进行验证,得到最终的人脸识别模型。

14、作为所述数字机器人语音交流控制方法的进一步可选方案,所述将训练集输入facenet模型中,并依据三元损失训练策略进行训练,得到初始的人脸识别模型,具体包括:

15、步骤s1、基于卷积神经网络模型对训练集中的人脸图像数据进行特征提取,得到人脸特征;

16、步骤s2、基于人脸特征进行人脸图像选择,选择出锚点样本、正样本和负样本;

17、步骤s3、依据预设的约束条件对选择出的锚点样本、正样本和负样本进行筛选,得到筛选后的出来的锚点样本、正样本和负样本;

18、步骤s4、依据筛选出来的锚点样本、正样本和负样本,构建出三元组;

19、步骤s5、依据三元损失函数计算三元组的损失值;

20、步骤s6、判断损失值是否与预设的阈值相同,若是,依据反向传播算法调整卷积神经网络模型的权重,得到初始的人脸识别模型,否则重复步骤s2至步骤s5的步骤。

21、作为所述数字机器人语音交流控制方法的进一步可选方案,所述基于人脸特征进行人脸图像选择,选择出锚点样本、正样本和负样本,具体包括:

22、基于每个人脸图像的多张图像,随机选择一个样本作为锚点样本;

23、从相同身份的人脸图像中,随机选择一个样本作为正样本;

24、从不同身份的人脸图像中,随机选择一个样本作为负样本。

25、作为所述数字机器人语音交流控制方法的进一步可选方案,所述构建自然语言生成模型,具体包括:

26、根据设定的场景,收集训练数据和评估数据;

27、对训练数据进行特征提取,选择出与设定的场景相匹配的训练特征;

28、将训练特征输入循环神经网络进行训练,得到初始的自然语言生成模型;

29、依据评估数据对初始的自然语言生成模型进行评估,得到评估结果;

30、依据评估结果对初始的自然语言生成模型进行参数调整,得到最终的自然语言生成模型。

31、一种数字机器人语音交流控制系统,包括:

32、构建模块,用于构建人脸识别模型和自然语言生成模型;

33、获取模块,用于基于计算机视觉技术获取人脸图像;

34、第一识别模块,用于将人脸图像输入人脸识别模型中进行识别,得到人脸特征;

35、第二识别模块,用于将人脸特征输入自然语言生成模型进行识别,生成与人脸图像相匹配的自然语言文本;

36、转换模块,用于基于文本转语音技术将自然语言文本转换成语音进行输出,从而实现数字机器人语音交流控制。

37、作为所述数字机器人语音交流控制系统的进一步可选方案,所述构建模块包括第一构建模块和第二构件模块,所述第一构建模块用于构建人脸识别模型,所述第二构建模块用于构建自然语言生成模型,其中,所述第一构建模块包括:

38、第一收集模块,用于收集人脸图像数据,并标注每个人脸图像数据的身份信息;

39、划分模块,用于将标注身份信息的人脸图像数据进行划分,得到训练集和验证集;

40、第一训练模块,用于将训练集输入facenet模型中,并依据三元损失训练策略进行训练,得到初始的人脸识别模型;

41、验证模块,用于将验证集输入初始的人脸识别模型中进行验证,得到最终的人脸识别模型。

42、作为所述数字机器人语音交流控制系统的进一步可选方案,所述第一训练模块包括:

43、特征提取模块,用于基于卷积神经网络模型对训练集中的人脸图像数据进行特征提取,得到人脸特征;

44、选择模块,用于基于人脸特征进行人脸图像选择,选择出锚点样本、正样本和负样本;

45、筛选模块,用于依据预设的约束条件对选择出的锚点样本、正样本和负样本进行筛选,得到筛选后的出来的锚点样本、正样本和负样本;

46、三元组构建模块,用于依据筛选出来的锚点样本、正样本和负样本,构建出三元组;

47、计算模块,用于依据三元损失函数计算三元组的损失值;

48、判断模块,用于判断损失值是否与预设的阈值相同,若是,依据反向传播算法调整卷积神经网络模型的权重,得到初始的人脸识别模型,否则重复选择模块、筛选模块、三元组构建模块和计算模块的步骤。

49、作为所述数字机器人语音交流控制系统的进一步可选方案,所述选择模块包括:

50、锚点样本选择模块,用于基于每个人脸图像的多张图像,随机选择一个样本作为锚点样本;

51、正样本选择模块,用于从相同身份的人脸图像中,随机选择一个样本作为正样本;

52、负样本选择模块,用于从不同身份的人脸图像中,随机选择一个样本作为负样本。

53、作为所述数字机器人语音交流控制系统的进一步可选方案,所述第二构建模块包括:

54、第二收集模块,用于根据设定的场景,收集训练数据和评估数据;

55、提取模块,用于对训练数据进行特征提取,选择出与设定的场景相匹配的训练特征;

56、第二训练模块,用于将训练特征输入循环神经网络进行训练,得到初始的自然语言生成模型;

57、评估模块,用于依据评估数据对初始的自然语言生成模型进行评估,得到评估结果;

58、调整模块,用于依据评估结果对初始的自然语言生成模型进行参数调整,得到最终的自然语言生成模型。

59、本发明的有益效果是:通过构建人脸识别模型和自然语言生成模型,依据人脸识别模型对人脸图像进行识别,得到人脸特征,并依据自然语言生成模型对人脸特征进行识别,得到相匹配的语言文本,最后再通过文本转语音技术将语言文本转换成语音进行输出,能够有效根据不同情景调整相对应的语言输出,从而使得语音交流适应性和自然感更加强,同时,通过采用计算机视觉技术获取人脸图像,能够提高获取人脸图像的清晰度,从而提高人脸识别的精准度和速度,进一步提高根据不同情景调整相对应语言输出的精准度和速度。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22214.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。