技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种服务机器人多模态交互系统及方法与流程 > 正文

一种服务机器人多模态交互系统及方法与流程

国知局
2024-06-21 11:51:29

本发明涉及的一种服务机器人多模态交互系统及方法，特别是涉及应用于机器人交互领域的一种服务机器人多模态交互系统及方法。

背景技术：

1、在当今快速发展的科技时代，服务机器人在多个领域中扮演着越来越重要的角色。为了提升服务机器人的智能水平，多模态感知技术应运而生。多模态感知方法旨在使机器人能够同时利用多种感知模式，如视觉、听觉和触觉等，以更全面、准确地理解环境及与用户的互动。目前，现有技术中存在一些针对单一感知模式的方法，但缺乏对多模态信息的综合处理。例如，某些机器人只能依赖视觉信息执行任务，而在嘈杂环境或特殊情况下，其性能可能受到限制。另一方面，也有一些研究专注于多模态融合，但尚未实现对多模态信息高效处理的全面方法。

2、中国发明专利cn116931728a说明书公开了一种类人机器人的多模态人机交互控制系统及方法，包括数据采集模块，多模态人机交互管理模块，具身智能模块以及对话策略模块；所述数据采集模块，用于获取机器人服务范围内的环境数据；所述多模态机器人交互管理模块，用于根据输入的环境数据，以生成机器人与用户的相对位姿和状态信息；所述对话策略模块，根据用户的状态信息，生成对应的对话策略，所述对话策略包括启动对话，暂停对话和恢复对话；所述具身智能模块，用于根据输入的相对位姿和状态信息，以控制机器人完成交互任务，所述交互任务包括与用户进行动作和语音交互，可以使得类人机器人交互过程中更加注重交互礼仪。

3、上述的多模态人机交互方法在工作时，各个能力模块通常独立运行，缺乏有效的协同机制，导致机器人在执行任务时出现不协调和不自然的现象，也即针对tts(文本到语音)能力，现有系统中往往存在语音输出与面部表情、身体动作之间的不同步现象，这种不协调使得机器人在与用户交互时显得生硬和缺乏连贯性。

技术实现思路

1、针对上述现有技术，本发明要解决的技术问题是通过优化tts模块与其他模块的信息同步和时序控制，确保语音合成与机器人其他能力(头部动作、嘴型、表情等模块)的协调性，提升用户体验。

2、为解决上述问题，本发明提供了一种服务机器人多模态交互系统，包括有数据获取模块、场景配置模块、算法配置模块和反馈协同模块，其中数据获取模块包括有任务数据单元、图像数据单元、传感器数据单元和语音数据单元，语音数据单元包括有普通话识别模组、外文集成识别模组和中文方言集成识别模组；

3、场景配置模块包括有权衡单元；

4、算法配置模块包括有事件数据处理单元、元数据预处理单元、动作生成引擎单元和动作执行单元；

5、反馈协同模块包括有表情控制单元、动作控制单元和语音输出控制单元以及反馈单元，且反馈协同模块与动作执行单元通过执行通道连接。

6、在上述服务机器人多模态交互实现方法中，通过融合交互引擎系统，整合机器人各项能力，实现各个模块之间的协调，使得机器人在执行任务时呈现更加自然和流畅的动作和表情。

7、作为本申请的进一步改进，传感器数据单元包括有安装于服务机器人表面的噪声检测传感器、温湿度传感器和红外线传感器，语音数据单元包括有安装于服务机器人表面的对讲器和扬声器，图像数据单元包括有安装于服务机器人表面的360度全景摄像机，且360度全景摄像机内部安装有人脸表情识别系统和肢体动作识别系统，反馈单元包括有安装于服务机器人表面的显示屏。

8、作为本申请的更进一步改进，权衡单元包括有多种服务机器人的模式，包括有定点工作模式、移动服务模式、巡回空闲模式和休息模式。

9、作为本申请的更进一步改进，一种服务机器人多模态交互系统的工作方法，包括有以下工作步骤：

10、s1、利用任务数据单元判断覆于机器人是否接收到需要提供服务的任务数据；

11、s2、确认需要提供服务时，启动语音数据单元，并加以动态vad技术，获取服务对象的语音数据；

12、s3、判断接收到的任务数据语言类型是否为中文，排除中文语言后进入外文集成识别模组进行语音数据内容识别，若为中文，需要判断语言类型为普通话还是方言，若为方言，进入中文方言集成识别模组进行语音数据内容识别；

13、s4、内容识别过程中，同步利用图像数据单元和传感器数据单元对服务机器人的周边环境进行判断，并与内容识别后的数据整合，得出任务需求内容；

14、s5、得到确认反馈后进入事件数据处理单元将接收到的数据归类整合；

15、s6、进入元数据预处理单元将数据进行标准化处理；

16、s7、进入动作生成引擎单元结合场景配置模块中的动作生成引擎单元进行动作生成处理；

17、s8、动作执行单元结合权衡单元以及表情控制单元、动作控制单元和语音输出控制单元顺序执行任务动作。

18、作为本申请的又一种改进，权衡单元还包括有中断模式，其中中断模式的工作步骤包括有：

19、a1、在服务机器人进行服务的过程中，另一个服务对象发出服务需求；

20、a2、反馈单元将服务需求反馈至正在服务的对象处，正在接受服务机器人服务的对象在选择中止服务时，服务机器人可终断服务，并按照s1-s7的步骤进行下一轮服务；

21、a3、正在接受服务机器人服务的对象在选择继续服务时，服务机器人可向发出需求的另一个服务对象推荐其他处于巡回模式的服务机器人。

22、作为本申请的又一种改进的补充，权衡单元还包括有优化模式，其中优化模式的工作步骤包括有：

23、b1、在服务机器人服务结束一个周期后，按照任务需求量正态分布归纳周期内的需求类型，并将其通过反馈单元直接反馈至服务机器人表面的显示屏处，减少s1-s7的全流程操作；

24、b2、b1操作周期动态变化，不干扰s1-s7的正常工作。

25、综上所述，本申请具有以下有益效果：

26、(1)多模态融合，通过融合多种数据接口，融合交互引擎实现了对多模态数据的协同处理。这使得机器人能够综合利用来自不同感知通道的信息，提高了对周围环境的全面理解，从而增强了机器人在各种任务中的感知和适应能力。

27、(2)多场景适应性切换，融合交互引擎根据输入数据进行动态权衡，选择最优的交互模式，并根据场景配置调整机器人的行为。这种智能场景适应性使机器人在不同环境下能够灵活应对，提高了系统的智能水平和用户体验。

28、(3)可替换的算法模块，通过元数据预处理模块，对数据格式进行标准化，因此可动态替换不同的动作生成引擎，实现不同的场景无缝切换动作生成策略。引擎的算法模块具备事件数据处理、元数据预处理、动作生成和执行等关键功能。这些算法的协同工作使系统更具高效性，能够快速而准确地处理输入数据，并生成符合场景需求的动作序列，从而提高了整个系统的响应速度和执行效率。

29、(4)通过中断模式和优化模式的使用，可在基于服务对象认可的基础上，中断服务流程，方便服务对象的扩大化，同时利于缩减服务流程，提升交互效率。

技术特征：

1.一种服务机器人多模态交互系统，其特征在于，包括有数据获取模块、场景配置模块、算法配置模块和反馈协同模块，其中数据获取模块包括有任务数据单元、图像数据单元、传感器数据单元和语音数据单元，所述语音数据单元包括有普通话识别模组、外文集成识别模组和中文方言集成识别模组；

2.根据权利要求1所述的一种服务机器人多模态交互系统，其特征在于：所述传感器数据单元包括有安装于服务机器人表面的噪声检测传感器、温湿度传感器和红外线传感器，所述语音数据单元包括有安装于服务机器人表面的对讲器和扬声器，所述图像数据单元包括有安装于服务机器人表面的360度全景摄像机，且360度全景摄像机内部安装有人脸表情识别系统和肢体动作识别系统，所述反馈单元包括有安装于服务机器人表面的显示屏。

3.根据权利要求1所述的一种服务机器人多模态交互系统，其特征在于：所述权衡单元包括有多种服务机器人的模式，包括有定点工作模式、移动服务模式、巡回空闲模式和休息模式。

4.一种根据权利要求1所述的服务机器人多模态交互系统的工作方法，其特征在于，包括有以下工作步骤：

5.根据权利要求4所述的一种服务机器人多模态交互系统的工作方法，其特征在于：所述权衡单元还包括有中断模式，其中中断模式的工作步骤包括有：

6.根据权利要求5所述的一种服务机器人多模态交互系统的工作方法，其特征在于：所述权衡单元还包括有优化模式，其中优化模式的工作步骤包括有：

技术总结本发明涉及机器人交互领域的一种服务机器人多模态交互系统及方法，包括有数据获取模块、场景配置模块、算法配置模块和反馈协同模块，其中数据获取模块包括有任务数据单元、图像数据单元、传感器数据单元和语音数据单元，场景配置模块包括有权衡单元；算法配置模块包括有事件数据处理单元、元数据预处理单元、动作生成引擎单元和动作执行单元；反馈协同模块包括有表情控制单元、动作控制单元和语音输出控制单元以及反馈单元，且反馈协同模块与动作执行单元通过执行通道连接，通过融合交互引擎系统，整合机器人各项能力，实现各个模块之间的协调，使得机器人在执行任务时呈现更加自然和流畅的动作和表情。技术研发人员：邓金鸿,崔书浩,周华强,姜凯迪,陈阳,项鹏飞受保护的技术使用者：国汽朴津智能科技（合肥）有限公司技术研发日：技术公布日：2024/5/12