技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音交互式装置、语音交互方法及电子设备与流程 > 正文

一种语音交互式装置、语音交互方法及电子设备与流程

国知局
2024-06-21 11:48:08

本申请涉及语音交互，具体是一种语音交互式装置、语音交互方法及电子设备。

背景技术：

1、随着人机交互技术的持续创新，人们的交互方式在不断改变，从鼠标、键盘、遥控器再到触屏，交互方式越来越简单。而人工智能技术的兴起，为更加自然的交互方式提供了可能——自然语言会话，使用者可通过自然语言的方式与机器交互、获取信息，并以对话式交互为核心，将语音技术、图像技术、人脸识别技术、增强显示技术相结合，使技术存在于无处不在的设备中。在一些现有的智能语音交互装置的实际应用中，较多用户反馈该类交互装置无法在嘈杂的环境中识别到所需求执行的交互内容，特别是在有多个人员发出语音信号时，交互装置无法准确地识别到用户的真实交互需求，用户使用体验很差。虽然现有技术中为解决这一问题采用了如通过摄像头采集用户数据来确认是哪位用户在发出交互指令，但是，实现的前提是用户在发出指令时处于设置的摄像头采集区域中，且是面向摄像头的姿态下，对用户的使用限制很大，实用性差。

技术实现思路

1、本申请的目的在于提供一种语音交互式装置、语音交互方法及电子设备，以解决上述背景技术中提出的技术问题。

2、为实现上述目的，本申请公开了以下技术方案：

3、第一方面，本申请提供了一种语音交互式装置，包括拾音模块、识别模块、鉴别模块和交互模块；

4、所述拾音模块配置为：对应用场景中的语音信号进行拾取；

5、所述识别模块配置为：对拾取到的语音信号进行识别，确认语音交互需求，并在语音信号中存在语音交互需求时，执行需求鉴别；其中，当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，所述识别模块还配置为：基于预设的识别规则将多个语音内容进行聚类处置，得到若干条对应于不同用户的语音数据，并分别对每一条语音数据进行识别，确认语音交互需求；

6、所述鉴别模块配置为：在语音信号中存在语音交互需求时对拾取到的语音信号进行需求鉴别，确认交互内容需求；

7、所述交互模块配置为：基于所述交互内容需求进行交互内容的调取和执行。

8、作为优选，所述的识别规则包括：基于不同的声纹特征将语音信号中来自于同一用户的语音内容进行提取融合。

9、作为优选，所述的识别规则还包括：基于采集到的图像分析用户唇语将语音信号中来自于同一用户的语音内容进行提取融合。

10、作为优选，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，基于所述语音交互需求对应的用户的权限等级进行识别，并按照大权限等级优先的规则分析其中一条语音数据对应的交互内容需求；所述权限等级与用户对应的识别规则绑定。

11、作为优选，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，且所述语音交互需求对应的用户均不具有权限时，选择任意一个语音交互需求对应的语音数据进行需求鉴别并确认交互内容需求。

12、作为优选，该种语音交互式装置，还包括离线运行模块；

13、所述离线运行模块配置为：在联网状态下，采集预设的时间段一内的若干个交互内容需求，对所述交互内容需求进行聚合分析，并将聚合分析结果满足预设条件的至少一个交互内容需求对应的交互内容下载存储于离线库中，并将交互内容需求和对应的交互内容进行绑定；在未联网状态下，当用户的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。

14、作为优选，所述离线运行模块还配置为：在联网状态下，采集预设的时间段二内的若干个语音交互需求，所有的语音交互需求进行出现频次分析，获取出现频次大于n的至少一个语音交互需求，分析该至少一个语音交互需求对应的语音信号，将该语音信号、语音交互需求和下载后的交互内容进行绑定并存储于离线库中；在未联网状态下，当用户的语音信号对应的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。

15、作为优选，所述离心运行模块还配置为：当在未联网状态下，在所述交互模块执行的一个交互内容得到了用户的负反馈的次数达到预设阈值时，将该交互内容在离线库中进行删除。

16、第二方面，本申请公开了一种语音交互式方法，适用于如上所述的语音交互式装置，其特征在于，该方法包括以下步骤：

17、对应用场景中的语音信号进行拾取；

18、对拾取到的语音信号进行识别，确认语音交互需求，并在语音信号中存在语音交互需求时，执行需求鉴别；其中，当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，所述识别模块还配置为：基于预设的识别规则将多个语音内容进行聚类处置，得到若干条对应于不同用户的语音数据，并分别对每一条语音数据进行识别，确认语音交互需求；

19、在语音信号中存在语音交互需求时对拾取到的语音信号进行需求鉴别，确认交互内容需求；

20、基于所述交互内容需求进行交互内容的调取和执行。

21、第三方面，本申请公开了一种电子设备，包括至少一个处理器和至少一个存储器，所述存储器与所述处理器信号连接，所述存储器上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如上所述的语音交互式方法。

22、有益效果：本申请，通过识别模块对语音信号进行识别以确认语音交互需求，同时，在存在不同用户发出的语音内容时，通过对语音信号的聚类处置实现语音数据的精准识别，从而明确是否有语音交互需求，然后再根据该语音交互需求对应的语音数据中是否存在交互内容需求来明确后续交互模块的执行内容，解决了现有技术中无法为用户提供舒适的使用体验的问题。进一步地，本申请通过离线运行模块的设置，实现了在离线状态下为用户提供语音交互的功能，提高了用户的使用体验。

技术特征：

1.一种语音交互式装置，其特征在于，包括拾音模块、识别模块、鉴别模块和交互模块；

2.根据权利要求1所述的语音交互式装置，其特征在于，所述的识别规则包括：基于不同的声纹特征将语音信号中来自于同一用户的语音内容进行提取融合。

3.根据权利要求2所述的语音交互式装置，其特征在于，所述的识别规则还包括：基于采集到的图像分析用户唇语将语音信号中来自于同一用户的语音内容进行提取融合。

4.根据权利要求1所述的语音交互式装置，其特征在于，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，基于所述语音交互需求对应的用户的权限等级进行识别，并按照大权限等级优先的规则分析其中一条语音数据对应的交互内容需求；所述权限等级与用户对应的识别规则绑定。

5.根据权利要求4所述的语音交互式装置，其特征在于，所述的鉴别模块还配置为：当拾取到的语音信号中包括多个来自于不同用户发出的语音内容时，且所述语音交互需求对应的用户均不具有权限时，选择任意一个语音交互需求对应的语音数据进行需求鉴别并确认交互内容需求。

6.根据权利要求1所述的语音交互式装置，其特征在于，该种语音交互式装置，还包括离线运行模块；

7.根据权利要求6所述的语音交互式装置，其特征在于，所述离线运行模块还配置为：在联网状态下，采集预设的时间段二内的若干个语音交互需求，所有的语音交互需求进行出现频次分析，获取出现频次大于n的至少一个语音交互需求，分析该至少一个语音交互需求对应的语音信号，将该语音信号、语音交互需求和下载后的交互内容进行绑定并存储于离线库中；在未联网状态下，当用户的语音信号对应的语音交互需求能够在所述离线库中被匹配到时，向所述交互模块发送提取和执行指令。

8.根据权利要求6或7所述的语音交互式装置，其特征在于，所述离心运行模块还配置为：当在未联网状态下，在所述交互模块执行的一个交互内容得到了用户的负反馈的次数达到预设阈值时，将该交互内容在离线库中进行删除。

9.一种语音交互式方法，适用于如权利要求1-8任意一项所述的语音交互式装置，其特征在于，该方法包括以下步骤：

10.一种电子设备，其特征在于，包括至少一个处理器和至少一个存储器，所述存储器与所述处理器信号连接，所述存储器上存储有能够被处理器执行的计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求9任意一项所述的语音交互式方法。

技术总结本申请公开了一种语音交互式装置、语音交互方法及电子设备，涉及智能交互技术领域。该语音交互装置包括拾音模块、识别模块、鉴别模块和交互模块。本申请公开的语音交互方法与该语音交互装置相对应，公开的电子设备与该语音交互方法相对应。采用本申请，通过识别模块对语音信号进行识别以确认语音交互需求，同时，在存在不同用户发出的语音内容时，通过对语音信号的聚类处置实现语音数据的精准识别，从而明确是否有语音交互需求，然后再根据该语音交互需求对应的语音数据中是否存在交互内容需求来明确后续交互模块的执行内容，解决了现有技术中无法为用户提供舒适的使用体验的问题。技术研发人员：张岸宏,李业纯,刘钰受保护的技术使用者：心镜之力健康科技（广州）有限公司技术研发日：技术公布日：2024/4/29