技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种AI设备的语音辅助方法与流程 > 正文

一种AI设备的语音辅助方法与流程

国知局
2024-06-21 11:32:39

本发明涉及及数字辅助，特别涉及一种ai设备的语音辅助方法。

背景技术：

1、目前，语音辅助技术主要以语音为主要输入方式，同时结合图像识别技术，例如面部表情和情绪的识别，以更全面地理解用户的需求和情感状态。这意味着语音辅助设备不仅仅通过语音输入，还通过分析用户的面部表情等多模态数据，以更加综合的方式与用户进行交互。这种整合的方法使得语音辅助系统能够更准确地预测用户的意图，并通过识别用户的情绪来更好地调整响应和服务，以提供更智能、个性化的用户体验。

技术实现思路

1、为了解决以上问题，本发明提供了一种ai设备的语音辅助方法。

2、为实现上述目的，本发明所采用的技术方案如下：

3、一种ai设备的语音辅助方法，包括如下步骤：

4、步骤1：实时采集用户的面部表情、手势多模态数据，同时采集语音输入，形成语音和图像的多模态数据流；

5、步骤2：将采集到的语音和图像数据进行融合，形成综合的用户输入；

6、步骤3：对用户的面部表情进行情感分析，识别用户的情绪状态，同时结合语音内容，分析用户的语音情感，推断用户的意图和需求；

7、步骤4：结合图像识别结果，根据用户的面部表情或手势进行上下文感知触发；

8、步骤5：在接收到用户请求后，通过语音和图像数据的综合分析，确认用户的意图；

9、步骤6：基于多模态数据的综合分析，动态调整唤醒频率。

10、进一步的：所述步骤1包括：

11、所述步骤1包括：

12、将采集到的图像数据与同时刻的语音数据进行时间同步；

13、对采集到的语音和图像数据进行实时的面部表情分析和手势检测，以获取用户的情感和动作信息；

14、将实时采集到的语音和图像数据存储在设备本地或通过安全的通信协议传输到云端；

15、将同步的语音和图像数据整合成一个多模态数据流。

16、进一步的：所述步骤2包括：

17、对语音数据和图像数据分别进行特征提取，对于语音数据，将其转化为文本或情感特征，对于图像数据，利用面部表情分析和手势检测提取相应的特征；

18、将从语音和图像数据中提取的特征进行融合；

19、基于融合后的特征，建立一个多模态的输入表示，包含语音和图像信息的向量，以便在后续的处理中进行综合分析；

20、对融合后的多模态表示进行标准化，确保不同类型的特征对后续模型的影响相对均衡；

21、将融合后的多模态表示作为准备输入，用于后续的情感识别、用户意图分析任务。

22、进一步的：所述步骤3包括：

23、对采集到的用户面部表情进行情感分析，对面部表情进行识别并推断用户的情感状态；

24、对从语音输入中提取的声音特征进行情感分析，以识别语音中的情感信息；

25、将面部表情分析和语音情感分析的结果进行融合；

26、基于综合分析的情感信息，推断用户的意图和需求；

27、将推断出的用户意图融入对话的上下文中，确保后续的对话能够更好地理解用户的需求。

28、进一步的：所述步骤4包括：

29、定义基于图像识别结果的触发条件，包括识别用户的面部表情或手势，作为触发语音辅助设备进入活跃状态的条件；

30、实时采集和分析捕获的图像数据，对用户的面部表情和手势进行实时分析。

31、将实时的图像识别结果与预定义的触发条件进行匹配，如果检测到用户的面部表情或手势符合设定的触发条件，即可触发语音辅助设备进入活跃状态；

32、在语音辅助设备的对话链中，将触发的事件与当前的对话上下文相关联。

33、根据用户的反馈和行为数据，动态更新触发条件。

34、进一步的：所述步骤5包括：

35、将获得的情感识别结果和用户意图分析的信息进行综合分析，以确认用户当前的意图和需求；

36、在确认用户意图的同时，动态更新对话上下文，包括记录先前的对话历史、用户的个性化偏好以及之前的触发条件；

37、通过综合分析结果进行最终的用户意图确认；

38、在用户提出请求后，通过语音和图像数据的综合分析，向用户提供反馈并收集用户的确认或纠正；

39、更新和维护对话的上下文信息，将确认的用户意图整合到对话链中，以便在后续对话中理解用户的需求。

40、进一步的：所述步骤6包括：

41、利用实时采集的图像数据，分析用户的互动状态；

42、根据图像识别的结果实时调整唤醒频率；

43、定义合理的频率调整策略，如果检测到用户表现出积极的面部表情和手势，增加唤醒频率以更及时地响应用户请求，反之，如果用户处于较为静态的状态，则降低唤醒频率以减少能源消耗；

44、在调整唤醒频率的同时，通过实时反馈机制向用户传达系统的状态；

45、考虑用户的个性化特征，适应不同用户的互动习惯，通过收集用户的反馈和行为数据，动态地调整唤醒频率调整模块的参数，以提高系统的个性化适应性。

46、本发明与现有技术相比，所取得的技术进步在于：

47、本发明引入了动态追踪模式切换和长时段追踪模式设置，使得语音辅助设备能够更灵活地根据用户行为和对话模式进行调整，解决了传统设备静态时间段和固定模式的限制，提高了设备的智能性。本发明采用多模态数据，结合语音和图像识别，能够更全面地理解用户的意图和情感状态，通过识别面部表情、手势等，实现更丰富的用户交互，提高对用户行为的感知能力。本发明引入上下文感知触发字，使得语音辅助设备能够更灵活地在对话中触发，并不仅仅依赖于静态的触发字，这样，用户可以更自然地与设备交流，无需频繁地说出触发字，提高了交互的自然度。本发明引入动态追踪模式，能够根据用户的对话频率和模式自动调整设备状态，避免了静态时间段内可能发生的用户请求被错过的问题。这提高了对话的连贯性和及时性。本发明解决了静态时间段的问题，将追踪模式的持续时间设置为动态的，可根据用户对话历史和频率进行调整，有助于更好地适应用户的对话模式，提高了设备的智能性和用户体验。

48、本发明通过机器学习算法对用户的习惯进行建模，预测可能的用户请求。这使得设备能够更好地准备接收请求，提高了系统的智能化水平，为用户提供更个性化的服务。本发明根据用户的对话模式和频率自适应调整唤醒频率，减少用户等待时间，这在特定时间段预测用户可能的请求，提前唤醒设备，有助于提高系统的响应速度，提升用户体验。本发明引入用户意图确认步骤，通过综合分析结果确认用户的真实意图，提高了系统对用户需求的准确理解，有助于更精准地满足用户的期望。

49、综上，本发明更好地结合语音与图像识别，实现了更智能、更自然、更人性化的用户体验，有效解决了现有技术中可能存在的一些交互和响应上的不足。

技术特征：

1.一种ai设备的语音辅助方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种ai设备的语音辅助方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的一种ai设备的语音辅助方法，其特征在于，所述步骤2包括：

4.根据权利要求3所述的一种ai设备的语音辅助方法，其特征在于，所述步骤3包括：

5.根据权利要求4所述的一种ai设备的语音辅助方法，其特征在于，所述步骤4包括：

6.根据权利要求5所述的一种ai设备的语音辅助方法，其特征在于，所述步骤5包括：

7.根据权利要求6所述的一种ai设备的语音辅助方法，其特征在于，所述步骤6包括：

技术总结本发明公开了一种AI设备的语音辅助方法，包括：步骤1：实时采集用户的面部表情、手势多模态数据，同时采集语音输入，形成语音和图像的多模态数据流；步骤2：将采集到的语音和图像数据进行融合，形成综合的用户输入；步骤3：对用户的面部表情进行情感分析，识别用户的情绪状态，同时结合语音内容，分析用户的语音情感，推断用户的意图和需求；步骤4：结合图像识别结果，根据用户的面部表情或手势进行上下文感知触发；步骤5：在接收到用户请求后，通过语音和图像数据的综合分析，确认用户的意图；步骤6：基于多模态数据的综合分析，动态调整唤醒频率。本发明更好地结合语音与图像识别，实现了更智能、更自然、更人性化的用户体验，有效解决了现有技术中可能存在的一些交互和响应上的不足。技术研发人员：恩旺,王鹏,王海峰,辛硕,吕欢欢受保护的技术使用者：北京建筑机械化研究院有限公司技术研发日：技术公布日：2024/3/5