技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种人机交互判定方法及装置与流程 > 正文

一种人机交互判定方法及装置与流程

国知局
2024-06-21 11:53:36

本申请涉及车载智能对话，尤其涉及一种人机交互判定方法及装置。

背景技术：

1、随着现代汽车智能化水平不断提升，车载语音交互系统已经成为提升驾驶安全与用户体验的重要组成部分。而实现准确区分用户是在进行人人交互还是与车机进行人机交互一直是业界亟待解决的关键技术难题。

2、目前，车载语音交互系统对于区分交互场景是人人交互还是人机交互主要依赖自动语音识别（automatic speech recognition, asr）技术和自然语言处理（naturallanguageprocessing, nlp）技术相结合的方式，即通过将音频信息转换为文本信息，再基于文本信息的语义和上下文关系分析来判断交互场景。但asr技术容易因噪声干扰、口音差异等因素导致转换得到的文本信息出现误差，且转换本文信息会造成音频中存在的情绪、语气等非文本信息丢失，这样会影响后续nlp技术的判断，从而降低对交互场景的识别精确性。

技术实现思路

1、鉴于上述问题，本申请提供一种人机交互判定方法及装置，主要目的是提高对交互场景是人人交互还是人机交互的识别准确性。

2、为解决上述技术问题，本申请提出以下方案：

3、第一方面，本申请提供了一种人机交互判定方法，所述方法包括：

4、获取目标音频对的音频特征，所述目标音频对包括两段不同且均为指定长度的特定音频；

5、将所述音频特征分别输入多个对应不同识别维度的子任务模型中，得到每个所述子任务模型对应的维度特征结果；

6、将多个所述维度特征结果堆叠并输入至主任务模型中，得到所述主任务模型对应的综合判定结果，所述综合判定结果用于表征所述目标音频对的交互场景是否为人机交互。

7、第二方面，本申请提供了一种人机交互判定装置，所述装置包括：

8、获取单元，用于获取目标音频对的音频特征，所述目标音频对包括两段不同且均为指定长度的特定音频；

9、第一处理单元，用于将所述获取单元的所述音频特征分别输入多个对应不同识别维度的子任务模型中，得到每个所述子任务模型对应的维度特征结果；

10、第二处理单元，用于将所述第一处理单元的多个所述维度特征结果堆叠并输入至主任务模型中，得到所述主任务模型对应的综合判定结果，所述综合判定结果用于表征所述目标音频对的交互场景是否为人机交互。

11、为了实现上述目的，根据本申请的第三方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述第一方面的人机交互判定方法。

12、为了实现上述目的，根据本申请的第四方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述第一方面的人机交互判定方法。

13、借由上述技术方案，本申请提供的一种人机交互判定方法及装置，是在需要对人机交互进行判定时，先获取目标音频对的音频特征，目标音频对包括两段不同且均为指定长度的特定音频，再将音频特征分别输入多个对应不同识别维度的子任务模型中，得到每个子任务模型对应的维度特征结果，最后将多个维度特征结果堆叠并输入至主任务模型中，得到主任务模型对应的综合判定结果，即得到目标音频对的交互场景是否为人机交互。通过本申请提供的技术方案，通过多个识别维度的子任务模型直接对音频特征对进行处理，得到每个识别维度的维度特征，接着将多个维度特征堆叠得到多维特征并通过主任务模型对多维特征进行处理，得到音频特征对的交互场景是否为人机交互的判定结果，即无需通过asr技术转换文本，而是直接对目标音频对进行多维度特征分析，更加全面地捕捉和利用音频信息，弥补了传统asr技术在转换文本时丢失的非文本信息，从而提高了识别人机交互与人人交互的准确性，进而提升了驾驶安全性和用户体验。

14、上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

技术特征：

1.一种人机交互判定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取目标音频对的音频特征，包括：

3.根据权利要求2所述的方法，其特征在于，在获取目标音频对的音频特征之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，将每个所述维度特征结果堆叠并输入至主任务模型中，得到所述主任务模型对应的综合判定结果，包括：

5.根据权利要求4所述的方法，其特征在于，在将每个所述维度特征结果堆叠并输入至主任务模型中，得到所述主任务模型对应的综合判定结果之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，按照预设权重更新规则对所述权重分配函数进行更新，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，

8.一种人机交互判定装置，其特征在于，所述装置包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1至权利要求7中任意一项所述的人机交互判定方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1至权利要求7中任意一项所述的人机交互判定方法。

技术总结本申请公开了一种人机交互判定方法及装置，涉及车载智能对话技术领域，主要目的在于提高对交互环境是人人交互还是人机交互的识别准确性。本申请主要的技术方案为：获取目标音频对的音频特征，所述目标音频对包括两段不同且均为指定长度的特定音频；将所述音频特征分别输入多个对应不同识别维度的子任务模型中，得到每个所述子任务模型对应的维度特征结果；将多个所述维度特征结果堆叠并输入至主任务模型中，得到所述主任务模型对应的综合判定结果，所述综合判定结果用于表征所述目标音频对的交互场景是否为人机交互。本申请用于人机交互的判定。技术研发人员：陆晨昱受保护的技术使用者：合众新能源汽车股份有限公司技术研发日：技术公布日：2024/5/27