技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于机器学习的智能语音交互误唤醒系统及方法与流程  >  正文

基于机器学习的智能语音交互误唤醒系统及方法与流程

  • 国知局
  • 2024-06-21 11:33:52

本发明涉及智能语音交互,具体为基于机器学习的智能语音交互误唤醒系统及方法。

背景技术:

1、智能语音交互是一种通过语音与计算机或其他设备进行交互的技术,它使用语音识别将用户的语音转换为文本,然后使用自然语言处理技术将文本进行理解和分析,最后通过语音合成将计算机的回应转换为语音输出,智能语音交互的目标是使人与计算机之间的交互更加自然和便捷,通过语音指令,用户可以向设备提出问题、发送命令、获取信息或执行各种任务,而无需通过键盘、鼠标或触摸屏进行操作,这使得智能语音交互在各种场景中广泛应用,如智能音箱、语音助手、智能家居以及车载系统。

2、现有申请公布号为cn115798473a的中国发明申请中,公开了一种语音交互的智能语音设备防误唤醒方法、系统及设备,应用于至少两台智能语音设备对应用户的视频语音交互上,每台智能语音设备上设置有用于识别的识别特征,该方法通过智能语音设备自身的识别特征与接收到唤醒指令中提取的唤醒识别特征进行对比,只有唤醒识别特征与智能语音设备的识别特征一致时,该智能语音设备才能根据唤醒指令执行相应的操作。

3、在以上发明申请中,使用到至少两台智能语音设备,需要对获取到的识别特征进行对比才能进行后续唤醒相关操作,然而在实际运用时持续使用两台智能语音设备的耗能量较多,对于获取到的识别特征相关参数较少,造成两台智能语音设备提取到的特征会存在一些不可避免的误差,该部分误差则会影响对于识别特征一致性的判断,使得用户即是正确说出唤醒口令的前提下,由于外界因素或是自身原因,会导致设备无法成功唤醒的情况出现。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了基于机器学习的智能语音交互误唤醒系统及方法,在唤醒词准确度评估值pgz可用的前提下,对口型动态数据与数据库一致语音数据进行执行,利用语音和视频图像结合判断,避免误唤醒的情况发生,若是遇到无法检测到用户口型的场景下,则可通过智能设备之间的联动,利用至少两组语音采集单元获取同一环境下,可用的唤醒词准确度评估值pgz,分析两组唤醒词准确度评估值pgz的误差绝对值,在误差范围内即可判断出唤醒口令是否准确,可准确的完成唤醒操作,解决了背景技术中提出的问题。

3、(二)技术方案

4、为实现以上目的,本发明通过以下技术方案予以实现:

5、基于机器学习的智能语音交互误唤醒系统,该系统应用到至少两个智能语音设备和一个智能监控设备,本技术中具体使用到结构、功能相同的第一智能语音设备和第二智能语音设备,且两个智能语音设备处于同一工作环境下,该系统包括特征采集模块、验证比对模块以及执行输出模块;

6、其中,所述特征采集模块包括第一语音采集单元、第二语音采集单元以及口型采集单元,第一语音采集单元和第二语音采集单元均用于采集语音数据,并获取唤醒词准确度评估值pgz,所述口型采集单元用于对人体脸部进行动态图像捕捉,并提取口型动态数据;

7、所述验证比对模块用于对唤醒词准确度评估值pgz及口型动态数据做综合评估;

8、所述执行输出模块根据综合评估的结果来选择是否唤醒智能语音设备。

9、进一步的,所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备,且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元。

10、其中,所述预处理子单元用于对采集到的语音数据进行标记,标记出唤醒词在每个语音片段中的位置,记录其他噪音数据,并完成噪音抑制,在对噪音抑制时利用到了频域滤波法,尽量减小杂音对语音信号的影响,提高语音信号清晰度;

11、所述分析子单元用于提取语音特征,建立模型训练并完成评估;

12、其中,分析子单元的具体步骤为:

13、s1、特征提取:针对语音片段中的标记位置,提取语音特征,该语音特征包括:频率p、频域能量n以及频域过零率l;

14、需要说明的是,频率p:声音的频率是指声波振动的频率,通常以赫兹为单位,不同频率的声波会产生不同的音调,频率可以通过音频信号的频谱分析来获取;快速傅里叶变换(fft):将时域信号转换为频域信号,得到频谱,通过fft算法,可以将连续时间的信号转换为离散频谱;频域能量n:将音频信号通过fft算法变换到频域,计算每个频率分量的幅值的平方作为频域能量;频域过零率l:将音频信号通过fft算法变换到频域,计算相邻频率分量之间过零点的个数作为频域过零率;

15、在实际应用中,也可以使用音频处理库或软件工具,如librosa、matlab、python的scipy,来计算声音的频率p、频域能量n以及频域过零率l。

16、s2、模型训练:使用深度学习的神经网络,对提取到的语音特征进行训练,建立语音识别模型,训练过程在此不多做赘述;

17、s3、在语音识别模型中对获取到的频率p、频域能量n以及频域过零率l进行无量纲处理后,关联获取唤醒词准确度评估值pgz;

18、方式如下:

19、

20、式中,k1、k2、k3分别为频率p、频域能量n以及频域过零率l的预设比例系数,且k1、k2、k3均大于0,g为常数修正系数;

21、若是唤醒词准确度评估值pgz<设置的标准阈值,则判定采集到的语音数据可用;

22、若是唤醒词准确度评估值pgz≥设置的标准阈值,则判定采集到的语音数据不可用,需要重新进行语音数据采集处理。

23、具体的,将训练好的语音识别模型应用到实际场景中,通过输入语音数据,利用模型进行语音识别并输出相应的文本结果,该结果即获取唤醒词准确度评估值pgz,并判定集到的语音数据可不可用。

24、进一步的,所述口型采集单元的使用步骤如下:

25、s101、设备设置:选取深度摄像头作为智能监控设备,并将其固定安装于适当位置,以确保深度摄像头能够清晰地捕捉到人体脸部动态图像;

26、s102、脸部检测和跟踪:使用人脸识别算法,从深度摄像头拍摄的视频中检测和识别出人脸区域,使用人脸跟踪算法跟踪人脸区域的位置和姿态;其中人脸跟踪算法使用的是meanshift算法,该算法的原理为:根据上一帧目标的直方图及当前帧所得的图像来更新当前帧人脸位置,适用于本技术中进行单目标跟踪,能够确保跟踪结果的稳定性和准确性。

27、s103、口型提取:在脸部图像中,通过关键点检测法定位嘴唇区域的关键点,根据关键点的位置和运动,提取口型动态数据;需要说明的是:这些关键点可以用于描述嘴唇的形状和位置,在提取口型动态数据时使用到的常见方法至少包括:计算嘴唇区域的形状变化、距离变化以及角度变化。

28、进一步的,所述口型采集单元还包括判定子单元,若是能够提取到口型动态数据时,则进入验证比对模块完成下一步操作,若是无法提取到口型动态数据时,则触发提醒指令,并将该指令通过智能监控设备内置的蓝牙模块发送至另一智能语音设备,该设备则开启第二语音采集单元。

29、进一步的,所述验证比对模块包括数据库对比单元和评估值比对单元;

30、需要说明的是,数据库中提前录入了准确的口型动态数据,用于与实际获取到的口型动态数据完成对比工作。

31、其中,所述数据库对比单元用于将检测到的口型动态数据与数据库进行比对,并作为第一语音采集单元的验证节点;

32、若是口型动态数据与数据库中录入的数据一致,则表示通过,若是口型动态数据与数据库中录入的数据不一致,则表示不通过;

33、所述评估值比对单元用于对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值pgz;

34、将第一语音采集单元获取到的可用的唤醒词准确度评估值pgz记为pgz1,

35、将第二语音采集单元获取到的可用的唤醒词准确度评估值pgz记为pgz2;

36、误差绝对值的获取方式如下:

37、误差绝对值=∣pgz1-pgz2∣;

38、若是误差绝对值<1,则表示通过,若是误差绝对值≥1,则表示不通过。

39、进一步的,所述执行输出模块用于获取验证比对模块的结果,若是通过,则执行第一策略,若是不通过,则执行第二策略;

40、其中,第一策略为对应的智能语音设备做出响应,被成功唤醒,并根据语音提示,执行后续操作,第二策略为对应的智能语音设备不做出响应,无法被唤醒,可重行执行数据采集的操作。

41、一种基于机器学习的智能语音交互误唤醒方法,包括如下步骤:

42、步骤一、通过第一语音采集单元采集语音数据,根据获取的唤醒词准确度评估值pgz来选取可用的语音数据,同步使用口型采集单元,完成对人体脸部进行动态图像捕捉,并提取口型动态数据;

43、步骤二、在提取口型动态数据时使用到智能监控设备,在智能监控设备能够拍摄到用户的场景下,则将口型动态数据发送至数据库中进行对比,若口型一致,则完成验证,智能语音设备被成功唤醒,并根据语音提示,执行后续操作;

44、若口型不一致,则智能语音设备不做出响应,无法被唤醒;

45、步骤三、在智能监控设备无法拍摄到用户的场景下,则触发提醒指令,并将该指令发送给第二语音采集单元,使用第二智能语音设备再次执行步骤一中关于第一语音采集单元的操作;

46、步骤四、对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值pgz,并判断两个唤醒词准确度评估值pgz之间的误差绝对值是否小于1,若是,则智能语音设备做出响应,被成功唤醒,若不是,则智能语音设备内的语音采集单元重复执行数据采集的操作,直至智能语音设备被唤醒。

47、(三)有益效果

48、本发明提供了基于机器学习的智能语音交互误唤醒系统及方法,具备以下有益效果:

49、将口型动态和语音数据相结合,通过语音采集单元对唤醒词准确度进行初步评估后,获取可用的唤醒词准确度评估值pgz,结合口型采集单元完成对用户发出唤醒口令的口型动态进行捕捉,在唤醒词准确度评估值pgz可用的前提下,对口型动态数据与数据库一致语音数据进行执行,利用语音和视频图像结合判断,可精准实现对智能语音设备的唤醒工作;

50、若是遇到无法检测到用户口型的场景下,则可通过智能设备之间的联动,利用至少两组语音采集单元获取同一环境下,可用的唤醒词准确度评估值pgz,分析两组唤醒词准确度评估值pgz的误差绝对值,在误差范围内即可判断出唤醒口令是否准确,可准确的完成唤醒操作,在能够检测到用户口型的场景下,则只是使用单个智能语音设备和智能监控设备进行配合工作,达到节省电能的目的,也能够避免误唤醒的情况发生。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22270.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。