用于车辆的语音交互方法及系统与流程

2021-06-08 11:46:00 来源：中国专利 TAG：语音交互用于车辆智能

1.本发明涉及智能语音领域，尤其涉及一种用于车辆的语音交互方法及系统。

背景技术：

2.口型辅助语音识别技术，是通过口型图像识别和语音识别相结合的方法。先进行语音识别判断，再进行口型识别判断从而降低语音唤醒的误触率。这对于汽车中的语音识别有着很大的帮助。
3.在实现本发明过程中，发明人发现相关技术中至少存在如下问题：
4.现有技术仅是通过图像识别检测口型是否变化来拒识语音信号，也就是说仅看口型是张还是合，例如伴有声音的同时检测到用户此时口型是张嘴状态，或者闭嘴状态，通过口型辅助判断识别，而没有利用口型识别数据增强语音唤醒模型，并且缺少全车声源定位的能力，无法对全车语音信号进行定向增强、反向移植抑制，并分离出不同位置的声音信号。同时采用语音的前端信号处理方法，通过提高信号的信噪比来提升语音唤醒效果。本行业从业人员主要是从前端信号方面提升语音唤醒效果，但单从前端信号处理方面入手很难提升在极低信噪比的情况下语音识别效果。

技术实现要素：

5.为了至少解决现有技术中没有通过视觉识别、前端信号处理、语音识别相结合的多模态方法提升语音识别效果的问题。
6.第一方面，本发明实施例提供一种用于车辆的语音交互方法，包括：
7.采集来自车辆内每个座位的声音信息和视频信息；
8.对所述声音信息进行语音识别，并基于所述语音识别结果对所述声音信息进行第一打分；
9.基于所述语音识别结果对应的基准口型的视频图像，对所述视频信息中的乘客的口型进行第二打分；
10.对所述第一打分结果和所述第二打分结果进行综合判断，确定是否进行语音交互。
11.第二方面，本发明实施例提供一种用于车辆的语音交互系统，包括：
12.信息采集程序模块，用于采集来自车辆内每个座位的声音信息和视频信息；
13.声音打分程序模块，用于对所述声音信息进行语音识别，并基于所述语音识别结果对所述声音信息进行第一打分；
14.视频图像打分程序模块，用于基于所述语音识别结果对应的基准口型的视频图像，对所述视频信息中的乘客的口型进行第二打分；
15.判断程序模块，用于对所述第一打分结果和所述第二打分结果进行综合判断，确定是否进行语音交互。
16.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处
理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于车辆的语音交互方法的步骤。
17.第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于车辆的语音交互方法的步骤。
18.本发明实施例的有益效果在于：利用图像识别算法对每个座位用户的口型进行实时检测识别。通过口型与声音的多重因素判断是否进行语音交互，提升全车内语音识别效果和交互准确率，并且考虑到车内的多种会影响声音信号和视频信号的音素进行“弹性”处理。从而进一步提升语音识别效果。通过全车分布式麦克陈列、车内摄像头采集全车每个座位的声音信号和图像信号。通过多音区前端信号处理算法对全车各个位置的语音信号进行分离，并通过定向增强和反向抑制获取每个座位增强后干净音频。
附图说明
19.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1是本发明一实施例提供的一种用于车辆的语音交互方法的流程图；
21.图2是本发明一实施例提供的一种用于车辆的语音交互方法的整体流程结构图；
22.图3是本发明一实施例提供的一种用于车辆的语音交互系统的结构示意图。
具体实施方式
23.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.如图1所示为本发明一实施例提供的一种用于车辆的语音交互方法的流程图，包括如下步骤：
25.s11：采集来自车辆内每个座位的声音信息和视频信息；
26.s12：对所述声音信息进行语音识别，并基于所述语音识别结果对所述声音信息进行第一打分；
27.s13：基于所述语音识别结果对应的基准口型的视频图像，对所述视频信息中的乘客的口型进行第二打分；
28.s14：对所述第一打分结果和所述第二打分结果进行综合判断，确定是否进行语音交互。
29.在本实施方式中，本方法可以适配在各种类型的车辆中，例如两个座位、四个座位、六个座位的车辆，同时，对于不同的车内空间也不做限定，例如，最常见的所有座位都在一个车辆空间内，又或者司机具有单独的车辆空间，其他乘客在另一个车辆空间内。对于上述不同种类的车型，在适配时，仅需要车辆空间内具有相应的麦克风和摄像头即可。
30.对于步骤s11，在使用时，由于要实时响应用户的对话，需要实时采集来自车辆内每个作为的声音信息和视频信息，对于每个座位的视频信息，可以在每个座位的前端，例如座位的后靠背、或者中央后视镜分别进行安装，这样每个摄像头可以获得每个座位的视频信息。也可以根据确定好的车型选定一个特殊的位置，可以将所有座位上的视频信息都采集到，再从视频中提取每个座位对应的部分视频信息。声音信息可以通过配置在车辆内的麦克风获得。麦克风的选择有多种，可以在每个座位安装麦克风，也可以在车辆中间安装一个麦克风，然后通过划分不同的收音区域，得到不同区域的音频。
31.以一个车辆内有四个座位，这四个座位上分别坐有人。在采集中，可以分别得到这四个人的声音信息和视频信息。
32.对于步骤s12，四个人分别有四段不同的视频信息和音频信息，以一名用户为例，对该名用户的声音信息进行语音识别，例如，该名用户说的是“小驰”(为唤醒词)。识别后有语音识别结果“小驰”，也有用户声音信息“小驰”的语音。从而对声音信息进行第一打分，可以判断用户说的语音与对应的词语的相似得分，例如有0.736分。
33.对于步骤s13，以步骤s12中“小驰”语音继续为例，由于已经确定用户的声音信息是“小驰”，在图像的判断中，查找预设在车辆内“小驰”的基准口型的视频图像(在具体实施中，车辆内可以预先内置好大量的基准口型视频图像，不单单是唤醒词，语音指令都可以。这需要我们事先进行大量的采集工作，确保用户可能会说的口型提前内置好，并且还可以根据后续的更新进行补充。)，通过基准口型的视频图像对该名用户的视频信息中进行口型第二打分，可以判断用户在诉说语音时的口型与“小驰”的基础口型的口型得分，例如0.648。
34.对于步骤s14，已经在步骤s12、s13中确定声音得分和口型得分来进行综合判断，基于判断结果确定是否需要进行语音交互。
35.通过该实施方式可以看出，利用图像识别算法对每个座位用户的口型进行实时检测识别。通过口型与声音的多重因素判断是否进行语音交互，提升全车内语音识别效果和交互准确率。
36.作为一种实施方式，在本实施例中，所述对所述第一打分结果和所述第二打分结果进行综合判断包括：
37.当所述第一打分结果超过第一预设阈值，且第二打分结果超过第二预设阈值时，执行所述语音识别结果对应的语音动作；
38.当所述第一打分结果没有超过第一预设阈值，且第二打分结果没有超过第二预设阈值时，拒绝所述语音识别结果对应的语音动作。
39.当所述第一打分结果超过第一预设阈值，第二打分结果没有超过第二预设阈值，或第一打分结果没有超过第一预设阈值，第二打分结果超过第二预设阈值时，进行二次验证；
40.在二次验证中，当所述第一打分结果超过第一预设阈值，第二打分结果没有超过第二预设阈值时，若所述第二打分结果与所述第二预设阈值的误差没有超过预设口型误差时，执行所述语音识别结果对应的语音动作，反之，拒绝所述语音动作；
41.当所述第一打分结果没有超过第一预设阈值，所述第二打分结果超过第二预设阈值时，若所述第一打分结果与所述第一预设阈值的误差没有超过预设语音误差时，执行所
述语音识别结果对应的语音动作，反之，拒绝所述语音动作。
42.在本实施方式中，根据声音得分(第一得分)和口型得分(第二)进行综合判断，以第一预设阈值和第二预设阈值都为0.6分为例，进行判断。通过比较，可以判断出，声音得分和口型得分都超过了各自对应的预设阈值，因此，可以执行语音识别结果对应的语音动作，对用户说出的“小驰”进行唤醒响应。
43.又例如，假设声音得分为0.564分，口型得分为0.473分。以第一预设阈值和第二预设阈值都为0.6分为例，综合判断后，声音得分和口型得分都没有超过了各自对应的预设阈值。拒绝所述语音识别结果对应的语音动作，不进行相应。
44.还有一种特殊的情况，例如，车辆在行驶中会有哄哄哄的杂音，至使声音信息的得分有一定的影响。例如，声音得分为0.536，口型得分为0.731。对于这种口型非常正确，但是声音得分稍差一些的，会给予一定的弹性，例如预设语音误差设置为0.1，声音得分的误差为0.6
‑
0.536＝0.064分，小于预设的0.1。从而执行所述语音识别结果对应的语音动作，这样避免了由于车辆行驶中的杂音，或者声音采集时的其他情况，至使声音得分受到影响的问题。
45.同样的还有另外的一种情，例如，由于车辆行驶的抖动，颠簸，又或者车内的灯光等多种音素，使得采集的视频信息收到了影响。例如，声音的得分为0.862，口型得分为0.514.对于这种，声音得分相对正确，但是口型得分稍差一些的，同样会给予一定的弹性，例如预设口型误差设置为0.1，口型得分的误差为0.6
‑
0.514＝0.086分，小于预设的0.1。从而执行所述语音识别结果对应的语音动作，这样避免了由于车辆行驶中的抖动颠簸或者灯光等问题，至使图像得分受到影响的问题。
46.通过该实施方式可以看出，通过图像识别算法对每个座位用户的口型进行实时检测识别。图像识别和语音识别实时输出当前的识别结果。当两个识别结果一致时且执行度较高，进行语音响应；当两个识别结果执行度都较低时，拒绝响应；当图像识别打分高语音识别打分较低时，进行二次判定再执行对应动作，并且考虑到车内的多种会影响声音信号和视频信号的音素进行“弹性”处理。从而进一步提升语音识别效果。
47.作为一种实施方式，在本实施例中，所述采集来自车辆内每个座位的声音信息和视频信息包括：
48.通过车辆内分布式麦克风阵列采集每个座位的声音信息；
49.通过摄像头采集每个座位的视频信息。
50.通过分布式麦克风阵列对所述声音信息进行语音前端信号处理，消除所述声音信息中的背景系统音，得到纯净音频；
51.对所述纯净音频进行波束形成，得到每个座位的增强音频，用于增强所述纯净音频中的人声。
52.语音交互包括：唤醒词交互、车内操作指令交互。
53.在本实施方式中，如图2所示，全车的分布式麦克风阵列和车内摄像头对全车每个座位的声音信号和图像信号进行采集。当语音信号和视频信号有任何一方没有检测到人员特征就重新开始采集。
54.对于音频信号，通过分布式麦克风阵列和全车语音前端信号处理算法，先进行回声消除对背景系统音频进行过滤得到有效的人声音频。从而降低设备发生的干扰。之后再
进行波束形成，对各个位置座位的音频进行定向增强。从而回去当前座位的增强人声，为后续提供识别率做准备。然后，通过盲源分离算法获取各个位置的音频。使位置图像和位置音频有一一对应的关系。为后续两个识别的综合打分做准备。最后进行噪声抑制，从而获取每个座位的干净音频。剔除干扰人声，提高当前位置的语音信噪比，为后续更准确的语音打分做基础。
55.在音频信号检测到唤醒词时，每一路的唤醒音频进行对唤醒词进行打分。同时，对于视频信号，实时对每个座位的口型图像进行唤醒词打分。视频图像信号的打分判断，可以大大降低语音误唤醒的问题。当视频信号和图像信号都输出了打分结果后，进行综合打分处理。当语音打分和图像打分都超过阈值时，执行语音动作，当语音打分和图像打分都为超过阈值时，拒绝语音动作。当任何一种识别打分超过阈值，另外一种识别没有超过阈值时，如未到达阈值的识别和合格阈值偏差≤0.1时，则响应语音动作，例如响应用户的唤醒，又或者说根据用户说出的车辆的操作指令进行语音交互。如未到达阈值的识别和合格阈值偏差＞0.1时，则拒绝语音动作。通过相互认证，可以提供在嘈杂环境下的语音识别率，并降低该环境的误识别率。
56.通过该实施方式可以看出，通过全车分布式麦克陈列、车内摄像头采集全车每个座位的声音信号和图像信号。通过多音区前端信号处理算法对全车各个位置的语音信号进行分离，并通过定向增强和反向抑制获取每个座位增强后干净音频。
57.如图3所示为本发明一实施例提供的一种用于车辆的语音交互系统的结构示意图，该系统可执行上述任意实施例所述的用于车辆的语音交互方法，并配置在终端中。
58.本实施例提供的一种用于车辆的语音交互系统10包括：信息采集程序模块11，声音打分程序模块12，视频图像打分程序模块13和判断程序模块14。
59.其中，信息采集程序模块11用于采集来自车辆内每个座位的声音信息和视频信息；声音打分程序模块12用于对所述声音信息进行语音识别，并基于所述语音识别结果对所述声音信息进行第一打分；视频图像打分程序模块13用于基于所述语音识别结果对应的基准口型的视频图像，对所述视频信息中的乘客的口型进行第二打分；判断程序模块14用于对所述第一打分结果和所述第二打分结果进行综合判断，确定是否进行语音交互。
60.进一步地，所述判断程序模块包括：
61.当所述第一打分结果超过第一预设阈值，且第二打分结果超过第二预设阈值时，执行所述语音识别结果对应的语音动作；
62.当所述第一打分结果没有超过第一预设阈值，且第二打分结果没有超过第二预设阈值时，拒绝所述语音识别结果对应的语音动作。
63.本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于车辆的语音交互方法；
64.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
65.采集来自车辆内每个座位的声音信息和视频信息；
66.对所述声音信息进行语音识别，并基于所述语音识别结果对所述声音信息进行第一打分；
67.基于所述语音识别结果对应的基准口型的视频图像，对所述视频信息中的乘客的口型进行第二打分；
68.对所述第一打分结果和所述第二打分结果进行综合判断，确定是否进行语音交互。
69.作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于车辆的语音交互方法。
70.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
71.本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于车辆的语音交互方法的步骤。
72.本申请实施例的电子设备以多种形式存在，包括但不限于：
73.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
74.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。
75.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
76.(4)其他具有数据处理功能的电子装置。
77.在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
78.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
79.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可
借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
80.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于无线通信语音交互系统的智能眼镜的制作方法

用于车辆的语音交互方法及系统与流程

相关文章

最热文献