技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于唇动语言识别的降噪处理方法及装置与流程 > 正文

基于唇动语言识别的降噪处理方法及装置与流程

国知局
2024-06-21 11:54:54

本发明属于语音交互，特别涉及一种基于唇动语言识别的降噪处理方法及装置。

背景技术：

1、在语音交互设备中，为了获得更好的拾音效果，一般在硬件上使用麦克风阵列并配合波束形成的软件算法，实现定向拾音，即实现对声音信号的降噪处理。其原理为：麦克风阵列中每个麦克风的位置不同，因此接收到语音信号的时间不同，选定一个麦克风作为参考麦克风，计算出目标声源到达参考麦克风的时间，然后计算其他通道（即麦克风阵列阵元）相对于此参考麦克风的时延，进行时间补偿以使各通道的语音信号同步，将各通道的信号相加，可以使目标方向的信号同相叠加得到增强，等效于阵列波束图的主瓣对准目标方向，其它方向相比于主瓣方向均有不同程度的削弱。从而实现对指定方向的语音信号进行增强，对其他方向的语音信号进行削弱，这就是麦克风阵列拾音的指向性。通过调整其他通道（即麦克风阵列阵元）相对于此参考麦克风的时延，可以调整麦克风阵列的指向性。

2、具体的，摄像头发现进入预设范围内的人之后，通过视觉定位确定人的第一位置，然后调整麦克风阵列的指向性，使得麦克风阵列波束的主瓣对准第一位置，实现对人声音信号的降噪处理，从而提升语音交互的效果。如果拍摄到同时进入预设范围内的人为多个时，相关技术中一般通过图像识别技术识别出其中存在唇动（即存在唇形张合状态）的人作为交互者，后续通过图像识别技术跟踪交互者的位置并仅对交互者的声音作为响应。

3、然而，在实际场景中，语音交换设备的摄像头会拍摄到多个人同时进入预设范围内并且多个人同时处于唇动状态，仅仅判断其中某个人是否存在唇形张合状态仍无法精确地确定交互者。举例而言，科技馆内的参观者a与参观者b、c三者聊天的同时均步入到了语音交互设备的预设范围内，并被语音交互设备的摄像头捕捉到三者同时出现的画面，由于语音交互设备上集成了chatgpt为代表的生成式人工智能程序，参观者a需要向参观者b和c进行展示生成式人工智能程序的功能，因此需要唤醒语音交互设备，于是a说出了唤醒词“你好，小万”，与此同时参观者b和c仍持续处于聊天状态，在该场景下，通过摄像头拍摄到的视频中的a、b、c三人都存在唇形张合状态，因此仅仅判断是否存在唇形张合状态仍无法精确地确定说出唤醒词的对象（即交互者）。

4、发明人研究发现，专利文献1（公开号为cn111179927a）披露了一种金融设备语音交互系统，该语音交互系统中集成了唇语识别模块，该系统提供的思路可以用于解决上述问技术题。具体的，文献1中在开启唇语识别后，采集的唇型通过与数据库进行分析对比，产生相应语言文本。将音频文本与唇语文本进行对比，判断音频文本是否为设备前面的人的语音。基于文献1的启发，可以结合唇语识别模块从摄像头拍摄到的视频中识别出a、b、c三人的唇语文本，然后与唤醒词进行对比，从而精确地确定说出唤醒词的对象（称为交互者），一旦确定说出唤醒词的对象就可以通过人脸识别技术绑定交互者，从而在后续的交互阶段中，使得语音交互系统可以只对交互者的声音进行响应。定义：上述确定说出唤醒词的对象并通过人脸识别技术绑定交互者的过程称之为唤醒阶段；而交互阶段则是在唤醒阶段之后，采集交互者的说话声音信号、将声音信号转换为文本并将文本输入到生成式人工智能程序以及通过语音播放的形式向交互者展示上述人工智能程序生成的答案的过程。另一方面，唇语识别除了应用在唤醒阶段确定说出唤醒词对应的交互者；在交互阶段，如果存在干扰较大的噪声时，也可以使用唇语识别模块来获取交互者说话时唇语所对应的文本，从而将该文本输入到生成式人工智能程序中，以排除噪声对交互过程拾音造成的干扰，即通过唇语识别进行语音输入的降噪。

5、经研究发现，在集成唇语识别模块的语音交互系统中，存在以下技术困难：要提升通过唇语识别进行语音输入降噪的效果就需要提升唇语识别的准确率，而提升唇语识别准确率一般的优化方式是不断提升唇语识别算法复杂度，例如选择更复杂的网络结构来学习更广泛类型话题的训练数据、增加网络深度和宽度等，但是算法复杂度提升之后，由于模型结构更复杂、模型参数更多等原因，会导致唇语识别的速度变慢。而在结合唇语识别从多人同时说话场景中确定出交互者的任务中，用户的需求是加快确定出交互者的速度，即需要唇语识别的速度变得更快。可见，语音交互系统中提升唇语识别准确率和加快确定出交互者的速度两个优化方向是存在矛盾的。

技术实现思路

1、本发明的目的在于至少解决上述问题之一，提供一种基于唇动语言识别的降噪处理方法及装置，能够在允许优化唇语识别算法准确率的情况下，同时加快结合唇语识别从多人同时说话场景中确定出交互者的速度。

2、为了实现上述发明目的，本发明提供一种基于唇动语言识别的降噪处理方法，应用于语音交互设备，所述语音交互设备包括视觉系统和麦克风阵列，所述方法包括：

3、持续通过视觉系统和麦克风阵列共同采集音视频数据；

4、从音视频数据中检测到语音唤醒信号时，基于声源定位算法确定所述语音唤醒信号的声源所在的第一位置；所述语音唤醒信号对应第一文本；

5、检测到音视频数据对应的图像序列中，在第一位置预设范围内的区域存在两个以上唇动者时，利用第一唇语识别算法识别出各不同唇动者的唇语对应的第二文本；其中，所述第一唇语识别算法为二分类的唇语识别算法；所述二分类的唇语识别算法为将包含唇语的图像序列分类成两个预定义类别的算法；

6、将各不同唇动者的唇语对应的第二文本和语音唤醒信号对应的第一文本进行对比，将对比结果为相对应的唇动者确定为交互者；

7、基于视觉系统实时跟踪定位交互者所在的第二位置，并基于所述第二位置实时调整麦克风阵列的指向性，以使得所述麦克风阵列波束响应的主瓣指向第二位置；

8、对麦克风阵列采集到的交互者的语音信号进行语言识别，以便实现语音交互。

9、另一方面，一种基于唇动语言识别的降噪处理装置，所述装置包括麦克风阵列、视觉系统、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述方法的步骤。

10、相较于现有技术，本发明至少具有优先的有益效果：

11、相较于现有技术中在唤醒阶段也使用常规的能够识别各种唇语的唇语识别算法来帮助识别出多个唇动者中的交互者，而造成语音交互设备中集成的常规的能够识别各种唇语的唇语识别算法在提升识别准确率和从多人同时说话场景中确定出交互者的任务中，加快确定出交互者的速度二者在优化方向上存在矛盾的问题。通过将两种唇语识别算法集成在语音交互设备上并限定二者分别在不同阶段使用，能够允许通过增加第二唇语识别算法的复杂度来优化第二唇语识别算法的准确率，从而在交互阶段当噪声过大时，通过第二唇语识别算法来获取交互者说话时唇语所对应的文本，从而将该文本输入到生成式人工智能程序中，以排除噪声对交互过程拾音造成的干扰，即通过唇语识别进行语音输入的降噪。同时，由于第一唇语识别算法为复杂度更加低的二分类算法，能够在计算机性能不高的语音交互设备本地更快的进行唇语识别，加快结合唇语识别从多人同时说话场景中确定出交互者的速度。