技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于舌部超声和唇部视频视觉融合的语音识别方法及系统 > 正文

基于舌部超声和唇部视频视觉融合的语音识别方法及系统

国知局
2024-06-21 11:31:01

本发明属于语音识别，涉及基于发声器官运动的语音识别技术，具体涉及一种基于舌部超声和唇部视频视觉融合的语音识别方法及其系统，可应用于基于发声器官运动的语音识别和无声语音识别领域。

背景技术：

1、根据人体的发声机制，语音是由舌头、嘴唇、下巴、声带和其他语音器官的快速运动产生的，涉及到多种器官的协调配合。因此，研究者们发现除了使用音频数据进行语音识别外，还可以通过说话人发声时的器官运动来进行语音识别。根据人类语音产生的原理，嘴唇的形状和位置对声带振动产生的音调有着显著的影响，尤其是元音音调。此外，尽管舌部通常无法完全被看到，但它承载着语音生成的重要部分，并为唇部的视觉发音信息提供了补充。舌头作为口腔内非常灵活的肌肉，在口腔伸缩或移动时也能影响不同音素的产生。

2、因此，在进行基于发声器官的语音识别时将舌部和唇部运动整合起来可以更好地表征发声器官的运动，从而通过提供额外的器官运动信息来提升识别的准确性。在实际应用过程中，有许多采集方式可以用来捕获说话人发声时的发声器官运动，例如电磁发音技术(ema)、视频成像、超声成像、核磁共振成像等技术。其中，超声成像技术和视频成像技术具有许多优点，例如非侵入性、便携性、成本低。因此，许多研究者考虑结合使用超声成像技术捕获的说话人舌部运动和视频成像技术捕获的说话人唇部运动。

3、然而，现有的唇部特征和舌部超声特征融合方法还比较单一，仅仅是将从舌部超声视频和唇部视频中提取的视觉特征进行拼接。这种方法仍然难以较准确地表达人发声时声学器官的运动，因其忽视了发音器官之间的视觉关联，使得语音识别的准确性不高。

技术实现思路

1、为了克服上述现有技术的不足，本发明针对基于发声器官运动的语音识别任务，设计了一种基于舌部超声和唇部运动视觉融合的语音识别方法及系统，考虑了说话人唇部运动视频和舌部运动视频之间的视觉特征的关联性，采用视觉特征融合的方式融合唇部运动视频和舌部运动视频两种视觉特征信息，从而提高语音识别的准确性。

2、具体来说，本发明的方法包括下列步骤：

3、a.获取数据并对齐数据，包括说话人发声时的唇部运动视频、舌部运动超声数据；

4、a1.使用成像技术采集说话人说话时的面部视频。

5、a2.采集说话人的舌部超声数据，并将原始超声数据转化为舌部超声视频。

6、a3.从面部视频中提取说话人唇部的感兴趣区域，并转化为唇部视频。

7、a4.对唇部视频与舌部超声视频进行帧级别和时间轴上的对齐。

8、b.提取说话人唇部视频和舌部超声的视觉特征，定位舌唇音素匹配的正样本；

9、b1.对舌部超声和唇部视频进行分帧，得到舌部和唇部视频帧。

10、b2.将舌部和唇部视频帧对输入双流卷积神经(cnn)网络进行特征提取，得到舌部视觉特征参数矩阵和唇部视觉特征参数矩阵，唇部特征参数矩阵记作{l0，l1，...，ln}，舌部特征参数矩阵记作{t0，t1...tn}。

11、b3.选取一个唇部视频帧作为锚帧，将锚帧和与之在时间线上对应的舌部超声帧组成初始正样本对，和相邻的n帧舌部超声帧分别组成舌唇一般样本对。

12、b4.将舌唇特征对进行筛选，以使得发音动作的对齐；

13、具体是计算初始正样本对中舌部特征参数矩阵和唇部特征参数矩阵之间的欧几里德距离，记作d，计算方式如公式所示。计算n个一般样本对中舌部特征参数矩阵和唇部特征参数矩阵之间的欧几里德距离，记作dn。设置阈值s，如符合|dn-d|≤s,则将匹配的舌唇一般样本对标记为正样本对，将不匹配的舌唇一般样本对标记为负样本对。

14、ln＝(l0，l1，...，li)

15、tn＝(t0，t1，...，ti)

16、c.融合正样本中的舌部和唇部的视觉特征，得到融合后的联合视觉表征，包括如下过程；

17、c1.激活并传递正样本对进入特征融合网络进行特征融合，即继续传递正样本，不传递负样本，切断其与负样本间的连接。

18、c2.将正样本对中的说话人唇部和舌部视觉特征参数矩阵进行级联，得到融合后的视觉特征参数序列。

19、c3.使用transformer编码器将图像序列(视觉特征参数序列)编码为视觉特征编码。

20、d.构建并训练一个基于发声器官视觉信息的语音识别模型，包括如下过程；

21、d1.使用c3中的视觉特征编码作为分类器的输入。训练一个音素级的分类器，该分类器由六个transformer解码器堆叠而成，用以学习从融合后的视觉特征参数序列到音素分类的映射关系，识别得到视觉特征参数序列对应的音素序列。具体是采用交叉熵损失计算真实值和预测值差距，利用反向传播算法调整网络参数，得到训练好的模型。

22、d2.训练n-gram语言模型对识别得到的音素序列进行解码，学习从音素到相应语言的映射关系。

23、d3.使用交叉熵(cross entropy)损失作为模型训练的基本目标函数，交叉熵损失的计算方法如下。其中，p为预测值，为真实值，n为序列长度。

24、

25、利用训练好的基于发声器官视觉信息的语音识别模型，即可实现基于舌部超声和唇部视频视觉融合的语音识别。

26、本发明具体实施时，实现了一种基于舌部超声和唇部视频视觉融合的语音识别系统，系统包括：说话人舌唇数据获取模块、舌唇特征正样本计算模块、舌唇视觉特征融合模块、语音识别计算模块；其中，说话人舌唇数据获取模块用于获取说话人说话时的唇部视频数据和舌部超声视频数据；舌唇特征正样本计算模块用于提取唇部视频和舌部超声视频中的视觉特征参数矩阵，并计算舌唇特征对之间的相关性；舌唇视觉特征融合模块用于融合正样本对中的唇部视觉特征和舌部视觉特征；语音识别计算模块用于学习视觉融合特征到音素的映射关系，并将音素序列解码为相应的语言。

27、说话人舌唇数据获取模块包括：说话人说话时的唇部运动视频采集模块，通过摄像机采集说话人说话时的唇部运动视频；说话人说话时的舌部超声视频采集模块，通过超声仪采集说话人说话时的舌部超声视频；说话人唇部roi计算模块；说话人舌唇视频对齐模块。

28、舌唇特征正样本计算模块，包括：视觉特征提取模块、舌唇特征对配对模块、特征相似度计算模块；

29、舌唇视觉特征融合模块，包括：正样本激活模块、视觉特征融合模块、视觉特征编码模块；

30、语音识别计算模块包含音素分类计算模块、语言模型计算模块、预测损失计算模块。

31、与现有技术相比，本发明的有益效果：

32、本发明提供一种基于舌部超声和唇部运动视觉融合的语音识别方法及系统，针对基于发声器官运动的语音识别任务，充分考虑了说话人唇部运动视频和舌部运动视频之间的视觉关联性，采用视觉特征融合的方式融合两种特征信息，从而提高语音识别的准确性。才有本发明的技术方案，从唇部视频和舌部超声中提取描述发声器官运动的信息，没有使用音频信息，可以适用于更多发音受限的场景。此外针对使用此类数据的基于发声器官运动的语音识别任务，最终的识别效果更佳。