技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于复杂网络的高密度表面肌电无声语音识别通道选择方法  >  正文

基于复杂网络的高密度表面肌电无声语音识别通道选择方法

  • 国知局
  • 2024-06-21 11:29:21

本发明属于语音识别,具体涉及表面肌电无声语音识别通道选择方法。

背景技术:

1、语言是人类人际交往、思想表达和信息传递的重要工具。然而,对于接受喉切除术或中枢神经系统的患者,他们可能会出现发音障碍或言语障碍。另外,某些情况下,人们不便于直接发声交流,因此无声语音识别技术变得至关重要。目前实现无声通信的主流方法有:(1)基于脑电的方法,(2)基于机器视觉识别嘴唇运动的办法,(3)基于表面肌电的办法。

2、基于脑电的方法容易受到环境噪声和运动伪影的影响,导致信号质量不稳定,分类性能较差;而基于机器视觉的方法受限于设备体积,便携性很差,且嘴唇的运动信息无法描述所有的语言特征。基于表面肌电(surface electromyography,semg)的方法中,表面肌电是由神经肌肉活动产生的生物电信号,可用于捕捉发音相关肌肉活动期间产生的电信号。与嘴唇运动图像所携带的成像技术相比,传感器捕获的semg信号包含更精确的语音信息。与基于大脑活动的eeg信号相比,基于肌肉活动的semg信号具有更高的信号强度和灵敏度,然而单个电极携带的信息较少,大量的电极又存在信息冗余的问题,针对无声语音识别的高密度表面电极优化的研究还很少。本发明聚焦于基于表面肌电的办法。

3、近年来,基于semg的无声语音识别研究很多,与本发明相关的方法有:

4、1、一种基于面部三个通道的日语发音分类方法,该方法仅仅使用了3个电极,均贴在单侧脸颊处,对5个日语元音进行分类,准确率为71%;

5、2、一种基于面部、颈部的无声中英文语音识别方法,该方法总共使用了120个电极通道,通道位置分布在脸颊两侧,脖颈两侧,但没有对通道进行筛选,实现了超过80%的中英文分类准确率。

6、上述基于semg的无声语音识别的缺陷如下:

7、缺陷1:现有的基于肌电信号的无声语音识别,在电极数量上很少,多为3-8个通道,且受限于电极数量,覆盖发音相关的肌肉区域不完整,而事实上参与发音的肌群有颊肌、环甲肌等多个肌群,因此较少的电极通道不能完整的反应发音时的肌肉特征信息,从而导致准确率有待提高;

8、缺陷2:基于高密度肌电信号的无声语音识别,虽然在电极数量上大幅增加,解决了覆盖区域的问题,但是由于缺乏对通道的筛选,会导致存在电极冗余、高计算复杂性、成本增加等问题,此外,过多的电极会增加设备的复杂度,为后续的可穿戴化带来了挑战。

技术实现思路

1、本发明的目的在于提供一种基于复杂网络的高密度表面肌电无声语音识别通道选择方法,以克服现有基于semg的无声语音识别方法的不足,有效提取发音时肌肉活动的特征信息,提升识别准确率,大幅减少冗余通道,提高计算速度。

2、本发明提出的基于高密度表面肌电的无声语音识别通道选择办法,具体步骤为:

3、步骤一:面部肌电信号采集及处理

4、采集320个通道的面部、颈部肌电信号,320个通道分别位于面颊处、颈部、下巴处;具体而言,将四个8×8的高密度电极阵列分别放置在双侧面部和颈部的中心区域,而将一个5×13的高密度电极阵列放置在下巴上;电极放置位置如图1所示:

5、在数据采集过程中,每个受试者无声地执行14个元音和15个辅音的语音任务,发音任务如图2所示;

6、如图3所示,指令以随机顺序呈现;每项任务分两块重复执行;在每个区块内,参与者进行3对试验;每个试验-休息对包括1秒的语音试验、然后是1秒的休息期;为了最大限度地减少肌肉疲劳的影响,参与者被允许进行5秒的实验间休息;因此,每个参与者进行84次元音测试(14个元音×2个实验×3次重复任务)和90次辅音测试(15个辅音×2个实验×3次重复任务);每次试验持续1秒;如果参与者跳过或错误地完成试验,则应通知实验助理,试验将从数据集中删除;

7、采集到的肌电信号数据用10hz高通滤波器和500hz低通滤波器对收集的hd semg信号进行滤波,以减少运动伪影,并降低高频噪声;然后,采用一组陷波滤波器来避免电力线的干扰;然后,去除每个试验的前0.25s内的信号,保留0.75s的持续和稳定信号。

8、步骤二:构建复杂网络

9、发音是肌肉协调动作的结果,表现在不同面部、颈部和下巴肌肉的表面肌电信号中会表现出不同程度的力量;每个肌肉群单独行动,同时相互连接,形成一个复杂的网络系统;因此,从复杂网络理论的角度分析不同语音状态下通道的激活模式,可以深入了解语音过程与肌肉群之间的关系;这种分析可以帮助减少冗余通道和计算复杂性;

10、复杂网络可以用图g(v,e)表示,该图由一组节点v和一组边e组成:

11、v={v1,...,vn},

12、e={ej|ej∈v×v,j=1,…,m},   (1)

13、其中,vn表示网络的节点,ej表示两个节点之间的连接,其中,1表示存在连接,0表示不存在连接;n为节点数量,m为边数量;e中的每条边对应于v中的一对节点;如果节点之间的边是双向的,而不区分源节点和目标节点,则复杂网络g可以称为无向网络;此外,如果不考虑连接节点之间的距离,那么复杂网络g也可以称为无权网络;

14、将每个semg通道视为一个节点,并将通道之间的相关性视为边的存在或不存在,将肌群映射到一个复杂网络中;利用互信息方法,分析每对通道之间的相关性;考虑两个任意通道s和q,通道的每一个采样点信号s和q的香农熵定义如下:

15、

16、

17、其中,n是信号的长度,si和qj分别表示信道s的第i个采样值和信道q的第j个采样值;ps(si)和pq(qj)分别表示si和qj的概率分布;信道s和信道q之间的联合熵h(s,q)和互信息mi(s,q)可以定义为:

18、

19、mi(s,q)=h(s)+h(q)-h(s,q),   (5)

20、对于每个电极阵列,分别基于64个内部通道之间的相互信息构造邻接矩阵a(asq);如果通道s和通道q之间的相互信息大于或等于阈值,则a(asq)应设置为1,表示通道s与通道s之间有边;相反,如果该值小于阈值,则a(asq)被设置为0,表示通道s和通道q之间没有边;通常选择最大方差作为阈值,因为它最能反映不同通道之间的相关性差异。

21、步骤三:使用louvain算法优化网络

22、然后使用louvain算法[8]构建肌肉网络;louvain是一种提取网络社区结构的方法,它比其他社区检测方法更具有时间效率,并已用于分析社交网络;louvain算法的目标是最大限度地提高图中社区的模块度;模块度是一个用于衡量社区内连接相对于社区之间连接的紧密性的指数;较高的模块度表示社区内的边的数量较高,而社区之间的边较少;模块度(q)定义为:

23、

24、其中,表示社区,∑_in表示社区c内的边权重之和,∑_tot代表连接到社区c节点的边权重的和;因为网络是无权的,所以所有边的权重都被认为是1。

25、使用louvain算法构建肌肉网络的流程如下:

26、(1)构建关联矩阵:基于互信息建立一个肌肉节点之间的关联矩阵;该关联矩阵反映了不同肌肉之间的连接关系;

27、(2)构建无向无权网络:根据关联矩阵构建一个无向无权网络,其中节点表示不同的肌肉,边表示肌肉之间的连接;

28、(3)louvain算法运行:将构建的肌肉网络输入louvain算法;louvain算法将对网络进行迭代,优化网络的模块度,即将网络划分为多个社区,使得社区内的连接较多,社区间的连接较少;

29、(4)社区检测:louvain算法将对网络进行社区检测,将肌肉节点划分到不同的社区中,形成多个肌肉组;

30、(5)选择最优通道:根据louvain算法的结果,选择每个社区中具有最高连接强度或关联程度的肌肉通道作为该社区的代表性通道;这些代表性通道被认为是最优通道,可以用于进一步的特征提取和应用。

31、通过以上流程,可以对筛选出的最优通道进行结果分析,了解不同社区的功能和特性;可以观察最优通道的位置和连接情况,进一步了解肌肉活动的模式和特征;对于每个社区,计算其内部通道的度,并选择度较高的通道来代表这个社区;在所有试验中,统计每个电极阵列的代表性通道的数量;对于每个电极阵列,选择出现频率最高的m个通道高来构建社区;因此,最终选择5×m数量的通道。

32、步骤四:提取特征及分类

33、筛选完通道后,从semg信号提取5个主要特征:包括均方根(rms)、波长(wl)、过零(zc)、方差和斜率变化(ssc);将特征矩阵输入到线性判别分析(lda)分类器中进行训练,lda模型可以预测测试数据的标签;以一名被试的数据为例;由于每个发音被重复了6次,因此将所有的数据集6等分,一份数据集均包含一个不同的发音数据,每次训练轮流将其中5组数据集组合作为训练集,将余下一组数据集作为测试集,最终计算得到分类的平均准确率;与此同时,将全部320个通道的信号、随机选取通道的信号作为对照进行同样的分类预测操作。

34、本发明方法具有如下特点和优势

35、(1)本发明采集与发音密切关联的颊肌、环甲肌、提角肌等肌群的肌电信号,以320个电极通道为输入,首次以复杂网络理论为基础对发音肌群进行了网络建模,获取到发音时各个肌肉间的相关性等信息,为量化研究参与发音的肌肉状态提供了基础;

36、(2)本发明在初始肌肉网络的基础上,首次利用复杂网络理论中社区优化的louvain算法,对每一个电极片分别进行通道筛选,通过通道筛选,既有效提取发音时肌肉活动的特征信息,保证识别准确率,还大幅减少冗余通道,提高计算速度;

37、(3)本发明可以筛选出对无声语音识别贡献大的通道,降低冗余的同时提高准确率;

38、(4)本发明办法基于复杂网络理论,筛选过程以构建初始肌肉网络为基础,通过louvain算法对网络进行重新划分,找到其中的代表性通道,针对不同的被试者仅仅只需根据其采集的数据进行处理即可得到较优的通道组合;

39、(5)本发明中构建初始肌肉网络时,采用相关性的衡量指标,以两两通道间是否相关作为构建网络中边的依据;

40、(6)本发明在对重新划分的肌肉网络进行筛选时,采用模块度的衡量指标,从模块度的角度出发选择代表性节点。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21783.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。