一种呼吸、喉、嗓音之间动态关系的建模方法
- 国知局
- 2024-06-21 11:50:51
本发明属于信息,特别涉及一种呼吸、喉、嗓音之间动态关系的建模方法。
背景技术:
1、发声功能异常常见于教师、老年人、言语障碍患者等人群,其外在表现为嗓音粗糙,紧张,声强降低,声高异常提高等。目前对发声功能异常的诊断大多为针对嗓音质量与喉功能的评估,方法包括主观评估、语音信号分析、喉镜影像分析、电声门图分析等。其中主观评估主要以患者或医师的主观感知为依据对嗓音进行评分;语音信号分析通常提取如谐噪比、基频、声压级、基频微扰、振幅微扰等嗓音相关的语音特征进行建模或统计分析;喉镜与电声门图则通过提取如接触幂、弓形指数等特征评估声带在振动时开合的规律性、闭合程度等表现。
2、然而,除了常见的声带异常外,发声异常还可能涉及呼吸系统、共鸣腔等其他发声系统层次的异常。研究表明,呼吸功能的下降对喉与嗓音的表现存在显著的影响。其中,发声时肺容量与呼吸速度的下降可能导致声门下压力的降低。为了维持正常的声门下压力,患者容易通过收紧声带进行代尝并出现基频微扰、振幅微扰等语音特征上的异常。另外,声带紧张的发声方式也可能加重声带的萎缩,从而导致嗓音质量的下降。
3、目前,只有少数研究在近年开始呼吁将呼吸功能评估纳入发声异常的诊断中。然而,在对包含呼吸在内的多层次发声系统的全面评估时,除了对每一个发声层次的表现进行单独评估外,还需要能够客观反映不同层次之间的动态关系的方法,以对嗓音异常来源的诊断提供进一步的参考。虽然目前研究就呼吸对喉与嗓音表现的影响途径已经有了客观生理数据支持,但对数据特征之间的相关性研究大多为群体水平上的统计检验分析,缺少对个体水平特征之间动态变化的相关性的建模,无法反映出个体的嗓音异常是否受到呼吸与声带功能异常的影响。
技术实现思路
1、本说明书实施例的目的是提供一种呼吸、喉、嗓音之间动态关系的建模方法。
2、为解决上述技术问题,本技术实施例通过以下方式实现的:
3、本技术提供一种呼吸、喉、嗓音之间动态关系的建模方法,该方法包括:
4、通过数据采集任务同步采集多模态发声数据,其中多模态发声数据包括语音数据与呼吸数据;
5、对多模态发声数据进行预处理,得到预处理后多模态发声数据,预处理后多模态发声数据包括预处理后语音数据和预处理后呼吸带数据;
6、对预处理后多模态发声数据进行多层次发声特征提取,得到多层次特征集;
7、将多层次特征集中相似的、相关的特征线性组合成若干个反应呼吸控制、声带控制或嗓音表现的关键因子,通过计算存在直接关联的关键因子之间的相关系数,得出反应呼吸-喉-嗓音动态交互情况的指标。
8、在其中一个实施例中,数据采集任务通过设置不同任务条件诱发不同程度的发声表现。
9、在其中一个实施例中,数据采集任务包括:
10、被试者重复完成三次最长声时任务;其中,最长声时任务指完成一次正常呼吸后,深吸一口气后不间断地发一个元音直到气竭;其中,三次最长声时任务的语料分别为韵母a、e和i;
11、被试者依次重复完成三次标准最长声时的第一百分比、第二百分比、第三百分比三个时长的发音任务;其中,标准最长声时是指三次最长声时任务的时长的平均值;其中,三次标准最长声时的第一百分比、第二百分比、第三百分比三个时长的发音任务的语料分别为韵母a、e和i。
12、在其中一个实施例中,对多模态发声数据进行预处理,包括:对多模态发声数据分段、对呼吸数据滤波、对多模态发声数据进行关键点标记;
13、对多模态发声数据进行关键点标记,包括:
14、对每个多模态发声数据标注吸气起始点、发音起始点、发音结束点三个关键点。
15、在其中一个实施例中,多层次特征集包括呼吸特征集、喉特征集、嗓音特征集;
16、对预处理后多模态发声数据进行多层次发声特征提取,得到多层次特征集,包括:
17、从预处理后语音数据中提取特征,得到喉特征集和嗓音特征集;
18、从预处理后呼吸数据中提取特征,得到呼吸特征集。
19、在其中一个实施例中,呼吸特征集包括吸气幅度、呼气幅度、呼气速率-平均、呼气速率-标注差;
20、吸气幅度表征吸气起始点与发音起始点之间的呼吸信号幅度差值;
21、呼气幅度表征发音起始点与发音结束点之间的呼吸信号幅度差值;
22、呼气速率-平均表征发音起始点与发音结束点中间80%时间段中呼吸信号的平均斜率;
23、呼气速率-标注差表征发音起始点与发音结束点中间80%时间段中呼吸信号斜率的标准差。
24、在其中一个实施例中,喉特征集包括:声门接触商-平均和声门接触商-标准差。
25、在其中一个实施例中,嗓音特征集包括:谐噪比-平均、基频微扰-平均、振幅微扰-平均、声强-标准差、基频-标准差、谐噪比-标准差、基频微扰-标准差、振幅微扰-标准差。
26、在其中一个实施例中,将多层次特征集中相似的、相关的特征线性组合成若干个反应呼吸控制、声带控制或嗓音表现的关键因子,包括:
27、设x为n个样本以及m个特征组成的n×m原始数据矩阵,通过公式(1)将x中每一列的数值转换为z值,得到标准化的数据矩阵zx:
28、
29、其中,xij为x的第j个变量xj中的第i个元素,μj为xj的均值,σj为xj的标准差,zij为xij归一化后的z值;
30、通过公式(1)计算得出zx的协方差矩阵r=(rij)m×m:
31、
32、其中,其中rij为第i个变量与第j个变量的相关系数;
33、计算协方差矩阵r的特征值λ1≥λ2…λm≥0以及对应的向量特征u1,u2…um,其中uj=(u1j,u2j…unj)t,通过公式(3)计算得m个主成分y1,y2…ym:
34、
35、通过公式(4)计算出特征值λj(j=1,2…m)的方差贡献率bj,表征每个主成分的方差贡献率;通过公式(5)计算主成分y1,y2…yp的累积贡献率αp,以αp≥0.85为阈值确定p的数值;通过公式(6)对前p个主成分进行加权求和得出关键因子z:
36、
37、
38、
39、在其中一个实施例中,通过计算存在直接关联的关键因子之间的相关系数,得出反应呼吸-喉-嗓音动态交互情况的指标,包括:
40、将相邻层面的关键因子两两配对,设z1为第一关键因子,z2为第二关键因子,通过公式(7)计算出z1与z2的相关系数r(z1,z2):
41、
42、其中,cov(z1,z2)为a与b的协方差,var(z1)与var(z2)分别为z1和z2的方差。
43、由以上本说明书实施例提供的技术方案可见,该方案:将呼吸数据与语音数据结合,反映了呼吸、喉、嗓音三个发声层面之间的关系;针对个体多层次发声动态关系的数据采集,为个体水平的多层次发声评估提供了重要基础;设计了一套数据特征集,能够从呼吸带、语音两种数据中提取并反映呼吸、喉、嗓音三个发声层次的功能以及其之间的相互作用。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23943.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。