技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于Whisper模型的住院医师临床口试智能评分方法  >  正文

一种基于Whisper模型的住院医师临床口试智能评分方法

  • 国知局
  • 2024-06-21 11:54:33

本发明涉及深度学习及自然语言处理(natural language processing,nlp),具体涉及基于whisper巨量化模型在住院医师临床口试考核场景下的自然语言处理技术,提高在该特定领域语音识别准确率。

背景技术:

1、whisper模型是一个庞大的transformer模型,在大规模数据集上进行了预训练,具备强大的语音识别和文本学习能力,但对于医学领域的专业术语和语境,其针对性相对较弱,且添加新的识别词库的效率较低。whisper模型在住院医师临床口试智能评分系统中存在一些局限性。

2、现有whisper在应用中存在一系列问题,例如,采用自注意力与交叉注意力机制,虽然提升了语音识别的精度,但也显著增加了计算成本,降低了处理效率,而在口试智能评分处理中,往往需要尽快的做出识别和判断,因此高效的处理速度至关重要;临床医学领域涵盖了众多专业名词,相似词汇也较多,传统的whisper模型在语音识别时容易出现错误,尤其在处理医学领域的专业术语时,模糊词现象更为明显。传统的whisper模型使用finetune方法进行微调时,往往效率较低,可能会产生大量重复的权重,导致微调后的效果并不理想。

3、因此,有必要提供一种针对临床医学领域的语音识别改进方法,基于传统whisper模型,结合全注意力网络和lora微调模型的技术方案,以满足临床医学口试智能评分系统的特定需求,提高其准确率和处理效率。

技术实现思路

1、本发明目的在于提供一种基于whisper模型的住院医师临床口试智能评分方法,提高医学领域语音识别准确率,解决传统定制模型体量庞大,微调成本高,耗时长等问题。

2、为了实现上述目的,本发明所采用的技术方案如下。

3、一种基于whisper模型的住院医师临床口试智能评分方法,包括:

4、步骤1:收集住院医师临床知识测试语音数据,生成并校正文本标签,建立相应的训练数据集;根据输入的实际语音数据及其文本标签,通过log-mel声谱将训练数据集切割重组出多份样本,使训练数据集翻倍以扩充数据训练样本,文本标签也进行翻倍;

5、步骤2:构建样本翻倍后的音频数据特征矩阵xnlog-mel(f,n1,mels)的文本位置编码,在并行训练的神经网络中标记文本,将文本位置编码赋值给文本标签,得到f*512*512规模的文本标签矩阵textn2(f*512*512,n2),用以transformer构建使用;其中f表示频率,mels是mel滤波器数量,n2表示音频对应行数,n1表示训练数据集的特征矩阵xlog-mel(f,mels)单行返回的数量;

6、步骤3:对样本翻倍的音频数据特征矩阵xnlog-mel(f,n1,mels)有序的输入两个连续的一维卷积层并使用gelu函数激活,开始构建transformer输入网络,其中两个连续的一维卷积层表示为2×conv1d+gelu中,形成transformer的输入网络;

7、步骤4:将步骤3生成的第二次gelu卷积返回矩阵与步骤2生成的f*512*512规模文本标签矩阵相加,得到含有位置编码的音频数据矩阵xl,构建transformer并加入全局注意力机制,生成完整的transformer;

8、步骤5:重复步骤3-4中处理构建transformer,到达transformer网络的最优权重参数,生成改善的whisper模型mnorm。

9、进一步地,其中步骤1中,所述通过log-mel声谱将训练数据集进行切割重组出多份样本,使训练数据集翻倍以扩充数据训练样本,文本标签也进行翻倍,进一步包括,将收集的语音数据转换成一维向量,将一维向量进行stft傅里叶变换,生成在时间t和频率f处的stft系数x(t,f);

10、计算mel滤波器组mel(f)模拟人耳对声音频率的感知,提取音频信息;将mel滤波器组权重与stft系数相乘后进行对数转换得到训练数据集的xlog-me(f,mels)特征矩阵,该矩阵中的行表示不同的mel频率通道,列表示不同的时间帧;对初始的xlog-mel(f,mels)特征矩阵进行样本翻倍,

11、n1=m/t(t)·k;k≤!(m/t(t))

12、其中n1表示xlog-mel(f,mels)特征矩阵单行返回的数量,m表示初始的xlog-m(f,mels)特征矩阵行mels样本,k是xlog-mel(f,mels)特征矩阵行mels切割点,t(t)是作为初始xlog-mel(f,mels)特征矩阵行mels的总时长。m/t(t)与k进行矩阵相乘,返回生成样本翻倍的音频数据特征矩阵xnlog-mel(f,n1,mels);以相同的方法对文本标签进行样本翻倍,按照音频数据特征矩阵xnlog-mel(f,n1,mels)的排布序列生成文本标签矩阵textn(f,n2),其中f表示频率,mels是mel滤波器数量,n2表示音频对应行数。

13、进一步地,其中步骤3中,所述的卷积层conv1d建立的数学模型表示为:

14、

15、其中yi为输出矩阵,ωj为卷积核的第j个权重,k表示卷积核的长度,xi+j是代表xnlog-mel(f,n1,mels)中第i+j个元素,i、j为xnlog-mel(f,n1,mels)中的索引位置;j是从0开始至f-1结束;

16、gelu作为激活函数表示为:

17、

18、将gelu中的x替换为conv1d模型表示,构建出2×conv1d+gelu,将gelu函数激活的第1、2层卷积进行输出,用于transformer的输入。

19、进一步地,其中步骤4中,加入全局注意力机制进一步包括:引入全局查询向量qglobal,将其设定为1;同时构建查询q,键k,值v构成多头自注意力,使用softmax函数计算每头注意力分数矩阵以及全局注意力的分数矩阵;合并多头对全部分数矩阵进行加权求和,并由权重wc,控制,其中wc,为初始为随机值,范围在[0,1],生成加权矩阵z,对加权矩阵z进行层归一化和残差连接,生成网络结构znorm并进行前馈神经网络处理,得到前馈更新权重参数后的网络结构xnewl,再次进行残差连接和层归一化生成新的初始网络结构xnorm,完成transformer构建。

20、进一步地,其中在步骤3中使用lora方法生成新的卷积核参数用于替换未使用lora方法时的卷积核参数,得到带有更新后的权重参数的whisper的模型mnorm_lora,将微调的权重替换到完整模型mnorm中,替换方式为mnew_lora=mnorm_lora+mnorm,其中微调的权重替换过程是进行对应位置的替换,最后得到改善的微调whisper模型mnew_lora。

21、本发明与现有技术相比,包括以下优点:

22、第一,在whisper模型加入全注意力网络,对语音数据信息的分离新建通道,增加了精确度,加快识别的速度;

23、第二,摒弃传统的finetune方法对whisper模型进行微调,使用更高效的lora方法,提高微调模型的效率以及微调后的识别准确率;

24、第三,在设计训练集上引入log-mel声谱进行重组拼接多个训练集,解决了训练集数量过少导致效果不佳的缺陷。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24412.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。