一种基于深度学习的煤矿调度室音频自动理解方法与流程
- 国知局
- 2024-06-21 10:41:10
本发明属于深度学习的煤矿调度室音频理解,尤其涉及一种基于深度学习的煤矿调度室音频自动理解方法。
背景技术:
1、语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
2、声纹识别,生物识别技术的一种,也称为说话人识别,是一种通过声音判别说话人身份的技术。声纹识别技术有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。
3、说话人分割聚类用于解决“谁,何时,说话”的问题,是语音信号处理领域中的重要技术。说话人聚类算法主要应用在会议语音记录分类、语音识别预处理、声音类别检测、说话人识别等诸多研究方向。
4、煤矿调度室虽然保留了通话的音频,但因为保存的音频数量庞大,领导并没有时间去理解音频中的信息从而发现隐患,并且在事故发生后也很难找到当天通话的记录来提供佐证。
5、因此,有必要提供一种新的基于深度学习的煤矿调度室音频自动理解方法解决上述技术问题。
技术实现思路
1、本发明解决的技术问题是提供一种可以解决煤矿调度室音频自动分析、煤矿领导信息获取不全面及煤矿领导对矿上人员工作状态了解的问题的基于深度学习的煤矿调度室音频自动理解方法。
2、为解决上述技术问题,本发明提供的基于深度学习的煤矿调度室音频自动理解方法包括以下步骤:
3、s1:收集煤矿调度室相关的音频数据并标注,所述相关的音频包括有煤矿调度室音频,煤矿噪声音频,煤矿人员声纹库音频,且在收集音频数据进行标注时,还需要识别关键字眼,因此还包括以下四个阶段:
4、(1).预处理阶段:语音信号是模拟信号,因此首先需要对模拟信号进行模数转换,一般进行采样、量化、编码、滤波等操作,把模拟信号转换为能够处理的数字信号,然后对语音信号进行数字化、预加重、加窗分帧和端点检测等预处理;
5、(2).特征提取阶段:对每一帧语音信号提取某些有价值的参数代表语音信号;
6、(3).语音训练阶段:在计算机上采用某种模型训练,之后获取训练后的有效特征值,然后把这些特征数据存储在该系统的存储器中,在以这些值作为最后识别阶段的依据;
7、(4).识别阶段:将采集到的语音经过预处理、特征提取后,根掘算法与训练出的模型库中各个模型进行对比,判断语音序列中是否出现关键词以及出现的位置,最后使用判决算法进行确认;
8、s2:通过说话人聚类分割模型将煤矿调度室音频按照说话人不同分割为子音频,然后在通过声纹识别模型识别子音频的说话者;
9、s3:通过自动语音识别模型识别将子音频转换为文本;
10、s4:最终对识别结果进行整理完成对煤矿调度室音频的理解。
11、作为本发明的进一步方案,所述s1还包括如下:
12、采用煤矿信息系统自动录制的调度室对话音频,进行降噪处理,数据标注、增强等工作,使用网站交互构建煤矿人员的声纹数据库。
13、作为本发明的进一步方案,所述s2还包括如下:
14、通过开源声纹数据集训练说话人分割聚类及声纹识别模型,且使用煤矿调度室音频进行微调,开源数据库音频数量在1000小时以上,煤矿调度室音频在100小时以上。
15、作为本发明的进一步方案,所述s3还包括如下:
16、通过开源语音识别数据集训练自动语音识别模型,然后采用煤矿调度室音频进行微调,开源数据库音频数量在1000小时以上,煤矿调度室音频在100小时以上。
17、作为本发明的进一步方案,所述数字化具体如下:
18、采样量化编码就是对语音信号进行数字化,采样是在时间域上把模拟信号进行等间隔取样,而根据奈奎斯定理,采样频率必须≥信号最高频率的两倍,这样语音信号就不会丢失信息,也可还原原始信息,比如在实际的语音信号处理中,电话语音的频率范围为300hz~ 3400hz,所以采样频率一般为8khz~l0khz,因此所使用的语音数据的采样频率设置为8khz时,采样后,时间离散的,但是在幅度上还是连续的,所以还要进行量化,一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度值表示,这个幅度值称为量化值,然后进行编码,使之处理器能够识别采样值。
19、作为本发明的进一步方案,所述预加重具体如下:
20、对语音信号进行预加重,是因为声门激励和口鼻辐射影响了语音信号的平均功率谱,会使得语音信号大约在800hz以上的高频端按 6db/倍频程跌落,因此采用预加重处理可以提升高频部分,使信号的频谱变得平坦,一般是一阶的高通数字滤波器,公式如下:
21、xn=1-α×xn-1
22、其中,xn为语音信号的第n个采样值,a为预加重系数,一般a 值取1或小于1,本方法a值取0.94。
23、作为本发明的进一步方案,所述加窗分帧具体如下:
24、语音信号是一个非平稳过程,具有时变特性,但在一个很短的时间范围内,语音信号具有短时平稳特性,一般语音信号在一帧长为 10ms~30ms之间是相对平稳的,所以语音信号要进行分帧,而每帧长度一般取20ms左右,且为了使帧与帧之间过渡平滑、信号保持连贯性,一般采取帧叠的方法,即帧与帧之间有重叠,通常帧叠取帧长的 1/3到1/2之间,而分帧的方法就是加窗,如汉明窗,其带宽是矩形窗的2倍,可有效地减少语音帧的截断效应,所述汉明窗函数如下:
25、
26、其中,n为帧长,每个帧长为20ms,帧移与帧长比为1/2,x(n) 为一帧内的第n个信号样值,因此可形成加窗语音信号 x(n)=s(n)*w(n)。
27、作为本发明的进一步方案,所述端点检测具体如下:
28、所述端点检测是利用各种技术查找出语音信号中音素、音节、词素或词的始点和终点的位置,在汉语中主要找出一个字的两个端点,而对于应用于汉语连续语音识别是非常必要的,先利用短时能量和短时过零率(双门限法)先粗略判断语音的起始和结束,后来用帧同步 viterbi解码。
29、与相关技术相比较,本发明提供的基于深度学习的煤矿调度室音频自动理解方法具有如下有益效果:
30、1、本发明可以解决煤矿调度室音频自动分析的问题;
31、2、本发明可以解决煤矿领导信息获取不全面的问题;
32、3、本发明可以解决煤矿领导对矿上人员工作状态的了解。
技术特征:1.一种基于深度学习的煤矿调度室音频自动理解方法,其特征在于,包括:以下步骤:
2.根据权利要求1所述的基于深度学习的煤矿调度室音频自动理解方法,其特征在于:所述s1还包括如下:
3.根据权利要求1所述的基于深度学习的煤矿调度室音频自动理解方法,其特征在于:所述s2还包括如下:
4.根据权利要求1所述的基于深度学习的煤矿调度室音频自动理解方法,其特征在于:所述s3还包括如下:
5.根据权利要求1所述的基于深度学习的煤矿调度室音频自动理解方法,其特征在于:所述数字化具体如下:
6.根据权利要求1所述的基于深度学习的煤矿调度室音频自动理解方法,其特征在于:所述预加重具体如下:
7.根据权利要求1所述的基于深度学习的煤矿调度室音频自动理解方法,其特征在于:所述加窗分帧具体如下:
8.根据权利要求1所述的基于深度学习的煤矿调度室音频自动理解方法,其特征在于:所述端点检测具体如下:
技术总结本发明提供一种基于深度学习的煤矿调度室音频理解方法。所述基于深度学习的煤矿调度室音频理解方法包括以下步骤:S1:收集煤矿调度室相关的音频数据并标注,所述相关的音频包括有煤矿调度室音频,煤矿噪声音频,煤矿人员声纹库音频,且在收集音频数据进行标注时,还需要识别关键字眼,因此还包括以下四个阶段:(1).预处理阶段:语音信号是模拟信号,因此首先需要对模拟信号进行模数转换。本发明提供的基于深度学习的煤矿调度室音频理解方法可以解决煤矿调度室音频自动分析、煤矿领导信息获取不全面及煤矿领导对矿上人员工作状态了解的问题的优点。技术研发人员:刘泽蒙,刘迎春受保护的技术使用者:江苏新狮科技有限责任公司技术研发日:技术公布日:2024/1/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21203.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。