技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别效果的优化方法及系统与流程  >  正文

一种语音识别效果的优化方法及系统与流程

  • 国知局
  • 2024-06-21 10:43:52

本发明涉及语音识别,具体为一种语音识别效果的优化方法及系统。

背景技术:

1、随着计算机技术和算法的进步,语音识别技术已经从早期的基于规则的系统发展到现代的基于深度学习的系统。早期的系统依赖于手工制定的规则和有限的词汇,而现代系统可以处理自然语言并识别大量的词汇。

2、在实际应用中,语音识别系统经常需要在嘈杂的环境中工作,如街道、餐馆或家庭。这些环境中的背景噪声会干扰语音识别的准确性。因此,降噪技术在语音识别中起到了关键作用。

3、随着技术的进步,语音识别系统开始向个性化和适应性方向发展。这意味着系统可以根据每个用户的声音和口音进行优化,从而提高识别的准确性。

技术实现思路

1、鉴于上述存在的问题,提出了本发明。

2、因此,本发明解决的技术问题是:现有的识别结果受环境噪声影响大,以及如何实现声音识别的优化问题。

3、为解决上述技术问题,本发明提供如下技术方案:一种语音识别效果的优化方法,包括:

4、采集音频数据,并进行降噪处理;

5、对所述音频数据进行初步语音识别;

6、对所述音频进行特征选择与数据库匹配;

7、利用不同数据库的训练结果,对语音进行识别。

8、作为本发明所述的语音识别效果的优化方法的一种优选方案,其中:所述降噪处理包括,将连续的音频信号分割成短的帧,每帧的时长为t的数据;

9、在非语音段中估计噪声的声谱,并将其用作噪声的参考;

10、若所有的所述参考的声谱都为相同的声谱,则判定噪声为固定噪声,计算每帧的幅度谱,并从减去所述固定噪声的噪声谱;

11、若所有的所述参考的声谱存在不相同的声谱,则判定噪声为可变噪声;对噪声为可变噪声的音频数据的每一帧,计算瞬时能量:

12、

13、其中,a表示常数,xi表示频率分量的幅值,i表示每一帧音频中采样点的时间参数,n表示每一帧音频中帧的长度。

14、作为本发明所述的语音识别效果的优化方法的一种优选方案,其中:所述降噪还包括,按照时域特征将所述帧的所述短时能量绘制曲线作为曲线1,将非语言段的所述短时能量的曲线提取,若提取的曲线在时域特征上呈现为不连续曲线,则将提取的曲线的不连续位置进行平滑处理,将处理后的曲线作为预测的噪声曲线,作为曲线2,其中曲线2包括非语言段的实际曲线和语言段的预测的曲线;在非语言段的实际曲线找到与语言段的预测的曲线具有相同能量的帧作为噪声声谱在语言段的预测结果;

15、当所述预测结果为一个,则直接从实际的声谱减去所述预测结果;

16、当所述预测结果为m个,则逐一从实际的声谱减去所述预测结果,形成m个降噪后的声谱;

17、当所述预测结果为0个,则不进行降噪处理。

18、作为本发明所述的语音识别效果的优化方法的一种优选方案,其中:对所述音频数据进行初步语音识别包括,获取降噪后的音频信息,进行语音识别;

19、若降噪的噪声为可变噪声,当前帧的降噪的预测结果为m个时,对m帧的降噪结果进行识别,在通过ai识别语音的结果表明语意连贯时,则初步判定能够保证语意连贯的降噪结果是准确的;

20、当判定为准确的数量为0则将此帧的音频数据返回到降噪前,当判定为准确的数量大于1,则将保留所有判定为准确的降噪结果。

21、作为本发明所述的语音识别效果的优化方法的一种优选方案,其中:所述特征选择包括,通过梅尔频率倒谱系数描述声音的短时功率谱、通过声谱图可以捕获声音的时间-频率特性、通过色度特征表示12个不同的半音的强度;

22、对所有判定为准确的降噪结果进行特征向量构建:

23、v=[mfcc1,mfcc2,...,mfccq,spectrogram,chromagram]

24、其中,mfccq表示提取的第q个梅尔频率倒谱系数,spectrogram表示声谱图捕获的时间-频率特性,chromagram是音乐信号中的一个特征,表示12个不同的半音的强度;

25、数据库构建:

26、对每个已知的声音样本,提取特征并形成特征向量,存储在数据库中;

27、每个样本在数据库中生成一个唯一的标识符和类别标签。

28、作为本发明所述的语音识别效果的优化方法的一种优选方案,其中:所述数据库匹配包括,使用余弦相似度来比较未知样本的特征向量与数据库中的特征向量:

29、

30、其中,vu表示输入样本的特征向量,vd表示数据库的样本特征向量;

31、选择相似度最高的样本作为匹配结果。

32、作为本发明所述的语音识别效果的优化方法的一种优选方案,其中:所述对语音进行识别包括,利用不同的数据库对语音识别单元进行学习训练,将降噪后的音频数据输入匹配的所述语音识别单元进行识别;若为固定噪声或可变噪声的降噪结果为1个声频数据,则直接输出识别结果;若为可变噪声且降噪结果为多个声频数据,则输出置信度评估最高的结果为识别结果;

33、所述置信度包括:

34、c=w1×cosinesimilarity+w2×s+w3×distinctiveness

35、其中,w1,w2,w3表示权重因子;semanticcoherence表示识别结果的语义连贯性,若连贯则为1,若不连贯则为0;distinctiveness=1-avgsimilarity表示识别结果与其他结果的差异程度;

36、计算每个备选结果与主要识别结果的余弦相似度:

37、

38、其中,ai是第i个备选结果的特征向量;

39、平均相似度:计算所有备选结果与主要识别结果的余弦相似度的平均值;

40、

41、其中,p表示备选结果的数量。

42、一种采用本发明所述方法的语音识别效果的优化系统,其特征在于:

43、采集模块,采集音频数据,并进行降噪处理;

44、匹配模块,对所述音频数据进行初步语音识别;对所述音频进行特征选择与数据库匹配;

45、识别模块,利用不同数据库的训练结果,对语音进行识别。

46、一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现本发明中任一项所述的方法的步骤。

47、一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现本发明中任一项所述的方法的步骤。

48、本发明的有益效果:本发明提供的语音识别效果的优化方法适用于处理多种类型和风格的声音。通过计算每个识别结果的置信度,本发明能够为用户提供更可靠的识别结果。这种方法特别适用于处理模糊或不确定的音频数据。通过利用不同的数据库进行学习和训练,从而提高识别的准确性和鲁棒性。

技术特征:

1.一种语音识别效果的优化方法,其特征在于,包括:

2.如权利要求1所述的语音识别效果的优化方法,其特征在于:所述降噪处理包括,将连续的音频信号分割成短的帧,每帧的时长为t的数据;

3.如权利要求2所述的语音识别效果的优化方法,其特征在于:所述降噪还包括,按照时域特征将所述帧的所述短时能量绘制曲线作为曲线1,将非语言段的所述短时能量的曲线提取,若提取的曲线在时域特征上呈现为不连续曲线,则将提取的曲线的不连续位置进行平滑处理,将处理后的曲线作为预测的噪声曲线,作为曲线2,其中曲线2包括非语言段的实际曲线和语言段的预测的曲线;在非语言段的实际曲线找到与语言段的预测的曲线具有相同能量的帧作为噪声声谱在语言段的预测结果;

4.如权利要求3所述的语音识别效果的优化方法,其特征在于:对所述音频数据进行初步语音识别包括,获取降噪后的音频信息,进行语音识别;

5.如权利要求4所述的语音识别效果的优化方法,其特征在于:所述特征选择包括,通过梅尔频率倒谱系数描述声音的短时功率谱、通过声谱图可以捕获声音的时间-频率特性、通过色度特征表示12个不同的半音的强度;

6.如权利要求5所述的语音识别效果的优化方法,其特征在于:所述数据库匹配包括,使用余弦相似度来比较未知样本的特征向量与数据库中的特征向量:

7.如权利要求6所述的语音识别效果的优化方法,其特征在于:所述对语音进行识别包括,利用不同的数据库对语音识别单元进行学习训练,将降噪后的音频数据输入匹配的所述语音识别单元进行识别;若为固定噪声或可变噪声的降噪结果为1个声频数据,则直接输出识别结果;若为可变噪声且降噪结果为多个声频数据,则输出置信度评估最高的结果为识别结果;

8.一种采用如权利要求1-7任一所述方法的语音识别效果的优化系统,其特征在于:

9.一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结本发明公开了一种语音识别效果的优化方法及系统,包括:采集音频数据,并进行降噪处理;对所述音频数据进行初步语音识别;对所述音频进行特征选择与数据库匹配;利用不同数据库的训练结果,对语音进行识别。适用于处理多种类型和风格的声音。通过计算每个识别结果的置信度,本发明能够为用户提供更可靠的识别结果。这种方法特别适用于处理模糊或不确定的音频数据。通过利用不同的数据库进行学习和训练,从而提高识别的准确性和鲁棒性。技术研发人员:敖榜,梁寿愚,于力,赵必美,董召杰,卢志良,姚森敬,刘懋,吴石松,辛文成,郭尧,王鹏凯,任正国,杨伟,廖灿,李成,郑桦受保护的技术使用者:南方电网人工智能科技有限公司技术研发日:技术公布日:2024/2/1

本文地址:https://www.jishuxx.com/zhuanli/20240618/21393.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。