技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种过滤无效语音识别数据的方法和系统与流程 > 正文

一种过滤无效语音识别数据的方法和系统与流程

国知局
2024-06-21 10:44:09

本申请涉及语音识别，特别是涉及一种过滤无效语音识别数据的方法和系统。

背景技术：

1、近几年，随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视。

2、语音识别具体的功能是将一段音频中的语音转换为文字。然而在实际应用中，大量的音频数据并不包含有意义的语音，或者噪音极大而无法听清。如果不进行过滤直接进行语音识别，会造成两方面的后果：一是浪费机器资源；二是识别出的文字可能包含大量错误，对后续的处理造成不确定的后果，比如对于语音审核系统中一段正常的音乐可能会被识别成违规用语造成系统的误判。因此，对于语音识别中的输入音频进行判断是十分有必要的。

3、然而现有技术中，一般只利用能量检测和有无人声检测这两种手段检验音频数据是否是静音，对于非静音的数据均进行语音识别；但是，造成音频数据识别错误的因素有很多，仅对静音数据进行过滤，使得对质量较差的音频数据的过滤效果差，使得识别时可能发生识别错误的问题，同时造成资源浪费。

技术实现思路

1、基于此，针对上述技术问题，提供一种过滤无效语音识别数据的方法和系统，用以提高对质量较差的音频的过滤效果，避免质量较差的音频带来的识别错误和资源浪费问题。

2、第一方面，一种过滤无效语音识别数据的方法，所述方法包括：

3、接收所要识别的音频数据；

4、判断所述音频数据是否为静音或短时噪音，若是，则不识别所述音频数据，输出所述音频数据为无效语音的判断结果；

5、评价所述音频数据中的人声质量，判断所述音频数据的人声质量是否低，若是，则不识别所述音频数据，输出所述音频数据为无效语音的判断结果；

6、判断所述音频数据中是否为音乐，若是，则不识别所述音频数据，输出所述音频数据为无效语音的判断结果；

7、判断所述音频数据是否是目标语种，若否，则不识别所述音频数据，输出所述音频数据为无效语音的判断结果；

8、若判断出所述音频数据不是静音、噪音、音乐、人声质量过低和非目标语种的情况下，对所述音频数据进行识别，返回所述音频数据的文字识别结果。

9、上述方案中，可选地，所述接收所要识别的音频数据后，对所述音频数据进行分帧处理。

10、上述方案中，进一步可选地，所述判断所述音频数据的是否为静音或短时噪音包括：利用以下公式计算每帧音频数据的音频能量：

11、

12、其中，n为单帧音频的采样点的数量，x(n)为采样点的数值，大小区间为(-1，1)；

13、计算所述音频数据中音频能量大于第一设定值的帧数占总帧数的比例，记为第一比例，若所述第一比例为0，则判断为静音，若所述第一比例小于第二设定值，则判断为噪音。

14、上述方案中，可选地，所述第一设定值为0.005，第二设定值为多少0.1。

15、上述方案中，可选地，所述评价所述音频数据中的人声质量，判断所述音频数据的人声质量是否过低包括：

16、基于梅尔标度提取所述音频数据每帧的mel log filterbank特征；

17、利用第一神经网络基于所述音频数据每帧的mel log filterbank特征提取所述音频数据的高维特征；

18、利用分类器对所述高维特征的每个时间维度的人声质量进行评分；

19、计算所得的评分中高分的个数占所有评分的个数的比例，记为第二比例，以及计算所有评分的平均分，若所述第二比例小于第三设定值或所述所有评分的平均分小于第四设定值，则判断所述音频数据的人声质量过低；所述高分为分数超过第五设定值。

20、上述方案中，进一步可选地，所述第三设定值为0.5，所述第四设定值为0.6分，所述第五设定值为0.7分。

21、上述方案中，可选地，所述判断所述音频数据中是否为音乐包括：

22、基于梅尔标度提取所述音频数据每帧的mel log filterbank特征；

23、利用第二神经网络基于将所述音频数据每帧的mel log filterbank特征获取所述音频数据为音乐概率的得分；

24、若所述音频数据为音乐概率的得分超过第六设定值，则判断所述数据为音乐。

25、上述方案中，可选地，所述第六设定值为0.5。

26、上述方案中，可选地，判断所述音频数据是否是目标语种包括：

27、基于梅尔标度提取所述音频数据每帧的mel log filterbank特征；

28、利用第一神经网络基于所述音频数据每帧的mel log filterbank特征提取所述音频数据的高维特征；

29、利用第二神经网络基于所述音频数据的高维特征判断所述音频数据对应的语种；

30、判断所述语种是否为目标语种。

31、第二方面，一种过滤无效语音识别数据的系统，所述系统包括：

32、数据接收模块，用于接收所要识别的音频数据；

33、静音或噪音判断模块，用于判断所述音频数据是否为静音或噪音，若是，返回所述音频数据为无效语音的判断结果；

34、人声质量评价模块，用于评价所述音频数据中的人声质量，并判断所述音频数据的人声质量是否过低，若是，输出所述音频数据为无效语音的判断结果；

35、目标语种判断模块，用于判断所述音频数据是否是目标语种，若否，音频数据是否是目标语种；

36、音频数据识别模块：用于在所述静音或噪音判断模块、人声质量评价模块、目标语种判断模块以及目标语种判断模块判断出所述音频数据不是静音、噪音、音乐、人声质量过低和非目标语种的情况下，对所述音频数据进行识别，输出所述音频数据的文字识别结果。

37、本申请至少具有以下有益效果：

38、本申请通过对输入的音频不仅进行静音噪音检测，还进行音乐检测、语种检测以及人声质量检测，当输入音频不是静音、噪音、音乐、人声质量过低和非目标语种的情况下，才对所述音频数据进行识别，因此，能够大大提升对质量较差的音频的过滤效果，避免了输入音频质量较差，对输入音频进行错误识别造成资源浪费的问题。

技术特征：

1.一种过滤无效语音识别数据的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述接收所要识别的音频数据后，对所述音频数据进行分帧处理。

3.根据权利要求2所述的方法，其特征在于，所述判断所述音频数据的是否为静音或短时噪音包括：利用以下公式计算每帧音频数据的音频能量：

4.根据权利要求3所述的方法，其特征在于，所述第一设定值为0.005，第二设定值为多少0.1。

5.根据权利要求2所述的方法，其特征在于，所述评价所述音频数据中的人声质量，判断所述音频数据的人声质量是否过低包括：

6.根据权利要求5所述的方法，其特征在于，所述第三设定值为0.5，所述第四设定值为0.6分，所述第五设定值为0.7分。

7.根据权利要求2所述的方法，其特征在于，所述判断所述音频数据中是否为音乐包括：

8.根据权利要求7所述的方法，其特征在于，所述第六设定值为0.5。

9.根据权利要求2所述的方法，其特征在于，判断所述音频数据是否是目标语种包括：

10.一种过滤无效语音识别数据的系统，其特征在于，所述系统包括：

技术总结本申请公开了一种过滤无效语音识别数据的方法和系统，所述方法包括：接收所要识别的音频数据；判断音频数据是否为静音或噪音，若是，则不识别所述音频数据，输出音频数据为无效语音的判断结果；评价音频数据中的人声质量，判断音频数据的人声质量是否低，若是，则不识别音频数据，输出音频数据为无效语音的判断结果；判断音频数据中是否为音乐，若是，则不识别音频数据，输出音频数据为无效语音的判断结果；判断音频数据是否是目标语种，若否，则不识别述音频数据，输出音频数据为无效语音的判断结果；通过本申请方法，能够大大提升对质量较差的音频的过滤效果，避免了输入音频较差，对输入音频进行错误识别造成资源浪费的问题。技术研发人员：郑大川,陈振标,杜晓祥受保护的技术使用者：北京云上曲率科技有限公司技术研发日：技术公布日：2024/2/1