一种音频检测方法、计算设备及计算机可读存储介质与流程
- 国知局
- 2024-08-22 14:45:15
本技术涉及语音处理,尤其涉及一种音频检测方法、计算设备及计算机可读存储介质。
背景技术:
1、在人机交互过程中,由于外部环境的不稳定性,往往会存在噪声干扰,因而需要对人机交互过程中的音频进行检测,排除噪声干扰,保证人机交互过程中音频的质量,从而能够更加准确地明白用户的意图。
2、在现有技术中,对音频进行检测时,会先将音频划分成多个音频段,每个音频段中包含多帧,将音频段的特征输入到神经网络模型中,确定该音频段是否为有效,即包含噪声的音频段为无效音频。在检测音频段无效后,就会进行整段的丢弃。由于整个音频段中可能还包含有效的语音帧,整段丢弃后,在传递给下一端进行后续操作时就难以保证音频的准确性了。因而,现有技术对音频的检测是笼统的,无法提供准确的音频检测。
3、综上,为提高音频检测的准确性,本技术提供了一种音频检测方法。
技术实现思路
1、本技术提供一种音频检测方法及装置,能够准确的判断出无效语音的起止时间,从而准确的剔除无效语音,提高了音频检测精准性。
2、第一方面,本技术提供了音频检测方法,包括:针对实时音频流中的待检测音频段,对待检测音频段中每一音频帧进行特征提取,得到每一音频帧对应的第一特征信息;针对任一音频帧,根据音频帧的第一特征信息和音频帧在所述待检测音频段中的参考音频帧的第一特征信息,得到音频帧的第二特征信息;将待检测音频段中各音频帧的第二特征信息通过分类器,得到每个音频帧的语音有效性识别结果;语音有效性识别结果用于表征音频帧为有效帧、噪声帧或静音帧。
3、上述技术方案中,针对实时音频流中的待检测音频段,通过定位到音频帧的角度进行特征提取,然后再将每一帧提取到的第一特征信息与每一参考音频帧的第一特征信息进行处理,得到每一帧的第二特征信息;将各音频帧的第二特征信息通过分类器进行识别,就可以得到每一音频帧具体是属于有效帧、噪声帧还是静音帧,与现有技术中只能检测一段音频中是否包含噪声,其在检测过程中聚焦的最小单位是一段音频,得到的结果只有“是“或“否”两种,而一段音频中又包含多帧的情况,无法准确的确定噪声帧的具体位置,而本技术以音频帧为最小单位,确定每一音频帧的语音有效性识别结果,可以明确知道噪声帧的起始帧与结束帧,进而就可以确定待检测音频段中的无效语音的起止时间,从而能够有效的去除无效帧的部分,保留有效语音。除此之外,音频段的获取是从实时音频流中获取到的,可以适用到实时场景。
4、在一种可能的设计中,根据音频帧的第一特征信息和音频帧在所述待检测音频段中的参考音频帧的第一特征信息,得到音频帧的第二特征信息,包括:将所述待检测音频段中各音频帧的第一特征信息输入至长短期记忆网络(long short-term memory,lstm),得到所述待检测音频段中每一音频帧的第二特征信息。
5、上述技术方案中,将获取到的音频帧的第一特征信息和参考音频帧的第一特征信息进行比对处理是通过长短期记忆网络实现的,长短期记忆网络是一种时间循环神经网络,是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的,让机器模仿人的大脑,记住有用的东西,忘记没用的东西,以便能够记住更长的信息。采用长短期记忆网络进行处理得到待检测音频段中每一音频帧的第二特征信息,使得到的第二特征信息更加准确。
6、在一种可能的设计中,将待检测音频段中各音频帧的第一特征信息输入至长短期记忆网络lstm,得到待检测音频段中每一音频帧的第二特征信息,包括:针对任一音频帧,将音频帧的第一特征信息、音频帧的参考音频帧经lstm处理后的细胞状态和隐藏状态,输入至lstm,得到音频帧的第二特征信息。
7、上述的技术方案中,在其长短期记忆网络的内部结构实现是通过将音频帧的第一特征信息,以及音频帧的参考音频帧经lstm处理后的细胞状态和隐藏状态一起输入到长短期记忆网络得到音频帧的第二特征信息。理论上,细胞状态是长短期记忆网络实现的核心,细胞状态可以在序列的整个处理过程中携带相关信息,进而保持或忘记哪些信息。任一音频帧的参考音频帧为该音频段中位于该音频帧之前的所有音频帧。
8、在一种可能的设计中,lstm包括顺序级联的多个lstm处理层。
9、上述的技术方案中,长短期记忆网络lstm包括顺序级联的多个lstm处理层,以便提取更深层次的特征信息,让待检测音频段的有效性识别结果更加准确。
10、在一种可能的设计中,分类器包括全连接层和逻辑回归层;将待检测音频段中各音频帧的第二特征信息通过分类器,得到每个音频帧的语音有效性识别结果,包括:将待检测音频段中各音频帧的第二特征信息经所述全连接层处理后的结果,输入至逻辑回归层,从而得到每个音频帧的语音有效性识别结果。
11、上述的技术方案中,在将音频帧第一特征信息输入至lstm,得到音频帧的第二特征信息后,将各音频帧的第二特征信息输入给分类器得到每个音频帧的语音有效性识别结果。其中分类器内部包括全连接层和逻辑回归层,也就是各音频帧的第二特征信息先通过全连接层完成拼接,完成拼接后,将拼接后的音频帧的第二特征信息输入到逻辑回归层进行处理,处理得到的结果中的每个音频帧上都带对应的不同属性标签,根据不同属性的标签确定每个音频帧对应的音频帧属性,从而确定每个音频帧的语音有效性识别结果,从而提高待检测音频段的检测准确性。
12、在一种可能的设计中,lstm和分类器是通过样本数据集进行训练得到的;样本数据集中任一样本是将噪声数据集中任一噪声样本与有效语音数据集中任一有效样本进行拼接得到的;任一样本中的每个音频帧设置有标签,标签用于表征音频帧为有效帧、噪声帧或静音帧;其中,噪声数据集中包括第一噪声集和第二噪声集;第二噪声集中至少一个样本是通过对所述第一噪声集中任一样本进行不定长静音帧插入得到的;和/或有效语音数据集中包括第一有效集和第二有效集;第二有效集中至少一个样本是通过对所述第一有效集中任一样本进行不定长静音帧插入得到的。
13、上述的技术方案中,lstm分类器中的处理依据都是通过样本数据集进行训练得到的。在进行样本数据集构建的过程中,构建噪声数据集和效语音数据集,噪声数据集中包括了第一噪声集和第二噪声集,其中,第二噪声集通过对所述第一噪声集中任一样本进行不定长静音帧插入得到的,有效语音数据集包括了第一有效集和第二有效集,其中,第二有效集是通过对所述第一有效集中任一样本进行不定长静音帧插入得到的,通过随机插入不定长度的静音来丰富样本数据。多次将有效语音数据集中的第一有效集和第二有效集和噪声数据集中的第一噪声集和第二噪声集随机取一通录音进行拼接得到样本数据集,可以丰富样本的数据,增加泛化能力。
14、在一种可能的设计中,第一噪声集和第一有效集是通过如下方式得到的,包括:对任一音频进行转写,根据转写结果确定音频是否为噪声音频或有效音频,从而得到初始噪声集和初始有效集;针对初始噪声集中任一音频,进行初步静音去除处理,得到第一噪声集;针对初始有效集中任一音频,进行初步静音去除处理及低质量音频帧去除处理,得到第一有效集。
15、上述的技术方案中,第一噪声集和第一有效集的获取是通过收集音频数据信息,对任一音频进行转写,根据转写结果确定音频是噪声音频还是有效音频,从而得到初始噪声集和初始有效集,上述通过转写算法进行区分一段音频中的数据的方法比较高效。在得到初始噪声集和初始有效集后,对初始噪声集进行去除静音处理,得到第一噪声集。对初始有效集进行去除静音和低质量音频帧去除处理后,得到第一有效集。通过这种定制化的预处理过程,能够保证第一噪声集和第一有效集的质量,为后续进行与第二噪声集和第二有效集进行拼接处理得到样本数据集提供条件,保证了样本数据集构建过程的高效,高质量。
16、在一种可能的设计中,得到每个音频帧的语音有效性识别结果之后,还包括:对待检测音频段中任一有效帧,将有效帧的n个邻帧重置为有效帧;在所述待检测音频段中各有效帧均重置结束后,对待检测音频段中的任一噪声帧设置为静音状态。
17、上述的技术方案中,在通过lstm和分类器处理后得到每个音频帧的语音有效性识别结果之后,还需要根据对待检测音频中有效帧确定其前后临帧的范围n,将临帧范围n均设置为有效帧,并对待检测音频段中的任一噪声帧设置为静音状态,将设置完成后每个音频帧进行输出。其中设置有效帧的n个邻帧重置为有效帧,是因为在实际应用场景中,人在进行发声时,会先有起始动作,在结束发声后,会有结束动作,因此设置n个邻帧重置为有效帧,更加符合人的特点,较为真实。同时又将待检测音频中的噪声帧通过设置静音状态进行准确排除,保证了有效语音,提高了音频准确性。
18、第二方面,本技术实施例提供一种音频检测装置,包括:提取单元,用于针对实时音频流中的待检测音频段,对所述待检测音频段中每一音频帧进行特征提取,得到每一音频帧对应的第一特征信息;
19、处理单元,用于针对任一音频帧,根据所述音频帧的第一特征信息和所述音频帧在所述待检测音频段中的参考音频帧的第一特征信息,得到所述音频帧的第二特征信息;
20、所述处理单元,还用于将所述待检测音频段中各音频帧的第二特征信息通过分类器,得到每个音频帧的语音有效性识别结果;所述语音有效性识别结果用于表征音频帧为有效帧、噪声帧或静音帧。
21、在一种可能的设计中,所述处理单元,具体用于将所述待检测音频段中各音频帧的第一特征信息输入至长短期记忆网络lstm,得到所述待检测音频段中每一音频帧的第二特征信息。
22、在一种可能的设计中,所述处理单元,具体用于针对任一音频帧,将所述音频帧的第一特征信息、所述音频帧的参考音频帧经所述lstm处理后的细胞状态和隐藏状态,输入至所述lstm,得到所述音频帧的第二特征信息。
23、在一种可能的设计中,所述lstm包括顺序级联的多个lstm处理层。
24、在一种可能的设计中,所述分类器包括全连接层和逻辑回归层;
25、所述处理单元,具体用于将所述待检测音频段中各音频帧的第二特征信息经所述全连接层处理后的结果,输入至所述逻辑回归层,从而得到每个音频帧的语音有效性识别结果。
26、在一种可能的设计中,所述lstm和所述分类器是通过样本数据集进行训练得到的;所述样本数据集中任一样本是将噪声数据集中任一噪声样本与有效语音数据集中任一有效样本进行拼接得到的;任一样本中的每个音频帧设置有标签,所述标签用于表征音频帧为有效帧、噪声帧或静音帧;其中,所述噪声数据集中包括第一噪声集和第二噪声集;所述第二噪声集中至少一个样本是通过对所述第一噪声集中任一样本进行不定长静音帧插入得到的;和/或所述有效语音数据集中包括第一有效集和第二有效集;所述第二有效集中至少一个样本是通过对所述第一有效集中任一样本进行不定长静音帧插入得到的。
27、在一种可能的设计中,所述处理单元,具体用于对任一音频进行转写,根据转写结果确定所述音频是否为噪声音频或有效音频,从而得到初始噪声集和初始有效集;
28、所述处理单元,具体用于针对所述初始噪声集中任一音频,进行初步静音去除处理,得到所述第一噪声集;
29、所述处理单元,具体用于针对所述初始有效集中任一音频,进行初步静音去除处理及低质量音频帧去除处理,得到所述第一有效集。
30、在一种可能的设计中,还包括:重置单元和设置单元;
31、所述重置单元,还用于对所述待检测音频段中任一有效帧,将所述有效帧的n个邻帧重置为有效帧;
32、所述设置单元,还用于在所述待检测音频段中各有效帧均重置结束后,对所述待检测音频段中的任一噪声帧设置为静音状态。
33、第三方面,本技术还提供一种计算设备,包括:
34、存储器,用于存储程序指令;
35、处理器,用于调用存储器中存储的程序指令,按照获得的程序执行上述图像处理的方法。
36、第四方面,本技术还提供一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行计算机可读指令时,使得计算机执行上述图像处理的方法。
37、上述第三方面至第四方面中任一方面可以达到的技术效果可以参照上述第一方面和第二方面中有益效果的描述,此处不再重复赘述。
本文地址:https://www.jishuxx.com/zhuanli/20240822/279715.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。