技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种用于声乐教学的音频识别系统的制作方法  >  正文

一种用于声乐教学的音频识别系统的制作方法

  • 国知局
  • 2024-06-21 11:56:25

本发明涉及声乐识别,尤其涉及一种用于声乐教学的音频识别系统。

背景技术:

1、声学中将音频的三要素定义为音调、响度、音色,这三个特征共同构成了声音的特性和质量,是声学研究的基础,在音乐、语言、语音识别等领域中,对声音的这三个特征的分析和处理非常重要,例如,通过分析声音的音调、响度和音色就可以实现对音乐、语言、声音信号等进行分析、合成、识别和处理。

2、声乐教学作为学生音乐基础素质的培养,对学生音乐元素的养成具有重要的作用,传统的声乐教学包括声乐技巧、歌曲编排和美声唱法等都是通过课堂形式对学生进行传授,而这种方式带来的不足包括学时不够、教师和学生沟通少等问题,导致教学效率低,学生缺乏兴趣,且学生无法进行声乐的自测,而现有的用于声乐教学音频识别技术中,面临的困难和挑战在于提取合适的特征以确保音频的识别准确率。

3、中国专利公开号:cn107369359b公开了一种声乐发音训练系统,包括:音频采集模块、基频提取模块、音符转换模块、音符对比模块、参考基频存储模块、音符时长识别模块、音符时长对比模块、参考音符时长存储模块、纠错存储模块、播放模块、综合评估模块、控制模块、输入模块和显示模块,其通过对采集的音频信号从音符和音符时值两方面进行评估,使练习者可以直观地了解自己训练的缺陷,提高了学习效率;由此可见,现有的音频识别系统,由于缺乏对音频信号地判别处理,难以更精准地提取特征信号,从而提高声学场景条件下音频的识别准确率。

技术实现思路

1、为此,本发明提供一种用于声乐教学的音频识别系统,用以克服现有技术中由于缺乏对输入音频的判别处理,使提取的特征信号准确率低,从而导致声乐音频识别准确率低的问题。

2、为实现上述目的,本发明提供一种用于声乐教学的音频识别系统,包括,

3、音频采集模块,用以接收输入音频并进行录制,在达到预设分析时长时根据当前波形频率对输入音频进行清音识别,以确定输入音频是否有效;

4、判别处理模块,用以获取完成录制的输入音频并进行判别处理,所述判别处理包括滤波处理、分帧处理以及信号增强处理,所述判别处理模块包括,

5、分帧处理单元,用以将经过滤波处理后的修正声乐音频按照预设分帧周期切分为若干频域信号片段,获取所述频域信号片段中的末时刻对应的音频信号的频率作为实时音频频率,根据标准音频频率对实时音频频率进行判定,确定是否对该频域信号片段对应的分割区间进行调整,以及根据标准修正差值依次对各实时修正差值进行判定,确定是否对预设分帧周期进行修正,进而将修正频域信号片段进行信号增强处理;

6、音频识别模块,对各修正频域信号片段进行识别,提取特征数据并进行保存。

7、进一步地,所述判别处理模块还包括,

8、滤波处理单元,用以将输入音频切分为若干待处理音频帧,对所述待处理音频帧进行滤波处理,得到对应的纯净音频帧,对所述纯净音频帧进行合成处理,得到修正声乐音频;

9、信号处理单元,用以根据标准信号振幅对各修正频域信号片段中的各实时信号振幅进行判定,以对实时信号振幅进行增强修正或衰减修正。

10、进一步地,所述音频采集模块在接收到输入音频时,对其进行录制,直至录制时长达到预设分析时长时,获取当前完成录制的输入音频以及对应的当前波形过零率,根据标准波形过零率范围对当前波形过零率进行判定,

11、若当前波形过零率在标准波形过零率范围内,则判定输入音频有效,将继续对输入音频进行录制,直至达到预设录制时长时判定完成录制;

12、若当前波形过零率不在标准波形过零率范围内,则判定输入音频无效,将当前波形过零率与第一标准波形过零率与第二标准波形过零率进行对比,以区分输入音频,并进行录音无效显示;

13、其中,录音无效显示包括静音显示与噪音显示。

14、进一步地,所述音频采集模块在判定当前波形过零率不在标准波形过零率范围内时,将当前波形过零率与第一标准波形过零率与第二标准波形过零率进行对比,

15、若当前波形过零率小于第一标准波形过零率,则判定输入音频为静音,进行静音显示;

16、若当前波形过零率大于第二标准波形过零率,则判定输入音频为噪音,进行噪音显示。

17、进一步地,所述音频采集模块在判定当前波形过零率在标准波形过零率范围内时,所述判别处理模块获取完成录制的输入音频进行判别处理,所述滤波处理单元内设置有标准处理时长,所述滤波处理单元对输入音频进行滤波处理时,以标准处理时长将输入音频切分为若干待处理音频帧,所述滤波处理单元能够将任一待处理音频帧分为带噪语音与纯净语音,对带噪语音中的噪声向量进行删除,以及增强声乐向量,将纯净语音与增强后的声乐向量合并为纯净音频帧,对各纯净音频帧进行合成处理,得到修正声乐音频。

18、进一步地,所述分帧处理单元内设置有预设分帧周期与标准音频频率,分帧处理单元能够以预设分帧周期作为分割区间将修正声乐音频切分为若干频域信号片段,获取频域信号片段中的末时刻对应的音频信号的频率作为实时音频频率,根据标准音频频率对实时音频频率进行判定,

19、若实时音频频率小于等于标准音频频率,所述分帧处理单元不对该频域信号片段对应的分割区间进行调整,将预设分帧周期作为该频域信号片段的实际分帧周期;

20、若实时音频频率大于标准音频频率,所述分帧处理单元将根据标准音频频率对相邻音频频率进行判定,以对该频域信号片段对应的分割区间进行调整。

21、进一步地,所述分帧处理单元在判定实时音频频率大于标准音频频率时,获取该频域信号片段的下一时刻对应的音频信号的频率作为相邻音频频率,根据标准音频频率对相邻音频频率进行判定,

22、若相邻音频频率大于标准音频频率,所述分帧处理单元将相邻音频频率对应的波谱与该频域信号片段进行合并,对该频域信号片段对应的分割区间进行调整,并再次进行将下一时刻对应的音频信号的频率作为相邻音频频率,根据标准音频频率对相邻音频频率进行判定的操作,直至判定相邻音频频率小于等于标准音频频率时,分帧处理单元将该频域信号片段修正为修正频域信号片段,输出该修正频域信号片段对应的实际分帧周期,将根据标准修正差值依次对各实时修正差值进行判定,以确定是否对预设分帧周期进行修正;

23、若相邻音频频率小于等于标准音频频率,所述分帧处理单元不对该频域信号片段对应的分割区间进行调整,将预设分帧周期作为该频域信号片段的实际分帧周期,将该频域信号片段记作修正频域信号片段。

24、进一步地,所述分帧处理单元内设置有标准修正差值,分帧处理单元在判定相邻音频频率大于标准音频频率时,能够获取各修正频域信号片段对应的实际分帧周期,依次计算各实际分帧周期与预设分帧周期的差值作为实时修正差值,分帧处理单元根据标准修正差值依次对各实时修正差值进行判定,

25、若实时修正差值均小于等于标准修正差值,所述分帧处理单元判定不对预设分帧周期进行修正;

26、若存在实时修正差值大于标准修正差值,所述分帧处理单元将根据标准差异率对实时差异率进行判定,以确定是否对预设分帧周期进行修正。

27、进一步地,所述分帧处理单元内设置有标准差异率,分帧处理单元在判定存在实时修正差值大于标准修正差值时,获取对应的实际分帧周期对应的修正频域信号片段的数目记作实时差异数目,根据实时差异数目与修正频域信号片段的总数目计算实时差异率,并根据标准差异率对实时差异率进行判定,

28、若实时差异率小于等于标准差异率,所述分帧处理单元判定不对预设分帧周期进行修正;

29、若实时差异率大于标准差异率,所述分帧处理单元对预设分帧周期进行修正,修正为修正切分周期;

30、其中,ti’=ti×[1+(ds-db)/ds],ds表示计算的实时差异率,db表示设定的标准差异率,ti表示预设分帧周期,ti’表示计算的修正切分周期;

31、实时差异率等于实时差异数目占修正频域信号片段的总数目的百分比。

32、进一步地,所述信号处理单元内设定有标准信号振幅,信号处理单元能够根据标准信号振幅对各修正频域信号片段中的各实时信号振幅进行判定,

33、若实时信号振幅大于等于标准信号振幅,对该实时信号振幅进行增强修正,修正为qs’=qs×[1+(qs-qb)/qs];

34、若实时信号振幅小于标准信号振幅,对该实时信号振幅进行衰减修正,修正为qs”=i nqs;

35、其中,qs表示为实时信号振幅,qb表示设定的标准信号振幅,qs’表示对该实时信号振幅进行增强修正得到的幅值,qs”表示对该实时信号振幅进行衰减修正得到的幅值。

36、与现有技术相比,本发明的有益效果在于,通过对输入音频的过零率进行分析,通过在时域方面对输入音频的类别进行识别,保障输入音频的有效性,通过对输入音频进行滤波处理,以减少噪声对信号分析的干扰,通过对输入音频进行分帧处理,将连续的音频信号分割成一连串的片段,根据音频对应的语句完整度对音频信号进行分割,并将输入音频分为合适的短帧片段,避免音频帧过短,当前声乐语句还未结束,将当前语句对应的音频特征扩散到下一帧中,导致识别结果出错,通过对分帧后的信号进行关键峰增强处理,以突出高频共振峰,提高音频识别的精准性。

37、进一步地,通过对输入音频的频率值进行分析,即计算输入音频的当前波形过零率,若判定当前波形过零率在标准波形过零率范围内,表示输入音频为清音,若判定当前波形过零率大于第二标准波形过零率,表示输入音频为噪音,采用简单方法区分静音、清音与噪音,对初始输入音频进行分类,以及初次保障输入音频有效。

38、进一步地,通过去除噪声和无用信息,压缩音频信号的信息量,以及提高识别的准确性。

39、进一步地,通过对切分后的频域信号片段中的末时刻对应的音频信号的频率进行检测,以确定切分分割节点是否存在人声,若判定实时音频频率小于等于标准音频频率,表示分帧处理单元判定分割节点不存在人声信号,则无需对预设分帧周期进行修正,若判定实时音频频率大于标准音频频率,表示分帧处理单元判定分割节点出现人声信号,则通过对下一时刻的时间节点对应的音频信号进行判定,以增加待分析音频段的音频片段长度,完成对预设分帧周期的修正,保障分割区间对应的人声音频的完整性以及匹配音频的质量。

40、进一步地,通过根据标准音频频率对相邻音频频率进行判定,以确定是否增加待分析音频段的音频片段长度,由于人声演唱一般是以歌词文本中的句子为周期,即对一句或几句词的演唱后存在停顿,则通过根据这种停顿对输入音频进行切分,避免截取的音频帧较短,即当前声乐语句还未结束,将当前语句对应的音频特征扩散到下一帧中,导致识别结果出错,因此,正确切分以得到合适的音频帧长度,由于音频在短时间内是平稳的,将输入音频的信号分割为短帧,提高音频识别的精准性,且若连续的声音发生变化,就可以实现基于帧的识别,识别出各个声音的细微改变。

41、进一步地,通过计算修正后的切分周期与预设分帧周期的差值,该差值代表了系统对预设值的修正计算量,以分析设置的预设分帧周期的精准性,若分帧处理单元判定实时修正差值均小于等于标准修正差值,表示修正差值较小,若分帧处理单元判定存在实时修正差值大于标准修正差值,则将统计修正差值较大的数据的占比,以确定是否对预设分帧周期进行修正,提高对预设分帧周期修正值的计算精准性。

42、进一步地,通过计算实时差异数目占修正频域信号片段的总数目的百分比,统计实际分帧周期超出预设分帧周期的偏差范围的数量占比,在实时差异率大于标准差异率时,根据实时差异率高于标准差异率的趋势对预设分帧周期进行调整,以对分帧参数进行优化,以使下一输入音频经过滤波处理后的修正声乐音频按照修正切分周期切分为若干频域信号片段,提高切分的精准性。

43、进一步地,由于高频分量包含了较多的音频信息,低频分量的信息通常较为无用,甚至会干扰分析和识别的过程,因此通过信号处理单元增加高频部分的振幅,缩减低频部分的振幅,以突出高频共振峰,使语音信号更加平滑,以便于后续的处理和分析。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24605.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。