技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于人声分离的音高定位识别方法  >  正文

一种基于人声分离的音高定位识别方法

  • 国知局
  • 2024-08-05 12:20:09

本发明涉及多媒体处理领域,具体涉及一种基于人声分离的音调定位识别方法。

背景技术:

1、在音乐演出中,假唱现象是一个复杂且引发广泛讨论的话题。假唱,或称为对口型演唱,指的是歌手在现场表演时播放预录歌曲,并以实际上未发声的唇型配合。法律上,假唱被视为一种欺骗观众的行为。然而,随着技术的发展,现场演出中使用预先录制的“垫音”或利用ai实时修音已经十分普遍,这些做法旨在提升演出质量,但也模糊了假唱的界限。

2、现有技术下,更多会选择提取音频中属于演唱时间段的第一音频特征,再提取被演唱歌曲的原唱音频中属于演唱时间段的第二音频特征,计算第一音频特征与第二音频特征的相似度,这种技术往往假设真实演唱不可能达到完美的音准,而任何过于完美的音准表现都可能是假唱。然而,高水平的歌手完全有可能在没有预先录制的情况下实现接近完美的音准,因此可能造成误判。

技术实现思路

1、针对现有技术中存在的不足,本发明提供一种基于人声分离的音高定位识别方法,该方法利用现有的人声分离技术,通过分离人声和伴奏来实现对人声的音调进行准确定位。它使用端到端人声分离技术将音频文件中的人声、乐器和背景声分离开来,再使用parselmouth库来进行音准分析。

2、一种基于人声分离的音高定位识别方法,包括以下步骤:

3、步骤1:准备数据及数据预处理,具体步骤如下:

4、需要根据待识别的演唱视频选择对应的真实的对比文件;对待识别的演唱视频和对应的真实的对比文件进行预处理,主要针对其中的音频进行处理,具体包括分帧、加窗、端点检测和降噪操作;

5、首先端点检测:确定音频信号的起始和结束点。

6、然后进行分帧操作,将音频信号分割成短小的帧,每帧分割的间隔取值为10-30毫秒。

7、紧接着加窗:对每一帧应用窗函数,以减少帧边缘的不连续性。

8、最后降噪:使用现有降噪算法减少背景噪声,提高语音清晰度。

9、步骤2:采用端到端人声分离技术对处理后的数据进行人声分离,得到人声文件;

10、步骤3:构建音高定位识别网络,具体步骤如下:

11、所述的音高定位识别网络由输入层、关系层和输出层组成。

12、所述的输入层用于读取人声文件,使用传统的音频特征提取方法,如梅尔频率倒谱系数得到音频特征,这些特征能够捕捉到音频信号中的关键信息,有助于音高的识别。使用音频特征转换方法对得到音频特征进行处理,如转换成梅尔声谱图,它能够提供音频信号的频域表示。最终将音频特征转化成能够读取的频域特征。

13、所述的关系层,定义了音调集合(即乐理中的大调),明确音调的名称,通过设置列表映射来对应音调和频率的关系。

14、所述的输出层,基于关系层对输入层读取的频域特征,进行处理输出音高视频,其中包含了音调和频率之间的标准线,以及各个音高的频率点。

15、步骤4:通过构建的音高定位识别网络实现音高定位识别,具体步骤如下:

16、将步骤2处理得到的人声文件输入构建的音高定位识别网络,通过音高定位识别网络输出音高视频。假唱的频率曲线图相对真唱的频率曲线图,频率点分布更加均匀密集,将点与点之间连起来也更加平滑。

17、进一步的,所述的对比文件采用官方音乐平台上的相关mv,或是音乐节目及比赛的视频,视频要求:人声清晰,背景噪声相对较小(信噪比在70db以上);

18、本发明的有益效果是:

19、针对音乐演出中的假唱现象,可通过计算机进行评估校对。在本发明方法中,通过构建音高定位识别网络,将音高和标准线进行可视化,能够直观地看到人声和经过修音合成的声音的曲线对比,维护观众粉丝的权益,同时相对现有技术提高了泛用性以及准确性。

技术特征:

1.一种基于人声分离的音高定位识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于人声分离的音高定位识别方法,其特征在于,所述的对比文件采用官方音乐平台上的相关mv,或是音乐节目及比赛的视频,视频要求:人声清晰,背景噪声信噪比在70db以上。

3.根据权利要求1所述的一种基于人声分离的音高定位识别方法,其特征在于,预处理具体操作如下:

4.根据权利要求1-3任意一项所述的一种基于人声分离的音高定位识别方法,其特征在于,所述的输出层,基于关系层对输入层读取的频域特征,进行处理输出音高视频,其中包含了音调和频率之间的标准线,以及各个音高的频率点,具体操作如下:

技术总结本发明公开了一种基于人声分离的音高定位识别方法,首先需要根据待识别的演唱视频选择对应的真实的对比文件并进行预处理;然后采用端到端人声分离技术对处理后的数据进行人声分离,得到人声文件;再构建音高定位识别网络,网络由输入层、关系层和输出层组成;最后人声分离得到人声文件输入构建的音高定位识别网络实现音高定位识别。在本发明方法中,通过构建音高定位识别网络,将音高和标准线进行可视化,能够直观地看到人声和经过修音合成的声音的曲线对比,维护观众粉丝的权益,同时相对现有技术提高了泛用性以及准确性。技术研发人员:姚雨辰,颜成钢,郑博仑,潘航佳,徐逸杰,李宗鹏受保护的技术使用者:杭州电子科技大学丽水研究院技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/262243.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。