技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种数据处理方法、装置、设备、存储介质及程序产品与流程  >  正文

一种数据处理方法、装置、设备、存储介质及程序产品与流程

  • 国知局
  • 2024-06-21 11:33:33

本技术涉及人工智能,尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。

背景技术:

1、在音频识别场景中,现有音频识别方法往往通过音频数据的帧数据进行音频识别,以预测该音频数据对应的文本数据。然而在对歌曲、戏曲等待识别音乐进行音频识别的场景中,由于待识别音乐中往往存在背景音,且歌唱方式不同于日常说话方式,因此,采用现有音频识别方式对待识别音乐进行识别后所得到的文本数据可能存在误差,以至于降低了对音频识别的准确度。

技术实现思路

1、本技术实施例提供一种数据处理方法、装置、设备、存储介质及程序产品,能够提高音乐识别的准确度。

2、本技术实施例一方面提供了一种数据处理方法,包括:

3、获取待识别音乐中的音乐干声数据,分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据;

4、基于音乐节奏数据以及音素状态参数,对音乐音频帧数据进行状态对齐处理,得到与n个音素相关联的音素起止时间集;n为正整数;

5、基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集,确定与n个音素相关联的音乐音素序列的音乐声学特征概率;

6、基于针对待识别音乐的词典数据,获取音乐音素序列对应的m个候选文本,基于音乐声学特征概率以及m个候选文本分别对应的文本序列概率,从m个候选文本中确定待识别音乐对应的音乐文本数据;m为正整数。

7、本技术实施例一方面还提供了一种数据处理方法,包括:

8、在获取到包括样本音频数据和样本文本数据的样本数据时,从样本音频数据中的样本干声数据中,分别提取样本节奏数据、样本音频帧数据以及样本基音数据;样本音频数据携带样本标签;样本标签用于表征样本音频数据对应的实际文本数据;

9、获取初始音频识别模型中的词典数据,基于实际文本数据、词典数据以及样本基音数据进行音素转化处理,得到样本音素串;

10、基于样本节奏数据以及音素状态参数,对样本音频帧数据进行状态对齐处理,得到与样本音素串相关联的样本起止时间集;

11、基于样本音频帧数据对应的样本声学特征以及样本起止时间集,确定与样本音素串相关联的样本音素序列的样本声学特征概率;

12、基于样本文本数据、词典数据以及样本音素序列的样本声学特征概率,获取样本音素序列对应的预测文本数据;

13、基于样本文本数据、实际文本数据以及预测文本数据,对初始音频识别模型进行训练,得到音乐音频识别模型;音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

14、本技术实施例一方面提供了一种数据处理装置,包括:

15、干声数据获取模块,用于获取待识别音乐中的音乐干声数据,分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据;

16、音乐状态对齐模块,用于基于音乐节奏数据以及音素状态参数,对音乐音频帧数据进行状态对齐处理,得到与n个音素相关联的音素起止时间集;n为正整数;

17、特征概率确定模块,用于基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集,确定与n个音素相关联的音乐音素序列的音乐声学特征概率;

18、文本数据确定模块,用于基于针对待识别音乐的词典数据,获取音乐音素序列对应的m个候选文本,基于音乐声学特征概率以及m个候选文本分别对应的文本序列概率,从m个候选文本中确定待识别音乐对应的音乐文本数据;m为正整数。

19、其中,音乐节奏数据是由p个音高所组成的;p为小于或者等于n的正整数;n为p个音高对应的音素总数量;

20、音乐状态对齐模块包括:

21、初始对齐单元,用于基于p个音高以及音素状态参数,对音乐音频帧数据进行初始对齐处理,得到第一对齐数据;第一对齐数据用于指示n个音素中的每个音素对应的第一起止时间;音乐音频帧数据包括音频帧vi;i为大于或者等于q的正整数;q为音乐音频帧数据对应的音频帧数量;

22、综合概率获取单元,用于基于第一对齐数据,获取音频帧vi对应的状态综合概率;状态综合概率是由音频帧vi对应的状态转移概率以及音频帧vi对应的状态发射概率所确定的;

23、调整对齐单元,用于在获取到每个音频帧对应的状态综合概率时,对第一对齐数据进行调整对齐处理,得到第二对齐数据;

24、时间集获取单元,用于从第二对齐数据中,获取n个音素中的每个音素对应的第二起止时间,基于n个第二起止时间,得到与n个音素相关联的音素起止时间集。

25、其中,初始对齐单元包括:

26、帧数确定子单元,用于从p个音高中获取音高yj,确定音高yj在音乐音频帧数据中的音高起止帧数;j为小于或者等于p的正整数;

27、时间确定子单元,用于基于音素状态参数以及音高yj对应的音素数量,从音高起止帧数中确定音高yj中的每个音素对应的第一起止时间;

28、对齐数据确定子单元,用于基于与p个音高相关联的n个音素中的每个音素对应的第一起止时间,确定音乐音频帧对应的第一对齐数据。

29、其中,音乐干声数据是基于音乐音频识别模型中的业务声学模型所确定的;业务声学模型包括第一子模型和第二子模型;

30、特征概率确定模型,包括:

31、特征提取单元,用于基于音素起止时间集,对音乐音频帧数据进行特征提取处理,得到音乐声学特征;

32、音素识别单元,用于将音乐声学特征输入至第一子模型,由第一子模型对音乐声学特征进行音素识别处理,得到初始音素序列对应的序列概率;

33、转换概率确定单元,用于基于音素起止时间集以及第二子模型,确定初始音素序列对应的音素转换概率;

34、音素转换单元,用于基于音素转换概率对初始音素序列进行音素转换处理,得到与n个音素相关联的音乐音素序列;

35、特征确定单元,用于基于音乐音素序列的音素序列概率以及音素转换概率,确定音乐音素序列的音乐声学特征概率。

36、其中,文本数据确定模块,包括:

37、文本获取单元,用于在从音乐音频识别模型中获取针对待识别音乐的词典数据时,基于词典数据,获取音乐音素序列对应的m个候选文本;

38、文本输入单元,用于将m个候选文本输入至音乐音频识别模型中的业务语言模型,由业务语言模型输出m个候选文本分别对应的文本序列概率;

39、匹配概率获取单元,用于基于音乐声学特征概率以及m个候选文本分别对应的文本序列概率,得到m个候选文本分别对应的文本匹配概率;

40、文本确定单元,用于从m个文本匹配概率中获取最高文本匹配概率,将最高文本匹配概率对应的候选文本作为待识别音乐对应的音乐文本数据。

41、本技术实施例一方面提供了一种数据处理装置,包括:

42、样本音频获取模块,用于在获取到包括样本音频数据和样本文本数据的样本数据时,从样本音频数据中的样本干声数据中,分别提取样本节奏数据、样本音频帧数据以及样本基音数据;样本音频数据携带样本标签;样本标签用于表征样本音频数据对应的实际文本数据;

43、音素串获取模块,用于获取初始音频识别模型中的词典数据,基于实际文本数据、词典数据以及样本基音数据进行音素转化处理,得到样本音素串;

44、样本状态对齐模块,用于基于样本节奏数据以及音素状态参数,对样本音频帧数据进行状态对齐处理,得到与样本音素串相关联的样本起止时间集;

45、样本概率确定模块,用于基于样本音频帧数据对应的样本声学特征以及样本起止时间集,确定与样本音素串相关联的样本音素序列的样本声学特征概率;

46、预测文本获取模块,用于基于样本文本数据、词典数据以及样本音素序列的样本声学特征概率,获取样本音素序列对应的预测文本数据;

47、模型训练模块,用于基于样本文本数据、实际文本数据以及预测文本数据,对初始音频识别模型进行训练,得到音乐音频识别模型;音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

48、其中,音素串获取模块,包括:

49、音素串确定单元,用于获取初始音频识别模型中的词典数据,基于词典数据,对实际文本数据进行音素转化处理,确定样本基音数据对应的初始音素串;初始音素串携带第一音调;

50、参数确定单元,用于获取与样本音频数据的音频类型相匹配的基音变更规则,基于初始音素串所属的基音频率区间,在基音变更规则中确定初始音素串对应的音调变更参数;

51、音调变更单元,用于基于音调变更参数,将第一音调变更为第二音调,将具有第二音调的初始音素串确定为样本音素串。

52、其中,样本文本数据包括原始文本数据和歌词文本数据;

53、模型训练模型,包括:

54、语言模型获取单元,用于基于原始文本数据和歌词文本数据,确定初始音频识别模型中的初始语言模型的第一模型损失,基于第一模型损失对初始语言模型进行训练,得到业务语言模型;

55、声学模型获取单元,用于基于实际文本数据以及预测文本数据,确定初始音频识别模型中的初始声学模型的第二模型损失,基于第二模型损失对初始声学模型的进行训练,得到业务声学模型;

56、音乐模型确定单元,用于将包括业务语言模型和业务声学模型的初始音频识别模型作为音乐音频识别模型。

57、本技术一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;

58、上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本技术实施例中的方法。

59、本技术实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本技术实施例中的方法。

60、本技术实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例中的方法。

61、本技术实施例中,具有音乐识别功能的计算机设备在获取到待识别音乐时,可以从待识别音乐的音乐干声数据中,提取出用于进行状态对齐处理的音乐节奏数据以及音乐音频帧数据,以至于得到更加精准的音素起止时间集,进而在后续根据该音素起止时间集以及音乐音频帧数据对应的音乐声学特征,可以得到更加准确的音乐音素序列所对应的音乐声学特征概率,进一步地,在后续获取音乐音素序列对应的m个候选文本时,m为正整数,通过音乐声学特征概率与m个候选文本对应的文本序列概率进行音频识别时,能够提升音频识别的准确度。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22236.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。