技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音提取方法、装置、计算机设备和存储介质与流程 > 正文

语音提取方法、装置、计算机设备和存储介质与流程

国知局
2024-06-21 11:35:36

本技术涉及计算机，特别是涉及一种语音提取方法、装置、计算机设备和存储介质。

背景技术：

1、随着计算机技术的发展，目标对象语音提取技术得以快速发展并应用于越来越多的场景中。目前的目标对象语音提取技术通常依赖于提前注册目标对象的语音线索，然而，由于目标对象的音色在不同时间可能存在差异以及语音线索注册与使用环境的差异等方面的不稳定性，导致从混合语音中提取目标对象的语音的准确性较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够更精准地提取目标对象语音的语音提取方法、装置、计算机设备和存储介质，提高了从混合语音中提取目标对象的语音的准确性。

2、第一方面，本技术提供了一种语音提取方法。所述方法包括：

3、获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；

4、获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；

5、将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；

6、基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；

7、将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。

8、在其中一个实施例中，目标线索编码模型包括历史语音编码器和语音特征数据编码器；基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征，包括：

9、基于历史语音编码器对历史语音数据集进行特征提取，得到历史语音特征；

10、基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征，包括：

11、基于语音特征数据编码器对待处理语音特征数据进行特征提取，得到待处理线索特征。

12、在其中一个实施例中，基于语音特征数据编码器对待处理语音特征数据进行特征提取，得到待处理线索特征包括：

13、当待处理语音特征数据为语音数据时，语音特征数据编码器为语音编码器，基于语音编码器对语音数据进行特征提取，得到语音特征，将语音特征作为待处理线索特征；

14、当待处理语音特征数据为视频数据时，视频数据为待提取混合语音对应的语音特征视频，语音特征数据编码器为视频编码器，基于视频编码器对视频数据进行特征提取，得到视频特征，将视频特征作为待处理线索特征；

15、当待处理线索包括语音数据和视频数据时，视频数据为待提取混合语音对应的语音特征视频，语音特征数据编码器包括语音编码器和视频编码器，基于语音编码器对语音数据进行特征提取，得到语音特征，基于视频编码器对视频数据进行特征提取，得到视频特征，将语音特征和视频特征作为待处理线索特征。

16、在其中一个实施例中，目标线索编码器包括特征融合层；基于目标线索编码器将待处理线索特征和历史语音特征进行融合，得到目标线索特征包括：

17、当待处理语音特征数据为语音数据，或者待处理语音特征数据包括语音数据和视频数据时，基于特征融合层，从语音特征中选取出第一筛选特征，从历史语音特征中选取出第二筛选特征；

18、基于特征融合层，将第一筛选特征和第二筛选特征进行融合，得到语音融合特征；

19、若待处理语音特征数据为语音数据，则将语音融合特征作为目标线索特征；若待处理语音特征数据包括语音数据和视频数据，则将语音融合特征和视频特征作为目标线索特征；若待处理语音特征数据为视频数据，则将第二筛选特征和视频特征作为目标线索特征。

20、在其中一个实施例中，基于特征融合层，从语音特征中选取出第一筛选特征，从历史语音特征中选取出第二筛选特征包括：

21、通过特征融合层，基于语音时间顺序分别设置语音特征对应的第一筛选权重，和历史时间段内各时间点对应的历史语音特征的第二筛选权重；

22、通过特征融合层，基于第一筛选权重，从语音特征中选取出第一筛选特征，基于历史时间段内各时间点对应的历史语音特征的第二筛选权重，从历史时间段内各时间点对应的历史语音特征中，选取出历史时间段内各时间点对应的第二筛选特征。

23、在其中一个实施例中，该语音提取方法还包括：

24、通过特征融合层，分别计算语音特征与历史时间段内各时间点对应的历史语音特征之间的相似度；

25、通过特征融合层，基于各相似度之间的比较结果，从历史时间段内各时间点对应的历史语音特征中，选取出历史时间段内各时间点对应的第二筛选特征，将语音特征作为第一筛选特征。

26、在其中一个实施例中，获取目标对象在历史时间段对应的历史语音数据集之前，还包括：

27、分别计算历史语音数据集中，各时间点目标对象对应的历史语音之间的相似度，将相似度不满足历史语音筛选条件的历史语音剔除；

28、从剔除后剩余的历史语音中，选取出目标对象在历史时间段对应的历史语音数据集。

29、第二方面，本技术还提供了一种语音提取装置。所述装置包括：

30、获取模块，用于获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；

31、第一提取模块，用于获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；

32、第二提取模块，用于将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；

33、融合模块，用于基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；

34、处理模块，用于将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。

35、一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

36、获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；

37、获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；

38、将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；

39、基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；

40、将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。

41、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

42、获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；

43、获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；

44、将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；

45、基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；

46、将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。

47、上述语音提取方法、装置、计算机设备和存储介质，通过获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集，实现了语音提取线索的循环动态更新，较好地避免了不同时间下目标对象音色差异对语音提取准确性的影响，以及目标对象注册语音时的环境与使用语音时的环境差异对语音提取准确性的影响，使得不再需要目标对象频繁在相关的语音提取系统进行语音的注册，从而提高了从混合语音中提取目标对象相关的语音的效率的同时，较好地提高了从混合语音中提取出目标对象相关的语音的准确性。