技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音数据处理方法、装置、计算机设备和存储介质与流程 > 正文

语音数据处理方法、装置、计算机设备和存储介质与流程

国知局
2024-06-21 10:38:19

本申请涉及计算机，特别是涉及一种语音数据处理方法、装置、计算机设备和存储介质。

背景技术：

1、自动语音识别是人工智能应用的一个重要方向，并发展成为一个具有广阔前景的新兴高技术产业。随着移动互联网时代的到来，人们对智能化的需求促进智能语音技术获得了很大的发展，越来越多的智能设备开始使用语音识别技术来完成交互，比如智能汽车，智能手机以及智能音箱等。在进行对音频的语音识别处理时往往需要先进行模型训练。不管针对哪种语音识别模型，训练样本的数据量始终与模型训练的好坏相关联。所使用的训练样本越多越丰富多样，那么训练得到的语音识别模型的泛化能力越强，且精度越高。

2、目前，主流的语音数据增强技术包括音量变换、音高变换、音频加噪、时域掩码、频域掩码及语音合成(tts)生成等技术。其中，音量变换、音高变换、音频加噪、时域掩码及频域掩码这五种技术只能进行音频特性的变换，不能改变语音数据具体描述的内容，因此，使得产生的语音数据对应的内容比较单一。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种语音数据处理方法、装置、计算机设备和存储介质，能够利用语音数据拼接的方式，通过对至少两种不同的语音数据的内容进行拼接，产生了具有新的文本内容的语音数据，提高语音数据的多样性。

2、一种语音数据处理方法，该方法包括：

3、获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容；

4、从各语音数据中提取得到对应的语音特征；

5、根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果；

6、根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段；

7、将各语音片段进行拼接，得到语音说话者对应的目标语音数据。

8、在其中一个实施例中，从各语音数据中提取得到对应的语音特征，包括：获取目标维度的滤波器组，将各语音数据输入至目标维度的滤波器组，通过滤波器组对各语音数据进行特征提取，得到各语音数据对应的语音特征。

9、在其中一个实施例中，根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果，包括：将各语音特征输入至目标语音对齐网络中，得到各语音特征对应的语音特征编码序列，根据各语音特征编码序列与对应的语音文本内容进行对齐处理，得到各语音数据中各语音字词段对应的对齐结果。

10、在其中一个实施例中，根据各语音特征编码序列与对应的语音文本内容进行对齐处理，得到各语音数据中各语音字词段对应的对齐结果，包括：对各语音特征编码序列对应的语音文本内容进行分割处理，得到对应的多个语音字词段，根据各语音特征编码序列获取相应的各语音字词段对应的语音时间分割点，将各语音字词段与对应的语音时间分割点进行对齐，得到各语音数据中各语音字词段对应的对齐结果。

11、在其中一个实施例中，根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段，包括：获取各对齐结果对应的语音数据，根据各对齐结果中的各语音字词段对匹配的语音数据进行分割，得到各语音字词段对应的语音片段。

12、在其中一个实施例中，将各语音片段进行拼接，得到语音说话者对应的目标语音数据，包括：获取各语音片段对应的语音片段文本内容，根据语音片段文本内容将各语音片段进行拼接，得到语音说话者对应的目标语音数据。

13、在其中一个实施例中，将各语音片段进行拼接，得到语音说话者对应的目标语音数据之后，还包括：对目标语音数据进行第一操作，得到处理后的第一目标语音数据，其中，第一操作包括音频加噪变换和/或音频加混响变换；对第一目标语音数据进行第二操作，得到处理后的第二目标语音数据，其中，第二操作包括音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的任一种或几种。

14、一种语音数据处理装置，该装置包括：

15、第一获取模块，用于获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容；

16、提取模块，用于从各语音数据中提取得到对应的语音特征；

17、处理模块，用于根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果；

18、第二获取模块，用于根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段；

19、拼接模块，用于将各语音片段进行拼接，得到语音说话者对应的目标语音数据。

20、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

21、获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容；

22、从各语音数据中提取得到对应的语音特征；

23、根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果；

24、根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段；

25、将各语音片段进行拼接，得到语音说话者对应的目标语音数据。

26、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

27、获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容；

28、从各语音数据中提取得到对应的语音特征；

29、根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果；

30、根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段；

31、将各语音片段进行拼接，得到语音说话者对应的目标语音数据。

32、上述语音数据处理方法、装置、计算机设备和存储介质，获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容，从各语音数据中提取得到对应的语音特征，根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果，根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段，将各语音片段进行拼接，得到语音说话者对应的目标语音数据。因此，通过语音数据拼接的方式，对相同语音说话者的至少两种不同语音数据的内容进行拼接，产生具有新的文本内容的目标语音数据，提高语音数据的多样性。

技术特征：

1.一种语音数据处理方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从各所述语音数据中提取得到对应的语音特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据各所述语音特征与对应的语音文本内容得到各所述语音数据中各语音字词段对应的对齐结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据各所述语音特征编码序列与对应的语音文本内容进行对齐处理，得到各所述语音数据中各语音字词段对应的对齐结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据各所述对齐结果从对应的语音数据中获取各所述语音字词段对应的语音片段，包括：

6.根据权利要求1所述的方法，其特征在于，所述将各所述语音片段进行拼接，得到所述语音说话者对应的目标语音数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述将各所述语音片段进行拼接，得到所述语音说话者对应的目标语音数据之后，还包括：

8.一种语音数据处理装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质。该方法包括：获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容；从各语音数据中提取得到对应的语音特征；根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果；根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段；将各语音片段进行拼接，得到语音说话者对应的目标语音数据。采用本方法能够利用语音数据拼接的方式，通过对至少两种不同的语音数据的内容进行拼接，产生了具有新的文本内容的语音数据，提高语音数据的多样性。技术研发人员：谭应伟,丁雪枫受保护的技术使用者：大众问问（北京）信息科技有限公司技术研发日：技术公布日：2024/1/15