技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别数据处理方法、系统、装置及存储介质与流程  >  正文

一种语音识别数据处理方法、系统、装置及存储介质与流程

  • 国知局
  • 2024-06-21 11:36:56

本发明涉及数据处理,尤其是一种语音识别数据处理方法、系统、装置及存储介质。

背景技术:

1、随着电子商务、电子政务以及移动互联网应用的兴起,资讯和产品的获取渠道越来越多,咨询和消费行为呈现感性化趋势,客户服务质量越来越受到广大市民和消费者的关注。相比文字客服,语音客服更具亲和力,呼叫中心始终保持着良好发展趋势。然而,传统呼叫中心运营成本较高,且主要为人力成本,智能化是破局的关键。要提高智能化识别能力,就必须提升语音质量。客户身处各种开放环境,噪音杂音不可避免,发音习惯也千差万别,识别前必须先进行提纯,去除无规律的噪音、非客户语音的杂音,以及因客户口音、说话习惯或通话质量问题导致的冗余数据。现有的语音去噪方法往往只能够对噪音、杂音等进行识别过滤,无法准确识别客户语音中的冗余数据并进行全面去噪,影响了语音识别数据去噪的全面性和准确性,进而影响了后续语音识别的效率和准确度。

技术实现思路

1、本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

2、为此,本发明实施例的一个目的在于提供一种语音识别数据处理方法,该方法提高了语音识别数据去噪的全面性和准确性,从而提高了语音识别的效率和准确度。

3、本发明实施例的另一个目的在于提供一种语音识别数据处理系统。

4、为了达到上述技术目的,本发明实施例所采取的技术方案包括:

5、第一方面,本发明实施例提供了一种语音识别数据处理方法,包括以下步骤:

6、获取目标语音识别数据,对所述目标语音识别数据进行特征提取得到语义特征向量矩阵、情感特征向量矩阵以及语速特征向量矩阵;

7、对所述语义特征向量矩阵、所述情感特征向量矩阵以及所述语速特征向量矩阵进行降维处理得到语义特征低维矩阵、情感特征低维矩阵以及语速特征低维矩阵;

8、对所述语义特征低维矩阵、所述情感特征低维矩阵以及所述语速特征低维矩阵进行特征融合得到融合特征矩阵;

9、将所述融合特征矩阵输入到预先训练好的噪声检测模型,得到噪声检测结果,并根据所述噪声检测结果对所述目标语音识别数据进行去噪处理。

10、进一步地,在本发明的一个实施例中,所述语义特征向量矩阵通过以下步骤得到:

11、通过预设的滤波器组提取所述目标语音识别数据对应的语音特征序列;

12、通过预先构建的第一编码器获取所述语音特征序列中语音特征对应的声学表征;

13、通过预先构建的词嵌入矩阵将所述声学表征的隐向量映射到源语言词表,得到所述语义特征向量矩阵。

14、进一步地,在本发明的一个实施例中,所述情感特征向量矩阵通过以下步骤得到:

15、对所述目标语音识别数据依次进行预加重、分帧、加窗、快速傅里叶变换、三角窗滤波、对数运算以及离散余弦变换,得到所述目标语音识别数据的梅尔频率倒谱系数;

16、根据所述梅尔频率倒谱系数确定多个语音情感特征,并根据所述语音情感特征生成所述情感特征向量矩阵;

17、其中,所述语音情感特征包括所述梅尔频率倒谱系数的均值、标准差、方差、中值、最大值、最小值、四分位数、极差、陡峭度以及偏斜度。

18、进一步地,在本发明的一个实施例中所述语速特征向量矩阵通过以下步骤得到:

19、提取所述目标语音识别数据的倒谱特征、基频值和能量值;

20、根据所述倒谱特征生成携带音节边界信息的语音序列,并根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值;

21、根据所述每一音节对应的基频值和能量值,计算每一音节的韵律特征,进而根据所述韵律特征生成语速特征向量矩阵。

22、进一步地,在本发明的一个实施例中,所述对所述语义特征向量矩阵、所述情感特征向量矩阵以及所述语速特征向量矩阵进行降维处理得到语义特征低维矩阵、情感特征低维矩阵以及语速特征低维矩阵这一步骤,其具体为:

23、通过单视图半监督降维方法分别对所述语义特征向量矩阵、所述情感特征向量矩阵以及所述语速特征向量矩阵进行降维处理,得到所述语义特征低维矩阵、所述情感特征低维矩阵以及所述语速特征低维矩阵。

24、进一步地,在本发明的一个实施例中,所述对所述语义特征低维矩阵、所述情感特征低维矩阵以及所述语速特征低维矩阵进行特征融合得到融合特征矩阵这一步骤,其具体包括:

25、对所述语义特征低维矩阵、所述情感特征低维矩阵以及所述语速特征低维矩阵进行归一化处理,得到语义特征归一化矩阵、情感特征归一化矩阵以及语速特征归一化矩阵;

26、对所述语义特征归一化矩阵、所述情感特征归一化矩阵以及所述语速特征归一化矩阵进行矩阵合并,得到所述融合特征矩阵。

27、进一步地,在本发明的一个实施例中,所述语音识别数据处理方法还包括预先训练所述噪声检测模型的步骤,其具体包括:

28、获取预设的多个噪声检测样本数据,并确定各所述噪声检测样本数据的噪声标签信息,所述噪声检测样本数据包括多个语音样本的融合特征样本矩阵;

29、根据所述噪声检测样本数据和对应的所述噪声标签信息构建训练数据集;

30、将所述训练数据集输入到预先构建的卷积神经网络进行训练,得到训练好的所述噪声检测模型。

31、第二方面,本发明实施例提供了一种语音识别数据处理系统,包括:

32、特征提取模块,用于获取目标语音识别数据,对所述目标语音识别数据进行特征提取得到语义特征向量矩阵、情感特征向量矩阵以及语速特征向量矩阵;

33、降维处理模块,用于对所述语义特征向量矩阵、所述情感特征向量矩阵以及所述语速特征向量矩阵进行降维处理得到语义特征低维矩阵、情感特征低维矩阵以及语速特征低维矩阵;

34、特征融合模块,用于对所述语义特征低维矩阵、所述情感特征低维矩阵以及所述语速特征低维矩阵进行特征融合得到融合特征矩阵;

35、噪声检测模块,用于将所述融合特征矩阵输入到预先训练好的噪声检测模型,得到噪声检测结果,并根据所述噪声检测结果对所述目标语音识别数据进行去噪处理。

36、第三方面,本发明实施例提供了一种语音识别数据处理装置,包括:

37、至少一个处理器;

38、至少一个存储器,用于存储至少一个程序;

39、当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的一种语音识别数据处理方法。

40、第四方面,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述的一种语音识别数据处理方法。

41、本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:

42、本发明实施例获取目标语音识别数据,对目标语音识别数据进行特征提取得到语义特征向量矩阵、情感特征向量矩阵以及语速特征向量矩阵,然后对语义特征向量矩阵、情感特征向量矩阵以及语速特征向量矩阵进行降维处理得到语义特征低维矩阵、情感特征低维矩阵以及语速特征低维矩阵,再对语义特征低维矩阵、情感特征低维矩阵以及语速特征低维矩阵进行特征融合得到融合特征矩阵,进而将融合特征矩阵输入到预先训练好的噪声检测模型,得到噪声检测结果,并根据噪声检测结果对目标语音识别数据进行去噪处理。本发明实施例基于语义、情感以及语速三个维度对目标语音识别数据进行特征提取,并对提取到的语义特征向量矩阵、情感特征向量矩阵以及语速特征向量矩阵进行降维和特征融合,从而得到包含语义、情感以及语速等特征表示的融合特征矩阵,将该融合特征矩阵输入到预先训练的噪声检测模型即可准确检测得到目标语音识别数据中的噪声数据和语音冗余数据,提高了语音识别数据去噪的全面性和准确性,从而提高了语音识别的效率和准确度。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22437.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。