用于数据中台的数据智能清洗方法与流程
- 国知局
- 2024-06-21 11:36:59
本发明涉及数据处理,具体涉及用于数据中台的数据智能清洗方法。
背景技术:
1、在ai数字人进行语音识别的场景中,往往需要对获取到的语音信号数据进行处理,因为在采集语音信号时,信号中往往存在噪声,因此需要对获得的语音信号进行去噪处理。常用的一种语音去噪方法为频谱减法,该方法通过对于语音信号的频谱进行处理,将噪声的频谱从语音信号中减去,以实现去除噪声的效果。在传统方法中往往利用静音段采样的方法获取噪声谱即在语音信号中选择一个只包含噪声的静音段作为噪声谱,同时噪声具有时变性,即噪声的频谱并不是固定不变的,可能随着时间发生变化。综上传统进行噪声谱估计的方法,可能会导致估计出的噪声谱和实际噪声谱不匹配,进而影响去噪效果不显著或失去正常语音信号数据的细节信息。
2、在现有技术中,传统利用静音段采样的方法并不适用与噪声表现和正常语音信号数据表现相似的情况,例如进行语音识别时,除了需要识别的语音源,还有其他语音源,在这种情况下该方法不能很好的进行噪声谱的估计;同时传统静音段采样的方法其噪声谱往往是固定的,通过固定权重来获得噪声谱,这样不能很好的适应噪声的时变性,因此需要根据语音信号的变化自适应权重。
技术实现思路
1、为了解决上述问题,本发明提供用于数据中台的数据智能清洗方法。
2、本发明的用于数据中台的数据智能清洗方法采用如下技术方案:
3、本发明一个实施例提供了用于数据中台的数据智能清洗方法,该方法包括以下步骤:
4、采集语音信号数据,记为原始语音数据;
5、将原始语音数据分成多个短时帧,将任意一个短时帧记为参考短时帧;获取参考短时帧的第一极值序列,根据第一极值序列的数据间隔构建直角坐标系;根据直角坐标系中的数据点的分布获得多个数据区间;将任意一个数据区间记为参考数据区间,根据参考数据区间中数据的变化与对应时间段内的原始语音数据的变化,获得参考数据区间的纯噪声程度;通过比较预设阈值与参考数据区间的纯噪声程度的数值大小获得噪声数据区间和非噪声数据区间;根据噪声数据区间之间的相似性与非噪声数据区间之间的差异性获得每个噪声数据区间的最终权重;
6、根据每个噪声数据区间的最终权重对原始语音数据进行去噪。
7、进一步的,所述将原始语音数据分成多个短时帧,将任意一个短时帧记为参考短时帧;获取参考短时帧的第一极值序列,根据第一极值序列的数据间隔构建直角坐标系,包括的具体步骤如下:
8、将原始语音数据分成多个短时帧,将任意一个短时帧记为参考短时帧;
9、获取参考短时帧中的所有极值点;将极值点按照采集时间从早到晚的顺序进行排列,获得第一极值序列;在第一极值序列中,将第一个数据点与第二个数据点的时间间隔记为,第二个数据点与第三个数据点的时间间隔记为,然后获得第一极值序列中所有相邻数据点的时间间隔,其中表示差值序号;以差值序号为横坐标,时间间隔为纵坐标,构建直角坐标系。
10、进一步的,所述根据直角坐标系中的数据点的分布获得多个数据区间,包括的具体步骤如下:
11、使用最小二乘法对直角坐标系中的数据点进行曲线拟合;对拟合曲线进行求导,获得拟合曲线中每个数据点的一阶导数和二阶导数,获得拟合曲线中一阶导数为零、二阶导数不为零的数据点,记为参考数据点,若连续两个参考数据点之间的时间间隔小于预设阈值时,将这两个参考数据点划归在同一数据区间中,然后对所有参考数据点进行判断,获得多个数据区间。
12、进一步的,所述根据参考数据区间中数据的变化与对应时间段内的原始语音数据的变化,获得参考数据区间的纯噪声程度,包括的具体步骤如下:
13、获取原始语音数据的拟合曲线在时间区间内的定积分、参考数据区间的拟合曲线在时间区间内的定积分以及拟合曲线在时间区间内的数据点的方差;根据原始语音数据的拟合曲线在时间区间内的定积分、参考数据区间的拟合曲线在时间区间内的定积分以及拟合曲线在时间区间内的数据点的方差获得参考数据区间的纯噪声程度。
14、进一步的,所述根据原始语音数据的拟合曲线在时间区间内的定积分、参考数据区间的拟合曲线在时间区间内的定积分以及拟合曲线在时间区间内的数据点的方差获得参考数据区间的纯噪声程度,包括的具体步骤如下:
15、
16、式中,表示参考数据区间的纯噪声程度,表示参考数据区间对应的时间区间,表示时间区间的下限,表示时间区间的上限;表示原始语音信号数据的拟合曲线,表示参考数据区间的拟合曲线,表示拟合曲线在时间区间内的数据点的方差,表示线性归一化函数;表示在时间区间中,对原始语音信号数据的拟合曲线求定积分;表示在拟合曲线在时间区间内的定积分。
17、进一步的,所述通过比较预设阈值与参考数据区间的纯噪声程度的数值大小获得噪声数据区间和非噪声数据区间,包括的具体步骤如下:
18、预设阈值,当纯噪声程度大于时,将对应的参考数据区间记为噪声数据区间;当纯噪声程度小于等于时,将对应的参考数据区间记为非噪声数据区间。
19、进一步的,所述根据噪声数据区间之间的相似性与非噪声数据区间之间的差异性获得每个噪声数据区间的最终权重,包括的具体步骤如下:
20、获取不同噪声数据区间的纯噪声程度的差值、不同噪声数据区间的相似性以及不同非噪声数据区间纯噪声程度的差值,根据不同噪声数据区间的纯噪声程度的差值、不同噪声数据区间的相似性以及不同非噪声数据区间纯噪声程度的差值获得每个噪声数据区间的最终权重。
21、进一步的,所述根据不同噪声数据区间的纯噪声程度的差值、不同噪声数据区间的相似性以及不同非噪声数据区间纯噪声程度的差值获得每个噪声数据区间的最终权重,包括的具体步骤如下:
22、
23、式中,表示第个噪声数据区间的权重,表示第个噪声数据区间的纯噪声程度,表示第个噪声数据区间的纯噪声程度,表示第个噪声数据区间与第个噪声数据区间的相似性,表示第个非噪声数据区间的纯噪声程度,表示噪声数据区间的数量,表示非噪声区间的数量,表示以自然常数为底的指数函数;
24、根据所有噪声数据区间的权重对每个数据区间的权重进行归一化,获得每个数据区间的最终权重。
25、进一步的,所述根据所有噪声数据区间的权重对每个数据区间的权重进行归一化,获得每个数据区间的最终权重,包括的具体步骤如下:
26、
27、式中,表示第个噪声数据区间的最终权重,表示第个噪声数据区间的权重,表示噪声数据区间的数量。
28、进一步的,所述根据每个噪声数据区间的最终权重对原始语音数据进行去噪,包括的具体步骤如下:
29、对每个噪声数据区间进行快速傅里叶变换,得到对应的频谱,根据获得的每个噪声数据区间的最终权重对频谱中的每个数据点进行加权,获得噪声数据区间对应的短时帧的噪声谱;根据获得的每个短时帧的噪声谱通过频谱减法对原始语音数据进行去噪,获得去噪后的语音信号数据。
30、本发明的技术方案的有益效果是:在通过频谱减法对语音信号进行去噪时,因为语音信号中存在不同的声源,这会导致传统的频谱减法在对噪声谱进行去噪是不准确的,因此本发明通过对原始语音信号进行分析,首先获得原始语音数据的短时帧,进而根据短时帧中数据的变化获得多个数据区间;然后根据数据区间之间数据变化的差异性来获得噪声数据区间与非噪声数据区间,然后通过噪声数据区间与非噪声数据区间之间的纯噪声程度的差异来获得每个噪声数据区间的权重,进而根据获得的权重通过频谱减法来对原始语音数据进行去噪。本发明能够对存在多个声源的语音数据进行区分,进而对原始语音数据的去噪更彻底,使得能够清晰的识别原始语音数据中包含的有用的语音数据信息。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22445.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表