技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于人工智能的大数据清洗方法与流程 > 正文

一种基于人工智能的大数据清洗方法与流程

国知局
2024-06-21 11:57:57

本发明涉及数据清洗，尤其涉及一种基于人工智能的大数据清洗方法。

背景技术：

1、随着大数据技术越来越成熟，在互联网板块中取得巨大的成功，大数据存在数据量庞大、复杂度和关联度高等特点，想要获得高质量的数据，必须在数据清洗阶段提高数据的质量，尤其在语音交互过程中的大数据清洗技术存在清洗后的数据不准确的问题。

2、中国专利申请公开号：cn115687321a公开了一种基于人工智能的大数据清洗方法及系统，包括初始数据导入模块、数据分类模块、过滤信息导入模块、过滤选定模块、第一过滤模块、第二过滤模块、第三过滤模块、第四过滤模块、二次过滤模块、结果输出模块与综合评价模块；所述初始数据导入模块用于用户导入待清洗的数据，待清洗数据被发送到数据分类模块；所述数据分类模块用于对待清洗的数据进行处理获取到数据分类信息，所述数据分类信息包括单一分类数据与混合分类数据，所述单一分类数据与混合分类数据的数据类型包括视频数据、音频数据、文字数据与图片数据；该发明能够更加快速准确的进行数据过滤清洗。

3、由此可见，现有技术存在对语音转化文本过程的精准性低使大数据清洗过程控制的精准性低导致最后的清洗文本准确度不高的问题。

技术实现思路

1、为此，本发明提供基于人工智能的大数据清洗方法，用以克服现有技术中对语音转化文本过程的精准性低使大数据清洗过程控制的精准性低导致最后的清洗文本准确度不高的问题。

2、为实现上述目的，本发明提供基于人工智能的大数据清洗方法，包括：

3、采集语音交互过程中的语音信息，对所述语音信息进行音频质量检查确定所述语音信息的合格性；

4、对合格的语音信息进行语音端点检测，并通过语音端点检测确定语音数据的开始和结束过程以将所述语音数据转化为文本；

5、对转化后的文本进行合格性分析，根据转化的文本长度确定文本的合格性；

6、对初步合格的文本进行敏感词检测以确定文本的清洗模式；

7、对清洗后的文本进行质量评估，并根据评估结果确定对文本清洗过程的调整。

8、进一步地，所述确定语音信息的合格性包括根据语音信息的平均音量未处于预设音量范围内的比对结果确定所述语音信息不合格，根据语音信息的平均音量处于预设音量范围的比对结果确定对语音信息的合格性进行二次判定。

9、进一步地，在确定对语音信息的合格性进行二次判定的条件下，根据所述语音信息的噪声水平小于等于预设噪声水平的比对结果确定所述语音信息合格，根据所述语音信息的噪声水平大于预设噪声水平的比对结果确定所述语音信息不合格。

10、进一步地，在所述语音信息不合格的条件下，确定对所述语音信息进行音量标准化处理以及降噪处理，所述语音信息合格的条件下，确定对合格的语音信息进行语音端点检测，并通过语音端点检测确定语音数据的开始和结束过程以将所述语音数据转化为文本。

11、进一步地，在确定对转化后的文本进行合格性分析的条件下，根据转化的文本长度未处于预设长度范围的比对结果确定文本的不合格，根据转化的文本长度处于预设长度范围的比对结果确定文本合格。

12、进一步地，在所述文本不合格的条件下，根据文本长度与预设长度范围的差值绝对值小于等于第一预设差值的比对结果确定以第一调整系数增加采集语音交互过程中语音信息的设备数目。

13、进一步地，在所述文本合格的条件下，根据所述文本中敏感词的数目小于预设数目的比对结果确定对所述文本进行删除标点符号、空白字符、停用词以及重复语段处理，根据所述文本中敏感词的数目大于等于预设数目的比对结果确定对所述文本进行删除标点符号、空白字符、停用词以及重复语段处理，同时将包含敏感词的内容部分全部删除。

14、进一步地，在确定对清洗后的文本进行质量评估的条件下，根据清洗文本的准确程度评价值小于预设准确程度评价值的比对结果确定对文本清洗过程调整。

15、进一步地，在对所述文本清洗过程调整的条件下，根据准确程度评价值和预设准确程度评价值的差值小于等于第二预设差值的比对结果确定以第二调整系数对所述预设数目调整。

16、进一步地，在对所述文本清洗过程调整的条件下，根据准确程度评价值和预设准确程度评价值的差值大于第二预设差值的比对结果确定以第三调整系数对所述预设长度范围和预设音量范围调整。

17、与现有技术相比，本发明的有益效果在于，本发明通过对采集到的语音信息进行音频质量检查确定语音信息的合格性进而保证后续清洗的有效性，提高了对大数据清洗过程控制的精准性，同时，根据语音信息的音量初步确定语音信息的合格性，避免了因语音信息音量小于或大于预设音量范围导致语音转化的文本不准确的现象发生，提高了基于人工智能的大数据清洗过程控制的精准性。

18、进一步地，本发明通过对音量合格的语音信息进行噪声的分析，根据语音信息的噪声水平与预设噪声水平确定语音信息的合格性，提高了语音转化文本过程的准确性，进一步提高了大数据清洗过程控制的精准性。

19、进一步地，本发明通过对不合格的语音信息进行音量标准化处理以及降噪处理以得到合格的语音信息，避免了因语音信息不合格导致后续处理语音信息时所做的无用功，减少了资源浪费，并且，本发明通过对合格的语音信息进行语音端点检测将所述语音信息分解为段落进行逐段的语音转化，提高了语音转化文本过程的精准性，进而提高了大数据清洗过程控制的精准性以得到高准确度的清晰文本。

20、进一步地，本发明通过对转化后的文本长度进行分析以确定语音转化文本过程的准确程度，若转化后的文本长度未处于预设长度范围内，说明转化的文本存在丢失数据或存在噪声干扰数据的现象，确定语音转化文本的过程不合格，通过上述方法提高了对语音转化文本过程控制的精准性进而提高了大数据清洗过程的精准性以得到高准确度的文本。

21、进一步地，本发明通过对语音端点检测过程进行调整以提高语音转化文本过程的准确性，提高了待清洗文本的准确性进而提高了清洗文本后的准确性，并且，通过以第一系数增加采集语音交互过程中的语音信息的设备数目，可以更加清晰完整地获得语音信息进而提高语音端点检测过程的精准性，通过对语音端点检测后的语音段落进行后处理和优化可以提高语音的完整性进而提高语音转化文本过程的准确性。

22、进一步地，本发明通过对文本中敏感词数量的分析进而确定对文本的清洗模式，若文本中敏感词的数目小于预设数目，则确定所述文本进行删除标点符号、空白字符、停用词以及重复语段处理，若文本中敏感词的数目大于等于预设数目，则在第一清洗模式的基础上将包含敏感词的内容部分进行全部删除，通过上述方法可以得到质量合格的清晰文本。

23、进一步地，本发明通过对清洗后的文本与原始文本进行分析以确定清洗文本的准确程度评价值，根据文本的准确程度评价值与预设准确程度评价值的比对结果确定对文本清洗过程的调整，若文本的准确程度评价值小于预设准确程度评价值，说明清洗后的文本与原始文本差异大，需要对文本清洗过程调整，通过上述方法提高了大数据清洗过程控制的精准性进而得到高准确性的文本。

24、进一步地，本发明通过准确程度评价值和预设准确程度评价值的差值与第二预设差值的比对结果确定调整方式，若差值小于等于第二预设差值，以第二调整系数对敏感词的预设数目调整，降低文本的删除比例以增加文本的完整性，若差值大于等于第二预设差值，以第三调整系数对语音信息的合格性判断参数调整，提高语音信息的准确性，通过上述方法提高了大数据清洗过程控制的精准性进而得到高准确性的清洗文本。