技术新讯 > 计算推算,计数设备的制造及其应用技术 > 审计问题数据归类方法、装置、计算机设备和存储介质与流程 > 正文

审计问题数据归类方法、装置、计算机设备和存储介质与流程

国知局
2024-08-08 16:55:52

本技术涉及人工智能，特别是涉及一种审计问题数据归类方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、随着审计内容的复杂化以及审计主体活动的全球化，审计工作面临的挑战和需求不断增加。

2、审计问题通常涉及复杂的财务和业务流程，需要理解大量的文本数据，包括财务报告、合同、交易记录等，传统的审计方法依赖于审计人员的经验和专业判断，通过手工检查财务报表、交易记录等，识别潜在的风险和问题。然而，这种方法不仅工作效率低下，而且容易受到审计人员主观判断的影响，导致审计质量不稳定。

3、目前，相关的审计自动化技术也难以对审计问题数据进行准确的归类。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够对审计问题数据进行准确的归类的审计问题数据归类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种审计问题数据归类方法，包括：

3、收集审计问题文本数据，建立初始文本数据集；

4、获取预设审计信息，并根据所述预设审计信息对所述初始文本数据集中的文本内容进行过滤处理，得到目标文本数据集；

5、提取所述目标文本数据集中的文本内容特征；

6、将所述文本内容特征输入语义分析模型中，得到增强特征数据集，所述语义分析模型用于分析不同的所述文本内容特征之间的关联性；

7、将所述增强特征数据集输入内容归类模型中，得到审计问题归类结果。

8、在其中一个实施例中，所述文本内容特征包括词频特征、词序特征和语义依存关系特征中的至少一个；所述提取所述目标文本数据集中的文本内容特征，包括以下至少一种：

9、对所述目标文本数据集中的文本内容进行词频分析，得到所述词频特征，其中，所述词频特征包括单个词项的频率数据和由多个词项组合得到的组合词项的频率数据；

10、获取所述目标文本数据集中每个所述词项的位置信息和语义权重，并根据所述位置信息和所述语义权重，计算得到所述词序特征；

11、提取所述目标文本数据集中的词向量，并采用图卷积网络分析不同的所述词向量之间的依存关系，得到所述语义依存关系特征。

12、在其中一个实施例中，所述提取所述目标文本数据集中的文本内容特征之后，还包括：

13、对所述文本内容特征进行向量映射处理，得到更新后的所述文本内容特征，其中，更新后的所述文本内容特征是数值型向量数据集。

14、在其中一个实施例中，所述语义分析模型配置有自注意力机制；所述将所述文本内容特征输入语义分析模型中，得到增强特征数据集，包括：

15、将所述数值型向量数据集中的多个数值型向量输入语义分析模型；

16、采用自注意力机制计算每两个所述数值型向量之间的相关性数据；

17、针对每个所述数值型向量，分别根据对应的所述相关性数据输出上下文语义信息，得到增强特征数据集，其中，所述增强特征数据集中包括所述数值型向量和所述数值型向量对应的上下文语义信息。

18、在其中一个实施例中，所述预设审计信息包括关键词信息和待去除元素信息；所述根据所述预设审计信息对所述初始文本数据集中的文本内容进行过滤处理，得到目标文本数据集包括：

19、根据所述关键词信息，筛选所述初始文本数据集中审计相关性指数超过相关性阈值的文本内容，得到第一文本内容，其中，所述审计相关性指数用于表征所述文本内容与所述关键词信息的相关性程度；

20、根据所述待去除元素信息，对所述第一文本内容中的待去除元素进行去除，得到第二文本内容；

21、根据所述第二文本内容，得到目标文本数据集。

22、在其中一个实施例中，所述审计问题文本数据的类型包括电子邮件类型、历史记录类型、文本报告类型、语音记录类型、视频记录类型、合约记录类型和区块链记录类型中的至少一种。

23、第二方面，本技术还提供了一种审计问题数据归类装置，包括：

24、数据收集模块，用于收集审计问题文本数据，建立初始文本数据集；

25、数据处理模块，用于获取预设审计信息，并根据所述预设审计信息对所述初始文本数据集中的文本内容进行过滤处理，得到目标文本数据集；

26、特征提取模块，用于提取所述目标文本数据集中的文本内容特征；

27、语义增强模块，用于将所述文本内容特征输入语义分析模型中，得到增强特征数据集，所述语义分析模型用于分析不同的所述文本内容特征之间的关联性；

28、问题归类模块，用于将所述增强特征数据集输入内容归类模型中，得到审计问题归类结果。

29、第三方面，本技术还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

30、收集审计问题文本数据，建立初始文本数据集；

31、获取预设审计信息，并根据所述预设审计信息对所述初始文本数据集中的文本内容进行过滤处理，得到目标文本数据集；

32、提取所述目标文本数据集中的文本内容特征；

33、将所述文本内容特征输入语义分析模型中，得到增强特征数据集，所述语义分析模型用于分析不同的所述文本内容特征之间的关联性；

34、将所述增强特征数据集输入内容归类模型中，得到审计问题归类结果。

35、第四方面，本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

36、收集审计问题文本数据，建立初始文本数据集；

37、获取预设审计信息，并根据所述预设审计信息对所述初始文本数据集中的文本内容进行过滤处理，得到目标文本数据集；

38、提取所述目标文本数据集中的文本内容特征；

39、将所述文本内容特征输入语义分析模型中，得到增强特征数据集，所述语义分析模型用于分析不同的所述文本内容特征之间的关联性；

40、将所述增强特征数据集输入内容归类模型中，得到审计问题归类结果。

41、第五方面，本技术还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

42、收集审计问题文本数据，建立初始文本数据集；

43、获取预设审计信息，并根据所述预设审计信息对所述初始文本数据集中的文本内容进行过滤处理，得到目标文本数据集；

44、提取所述目标文本数据集中的文本内容特征；

45、将所述文本内容特征输入语义分析模型中，得到增强特征数据集，所述语义分析模型用于分析不同的所述文本内容特征之间的关联性；

46、将所述增强特征数据集输入内容归类模型中，得到审计问题归类结果。

47、上述审计问题数据归类方法、装置、计算机设备、存储介质和计算机程序产品，通过收集审计问题文本数据，建立初始文本数据集，收集大量的审计问题文本数据能够增强审计问题归类的全面性，以便准确归类审计问题。再通过采用预设审计信息对初始文本数据集中的文本内容进行过滤处理，得到目标文本数据集，将提取到的目标文本数据集中的文本内容特征输入语义分析模型中，采用语义分析模型输出增强特征数据集，能够分析不同的文本内容特征之间的关联性，通过特征关联性抽象出上下文关系，再将增强特征数据集输入内容归类模型中，从而得到审计问题归类结果。因此，上述方法得到的审计归类结果是通过问题的全面收集、重点内容的过滤处理、上下文关系的分析等步骤得到的，能够准确地定位当前情况下的审计问题类型。