技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于机器学习的财务数据的信息提取系统、税利预测系统的制作方法 > 正文

基于机器学习的财务数据的信息提取系统、税利预测系统的制作方法

国知局
2024-08-05 12:14:28

本技术涉及人工智能，具体而言，涉及一种基于机器学习的财务数据的信息提取系统、税利预测系统。

背景技术：

1、在烟草公司中，财务数据是一个非常庞大的数据，存在各种各样的信息。通常，会将财务数据收集起来进行大数据处理，并构建财务预测模型。例如，中国专利cn117541411b公开了一种基于大数据处理的财务预测模型的构建方法及系统，该专利在构建财务预测模型时，直接将企业所有的历史财务数据收集起来，然后输入到预测模型中进行训练，以完成财务预测模型的构建。

2、但是，企业的历史数据量庞大，相同类型的历史数据会存在很多项。所以，数据预测模型在学习数据与数据之间的关联性时，会因为无法直接获取各项历史数据的关联度矩阵，所以对于每项历史数据，都需要重新回顾整个数据库区获取当前读取的历史数据与其余历史数据的关联信息。导致在对财务数据进行数据分析时，需要处理的历史数据的冗余量大，进而数据分析的运算量大、运算效率低。因此，在处理庞大的数据时如何降低数据的冗余量，提高数据分析效率，快速提取数据中需要的信息是亟待解决的问题。

技术实现思路

1、本技术的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本技术的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、作为本技术的第一个方面，为了解决在处理庞大数据时数据冗余量大、运算效率低的技术问题，本技术提供了一种基于机器学习的财务数据的信息提取系统，包括：

3、财务数据收集模块，用于收集每一项财务数据，并给每项财务数据生成对应的流水号；

4、业务数据收集模块，用于收集每一项业务数据；

5、数据清洗模块，将每笔业务数据与财务数据对应，使得每笔业务数据和财务数据记录于同一个流水号下，以生成融合数据；

6、数据收集模块，收集每项融合数据，得到融合数据库；

7、数据处理模块，从融合数据库中提取出财务信息矩阵和业务信息矩阵，并按照时间序列对融合数据库中的各项融合数据进行关联度提取得到关联度矩阵。

8、本技术所提供的技术方案中，在预测未来一段时间的财务指标时，会从融合数据库中对各融合数据进行关联度提取，得到关联度矩阵。所以数据处理模块能够将融合数据库中的冗余信息进行合并，如此，将关联度矩阵用于数据分析时，可以利用关联度矩阵得到各项融合数据之间的关联情况，避免了需要频繁回顾融合数据库。减少了数据分析的计算量，增加了数据运算效率。

9、进一步的，财务数据包括支出款项和收入款项；支出款项包括固定性支出和变动性支出；

10、根据财务数据的分类确定融合数据的数据类。

11、直接将每项融合数据收集起来，然后进行信息提取，难以发现融合数据与时间的关系，进而无法找到融合数据间的关系。针对这一问题，本技术提供了如下技术方案：

12、进一步的，数据清洗模块在每个融合数据中增加对应的时间标签。

13、本技术所提供的技术方案中，在融合数据中引入了时间标签，所以可以确定每一笔交易的发生时间，进而可以根据需求，统计在任何时间段下的总支出和总收入，进而可以寻找到融合数据之间内在的关联性。

14、因为业务数据和财务数据之间缺乏联系，所以难以捕捉到业务信息和财务信息关联在一起时的信息，进而导致提取出来的关联度矩阵不准确。针对这一问题，本技术提供了如下技术方案：

15、进一步的，数据处理模块包括：财务数据处理单元、业务数据处理单元，以及关联度处理单元；

16、财务数据处理单元从融合数据库中提取出财务信息矩阵；

17、业务数据处理单元从融合数据库中提取出业务信息矩阵，业务信息矩阵和财务信息矩阵中对应位置的业务数据和财务数据的流水号相同；

18、关联度处理单元与融合数据库信号连接，用于计算各业务数据的关联度，得到业务数据的关联度矩阵。

19、本技术所提供的技术方案中，数据处理模块会从融合数据中生成对应的财务信息矩阵和业务信息矩阵，而这两个矩阵中对应的关系是通过流水号来实现对应的，所以业务信息矩阵和财务信息矩阵之间，本身就存在对应的关联信息，所以用于后续的财务指标的预测时，预测模型能够更快的找到对应指标之间的关联。

20、因为引入了业务数据，所以能增加未来财务指标预测的准确性。但因为引入的信息过多，而无法发现业务数据与融合数据之间的相关性。针对这一问题，本技术提供了如下技术方案：

21、进一步的，关联度处理单元采用如下步骤计算关联度矩阵：

22、s1：获取每项融合数据的时间标签，按照时间顺序将融合数据库划分为若干个子数据库m1、m2、…mi…；m1表示第1个子数据库，m2表示第2个子数据库，mi表示第i个子数据库，i表示子数据库的索引；

23、s2：读取子数据库中的每项融合数据，根据每项融合数据的数据类进行矩阵化，得到融合数据库的数字矩阵m；

24、；

25、其中，m1，1为第1个子数据库中第1项数据类，m1，n为第1个子数据库中第n项数据类，n表示数据类的种类；

26、mk，1为第k个子数据库中的第1项数据类，mk，n为第k个子数据库中第n项数据类，k表示子数据库的数量；

27、在数字矩阵m中存在对应数据类则记作1，未存在对应数据类则记作0；

28、s3：计算数字矩阵m中各数据类的关联度lo，

29、；其中，o表示数据类的索引，i表示子数据库的索引，lo表示第o项数据类在所有的子数据库中出现的关联度；

30、s4：将数字矩阵m中任意两列连接起来，生成新的频繁候选项集qop，o和p分别为数据类的索引，o≠p；

31、；

32、步骤s4：计算连接后的频繁候选项集的关联度sqop；

33、；

34、s5：从第1项数据类开始用当前的前列向量，依次与后续向量相交求取新的向量，以得到关联度矩阵d；

35、。

36、本技术所提供的技术方案中，数据处理模块在对收集到的数据进行后续的处理时，会连续的计算数据与数据之间的关联度，从而能够利用关联度的大小，找到不同时间段内数据之间的关联性。进而利用数据的关联性，强化了几个数据之间的关联程度，以增加后续预测的准确性。

37、作为本技术的第二个方面，为了解决数据冗余量大、数据分析的运算效率低的技术问题，本技术提供了一种基于机器学习的税利预测系统，包括：

38、如前述的基于机器学习的财务数据的信息提取系统，用于从财务数据和业务数据中提取出关联度矩阵、财务信息矩阵以及业务信息矩阵；

39、数据预测模块，基于关联度矩阵、财务信息矩阵以及业务信息矩阵预测未来一段时间的总收入和总支出，并根据总收入和总支出计算未来一段时间的税利。

40、本技术所提供的技术方案中，在进行税利预测时，利用提取出来的关联度矩阵，能够减少数据预测模块对冗余数据进行处理的时间，增加数据预测模块的计算效率。

41、数据预测模块包括数据汇总单元、数据预处理单元，以及lstm网络处理单元；

42、数据汇总单元从关联度处理单元、财务数据处理单元，以及业务数据处理单元分别得到关联度矩阵、财务信息矩阵以及业务信息矩阵；

43、数据预处理单元，与数据汇总单元信号连接，对关联度矩阵、业务信息矩阵，以及财务信息矩阵进行预处理；

44、lstm网络处理单元，与数据预处理单元信号连接，经过预处理的关联度矩阵、业务信息矩阵，以及财务信息矩阵输入至lstm网络处理单元，lstm网络处理单元基于长短期记忆神经网络得到未来一段时间的总收入和总支出，并根据总收入和总支出计算未来一段时间的税利。

45、本技术所提供的技术方案中，在预测未来一段时间的税利时，将关联度矩阵、业务信息矩阵以及财务信息矩阵，输入至lstm网络模型中，lstm网络模型能够捕捉输入数据中的关联信息，综合考虑未来时间的总收入和总支出，进而能够增加税利预测的准确性。

46、数据预处理单元对财务信息矩阵和业务信息矩阵中的每一项都进行归一化处理得到财务矩阵和业务矩阵。

47、本技术所提供的技术方案中，财务矩阵、业务矩阵，以及关联度矩阵中对应位置的信息是相互对应的，如此输入至lstm神经网络模型中之后，能够很好的发现信息之间的隐含关系，进而准确的计算出所需要的财务指标。

48、进一步的，lstm网络处理单元包括输入层、lstm网络层、全连接神经网络处理层，以及回归层；

49、其中，关联度矩阵、财务矩阵，以及业务矩阵输入至输入层，经由输入层转化为序列形式之后，输入至lstm网络层，在lstm网络层中捕捉序列中的长期依赖关系；

50、lstm网络层最后一个时刻的输出会传递给全连接神经网络处理层，全连接神经网络处理层学习lstm网络层所学习到的长期依赖关系；

51、经过全连接神经网络处理层后，数据会通过一个回归层，回归层给出下一时刻总收入和总支出，并根据总收入和总支出计算未来一段时间的税利。

52、在财务数据中，会存在很多扰动数据，这些扰动数据主要是来源于一些特殊的支出费用。所以这些扰动数据输入至lstm网络处理单元内之后，会导致最终的预测结果受到影响，导致预测的准确性不高，针对这一问题，本技术提供了如下技术方案：

53、进一步的，lstm网络处理单元中的损失函数ema引入了vat正则化参数，以增加模型的鲁棒性；

54、；

55、其中，n为样本数量，yt为时间t的财务指标的真实值，为时间t的财务指标数的预测值，表示在输入x和模型参数θ的条件下，预测的输出分布，表示在输入x上添加了虚拟对抗噪声rvat后，lstm网络处理单元的预测输出分布，表示两个预测分布之间的散度或差异，衡量了模型在原始输入和添加了噪声的输入之间预测的不稳定性；

56、rvat是虚拟对抗噪声，是通过优化过程找到的能够使模型预测最不稳定的方向上的扰动；添加这种噪声可以帮助模型在训练过程中增强对输入扰动的鲁棒性；

57、θ表示模型参数，包括lstm网络的权重和偏置、全连接层的权重和偏置。

58、本技术所提供的技术方案中，在损失函数中引入了vat正则化参数，增加了lstm网络的鲁棒性，减少特殊数据对于预测精度的影响。