基于大数据的法规识别方法、装置、电子设备及介质与流程

2021-12-14 22:47:00 来源：中国专利 TAG：

1.本发明涉及人工智能领域，尤其涉及一种基于大数据的法规识别方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.网格化管理是将城市管理辖区按照一定的标准划分成为单元网格，当前，网格化监管具有“一岗多责”的特性，且监管执法人员在监管过程中需要根据不同类型不同行业不同经营范围的主体，应用不同的法律法规法条。
3.但是，大量监管的工作都集中在执法过程中法规依据的自我学习和宣导，由于工作量大，工作对象复杂，相关法规繁多，在监管执法人员对一些不同类型不同行业不同经营范围违法案件的违法案件选取对应的法规时，仅凭人工理解法规并选择合适法规，使得法规识别的效率和准确率都较低。

技术实现要素：

4.本发明提供一种基于大数据的法规识别方法、装置、电子设备及计算机可读存储介质，其主要目的是为了提高法规识别的准确率和效率。
5.为实现上述目的，本发明提供的一种基于大数据的法规识别方法，包括：
6.获取法规数据和案件数据，并标记所述法规数据和案件数据的实际关联关系；
7.利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集；
8.利用所述关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集分别进行特征提取和结构提取，得到特征法规字符向量集和特征案件字符向量集；
9.利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系；
10.利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，根据所述损失值调整所述关系识别模型的参数，直至所述关系识别模型满足预设条件时，得到训练完成的标准关系识别模型；
11.获取待受理案件，利用所述标准关系识别模型识别所述待受理案件对应的第一法规；
12.将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规；
13.将所述第一法规和所述第二法规中的相同法规作为所述待受理案件的最终法规。
14.可选地，所述利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系，包括：
15.获取所述特征法规字符向量对应的法规上下字符语义以及所述特征案件字符向
量对应的案件上下字符语义；
16.利用所述匹配模块中的隐马尔可夫算法分别对所述法规上下字符语义以及所述案件上下字符语义进行拼接，得到法规字符矩阵和案件字符矩阵；
17.利用所述匹配模块中的nlp匹配算法计算所述法规字符矩阵和案件字符矩阵的关联系数；
18.若所述关联系数小于或等于预设关联系数，则确定所述法规字符矩阵对应的法规数据和所述案件字符矩阵对应的案件数据不存在关联关系；
19.若所述关联系数大于预设关联系数，则确定所述法规则所述法规字符矩阵对应的法规数据和所述案件字符矩阵对应的案件数据存在关联关系。
20.可选地，所述利用所述预构建关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集分别进行特征提取和结构提取，得到特征法规字符向量和特征案件字符向量，包括：
21.利用所述前馈注意力机制中的隐马尔可夫模块对获取到的所述法规字符向量和所述案件字符向量进行特征提取，得到特征字符向量；
22.利用所述前馈注意力机制中的编码器提取所述特征字符向量的结构信息，得到特征法规字符向量集和特征案件字符向量集。
23.可选地，所述利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集，包括：
24.利用所述编码层分别对所述法规数据和所述案件数据中的字符进行位置索引编码，得到法规字符位置索引和案件字符位置索引；
25.利用所述编码层将所述法规数据和所述案件数据中的字符分别转化成字符向量，得到初始法规字符向量和初始案件字符向量；
26.将所述法规字符位置索引和所述初始法规字符向量进行组合，生成法规字符向量集；
27.将所述案件字符位置索引和所述初始案件字符向量进行组合，生成案件字符向量集。
28.可选地，所述标记所述法规数据和案件数据的实际关联关系，包括：
29.利用预设的指针算法对所述法规数据和所述案件数据的实际关联关系进行标记。
30.可选地，所述利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，包括：
31.利用下述损失函数计算所述预测关联关系与所述实际关联关系的损失值：
[0032][0033]
其中，l(s)表示损失值，k表示预测关联关系的数量，y
i
表示第i个预测关联关系，y
′
i
表示第i个实际关联关系。
[0034]
可选地，所述将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规，包括：
[0035]
计算所述待受理案件和所述预构建历史案件库中的历史案件的关联度；
[0036]
若所述关联度大于预设关联度，则确定所述待受理案件和所述预构建历史案件库中的历史案件匹配成功，并将匹配成功的历史案件对应的法规作为所述待受理案件的第二法规。
[0037]
为了解决上述问题，本发明还提供一种基于大数据的法规识别装置，所述装置包括：
[0038]
标记模块，用于获取法规数据和案件数据，并标记所述法规数据和案件数据的实际关联关系；
[0039]
模型训练模块，用于利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集，利用所述关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集分别进行特征提取和结构提取，得到特征法规字符向量集和特征案件字符向量集，利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系，利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，根据所述损失值调整所述关系识别模型的参数，直至所述关系识别模型满足预设条件时，得到训练完成的标准关系识别模型；
[0040]
法规获取模块，用于获取待受理案件，利用所述标准关系识别模型识别所述待受理案件对应的第一法规，将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规，将所述第一法规和所述第二法规中的相同法规作为所述待受理案件的最终法规。
[0041]
为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：
[0042]
存储器，存储至少一个计算机程序；及
[0043]
处理器，执行所述存储器中存储的计算机程序以实现上述所述的基于大数据的法规识别方法。
[0044]
为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于大数据的法规识别方法。
[0045]
本发明实施例首先标记法规数据和案件数据的实际关联关系，可以确定所述法规数据和所述案件数据的实际对应关系，再将后续模型预测的法规数据和所述案件数据对应关系与实际对应关系进行对比，从而判断出后续模型预测的法规数据和所述案件数据对应关系的准确性；其次，利用所述法规数据和案件数据的关联关系对所述预构建的关系识别模型进行训练，利用训练完成的关系识别模型识别待受理案件对应的第一法规，可以通过所述训练完成的关系识别模型确定所述法规数据和所述案件数据对应关系并识别待受理案件对应的第一法规，提高了法规识别的准确率；最后，将匹配成功的历史案件对应的法规作为所述待受理案件的第二法规，且将所述第一法规和所述第二法规中的相同法规作为所述待受理案件的最终法规，进一步筛选准确的法规，提高法规识别的准确率，并且，本发明实施例中减少了人力成本和时间成本的损耗，提高法规识别的效率。因此本发明实施例提出的基于大数据的法规识别方法、装置、电子设备及介质可以提高法规识别的准确率和效率。
附图说明
[0046]
图1为本发明一实施例提供的基于大数据的法规识别方法的流程示意图；
[0047]
图2为本发明一实施例提供的基于大数据的法规识别装置的模块示意图；
[0048]
图3为本发明一实施例提供的实现基于大数据的法规识别方法的电子设备的内部结构示意图；
[0049]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0050]
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0051]
本发明实施例提供一种基于大数据的法规识别方法。所述基于大数据的法规识别方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之，所述基于大数据的法规识别方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。
[0052]
参照图1所示的本发明一实施例提供的基于大数据的法规识别方法的流程示意图，在本发明实施例中，所述基于大数据的法规识别方法包括：
[0053]
s1、获取法规数据和案件数据，并标记所述法规数据和案件数据的实际关联关系。
[0054]
本发明实施例中，所述法规数据可包括监管区域内涉及的食品、药品、药械、化妆品、特种设备、工业产品、消费品、专利、商标等相关法律法规及法律法规对应的解读信息，其中，所述法律法规可通过《中华人民共和国商标法》、《网络交易监督管理办法》、《化妆品监督管理条例》、《中华人民共和国行政处罚法》、《药品生产监督管理办法》等文件获取，所述解读信息可通过《一图读懂|《检验检测机构监督管理办法》》文件获取；所述案件数据可包括监管区域内违法案件的执法过程和执法处罚结果，可从中国司法案例网，即中国审判流程信息公开网中获取。
[0055]
详细地，所述标记所述法规数据和案件数据的实际关联关系，包括：利用预设的指针算法对所述法规数据和所述案件数据的实际关联关系进行标记。
[0056]
较佳地，所述指针算法可以为span算法。
[0057]
s2、利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集。
[0058]
本发明实施例中，对所述法规数据中的字符进行向量化及位置索引操作，可以得到上下文语义相连的法规字符向量集，即所述法规字符向量集是对所述法规数据进行向量化与位置索引后的字符向量集。
[0059]
本发明实施例中，对所述案件数据中的字符进行向量化及位置索引操作，可以得到上下文语义相连的案件字符向量集，即所述案件字符向量是对所述案件数据进行向量化与位置索引后的字符向量集。
[0060]
本发明实施例中，所述预构建的关系识别模型可以通过tiny
‑
albert构建，其中，所述预构建的关系识别模块包括：编码层、前馈注意力机制、匹配模块、损失函数。
[0061]
本发明实施例中，所述法规数据和所述案件数据中包含大量的字符，而神经网络中只能接受数值输入，若直接利用所述法规数据和所述案件数据对所述预构建关系识别模
型进行训练，则训练的关系识别模型也无法支持所述法规数据和所述案件数据的位置识别，因此，可以利用所述关系识别模型中的编码层对所述法规数据和所述案件数据中的字符进行位置向量编码，进而确定所述法规数据和所述案件数据中每个字符的案件信息，从而实现后续的模型训练。
[0062]
较佳地，所述编码层可为embedding。
[0063]
详细地，所述利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集，包括：
[0064]
利用所述编码层分别对所述法规数据和所述案件数据中的字符进行位置索引编码，得到法规字符位置索引和案件字符位置索引；
[0065]
利用所述编码层将所述法规数据和所述案件数据中的字符分别转化成对应的字符向量，得到初始法规字符向量和初始案件字符向量；
[0066]
将所述法规字符位置索引和所述初始法规字符向量进行组合，生成法规字符向量集；
[0067]
将所述案件字符位置索引和所述初始案件字符向量进行组合，生成案件字符向量集。
[0068]
例如，所述法规数据为：“申请注册和使用商标，应当遵循诚实信用原则”，则对“申请注册和使用商标”中的字符进行位置索引编码，得到“申”位置索引为0、“请”位置索引为1、“注”位置索引为2、“册”位置索引为3、“和”位置索引为4、“使”位置索引为5、“用”位置索引为6、“商”位置索引为7及“标”位置索引为8。
[0069]
类似地，当所述法规数据为：“申请注册和使用商标”时，将所述法规数据中的字符转化为字符向量，得到“申”初始法规字符向量为000、“请”初始法规字符向量为001、“注”初始法规字符向量为002、“册”初始法规字符向量为003等，进而将所述字符位置索引和所述初始法规字符向量进行组合，得到“申”法规字符向量为0
‑
000、“请”法规字符向量为1
‑
001、“注”法规字符向量为2
‑
002等。
[0070]
s3、利用所述预构建关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集分别进行特征提取和结构提取，得到特征法规字符向量集和特征案件字符向量集。
[0071]
本发明实施例中，所述特征法规字符向量集是先对所述法规字符向量集进行特征提取得到特征字符向量，再对特征字符向量进行字符结构信息提取后得到的字符向量集；所述特征案件字符向量集是先对所述案件字符向量集进行特征提取得到特征字符向量，再对特征字符向量进行字符结构信息提取后得到的字符向量集。
[0072]
本发明实施例中，利用所述预构建关系识别模型中的前馈注意力机制对所述法规字符向量和所述案件字符向量进行特征序列提取，输出所述法规字符向量和所述案件字符向量的特征字符向量。其中所述前馈注意力机制包括：隐马尔可夫模块和编码器。
[0073]
详细地，所述利用所述预构建关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集进行特征提取和结构提取，得到特征法规字符向量和特征案件字符向量，包括：
[0074]
利用所述前馈注意力机制中的隐马尔可夫模块对获取到的所述法规字符向量和所述案件字符向量进行特征提取，得到特征字符向量；
[0075]
利用所述前馈注意力机制中的编码器提取所述特征字符向量的结构信息，得到特征法规字符向量集和特征案件字符向量集。
[0076]
本发明实施例中，通过隐马尔可夫算法对所述法规字符向量进行关键字特征提取，例如，“某企业，通过生产、销售含有违禁药品西布曲明成分的减肥类保健食品，从中来牟取暴利，违反《食品安全法》”可以提取生产、销售、西布曲明、减肥、保健食品、《食品安全法》等特征关键字。
[0077]
进一步地，可通过编码器提取所述法规字符向量的特征字符向量的结构信息序列，即提取所述法规字符向量的组成结构并对法规数据的非结构化字符进行结构化处理，例如，“安全”的组成结构是音节“a”、“n”、“q”、“u”、“a”及“n”组成。
[0078]
s4、利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系。
[0079]
本发明实施例中，利用所述匹配模块可以对所述特征法规字符向量及所述特征案件字符向量进行关键词预测，并计算关键词预测的关联度，其中，所述匹配模块包括：隐马尔可夫算法和nlp匹配算法。
[0080]
详细地，所述利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系，包括：
[0081]
获取所述特征法规字符向量对应的法规上下字符语义以及所述特征案件字符向量对应的案件上下字符语义；
[0082]
利用所述匹配模块中的隐马尔可夫算法分别对所述法规上下字符语义以及所述案件上下字符语义进行拼接，得到法规字符矩阵和案件字符矩阵；
[0083]
利用所述匹配模块中的nlp匹配算法计算所述法规字符矩阵和案件字符矩阵的关联系数；
[0084]
若所述关联系数小于或等于预设关联系数，则确定所述法规字符矩阵对应的法规数据和所述案件字符矩阵对应的案件数据不存在关联关系；
[0085]
若所述关联系数大于预设关联系数，则确定所述法规则所述法规字符矩阵对应的法规数据和所述案件字符矩阵对应的案件数据存在关联关系。
[0086]
本发明实施例中，可以利用隐马尔可夫算法对所述特征法规字符向量和所述特征案件字符向量对应的上下字符语义关系进行拼接，得到法规字符矩阵和案件字符矩阵：
[0087]
s＝(s1，s，
…
，s
t
)，o＝(o1，o2，
…
，o
t
)
[0088]
b＝p(o
t
|s
t
)
[0089]
本发明一实施例中，o
t
表示长度为t的特征案件字符向量，s
t
表示长度为t的特征案件字符向量对应的关键字，根据o
t
与s
t
的关系为上下字符语义关系，得到案件字符矩阵b。
[0090]
类似地，求得所述法规字符矩阵的方法同上。
[0091]
例如，观测序列o“x、i、b、u、q、u、m、i、n、g、j、i、a、n、f、e、i”，状态序列s为“西布曲明减肥”，得到的案件字符矩阵b为[西布曲明减肥]。
[0092]
本发明实施例中，可通过nlp匹配算法计算所述法规字符矩阵和案件字符矩阵的关联系数，如nlp匹配算法中的余弦相似度算法、jaccard相似系数算法等。
[0093]
具体地，所述预设关联度可以设置为0.98。
[0094]
s5、利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联
关系的损失值，根据所述损失值调整所述关系识别模型的参数，直至所述关系识别模型满足预设条件时，得到训练完成的标准关系识别模型。
[0095]
本发明实施例中，利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，根据所述损失值调整所述关系识别模型的参数，直至所述关系识别模型满足预设条件时，得到训练完成的标准关系识别模型。其中，所述预设条件可以根据所述实际模型训练场景设置，例如，预设条件为所述损失值小于预设阈值。
[0096]
本发明实施例中，所述损失函数包括交叉熵(cross entropy)函数。
[0097]
详细地，所述利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，包括：
[0098]
利用下述损失函数计算所述预测关联关系与所述实际关联关系的损失值：
[0099][0100]
其中，l(s)表示损失值，k表示预测关联关系的数量，y
i
表示第i个预测关联关系，y
′
i
表示第i个实际关联关系。
[0101]
一可选实施例中，所述参数的调整可通过随机下降梯度算法实现，例如，利用下述公式调整所述关系识别模型的参数：
[0102][0103]
其中，l(θ)表示调整的参数，m表示特征法规字符向量和特征案件字符向量的数量，l(s)表示损失值，f(x
i,j
,θ)表示下降函数，θ表示学习率，x
i,j
和y
i,j
表示特征法规字符向量和特征案件字符向量的横纵坐标位置。
[0104]
s6、获取待受理案件，利用所述标准关系识别模型识别所述待受理案件对应的第一法规。
[0105]
本发明实施例中，所述待受理案件可为在监管区域中发生的与化妆品、特种设备及消费品等相关的违法案件。具体的，待受理案件可以为由用户输入至系统的，或者是由工作人员输入至系统的。
[0106]
例如，所述待受理案件可以为生产的某一批次消费品中因产品的设计制造不合格，导致消费品存在缺陷，严重危机消费者人身安全。进一步，将所述待受理案件输入所述标准关系识别模型，可得到第一法规为《消费者召回管理暂行规定》文件中的第三条款。
[0107]
s7、将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规。
[0108]
本发明实施例中，所述预构建历史案件库包括：过去时间段内发生的违法案件及处理所述违法案件对应的法规。
[0109]
详细地，所述将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规，包括：
[0110]
计算所述待受理案件和所述预构建历史案件库中的历史案件的关联度；
[0111]
若所述关联度大于预设关联度，则确定所述待受理案件和所述预构建历史案件库
中的历史案件匹配成功，并将匹配成功的历史案件对应的法规作为所述待受理案件的第二法规。
[0112]
本发明一可选实施例中，所述待受理案件和所述预构建历史案件库中的历史案件的关联度可通过nlp匹配算法实现，如余弦相似度算法、jaccard相似系数算法等，所述预设关联度可以设置为0.98，也可以根据实际业务场景预先设置为其他的数值。
[0113]
s8、将所述第一法规和所述第二法规中的相同法规作为所述待受理案件的最终法规。
[0114]
本发明实施例中，若所述第一法规为《中华人民共和国消费者权益保护法》中的第二十六条款；所述第二法规也为《中华人民共和国消费者权益保护法》中的第二十六条款，则将《中华人民共和国消费者权益保护法》中的第二十六条款作为所述待受理案件的最终法规。
[0115]
进一步地，本发明实施例中，若所述第一法规和所述第二法规中没有相同法规，可将所述待受理案件重新输入所述关系识别模型中进行训练，得到更新的第一法规，直到所述更新第一法规与所述第二法规中存在相同法规，进而提高法规识别的准确率。
[0116]
本发明实施例首先标记法规数据和案件数据的实际关联关系，可以确定所述法规数据和所述案件数据的实际对应关系，再将后续模型预测的法规数据和所述案件数据对应关系与实际对应关系进行对比，从而判断出后续模型预测的法规数据和所述案件数据对应关系的准确性；其次，利用所述法规数据和案件数据的关联关系对所述预构建的关系识别模型进行训练，利用训练完成的关系识别模型识别待受理案件对应的第一法规，可以通过所述训练完成的关系识别模型确定所述法规数据和所述案件数据对应关系并识别待受理案件对应的第一法规，提高了法规识别的准确率；最后，将匹配成功的历史案件对应的法规作为所述待受理案件的第二法规，且将所述第一法规和所述第二法规中的相同法规作为所述待受理案件的最终法规，进一步筛选准确的法规，提高法规识别的准确率，并且，本发明实施例中减少了人力成本和时间成本的损耗，提高法规识别的效率。因此本发明实施例提出的基于大数据的法规识别方法可以提高法规识别的准确率和效率。
[0117]
如图2所示，是本发明基于大数据的法规识别装置的功能模块图。
[0118]
本发明所述基于大数据的法规识别装置100可以安装于电子设备中。根据实现的功能，所述基于大数据的法规识别装置可以包括标记模块101、模型训练模块102、法规获取模块103，本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
[0119]
在本实施例中，关于各模块/单元的功能如下：
[0120]
所述标记模块101，用于获取法规数据和案件数据，并标记所述法规数据和案件数据的实际关联关系。
[0121]
本发明实施例中，所述法规数据可包括监管区域内涉及的食品、药品、药械、化妆品、特种设备、工业产品、消费品、专利、商标等相关法律法规及法律法规对应的解读信息，其中，所述法律法规可通过《中华人民共和国商标法》、《网络交易监督管理办法》、《化妆品监督管理条例》、《中华人民共和国行政处罚法》、《药品生产监督管理办法》等文件获取，所述解读信息可通过《一图读懂|《检验检测机构监督管理办法》》文件获取；所述案件数据可包括监管区域内违法案件的执法过程和执法处罚结果，可从中国司法案例网，即中国审判
流程信息公开网中获取。
[0122]
详细地，所述标记模块101通过执行下述操作标记所述法规数据和案件数据的实际关联关系，包括：利用预设的指针算法对所述法规数据和所述案件数据的实际关联关系进行标记。
[0123]
较佳地，所述指针算法可以为span算法。
[0124]
所述模型训练模块102，用于利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集，利用所述关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集分别进行特征提取和结构提取，得到特征法规字符向量集和特征案件字符向量集，利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系，利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，根据所述损失值调整所述关系识别模型的参数，直至所述关系识别模型满足预设条件时，得到训练完成的标准关系识别模型。
[0125]
本发明实施例中，对所述法规数据中的字符进行向量化及位置索引操作，可以得到上下文语义相连的法规字符向量集，即所述法规字符向量集是对所述法规数据进行向量化与位置索引后的字符向量集。
[0126]
本发明实施例中，对所述案件数据中的字符进行向量化及位置索引操作，可以得到上下文语义相连的案件字符向量集，即所述案件字符向量是对所述案件数据进行向量化与位置索引后的字符向量集。
[0127]
本发明实施例中，所述预构建的关系识别模型可以通过tiny
‑
albert构建，其中，所述预构建的关系识别模块包括：编码层、前馈注意力机制、匹配模块、损失函数。
[0128]
本发明实施例中，所述法规数据和所述案件数据中包含大量的字符，而神经网络中只能接受数值输入，若直接利用所述法规数据和所述案件数据对所述预构建关系识别模型进行训练，则训练的关系识别模型也无法支持所述法规数据和所述案件数据的位置识别，因此，可以利用所述关系识别模型中的编码层对所述法规数据和所述案件数据中的字符进行位置向量编码，进而确定所述法规数据和所述案件数据中每个字符的案件信息，从而实现后续的模型训练。
[0129]
较佳地，所述编码层可为embedding。
[0130]
详细地，所述模型训练模块102通过执行下述操作利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集，包括：
[0131]
利用所述编码层分别对所述法规数据和所述案件数据中的字符进行位置索引编码，得到法规字符位置索引和案件字符位置索引；
[0132]
利用所述编码层将所述法规数据和所述案件数据中的字符分别转化成对应的字符向量，得到初始法规字符向量和初始案件字符向量；
[0133]
将所述法规字符位置索引和所述初始法规字符向量进行组合，生成法规字符向量集；
[0134]
将所述案件字符位置索引和所述初始案件字符向量进行组合，生成案件字符向量
集。
[0135]
例如，所述法规数据为：“申请注册和使用商标，应当遵循诚实信用原则”，则对“申请注册和使用商标”中的字符进行位置索引编码，得到“申”位置索引为0、“请”位置索引为1、“注”位置索引为2、“册”位置索引为3、“和”位置索引为4、“使”位置索引为5、“用”位置索引为6、“商”位置索引为7及“标”位置索引为8。
[0136]
类似地，当所述法规数据为：“申请注册和使用商标”时，将所述法规数据中的字符转化为字符向量，得到“申”初始法规字符向量为000、“请”初始法规字符向量为001、“注”初始法规字符向量为002、“册”初始法规字符向量为003等，进而将所述字符位置索引和所述初始法规字符向量进行组合，得到“申”法规字符向量为0
‑
000、“请”法规字符向量为1
‑
001、“注”法规字符向量为2
‑
002等。
[0137]
本发明实施例中，所述特征法规字符向量集是先对所述法规字符向量集进行特征提取得到特征字符向量，再对特征字符向量进行字符结构信息提取后得到的字符向量集；所述特征案件字符向量集是先对所述案件字符向量集进行特征提取得到特征字符向量，再对特征字符向量进行字符结构信息提取后得到的字符向量集。
[0138]
本发明实施例中，利用所述预构建关系识别模型中的前馈注意力机制对所述法规字符向量和所述案件字符向量进行特征序列提取，输出所述法规字符向量和所述案件字符向量的特征字符向量。其中所述前馈注意力机制包括：隐马尔可夫模块和编码器。
[0139]
详细地，所述模型训练模块102通过执行下述操作利用所述预构建关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集进行特征提取和结构提取，得到特征法规字符向量和特征案件字符向量，包括：
[0140]
利用所述前馈注意力机制中的隐马尔可夫模块对获取到的所述法规字符向量和所述案件字符向量进行特征提取，得到特征字符向量；
[0141]
利用所述前馈注意力机制中的编码器提取所述特征字符向量的结构信息，得到特征法规字符向量集和特征案件字符向量集。
[0142]
本发明实施例中，通过隐马尔可夫算法对所述法规字符向量进行关键字特征提取，例如，“某企业，通过生产、销售含有违禁药品西布曲明成分的减肥类保健食品，从中来牟取暴利，违反《食品安全法》”可以提取生产、销售、西布曲明、减肥、保健食品、《食品安全法》等特征关键字。
[0143]
进一步地，可通过编码器提取所述法规字符向量的特征字符向量的结构信息序列，即提取所述法规字符向量的组成结构并对法规数据的非结构化字符进行结构化处理，例如，“安全”的组成结构是音节“a”、“n”、“q”、“u”、“a”及“n”组成。
[0144]
本发明实施例中，利用所述匹配模块可以对所述特征法规字符向量及所述特征案件字符向量进行关键词预测，并计算关键词预测的关联度，其中，所述匹配模块包括：隐马尔可夫算法和nlp匹配算法。
[0145]
详细地，所述模型训练模块102通过执行下述操作利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系，包括：
[0146]
获取所述特征法规字符向量对应的法规上下字符语义以及所述特征案件字符向量对应的案件上下字符语义；
[0147]
利用所述匹配模块中的隐马尔可夫算法分别对所述法规上下字符语义以及所述案件上下字符语义进行拼接，得到法规字符矩阵和案件字符矩阵；
[0148]
利用所述匹配模块中的nlp匹配算法计算所述法规字符矩阵和案件字符矩阵的关联系数；
[0149]
若所述关联系数小于或等于预设关联系数，则确定所述法规字符矩阵对应的法规数据和所述案件字符矩阵对应的案件数据不存在关联关系；
[0150]
若所述关联系数大于预设关联系数，则确定所述法规则所述法规字符矩阵对应的法规数据和所述案件字符矩阵对应的案件数据存在关联关系。
[0151]
本发明实施例中，可以利用隐马尔可夫算法对所述特征法规字符向量和所述特征案件字符向量对应的上下字符语义关系进行拼接，得到法规字符矩阵和案件字符矩阵：
[0152]
s＝(s1，s，
…
，s
t
)，o＝(o1，o2，
…
，o
t
)
[0153]
b＝p(o
t
|s
t
)
[0154]
本发明一实施例中，o
t
表示长度为t的特征案件字符向量，s
t
表示长度为t的特征案件字符向量对应的关键字，根据o
t
与s
t
的关系为上下字符语义关系，得到案件字符矩阵b。
[0155]
类似地，求得所述法规字符矩阵的方法同上。
[0156]
例如，观测序列o“x、i、b、u、q、u、m、i、n、g、j、i、a、n、f、e、i”，状态序列s为“西布曲明减肥”，得到的案件字符矩阵b为[西布曲明减肥]。
[0157]
本发明实施例中，可通过nlp匹配算法计算所述法规字符矩阵和案件字符矩阵的关联系数，如nlp匹配算法中的余弦相似度算法、jaccard相似系数算法等。
[0158]
具体地，所述预设关联度可以设置为0.98。
[0159]
本发明实施例中，利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，根据所述损失值调整所述关系识别模型的参数，直至所述关系识别模型满足预设条件时，得到训练完成的标准关系识别模型。其中，所述预设条件可以根据所述实际模型训练场景设置，例如，预设条件为所述损失值小于预设阈值。
[0160]
本发明实施例中，所述损失函数包括交叉熵(cross entropy)函数。
[0161]
详细地，所述模型训练模块102通过执行下述操作利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，包括：
[0162]
利用下述损失函数计算所述预测关联关系与所述实际关联关系的损失值：
[0163][0164]
其中，l(s)表示损失值，k表示预测关联关系的数量，y
i
表示第i个预测关联关系，y
′
i
表示第i个实际关联关系。
[0165]
一可选实施例中，所述参数的调整可通过随机下降梯度算法实现，例如，利用下述公式调整所述关系识别模型的参数：
[0166][0167]
其中，l(θ)表示调整的参数，m表示特征法规字符向量和特征案件字符向量的数
量，l(s)表示损失值，f(x
i,j
,θ)表示下降函数，θ表示学习率，x
i,j
和y
i,j
表示特征法规字符向量和特征案件字符向量的横纵坐标位置。
[0168]
所述法规获取模块103，用于获取待受理案件，利用所述标准关系识别模型识别所述待受理案件对应的第一法规；将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规；将所述第一法规和所述第二法规中的相同法规作为所述待受理案件的最终法规。
[0169]
本发明实施例中，所述待受理案件可为在监管区域中发生的与化妆品、特种设备及消费品等相关的违法案件。具体的，待受理案件可以为由用户输入至系统的，或者是由工作人员输入至系统的。
[0170]
例如，所述待受理案件可以为生产的某一批次消费品中因产品的设计制造不合格，导致消费品存在缺陷，严重危机消费者人身安全。进一步，将所述待受理案件输入所述标准关系识别模型，可得到第一法规为《消费者召回管理暂行规定》文件中的第三条款。
[0171]
本发明实施例中，所述预构建历史案件库包括：过去时间段内发生的违法案件及处理所述违法案件对应的法规。
[0172]
详细地，所述法规获取模块103通过执行下述操作将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规，包括：
[0173]
计算所述待受理案件和所述预构建历史案件库中的历史案件的关联度；
[0174]
若所述关联度大于预设关联度，则确定所述待受理案件和所述预构建历史案件库中的历史案件匹配成功，并将匹配成功的历史案件对应的法规作为所述待受理案件的第二法规。
[0175]
本发明一可选实施例中，所述待受理案件和所述预构建历史案件库中的历史案件的关联度可通过nlp匹配算法实现，如余弦相似度算法、jaccard相似系数算法等，所述预设关联度可以设置为0.98，也可以根据实际业务场景预先设置为其他的数值。
[0176]
本发明实施例中，若所述第一法规为《中华人民共和国消费者权益保护法》中的第二十六条款；所述第二法规也为《中华人民共和国消费者权益保护法》中的第二十六条款，则将《中华人民共和国消费者权益保护法》中的第二十六条款作为所述待受理案件的最终法规。
[0177]
进一步地，本发明实施例中，若所述第一法规和所述第二法规中没有相同法规，可将所述待受理案件重新输入所述关系识别模型中进行训练，得到更新的第一法规，直到所述更新第一法规与所述第二法规中存在相同法规，进而提高法规识别的准确率。
[0178]
本发明实施例首先标记法规数据和案件数据的实际关联关系，可以确定所述法规数据和所述案件数据的实际对应关系，再将后续模型预测的法规数据和所述案件数据对应关系与实际对应关系进行对比，从而判断出后续模型预测的法规数据和所述案件数据对应关系的准确性；其次，利用所述法规数据和案件数据的关联关系对所述预构建的关系识别模型进行训练，利用训练完成的关系识别模型识别待受理案件对应的第一法规，可以通过所述训练完成的关系识别模型确定所述法规数据和所述案件数据对应关系并识别待受理案件对应的第一法规，提高了法规识别的准确率；最后，将匹配成功的历史案件对应的法规作为所述待受理案件的第二法规，且将所述第一法规和所述第二法规中的相同法规作为所
述待受理案件的最终法规，进一步筛选准确的法规，提高法规识别的准确率，并且，本发明实施例中减少了人力成本和时间成本的损耗，提高法规识别的效率。因此本发明实施例提出的基于大数据的法规识别装置可以提高法规识别的准确率和效率。
[0179]
如图3所示，是本发明实现基于大数据的法规识别方法的电子设备的结构示意图。
[0180]
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于大数据的法规识别程序。
[0181]
其中，所述存储器11至少包括一种类型的介质，所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：sd或dx存储器等)、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如基于大数据的法规识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。
[0182]
所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如基于大数据的法规识别程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。
[0183]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0184]
图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
[0185]
例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等，在此不再赘述。
[0186]
可选地，所述通信接口13可以包括有线接口和/或无线接口(如wi
‑
fi接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。
[0187]
可选地，所述通信接口13还可以包括用户接口，用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light
‑
emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0188]
应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
[0189]
所述电子设备中的所述存储器11存储的基于大数据的法规识别程序是多个计算机程序的组合，在所述处理器10中运行时，可以实现：
[0190]
获取法规数据和案件数据，并标记所述法规数据和案件数据的实际关联关系；
[0191]
利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集；
[0192]
利用所述关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集分别进行特征提取和结构提取，得到特征法规字符向量集和特征案件字符向量集；
[0193]
利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系；
[0194]
利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，根据所述损失值调整所述关系识别模型的参数，直至所述关系识别模型满足预设条件时，得到训练完成的标准关系识别模型；
[0195]
获取待受理案件，利用所述标准关系识别模型识别所述待受理案件对应的第一法规；
[0196]
将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规；
[0197]
将所述第一法规和所述第二法规中的相同法规作为所述待受理案件的最终法规。
[0198]
具体地，所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
[0199]
进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的，也可以是易失性的。所述计算机可读介质可以包括：能够携待所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)。
[0200]
本发明实施例还可以提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：
[0201]
获取法规数据和案件数据，并标记所述法规数据和案件数据的实际关联关系；
[0202]
利用预构建的关系识别模型中的编码层分别对所述法规数据和案件数据中的字符进行位置向量编码，生成法规字符向量集和案件字符向量集；
[0203]
利用所述关系识别模型中的前馈注意力机制对所述法规字符向量集和所述案件字符向量集分别进行特征提取和结构提取，得到特征法规字符向量集和特征案件字符向量
集；
[0204]
利用所述关系识别模型中的匹配模块对所述特征法规字符向量和特征案件字符向量进行关联关系识别，得到所述法规数据和案件数据的预测关联关系；
[0205]
利用所述关系识别模型中的损失函数计算所述预测关联关系与所述实际关联关系的损失值，根据所述损失值调整所述关系识别模型的参数，直至所述关系识别模型满足预设条件时，得到训练完成的标准关系识别模型；
[0206]
获取待受理案件，利用所述标准关系识别模型识别所述待受理案件对应的第一法规；
[0207]
将所述待受理案件与预构建历史案件库中的历史案件进行匹配，并将匹配成功的所述历史案件对应的法规作为所述待受理案件的第二法规；
[0208]
将所述第一法规和所述第二法规中的相同法规作为所述待受理案件的最终法规。
[0209]
进一步地，所述计算机可用介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
[0210]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0211]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0212]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0213]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
[0214]
因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0215]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0216]
此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
[0217]
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照
较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于互联网和移动终端的在线教育课程共享分配系统的制作方法

基于大数据的法规识别方法、装置、电子设备及介质与流程

相关文献

最热文献