技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于领域自适应的智能裁量系统的制作方法 > 正文

一种基于领域自适应的智能裁量系统的制作方法

国知局
2024-08-19 14:16:49

本发明属于机器学习，涉及一种基于领域自适应的行政执法智能裁量系统。

背景技术：

1、当前市场上存在多种智能裁量技术。这些技术多服务于法官、律师等具有较强法律素养的专业法律从业人员。这些人员在使用依托相关技术开发的产品时，法律用词准确，表达精准，有清晰的咨询方向。但是在行政执法领域，法律查询存在大量口语化、不规范表述，同时咨询内容模糊，现有技术不能准确处理此种情形。

2、在技术实现上，一些方案采用分词和构建词表等方法，计算相似度以推荐相应的法条，但是由于法律术语种类繁多，构建词表需要耗费大量的时间和精力，且无法完全覆盖所有的法律术语，从而影响法条推荐的准确性；另一些方案则结合文本向量和词语搭配特征，利用fasttext文本分类模型、专家规则推荐法条，但是由于fasttext模型结构过于简单，难以捕捉词序特征，对长文本的处理较弱，同时基于专家规则具有一定的局限性，不仅规则的制定与维护也需要大量的人力和时间，且无法覆盖所有的情况。还有一些方案使用bert+bilstm+crf深度学习模型，根据犯罪事实中的主体、客体等要素对法律行为定罪，并结合法条和罪名的关联来进行决策，由于bert主要基于开源语料、维基百科中的数据训练而来，缺乏对法律语言的理解和表示，因此为适应法律场景下的主体识别任务通常需要大量的标注数据进行训练，这大大增加标注与训练成本。此外，还有一些方案采用知识图谱构建方法，在罪名要素中寻找相应的推荐结果，但构建知识图谱需要大量人工标注的高质量数据，同时法律案件一般是基于情景的动态分析和判断，而知识图谱难以考虑具体情景和背景信息。这使得现有技术在行政执法领域应用效果不佳，不能切实解决行政执法场景下的困境。

3、另外，当前技术重点关注于解决法律适用不准确的问题，而很少关注类似案件处罚结果不一致的情况。

4、综上，现有技术主要存在以下问题：

5、1.法律文本通常具有复杂的结构、专业的术语、严格的逻辑，采用在通用语料库上预训练的语言表征模型例如bert，无法覆盖法律领域的知识和语言特征，且通用性语言表征模型通常只能处理较短的序列，无法捕捉长文本中的关键信息和长距离依赖。

6、2.基于预训练模型微调来解决特定的自然语言处理任务时，需要大量的人工标注数据，同时对模型的参数进行调整，以适应不同任务的需求，这个过程消耗大量的计算资源，训练成本大大增加，限制模型的可扩展性和可用性。

7、3.案件信息冗余，含有大量噪声信息，例如无关的背景介绍、重复的证据陈述、模糊的法律术语等，这些噪声信息导致文本较长，不仅增加了文本的复杂度和阅读难度，也影响了文本的结构和逻辑，使得文本中的重要信息被掩盖或混淆，案件焦点不清晰，难以捕捉关键特征。

8、4.目前的法律智能系统在处理法律问题时，由于案件的复杂性多样性，同样的案件性质，不同的涉案金额、人员规模、计量等因素，实际的处罚也可能不同，往往只能提供相关的法律条文，缺乏可解释性的裁量结果。

技术实现思路

1、本发明针对现有技术的不足，提供了一种基于领域自适应的智能裁量系统。

2、本发明包括数据采集模块、数据预处理与解析模块、领域自适应模块、特征抽取模块和智能裁量模块。

3、所述的数据采集模块包括网络公开信息采集单元与领域自生成单元，其中领域自生成单元采用llama生成虚拟案件信息。

4、所述的数据预处理与解析模块用于处理数据采集模块形成的语料库，其中：针对案件信息中口语化的描述进行优化提取的预处理操作，针对法律文件和裁量文件增加非结构化数据转存为结构化数据操作。

5、所述的领域自适应模块使用数据预处理与解析模块加工后的数据，在法律领域内通过领域自适应迁移学习方法，基于roberta-wwm-ext预训练，得到专门针对法律文本的bert模型，即lawbert模型。

6、本模块在通用性预训练模型的基础上，利用法律领域的无标签数据集继续预训练，得到具备先验法律知识的预训练模型lawbert，缩小法律领域与通用领域的语言差异，提高法律领域的语言理解能力，为法律领域的自然语言处理任务提供强大的语言表征。

7、所述的特征抽取模块包括案件信息抽取子模块与违法行为摘要生成子模块；

8、由于法条推荐的结果依赖于经内部训练微调的行为摘要生成模型、涉案主体识别模型的输出。从冗长的案件信息中自动生成简洁的行为描述、涉案主体、涉案时间等关键信息，以作为简洁、有效高度浓缩的案件信息，有利于学习案件与法条之间的关联度，提高法条推荐的效果和效率。该模型对于下游法条推荐的准确性发挥着至关重要的作用。

9、所述的智能裁量模块包含两个基于lawbert文本分类模型，均通过lawbert进行语义表征捕捉文本中的语义和上下文信息，并在lawbert文本分类模型的基础上新增分类层，在两个不同的数据集上进行文本分类任务的训练，两个模型分别应用于法条推荐和违法等级判定。

10、目前的法律决策辅助工作大多仅限于法条推荐，而在裁量推荐方面仍面临巨大挑战。本模块从违法行为持续情况、违法行为危害性、违法行为后果三个维度入手，构建了综合评级的违法等级模型，并以法条推荐结果与违法等级情况为综合裁量依据，最终出具智能裁量结果。本模块充分考虑了案件的灵活多变性，解决了现有裁量推荐难以克服的问题。

11、本发明的有益效果：

12、(1)通过增加更加口语化的执法记录数据，利用数据预处理与解析模块对采集的语料库进行处理，针对案件信息中口语化的描述进行优化提取，采用多种常用技术，如正则抽取、分词器、词性标注器、命名实体识别器、依存句法分析器、信息抽取器等，实现更高效的数据处理和提取，有效提高了基层执法案件上的推荐准确性。

13、(2)在数据采集模块，特征抽取模块，智能裁量模块中均使用了模型微调技术，在模型中充实大量法律相关的语料库，使得模型深入学习法律垂直领域的知识，进而显著提升了其在法律专业领域的应用能力，相较于通用模型表现出更为卓越的性能。

14、(3)在领域自适应模块中，利用大量的法律相关语料进行二次预训练，采用动态掩码策略，结合全词遮蔽(wwm)的方式进行掩码以及多层自注意力机制和前馈神经网络的堆叠，从而得到拥有法律垂直领域知识的模型——lawbert，使得后续特征抽取模块、智能裁量模块的相关下游任务的微调过程中无需再依赖大量标注数据进行训练，从而显著节约了人工标注时间，并降低了微调模型所需计算资源的规模。

15、(4)智能裁量模块利用lawbert模型，在其最后一层增加分类层，分别在涉案标签数据集和违法程度标签数据集上进行微调，并通过计算加权交叉熵损失函数解决样本数据分布不均的问题，使得本模块能够根据不同的案件类型和违法程度，快速地给出合适的裁决依据和裁量结果，减少了人为的主观判断和误差，提高了法律裁决的一致性和可信度。

技术特征：

1.一种基于领域自适应的智能裁量系统，包括数据采集模块、数据预处理与解析模块、领域自适应模块、特征抽取模块和智能裁量模块，其特征在于：

2.根据权利要求1所述的一种基于领域自适应的智能裁量系统，其特征在于：所述的llama经过了二次预训练，并使用stamford alpaca指令跟随模型进行微调，以显式地训练它遵守指令。

3.根据权利要求1或2所述的一种基于领域自适应的智能裁量系统，其特征在于：所述的数据预处理与解析模块在针对案件信息中的处罚信息时，采用重匹配策略，即在使用正则表达式提取的同时，使用已有的法律名称进行再次匹配；通过计算余弦相似度将提取出的处罚法律名称与已有名称对比进行法律名称纠正；

4.根据权利要求1或2所述的一种基于领域自适应的智能裁量系统，其特征在于：所述的数据预处理与解析模块在处理法律文件的过程中，采用了多叉树数据结构；在处理裁量文件时，使用光学字符识别工具从pdf文件中提取文本，利用openpyxl库根据表格的特性进行内容分割，将其转化为结构化数据。

5.根据权利要求1所述的一种基于领域自适应的智能裁量系统，其特征在于：所述基于roberta-wwm-ext预训练具体是：

6.根据权利要求5所述的一种基于领域自适应的智能裁量系统，其特征在于：所述的自注意力机制根据不同位置的token之间的相对位置关系，动态地计算每个token对其它token的依赖权重，通过对输入序列中的每个token进行自注意力计算，捕捉到每个token与其它token之间的相关性；

7.根据权利要求1所述的一种基于领域自适应的智能裁量系统，其特征在于：所述的案件信息抽取子模块针对案件数据集进行实体标注，基于预训练模型lawbert，对案件信息进行语义理解和实体识别。

8.根据权利要求1所述的一种基于领域自适应的智能裁量系统，其特征在于：所述的违法行为摘要生成子模块为基于transformer序列到序列的神经网络模型；该子模块以预处理后的案件描述信息作为输入，以lawbert做为编码器进行特征抽取，对案件描述信息进行语义表征；以t5框架的decoder作为解码器，配置学习率、优化器超参数，训练摘要生成任务，根据案件信息生成违法行为简洁描述。

9.根据权利要求1所述的一种基于领域自适应的智能裁量系统，其特征在于：所述的智能裁量模块中应用于法条推荐模型是基于lawbert微调的多标签文本分类模型，在lawbert模型的最后一层新增全连接层和softmax层，通过循环迭代数据进行标签预测，计算损失通过反向传播更新模型参数。

10.根据权利要求1所述的一种基于领域自适应的智能裁量系统，其特征在于：所述的智能裁量模块中应用于违法等级判定模型是基于lawbert微调的文本分类模型，在lawbert模型的顶部新增分类层，通过对分类层参数的更新来微调整个模型。

技术总结本发明公开了一种基于领域自适应的智能裁量系统。本发明包括数据采集模块、数据预处理与解析模块、领域自适应模块、特征抽取模块和智能裁量模块。数据采集模块包括网络公开信息采集单元与领域自生成单元。数据预处理与解析模块用于处理数据采集模块形成的语料库。领域自适应模块基于RoBERTa‑wwm‑ext预训练，得到专门针对法律文本的BERT模型；特征抽取模块包括案件信息抽取子模块与违法行为摘要生成子模块；智能裁量模块包含两个基于LawBERT文本分类模型，两个模型分别应用于法条推荐和违法等级判定。本发明减少了人为的主观判断和误差，提高了法律裁决的一致性和可信度。技术研发人员：王雯,周志凯,周斌,王东旭受保护的技术使用者：杭州数政科技有限公司技术研发日：技术公布日：2024/8/16