技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种矛盾纠纷事件脉络生成方法与流程  >  正文

一种矛盾纠纷事件脉络生成方法与流程

  • 国知局
  • 2024-09-05 14:38:18

本发明涉及矛盾纠纷分析,尤其涉及一种矛盾纠纷事件脉络生成方法。

背景技术:

1、矛盾纠纷事件是社会生活中普遍存在的现象,全面而准确地把握这类事件的来龙去脉、影响因素及内在逻辑对于事件预警、仲裁裁决和决策管理具有至关重要的意义。然而,这些事件往往涉及大量的非结构化文本数据,如警情记录、诉讼文书和新闻报道等。传统的规则方法和统计模型在深入语义理解和复杂推理方面存在显著的局限性。

2、目前,矛盾纠纷的分析和处理主要依赖于人工操作,这要求相关人员具备丰富的经验和专业知识,并消耗大量的时间和资源。由于人工分析难以避免主观性的影响,可能会导致对纠纷事件脉络的误解或遗漏关键信息,从而影响决策的准确性。此外,现有的信息技术工具虽然在一定程度上辅助了矛盾纠纷的处理,但大多数工具仅提供数据存储、检索和初步分析的功能,缺乏对复杂事件脉络的深入挖掘和系统化构建能力。因此,在面对复杂多变的矛盾纠纷时,现有技术手段往往难以高效准确地揭示事件之间的关联性和演变过程。

技术实现思路

1、本发明的一个目的在于提出一种矛盾纠纷事件脉络生成方法,本发明通过融合大型语言模型和思维链范式,能够高效准确地揭示事件之间的关联性和演变过程,为矛盾纠纷的解决提供强有力的技术支持。

2、根据本发明实施例的一种矛盾纠纷事件脉络生成方法,包括如下步骤:

3、s1、搜集矛盾纠纷事件相关的文本数据,包括裁判文书、警情记录和案件资料,将采集到的文本数据进行系统整合,创建矛盾纠纷事件数据集;

4、s2、对整合后的矛盾纠纷事件数据集进行清洗,剔除重复、错误和不完整的数据,对清洗后的矛盾纠纷事件数据集中的敏感信息执行脱敏处理,并进行分组归集,得到结构化矛盾纠纷事件数据集;

5、s3、依据结构化矛盾纠纷事件数据集对大模型数据进行标注,标注以(q,a)问答对的形式进行构建,大模型训练过程中,问答对中的问题(q)被作为大模型的输入,问答对中的答案(a)被作为大模型的输出;

6、s4、借助大模型对结构化矛盾纠纷事件数据集进行脉络生成和梳理,通过因果链条的建立,从矛盾纠纷事件的前因后果和演化脉络角度出发,构建因果逻辑链条,理解和分析矛盾纠纷事件;

7、s5、在微调矛盾纠纷事件脉络推理的大模型之后,对于新输入的矛盾纠纷事件数据集将输入内容改写成与训练数据中问题(q)的格式相匹配,作为大模型的输入,大模型的推理结果将作为矛盾纠纷事件的脉络,对不同的矛盾纠纷事件脉络进行后处理并可视化,并理解和分析。

8、可选的,所述清洗后的矛盾纠纷事件数据集中,采用基于涉事人的归集策略,以涉事人为中心构建结构化矛盾纠纷事件数据集,结构化矛盾纠纷事件数据集以涉事人作为矛盾纠纷事件组的分组依据,采用了人员的身份证号码或联系号码作为唯一的标识符进行分组归集,分组归集后的结构化矛盾纠纷事件数据集由多个涉事人矛盾纠纷事件集合组成,每个矛盾纠纷事件集合包含与涉事人相关的所有矛盾纠纷事件。

9、可选的,所述s3采用基于矛盾纠纷事件的大模型输入构建方式,输入构建方式为固定提示词加动态输入事件文本的组合,动态输入事件文本为基于涉事人为中心的结构化矛盾纠纷事件数据集。

10、可选的,所述问答对中的答案(a)部分描述包括矛盾纠纷事件i与矛盾纠纷事件j之间的脉络关系、解释矛盾纠纷事件i为什么与矛盾纠纷事件j存在联系或者矛盾纠纷事件i如何导致矛盾纠纷事件j的发生。

11、可选的,所述s4还包括采用lora方法对大模型进行微调,优化大模型在梳理矛盾纠纷事件脉络时的思维链能力,保持原有预训练大模型的不变,在大模型旁边增加了一个旁路结构,旁路结构通过低秩分解模拟参数的更新量,由a和b两部分组成。

12、可选的,所述对大模型进行微调具体包括:

13、将输入的文本数据进行编码化,将字符表示转化为词嵌入表示的形式:

14、;

15、其中,表示词嵌入矩阵,表示文本序列的嵌入表示,,n表示文本段的长度,x表示文本字符;

16、为每个词嵌入添加位置编码信息,使得大模型理解单词在句子中的位置:

17、;

18、;

19、其中,pos表示词嵌入的位置,i表示维度索引,表示偶数位置的词嵌入,表示奇数位置的词嵌入;

20、将词嵌入表示和位置编码相加,得到综合表示;

21、构建模型输入,固定提示词和动态输入事件文本进行组合,形成最终输入文本数据:

22、i=\left [ {t,h} \right ];

23、将最终输入文本数据送入大模型之后,大模型的每个transformer使用注意力机制计算每个词嵌入表示与序列中其他的词嵌入表示的注意力得分,同时lora引入低秩矩阵a和低秩矩阵b,低秩矩阵a和低秩矩阵b被加入到大模型的注意力计算层中,调整大模型的参数:

24、;

25、其中,q、k、v是注意力机制中的查询、键、值矩阵,是键向量的维度;

26、在transformer中,注意力计算层之后使用前馈网络对注意力得分进行整合:

27、;

28、其中,、和、表示前馈网络的权重和偏置;

29、在大模型的每一个transformer中,使用lora适配层对参数进行微调,在lora适配层上使用梯度下降算法,更新低秩矩阵a和低秩矩阵b:

30、;

31、;

32、其中,表示学习率,表示损失函数。

33、可选的,所述大模型微调训练中,原始大模型的结构保持不变,仅对低秩矩阵a和低秩矩阵b进行训练,同时保持大模型的输入输出维度一致,在训练的初始化阶段,低秩矩阵b使用随机高斯分布进行初始化,初始化为全零矩阵,确保在训练开始时旁路矩阵保持零状态,在推理阶段,将经过训练的低秩矩阵a和低秩矩阵b与原始大模型的参数合并,无需增加额外的推理时间。

34、可选的,所述因果逻辑链条的构建包括:

35、在大模型通过注意力机制和前馈网络对矛盾纠纷事件文本进行处理后,生成矛盾纠纷事件之间的因果关系矩阵c,因果关系矩阵c中的每个元素表示矛盾纠纷事件i和矛盾纠纷事件j之间的因果关系强度:

36、;

37、其中,表示矛盾纠纷事件i和矛盾纠纷事件j之间的因果关系强度,h表示注意力头的数量,t表示时间步长,表示第i个事件在第h个注意力头的查询向量,表示第j个事件在时间步长t的键向量,表示第j个事件在时间步长t的值向量,表示低秩矩阵a的第h行和第t列的元素,表示低秩矩阵b的第h行和第t列的元素;

38、基于因果关系矩阵c,构建事件的因果逻辑链条,表示为一组有向图g=(v, e),其中,每条边的权重由因果关系强度决定:

39、;

40、;

41、其中,表示矛盾纠纷事件i和矛盾纠纷事件j之间的边,若超过阈值,则存在边,表示因果关系的阈值,表示矛盾纠纷事件i和矛盾纠纷事件j之间边的权重,表示时间衰减系数,表示矛盾纠纷事件i和矛盾纠纷事件j之间的时间间隔,表示矛盾纠纷事件i与所有其他矛盾纠纷事件的因果关系强度的总和;

42、对生成的因果逻辑链条进行优化,考虑矛盾纠纷事件的时间顺序和逻辑关系,调整因果逻辑链条中的边权重和结构:

43、;

44、;

45、其中,表示优化后的矛盾纠纷事件i和矛盾纠纷事件j之间的因果关系强度,表示平衡因子,决定因果关系强度和权重的影响比例,表示矛盾纠纷事件i和矛盾纠纷事件j之间边的权重,表示矛盾纠纷事件i和矛盾纠纷事件j之间的欧几里得距离,表示矛盾纠纷事件i的位置坐标,表示矛盾纠纷事件j的位置坐标;

46、生成最终的因果逻辑链条l,描述矛盾纠纷事件的来龙去脉,包括每个矛盾纠纷事件的发生时间、关键节点和主要参与者:

47、;

48、;

49、其中,表示包含所有因果关系强度超过阈值的事件对,表示优化后的矛盾纠纷事件i和矛盾纠纷事件j之间的因果关系强度,表示指示函数,当导致时为1,否则为0,表示关键节点k的重要性评分,基于点与其他事件之间的因果关系强度。

50、本发明的有益效果是:

51、本发明针对矛盾纠纷事件的特点,设计一种融合大型语言模型和思维链范式的新型事件脉络分析方法,利用大型语言模型强大的语义理解和推理能力,能够从非结构化的文本数据中识别和分析事件之间的关联,通过思维链范式,能够构建起事件之间的因果逻辑链条,从而全面准确地理解和分析矛盾纠纷事件的来龙去脉、影响因素和内在逻辑。通过融合大型语言模型和思维链范式,能够高效准确地揭示事件之间的关联性和演变过程,为矛盾纠纷的解决提供强有力的技术支持。

本文地址:https://www.jishuxx.com/zhuanli/20240905/287441.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。