技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于大模型的交互式数据分析方法与流程  >  正文

基于大模型的交互式数据分析方法与流程

  • 国知局
  • 2024-11-06 14:45:05

本技术涉及数据处理,尤其涉及一种基于大模型的交互式数据分析方法。

背景技术:

1、在当前信息化时代,随着互联网和社交媒体的迅猛发展,数据量尤其是非结构化文本数据呈现出爆炸性增长。这些海量文本数据中蕴含着宝贵的信息和知识,对于市场分析、舆情监控、个性化推荐等领域具有极高价值。然而,有效地从这些数据中提取有用信息面临巨大挑战,主要体现在以下几个方面:

2、处理规模与效率的矛盾:传统基于规则和简单统计学方法在处理大规模文本数据时显得力不从心,难以高效准确地进行高维度分析。

3、语义理解的局限性:文本数据的复杂性和多样性要求分析方法不仅要处理语法层面,还需深入理解语义层面,而传统的分析工具往往缺乏足够的语境理解和推理能力。

4、模型适应性和泛化能力:面对不断变化的语言习惯和新兴话题,现有模型往往需要频繁更新和调整,缺乏良好的自适应性和泛化到新领域的灵活性。

5、交互性和定制化需求:用户对于数据分析的需求日益多样化,期望能够根据具体场景灵活定制分析维度和深度,而传统方法难以满足这种高度个性化的交互式分析需求。

6、针对上述问题,现有的解决方案往往侧重于单一技术点的优化,缺乏一个系统性的方法来同时解决大规模处理、深度语义理解、模型泛化以及交互式分析的综合挑战。特别是,在利用预训练大模型进行文本分析的过程中,如何有效整合数据预处理、模型训练、性能优化及用户交互环节,仍是一个亟待解决的技术难题。

技术实现思路

1、本技术的目的在于提出一种基于大模型的交互式数据分析方法,用于解决或者缓解现有技术中存在的技术问题。

2、本技术实施例提供的技术方案如下:

3、一种基于大模型的交互式数据分析方法,其包括:

4、获取文本样本以及对应的训练标签,构建训练集;

5、对所述训练集中的文本样本进行格式转换,以将所述训练集转换成大模型的输入序列样本;

6、将所述输入序列输入到所述大模型中,以使得所述大模型对所述输入序列进行预设维度的分析,得到分析结果;

7、基于所述分析结果与所述训练集中的训练标签,计算所述大模型的损失函数,以基于所述损失函数对所述大模型进行训练,直至训练完成;

8、获取待处理文本,并将其转换成待处理序列,以输入到训练完成的大模型中以对所述待处理以文本进行预设维度的分析并得到对应的分析结果。

9、可选地,所述获取文本样本以及对应的训练标签,构建训练集包括:

10、对样本数据源进行结构解析,提取所述目标数据源中的文本类名以及文本属性标签;

11、将所述文本类名以及文本属性标签分别映射为文本样本以及对应的训练标签,以构建训练集。

12、可选地,所述对样本数据源进行结构解析,提取所述目标数据源中的文本类名以及文本属性标签,包括:

13、基于构建的dom元素序列,启用dom api对样本数据源进行结构解析,提取所述目标数据源中的文本类名以及文本属性标签。

14、可选地,所述将所述文本类名以及文本属性标签分别映射为文本样本以及对应的训练标签,以构建训练集,包括:对所述文本类名以及文本属性标签进行虚拟动态化处理,以将所述文本类名以及文本属性标签分别映射为文本样本以及对应的训练标签。

15、可选地,所述对所述文本类名以及文本属性标签进行虚拟动态化处理,以将所述文本类名以及文本属性标签分别映射为文本样本以及对应的训练标签,包括:基于设置的动态规则引擎,对所述文本类名以及文本属性标签进行虚拟动态化处理,生成动态规则文本序列;对所述动态规则文本序列进行决策分析投票,以将所述文本类名以及文本属性标签分别映射为文本样本以及对应的训练标签。

16、可选地,所述对所述训练集中的文本样本进行格式转换,以将所述训练集转换成大模型的输入序列样本,包括:

17、对所述训练集中的文本样本进行分词处理,得到若干词单元;

18、对所述若干词单元进行频率统计,以确定出高频词汇并据此组成高频词汇表,所述高频词汇为出现频率大于设定频率阈值的词单元;

19、对所述高频词汇表进行编码处理,得到高频词索引序列,以作为所述训练集转换成大模型的输入序列样本。

20、可选地,所述对所述高频词汇表进行编码处理,得到高频词索引序列,包括:

21、使用word embeddings模型,确定所述高频词汇表中高频词汇的语义关联度;

22、基于设置的自适应编码模型,对所述高频词汇表进行编码处理得到群组编码;

23、基于所述高频词汇表中高频词汇的语义关联度,在所述群组编码中添加内置的序列开头标记和结尾标记,以生成高频词索引序列。

24、可选地,所述使用word embeddings模型,确定所述高频词汇表中高频词汇的语义关联度,包括:使用word embeddings模型,将所述高频词汇表中每个高频词汇转换成向量表示;计算不同向量表示之间的相似度,以基于所述相似度,评估所述高频词汇表中高频词汇之间的语义关联度并生成语义关联度图。

25、可选地,所述基于所述高频词汇表中高频词汇的语义关联度,在所述群组编码中添加内置的序列开头标记和结尾标记,以生成高频词索引序列,包括:

26、基于所述高频词汇表中高频词汇的语义关联度,生成语义关联矩阵;

27、基于所述语义关联矩阵,对所述高频词汇表中高频词汇进行聚类分析,以确定其中的群组代表词;

28、对所述群组代表词进行语义流和逻辑结构扩展,以确定序列开头标记位置和结尾标记位置,以在所述群组代表词对应的群组编码中添加内置的序列开头标记和结尾标记。

29、可选地,所述将所述输入序列样本输入到所述大模型中,以使得所述大模型对所述输入序列进行预设维度的分析,得到分析结果;

30、所述大模型中的分词器将所述输入序列样本分割为若干词汇单元,按照每个词汇单元在所述输入序列样本中的位置分配位置标识符,形成标准词汇单元;

31、基于所述预设维度,触发所述大模型中的transformer层对所述标准词汇单元进行多头注意力分析,以得到分析结果。

32、可选地,所述基于所述预设维度,触发所述大模型中的transformer层对所述标准词汇单元进行多头注意力分析,以得到分析结果,包括:

33、基于所述预设维度,触发所述大模型中的第一transformer层对所述标准词汇单元进行多头自注意力分析以捕捉所述标准词汇单元的自注意语义空间特征,得到第一分析结果并添加第一分类头,以及触发所述大模型中的第二transformer层对所述标准词汇单元进行多头交叉注意力分析以捕捉所述标准词汇单元的交叉注意语义空间特征,得到第二分析结果并添加第二分类头,以与所述第一分析结果及所述第一分类头进行融合得到最终的分析结果。

34、可选地,所述基于所述分析结果与所述训练集中的训练标签,计算所述大模型的损失函数,以基于所述损失函数对所述大模型进行训练,直至训练完成,包括:

35、基于所述分析结果与所述训练集中的训练标签,计算所述大模型的损失函数,若所述损失函数的值小于设定的损失阈值,则完成训练,否则跳转到对所述训练集中的文本样本进行格式转换,以将所述训练集转换成大模型的输入序列样本的步骤,以重新对所述大模型进行训练。

36、可选地,所述获取待处理文本,并将其转换成待处理序列,以输入到训练完成的大模型中以对所述待处理以文本进行预设维度的分析并得到对应的分析结果,包括:

37、基于所述预设维度,触发所述大模型中的第一transformer层对所述待处理序列中的标准词汇单元进行多头自注意力分析以捕捉所述标准词汇单元的自注意语义空间特征,得到第一分析结果并添加第一分类头,以及触发所述大模型中的第二transformer层对所述待处理序列的标准词汇单元进行多头交叉注意力分析以捕捉所述标准词汇单元的交叉注意语义空间特征,得到第二分析结果并添加第二分类头,以与所述第一分析结果及所述第一分类头进行融合得到最终的分析结果。

38、本技术中提出的基于大模型的交互式数据分析方法,具有如下技术好处:

39、(1)通过采用大模型(如transformer架构的预训练模型如bert、gpt系列等),该方法充分利用了模型的深度学习能力,这些模型在大规模数据上进行了预训练,能够高效处理海量文本数据。大模型通过自我注意力机制能够捕捉长距离依赖,提高了处理复杂文本序列的效率,解决了传统方法在大规模数据处理上的瓶颈。训练过程中对模型的持续优化,确保了在保持高维度分析准确性的同时,提高处理速度,平衡了规模与效率的矛盾。

40、(2)大模型通过深度神经网络架构,特别是在大规模无监督预训练阶段,学习到了丰富的语言表示,这不仅包括词汇级别的统计特征,更深层次地捕捉到了句法和语义信息。这意味着它们能够更好地理解文本的上下文语境,进行有效的语义推理,解决了传统方法在理解复杂语境和深层意义方面的局限性。

41、(3)该方法中对大模型的微调步骤(基于特定任务的训练)不仅提升了模型在特定领域的准确性,也增强了模型的泛化能力。由于大模型预先学习了广泛的语言结构和模式,即使面对新的语言习惯或话题,只需少量标注数据即可快速适应,无需频繁大幅度调整模型,从而提高了模型的自适应性和在新领域的应用灵活性。

42、(4)此方法支持交互式数据分析,用户可以根据具体需求灵活定制分析维度。通过将待分析文本直接输入到训练完成的大模型中,用户可以即时获得针对不同分析维度(如情感、主题等)的结果,实现了高度个性化的分析体验。

本文地址:https://www.jishuxx.com/zhuanli/20241106/323925.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。