技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数据处理方法及装置与流程  >  正文

数据处理方法及装置与流程

  • 国知局
  • 2024-08-19 14:21:44

本说明书实施例涉及计算机,特别涉及一种数据处理方法。

背景技术:

1、随着自动化技术的进步,将非结构化的教育内容,如题干、选项和答案,转化为结构化数据形式,已成为提高数据管理效率和使用效果的关键步骤。这种转化不仅使在线教育平台能够高效管理庞大的题库,还极大地优化了搜索、浏览和答题等功能,另外还可以为后续的各个衍生模型提供训练样本。

2、当前,常用的结构化方法通过手动标注和规则设定来处理题目文本,这种方法解决了将文本数据结构化的基本需求。但是,这种方法由于涉及大量的人工手动标注,因此成本较高且效率较低,特别是在处理大量和多样化的题目时效果不佳。此外,根据大量标注数据的多个模型对数据进行结构化,也会由于需要通过多个模型而存在成本高的且效率低问题。因此,需要一种能够提高对非结构化的数据进行结构化操作效率的数据处理方法。

技术实现思路

1、有鉴于此,本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序产品,以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面,提供了一种数据处理方法,包括:

3、获取非结构化题目数据,以及所述非结构化题目数据对应的题目类型数据;

4、根据所述题目类型数据确定至少一个非结构化提示文本;

5、拼接各非结构化提示文本和所述非结构化题目数据,获取所述非结构化题目数据对应的至少一个待处理结构化信息;

6、将各待处理结构化信息输入至数据处理模型,获取所述数据处理模型生成的至少一个题目段落数据,并根据各题目段落数据生成所述非结构化题目数据对应的结构化题目数据。

7、根据本说明书实施例的第二方面,提供了一种数据处理装置,包括:

8、数据获取模块,被配置为获取非结构化题目数据,以及所述非结构化题目数据对应的题目类型数据;

9、文本确定模块,被配置为根据所述题目类型数据确定至少一个非结构化提示文本;

10、数据拼接模块,被配置为拼接各非结构化提示文本和所述非结构化题目数据,获取所述非结构化题目数据对应的至少一个待处理结构化信息;

11、结构化处理模块,被配置为将各待处理结构化信息输入至数据处理模型,获取所述数据处理模型生成的至少一个题目段落数据,并根据各题目段落数据生成所述非结构化题目数据对应的结构化题目数据。

12、根据本说明书实施例的第三方面,提供了一种计算设备,包括:

13、存储器和处理器;

14、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。

15、根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述数据处理方法的步骤。

16、根据本说明书实施例的第五方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述数据处理方法的步骤。

17、本说明书一个实施例实现了获取非结构化题目数据,以及所述非结构化题目数据对应的题目类型数据;根据所述题目类型数据确定至少一个非结构化提示文本;拼接各非结构化提示文本和所述非结构化题目数据,获取所述非结构化题目数据对应的至少一个待处理结构化信息;将各待处理结构化信息输入至数据处理模型,获取所述数据处理模型生成的至少一个题目段落数据,并根据各题目段落数据生成所述非结构化题目数据对应的结构化题目数据。

18、应用本说明书实施例的方案,通过各个题目类型各自对应的多个非结构化提示文本实现了通过单个数据处理模型提取非结构化题目数据中的题目段落数据,进而可以结合各个题目段落数据生成非结构化题目数据对应的结构化题目数据,因此,实现了通过单个数据处理模型自动对非结构化题目数据进行结构化处理,避免了通过人工或多个模型实现题目数据结构化而造成的效率低的问题,进而提高了对非结构化题目数据进行结构化处理的效率。

技术特征:

1.一种数据处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,根据所述题目类型数据确定至少一个非结构化提示文本,包括:

3.如权利要求2所述的方法,其特征在于,题目类型数据包括主观类型或客观类型,非结构化提示文本包括题干提取提示文本、选项提取提示文本、答案提取提示文本或解析提取提示文本;

4.如权利要求1所述的方法,其特征在于,根据各题目段落数据生成所述非结构化题目数据对应的结构化题目数据,包括:

5.如权利要求4所述的方法,其特征在于,获取各题目段落数据对应的数据段落类别,包括:

6.如权利要求1所述的方法,其特征在于,获取非结构化题目数据,包括:

7.如权利要求6所述的方法,其特征在于,所述待处理非结构化题目数据中包括至少一个文本元素和至少一个非文本元素;

8.如权利要求1所述的方法,其特征在于,在根据所述题目类型数据确定至少一个非结构化提示文本之前,所述方法还包括:

9.如权利要求1所述的方法,其特征在于,所述数据处理模型由下述步骤训练获得,包括:

10.如权利要求9所述的方法,其特征在于,获取样本题目数据,包括:

11.如权利要求9所述的方法,其特征在于,根据各样本题目段落数据和各预测题目段落数据计算模型损失值,包括:

12.一种数据处理装置,其特征在于,包括:

13.一种计算设备,其特征在于,包括:

14.一种计算机可读存储介质,其存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。

15.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。

技术总结本说明书实施例提供数据处理方法以及装置,其中所述数据处理方法包括:获取非结构化题目数据,以及所述非结构化题目数据对应的题目类型数据;根据所述题目类型数据确定至少一个非结构化提示文本;拼接各非结构化提示文本和所述非结构化题目数据,获取所述非结构化题目数据对应的至少一个待处理结构化信息;将各待处理结构化信息输入至数据处理模型,获取所述数据处理模型生成的至少一个题目段落数据,并根据各题目段落数据生成所述非结构化题目数据对应的结构化题目数据。通过多个非结构化提示文本实现了通过单个数据处理模型,生成非结构化题目数据对应的结构化题目数据,避免了通过人工或多个模型实现题目数据结构化而造成的效率低的问题。技术研发人员:卢江虎,花明浩,翁秋洁,柳景明受保护的技术使用者:北京猿力未来科技有限公司技术研发日:技术公布日:2024/8/16

本文地址:https://www.jishuxx.com/zhuanli/20240819/274889.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。