融入元示例的作文评语生成方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-07-31 23:14:09
本发明属于自然语言处理的,更具体地,涉及一种融入元示例的作文评语生成方法、装置、电子设备及存储介质。
背景技术:
1、本发明涉及的是中小学生开放式评阅场景下的作文评语生成任务,它需要在理解和分析作文内容的基础上,结合评价标准从多个角度生成合理的作文评语,以辅助学生有针对性的提升其写作水平,具有重要的应用价值。
2、为了让学生在学习写作的过程中获得更好的指导意见,该场景中的作文评语需要从整体上给出对整篇作文的评阅意见,并结合部分优秀作文片段进行针对性的评价,例如引用作文中的优秀句子并对其使用的表达方式进行细粒度分析。然而,在开放式场景中可获得的学生年级、作文文体类型等作文相关信息较少。
3、考虑到不同文体类型、年级等约束信息对应的作文评价标准存在较大差异,作文相关信息的缺失使得评语生成过程中模型可参考的评价标准较为模糊。因此,针对中小学开放式作文评阅场景,作文评语生成本质上是要在对作文进行充分理解的基础上,结合合理的评价标注生成评语内容,其困难点包括如何引入和作文相符的评价依据以提升生成评语的合理性以及如何增强评语和作文的内容关联度,具有重要的理论意义。
4、现有的作文评语生成方法主要是根据输入的作文内容,基于预定义的范式语句来生成作文评语。例如,中国专利文献cn202310158304.x公开了一种基于知识图谱融合多维嵌套泛化模式的作文评语生成方法,首先构建了作文点评知识图谱,将作文类型、点评维度、细粒度的维度分析点以及分析点分级区间关联起来。接着,整理得到了多维嵌套泛化模式库,包含了所有作文类型下每个分析点分级区间对应的常见评语范式语句。在评语生成过程中,通过作文分析结果和作文点评知识图谱中维度分析点进行匹配,按照维度构造点评路径,并从泛化模式库中查到到对应的泛化模式,依据作文分析结果将泛化模式具体化为完整语句,最后将完整语句组合后,通过连接词润色后得到输出评语。
5、然而,不同评阅场景给定的评价标准可能存在差异性,这就使得上述方法的知识图谱和多维嵌套泛化模式库需要根据具体应用场景进行相应的调整,缺乏灵活性。而且,上述这类方法本质上是基于模板化的生成方法,因此其生成的评语内容缺乏多样性。
6、考虑到基于模板方法的局限性,一些研究通过挖掘输入文本特征和评语词汇间的映射关系,借助预训练模型来生成作文评语。例如,中国专利文献cn202311137360.1通过对历史评语数据进行语义抽取,得到包含了语义关联关系的词袋模型。在评语生成过程中,首先根据用户标签信息提取用户的目标标签特征,最后对用户的目标标签特征以及语义信息进行多模态融合,得到多模态融合参数,并利用大语言模型根据输入的多模态融合参数生成评语。
7、这类方法很好地解决了上述基于模板的方法所存在的缺乏灵活性的问题,但是应用在作文评语生成任务上仍存在不足之处。首先,这类方法无法明确给定生成评语的评价依据,因此无法有效提升生成评语的可靠性。其次,生成过程中的多种约束信息会使得生成评语的多样性较差。
8、基于此,本发明设计一种融入元示例的作文评语生成方法,以解决开放式作文评阅场景中评价标准模糊以及评语和作文内容关联性较低的问题。
技术实现思路
1、本发明旨在克服上述现有技术的至少一种缺陷,提供一种融入元示例的作文评语生成方法,以解决开放式作文评阅场景中评价标准模糊以及评语和作文内容关联性较低的问题。
2、本发明还公开一种加载有融入元示例的作文评语生成方法的装置。
3、技术术语解释:
4、元示例:本发明中指的是由作文片段和对其进行评价的评语内容组成的作文评阅示例,它展示了专业评阅人员针对某个作文片段给出的一种合理评价。
5、元示例集:包含所有元示例的样本集合。
6、相关示例:本发明中指的是每篇新作文从元示例集中通过作文语义编码器检索得到的最相关的元示例。
7、真实评语:本发明中指的是作文评语数据集中每篇作文对应的评语内容。
8、本发明详细的技术方案如下:
9、一种融入元示例的作文评语生成方法,所述方法包括:
10、s1、获取原始作文评语数据集,所述原始作文评语数据集中的数据样本包含原作文及其评语内容,将所述原作文分割为若干第一文本块,并标注每个第一文本块与评语内容间的映射关系,将完成标注后的每个第一文本块与其对应的评语内容作为元示例并构建元示例集;
11、s2、结合评价角度对所述元示例集中每个元示例的评语内容进行评价角度标注,将完成标注后的元示例作为训练样本构建训练样本集,并利用所述训练样本集采用对比学习训练作文语义编码器;
12、s3、对于新作文,将所述新作文分割为若干第二文本块,并将所述第二文本块以及所述元示例的第一文本块输入训练后的作文语义编码器中,分别获取所述第二文本块的编码表示向量和第一文本块的编码表示向量,计算所述第二文本块的编码表示向量和第一文本块的编码表示向量之间的相似度,将相似度最大的第一文本块对应的元示例作为相应第二文本块的相关示例;
13、s4、对所述相关示例的评语内容进行掩码操作,并基于掩码后的评语内容构建示例信息集合,将所述新作文和示例信息集合输入作文评语生成模型进行编码-解码操作,以生成新作文对应的作文评语。
14、根据本发明优选的,所述步骤s1中,标注每个第一文本块与评语内容间的映射关系,具体包括:
15、基于预训练语言模型构建自动标注器;
16、从所述原始作文评语数据集中选择部分数据样本,通过人工标注获取部分数据样本中对每篇原作文中每个第一文本块进行评价的评语内容,构建标注器训练样本;
17、利用所述标注器训练样本对自动标注器进行训练,根据所述自动标注器的输出和标注器训练样本中的评语内容计算生成损失函数,以更新自动标注器参数;
18、利用训练后的自动标注器对所述原始作文评语数据集中剩余的数据样本进行标注,获取剩余数据样本中对每篇原作文中每个第一文本块进行评价的评语内容。
19、根据本发明优选的,所述步骤s2中,通过人工标注对所述元示例集中每个元示例的评语内容进行评价角度标注,对于元示例,表示第一文本块,表示第一文本块对应的评语内容,其评语内容所属的评价角度标签为,则完成评价角度标注后的元示例表示为,其中,,表示评价角度集合。
20、根据本发明优选的,所述步骤s2中,利用所述训练样本集采用对比学习训练作文语义编码器,具体包括:
21、基于完成评价角度标注后的元示例构建正负样本,对于完成评价角度标注后的元示例,从与第一文本块属于同一个作文文体类型且评价角度标签一致的其余元示例中,随机采样一条元示例作为正样本;从与第一文本块属于不同作文文体类型且评价角度标签不一致的其余元示例中,随机采样一条元示例作为负样本;
22、将构建的正负样本作为训练样本,并采用对比损失函数训练所述作文语义编码器,所述对比损失函数为:
23、(1);
24、式(1)中:表示以实数e为底的指数函数;表示度量两个向量之间距离的函数,取值范围大于0,且表示第一文本块的编码表示向量与正样本的第一文本块的编码表示向量之间的距离,表示第一文本块的编码表示向量与负样本的第一文本块的编码表示向量之间的距离;表示温度参数。
25、根据本发明优选的,所述步骤s4中,对所述相关示例的评语内容进行掩码操作,具体包括:
26、使用jieba工具对所述相关示例的评语内容和其对应的第一文本块进行分词操作,分别得到评语内容分词集合和第一文本块分词集合;
27、对所述评语内容分词集合中出现在第一文本块分词集合中的词汇的位置进行标记;
28、将所述评语内容分词集合中标记位置对应的词汇替换为词元。
29、根据本发明优选的,所述步骤s4中,所述基于掩码后的评语内容构建的示例信息集合为,表示掩码后的评语内容;
30、所述作文评语生成模型包括编码器和解码器,且采用最小化生成损失函数训练所述作文评语生成模型,所述最小化生成损失函数为:
31、(2);
32、式(2)中:表示在第个时间步对应的真实评语中的词元,真实评语是来源于训练作文评语生成模型的作文评语数据;为编码器的输入,且表示标识文本,表示示例信息集合,表示新作文;表示在前个时间步作文评语生成模型生成的所有词元;表示在第个时间步作文评语生成模型的解码器输出为的概率分布;表示作文评语生成模型生成完整作文评语所需的时间步,对应生成的作文评语的长度。
33、根据本发明优选的,所述步骤s4还包括:采用textrank算法抽取原作文中的前k个句子,按照其在原作文中出现的顺序依次拼接后作为作文摘要,并在作文评语生成过程中,利用所述作文摘要a替换新作文作为所述作文评语生成模型的编码器的输入,即为。
34、在本发明的另一个方面当中,提供了一种实现融入元示例的作文评语生成方法的装置,所述装置包括:
35、元示例集构建模块,用于获取原始作文评语数据集,所述原始作文评语数据集中的数据样本包含原作文及其评语内容,将所述原作文分割为若干第一文本块,并标注每个第一文本块与评语内容间的映射关系,将完成标注后的每个第一文本块与其对应的评语内容作为元示例并构建元示例集;
36、作文语义编码器训练模块,用于根据评价角度对所述元示例集中每个元示例的评语内容进行评价角度标注,将完成标注后的元示例作为训练样本构建训练样本集,并利用所述训练样本集采用对比学习训练作文语义编码器;
37、相关示例检索模块,用于将新作文分割为若干第二文本块,并将所述第二文本块以及所述元示例的第一文本块输入训练后的作文语义编码器中,分别获取所述第二文本块的编码表示向量和第一文本块的编码表示向量,计算所述第二文本块的编码表示向量和第一文本块的编码表示向量之间的相似度,将相似度最大的第一文本块对应的元示例作为相应第二文本块的相关示例;
38、作文评语生成模块,用于对所述相关示例的评语内容进行掩码操作,并基于掩码后的评语内容构建示例信息集合,将所述新作文和示例信息集合输入作文评语生成模型进行编码-解码操作,以生成新作文对应的作文评语。
39、在本发明的另一个方面当中,还提供了一种电子设备,包括:
40、至少一个处理器;以及
41、存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的融入元示例的作文评语生成方法。
42、在本发明的另一个方面当中,还提供了一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的融入元示例的作文评语生成方法。
43、与现有技术相比,本发明的有益效果为:
44、(1)本发明提出了一种元示例集的构造方法,通过对作文进行语义分割,建立了作文片段和评语内容的细粒度映射关系。相比于常规的以整篇作文作为示例,本发明构造的元示例可以以具体词句体现不同作文类型和不同风格的特征,这种细粒度的作文评价依据,可以为作文评语生成过程提供更多有意义的参考评价范例。
45、(2)本发明采用基于新作文内容检索的相关示例作为参考评价依据,采用对比学习提升编码器在作文评阅领域的适配性。相比于现有技术基于文本内容选择提示参考,本发明能够根据作文不同段落的特征差异进行检索,提升检索结果和新作文的匹配度,并且为作文评阅提供了不同类型和风格的差异化参考标准。
46、(3)本发明基于示例和新作文内容生成评语,可以为作文评语生成模型提供更多有意义的上下文信息。相比于现有技术中依据模板或关键词生成评语,本发明可以使模型学习到不同作文片段和评语内容的映射关系,增强了生成评语和作文间的关联度,提升了生成评语内容的多样性。
47、(4)本发明中的作文评语生成模型是以预训练语言模型作为基础模型的,不仅能够充分利用预训练模型从海量数据上学习到的语言学知识和常识知识,而且无需修改该基础模型的结构,可以根据硬件设备的计算力调整基础模型。因此,本发明具有计算轻量化的优势,可以快速适配多种应用场景。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196572.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表