文本处理方法、装置、设备以及介质与流程
- 国知局
- 2024-08-05 12:12:27
本技术涉及人工智能,尤其涉及一种文本处理方法、装置、设备以及介质。
背景技术:
1、在长文本内容理解场景中,由于长文本内容过长,比如长文本为影视剧本时,影视剧本少则几千场次多则几万场次,每个场次可包括几十到几千字数不等,人工阅读难度大,给影视剧本的审核、理解带来了困难。
2、目前,可以采用ai(artificial intelligence,人工智能)进行自动化剧本剧情理解,常规方法可以是采用训练的剧本摘要提取模型,对影视剧本中的每一个场次进行摘要提取,生成每一个场次的摘要,有助于影视审核人员快速理解剧情,评估该影视剧本的价值。其中,上述剧本摘要提取模型的训练需要收集影视剧摘要数据,利用这些收集的影视剧摘要数据,对目前的开源语言模型进行剧本摘要生成训练,最终得到剧本摘要生成模型。然而,由于收集到的影视剧摘要数据的数量有限(高质量摘要数据的标注成本过高,无法提供大量的影视剧摘要数据),利用这些数据训练的剧本摘要生成模型容易出现过拟合,在文本语言变化下产生泛化性过低的问题,降低了剧本摘要生成模型的摘要生成质量。
技术实现思路
1、本技术实施例提供一种文本处理方法、装置、设备以及介质,可以丰富训练数据的多样性,进而提高摘要生成模型的摘要生成质量。
2、本技术实施例一方面提供了一种文本处理方法,包括:
3、获取第i次迭代的参考模型和待训练模型,获取第i次迭代的文本训练集;第i次迭代的文本训练集中的每一个训练样本包含原始文本、负摘要文本以及正摘要文本,i为正整数;
4、通过第i次迭代的参考模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到参考预测文本;
5、通过第i次迭代的待训练模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到样本预测文本;
6、根据参考预测文本、样本预测文本、正摘要文本和负摘要文本,对第i次迭代的待训练模型的网络参数进行修正,得到第i次迭代的摘要生成模型;第i次迭代的摘要生成模型用于作为第i+1次迭代的参考模型和待训练模型;
7、对样本预测文本进行修正,得到样本修正文本,将原始文本、样本预测文本以及样本修正文本封装为新增样本,将新增样本添加至第i+1次迭代的文本训练集;第i+1次迭代的文本训练集用于训练第i+1次迭代的待训练模型。
8、本技术实施例一方面提供了一种文本处理方法,包括:
9、模型获取模块,用于获取第i次迭代的参考模型和待训练模型,获取第i次迭代的文本训练集;第i次迭代的文本训练集中的每一个训练样本包含原始文本、负摘要文本以及正摘要文本,i为正整数;
10、第一预测模块,用于通过第i次迭代的参考模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到参考预测文本;
11、第二预测模块,用于通过第i次迭代的待训练模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到样本预测文本;
12、参数修正模块,用于根据参考预测文本、样本预测文本、正摘要文本和负摘要文本,对第i次迭代的待训练模型的网络参数进行修正,得到第i次迭代的摘要生成模型;第i次迭代的摘要生成模型用于作为第i+1次迭代的参考模型和待训练模型;
13、训练数据更新模块,用于对样本预测文本进行修正,得到样本修正文本,将原始文本、样本预测文本以及样本修正文本封装为新增样本,将新增样本添加至第i+1次迭代的文本训练集;第i+1次迭代的文本训练集用于训练第i+1次迭代的待训练模型。
14、其中,模型获取模块获取第i次迭代的参考模型和待训练模型,用于执行以下步骤:
15、获取第i-1次迭代的摘要生成模型;i为1时,第i-1次迭代的摘要生成模型为预训练语言模型;
16、将第i-1次迭代的摘要生成模型确定为第i次迭代的参考模型,将第i-1次迭代的摘要生成模型确定为第i次迭代的待训练模型。
17、其中,第二预测模块通过第i次迭代的待训练模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到样本预测文本,用于执行以下步骤:
18、将第i次迭代的文本训练集中的训练样本所包含的原始文本转换为样本嵌入表示;
19、通过第i次迭代的待训练模型中的特征提取组件,对样本嵌入表示进行特征提取处理,得到样本注意力特征;
20、通过第i次迭代的待训练模型中的全连接层,对样本注意力特征进行特征变换处理,得到样本预测文本。
21、其中,第i个迭代的待训练模型中的特征提取组件包括n个注意力子组件,n为正整数;
22、第二预测模块通过第i次迭代的待训练模型中的特征提取组件,对样本嵌入表示进行特征提取处理,得到样本注意力特征,用于执行以下步骤:
23、获取n个注意力子组件中的第t个注意力子组件的输入特征;t为1时,第t个注意力子组件的输入特征包括样本嵌入表示;t不为1时,第t个注意力子组件的输入特征包括第t-1个注意力子组件的输出特征;t为小于或等于n的正整数;
24、根据第t个注意力子组件中的自注意力掩码层,对第t个注意力子组件的输入特征进行注意力掩码处理,得到注意力掩码特征;
25、将注意力掩码特征和第t个注意力子组件的输入特征组合为第一残差特征,对第一残差特征进行归一化处理,得到样本归一化特征;
26、根据第t个注意力子组件中的前馈网络层,对样本归一化特征进行特征变换处理,得到样本变换特征;
27、将样本变换特征和样本归一化特征组合为第二残差特征,对第二残差特征进行归一化处理,得到第t个注意力组件的输出特征,将第n个注意力组件的输出特征确定为样本注意力特征。
28、其中,第二预测模块根据第t个注意力子组件中的自注意力掩码层,对第t个注意力子组件的输入特征进行注意力掩码处理,得到注意力掩码特征,用于执行以下步骤:
29、根据第t个注意力子组件中的自注意力掩码层对应的变换权重矩阵,将第t个注意力子组件的输入特征变换为查询矩阵、键矩阵以及值矩阵;
30、对查询矩阵和键矩阵的转置矩阵进行点乘运算,得到候选权重矩阵,获取查询矩阵对应的列数量;
31、对候选权重矩阵与列数量的平方根之间的比值进行归一化处理,得到注意力权重矩阵,根据注意力权重矩阵与值矩阵之间的点乘,确定注意力掩码特征。
32、其中,参数修正模块根据参考预测文本、样本预测文本、正摘要文本和负摘要文本,对第i次迭代的待训练模型的网络参数进行修正,得到第i次迭代的摘要生成模型,用于执行以下步骤:
33、获取参考预测文本为正摘要文本的第一预测概率,获取参考预测文本为负摘要文本的第二预测概率;
34、获取样本预测文本为正摘要文本的第三预测概率,获取样本预测文本为负摘要文本的第四预测概率;
35、根据第一预测概率和第三预测概率之间的第一对数概率,以及第二预测概率和第四预测概率之间的第二对数概率,确定第i次迭代的待训练模型对应的训练损失;
36、根据第i次迭代的待训练模型对应的训练损失,对第i次迭代的待训练模型的网络参数进行修正,得到第i次迭代的预训练模型;
37、对第i次迭代的预训练模型的网络参数进行微调,得到第i次迭代的摘要生成模型。
38、其中,参数修正模块根据第一预测概率和第三预测概率之间的第一对数概率,以及第二预测概率和第四预测概率之间的第二对数概率,确定第i次迭代的待训练模型对应的训练损失,用于执行以下步骤:
39、获取第一预测概率和第三预测概率之间的第一对数概率,获取第二预测概率和第四预测概率之间的第二对数概率;
40、对第一对数概率和第二对数概率的差值进行激活处理,得到概率激活值,对概率激活值进行对数运算,得到第i次迭代的待训练模型对应的训练损失。
41、其中,参数修正模块对第i次迭代的预训练模型的网络参数进行微调,得到第i次迭代的摘要生成模型,用于执行以下步骤:
42、获取文本测试集;文本测试集中的每一个测试样本包括测试文本和标注摘要;
43、通过第i次迭代的预训练模型,对文本测试集中的测试样本所包含的测试文本进行摘要提取处理,得到测试预测文本;
44、根据测试预测文本与标注摘要,确定第i次迭代的预训练模型对应的测试损失;
45、根据第i次迭代的预训练模型对应的测试损失,对第i次迭代的预训练模型的网络参数进行微调,得到第i次迭代的摘要生成模型。
46、其中,训练数据更新模块对样本预测文本进行修正,得到样本修正文本,用于执行以下步骤:
47、通过标准语言模型对样本预测文本进行正确性评估,得到样本预测文本对应的评估结果和评估理由;
48、若评估结果指示样本预测文本为错误摘要,则根据评估理由对样本预测文本进行修正,得到样本修正文本。
49、其中,该文本处理装置还包括:
50、样本维持模块,用于若评估结果指示样本预测文本为正确摘要,则暂停对样本预测文本进行修正,将第i次迭代的文本训练集中,样本预测文本对应的训练样本添加至第i+1次迭代的文本训练集。
51、其中,该文本处理装置还包括:
52、训练结束模块,用于根据第i+1次迭代的文本训练集,对第i+1次迭代的待训练模型进行训练,得到第i+1次迭代的摘要生成模型;
53、训练结束模块,还用于若第i+1次迭代的待训练模型对应的训练损失与第i次迭代的待训练模型对应的训练损失相同,则将第i+1次迭代的摘要生成模型确定为目标生成模型。
54、其中,该文本处理装置还包括:
55、剧本拆分模块,用于获取影视剧本对应的分集剧情集合,对分集剧情集合中的各个分集剧情进行场次拆分,得到各个分集剧情对应的场次剧情;
56、剧情摘要提取模块,用于按照各个分集剧情对应的场次剧情在影视剧本中的位置,将各个分集剧情对应的场次剧情依次输入至目标生成模型中,得到各个分集剧情对应的剧情摘要;剧情摘要用于辅助创作对象对影视剧本进行后续创作。
57、本技术实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本技术实施例中上述一方面提供的方法。
58、本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本技术实施例中上述一方面提供的方法。
59、根据本技术的一个方面,提供了一种计算机程序产品,该计算机程序产品可以包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述一方面提供的方法。
60、本技术实施例中,在模型训练阶段执行第i次迭代时,获取第i次迭代的文本训练集,该文本训练集中的每一个训练样本均包括原始文本、负摘要文本和正摘要文本;通过第i次迭代的参考模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取,得到参考预测文本;通过第i次迭代的待训练模型对原始文本进行摘要提取,得到样本预测文本。通过参考模型输出的参考预测文本、待训练模型输出的样本预测文本、正摘要文本、负摘要文本,修正第i次迭代的待训练模型的网络参数,得到第i次迭代训练的摘要生成模型,此时第i次迭代的摘要生成模型可以进行备份,作为第i+1次迭代的参考模型,第i次迭代的摘要生成模型也可以作为第i+1次迭代的待训练模型。与此同时,可以对样本预测文本进行修正,得到更正确的摘要文本(样本修正文本),并将原始文本、样本预测文本以及样本修正文本封装为新增样本,该新增样本可以作为第i+1次迭代的待训练模型的训练样本。通过在训练阶段中实时获取更正确的摘要数据,更新每一次迭代的文本训练集,可以丰富训练数据的多样性,进而提高摘要生成模型的摘要生成质量。
本文地址:https://www.jishuxx.com/zhuanli/20240802/261546.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表