技术新讯 > 计算推算,计数设备的制造及其应用技术 > 剧情文本处理方法及装置与流程  >  正文

剧情文本处理方法及装置与流程

  • 国知局
  • 2024-10-09 15:58:40

本技术涉及计算机,特别是涉及一种剧情文本处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术:

1、随着人工智能技术的发展,自然语言处理技术不断发展,基于自然语言处理技术的摘要生成模型得到了广泛应用。摘要生成模型旨在获取文本的关键信息,并生成包含关键信息的简短摘要。摘要生成模型可以应用于剧情文本相应的剧情摘要生成,可以理解的是,通过生成剧情摘要可以帮助快速了解剧情内容。

2、传统方法中,在利用包含剧情摘要和剧情文本的训练样本,训练得到摘要生成模型的基础上,通过将某个场次的剧情文本,输入摘要生成模型,就可以得到摘要生成模型生成的所输入剧情文本的剧情摘要。

3、然而,传统方法中的摘要生成模型虽然可以快速生成剧情摘要,但是由于训练摘要生成模型时的训练数据有偏差,导致摘要生成模型泛化性不强,预测时容易产生不准确的结果,存在所生成的剧情摘要不准确的情况。

技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够生成准确剧情摘要的剧情文本处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本技术提供了一种剧情文本处理方法。所述方法包括:

3、获取多个训练样本,所述训练样本包括剧情文本、剧情摘要以及所述剧情文本归属的至少一种剧情类别,每种剧情类别是将所述剧情文本按照一种分类方式进行分类得到的;

4、获取用于确定所述多个训练样本归属的剧情类别所采用的分类方式的数量,并获取针对一批次训练所使用的训练样本配置的剧情类别数量;

5、根据所述分类方式的数量和所述剧情类别数量,确定从所述多个训练样本每种分类方式下的剧情类别中分别抽取剧情类别的剧情类别抽取数量;

6、针对每种分类方式,按照所述剧情类别抽取数量,从所述多个训练样本在所述分类方式下的剧情类别中,抽取目标剧情类别,并从包含所述目标剧情类别的所述训练样本中,抽取目标训练样本,得到一批次训练所使用的训练样本;

7、根据所述一批次训练所使用的训练样本,训练得到摘要生成模型;经过训练的摘要生成模型用于基于输入的待处理剧情文本输出所述待处理剧情文本相应的剧情摘要。

8、第二方面,本技术还提供了一种剧情文本处理装置。所述装置包括:

9、样本获取模块,用于获取多个训练样本,所述训练样本包括剧情文本、剧情摘要以及所述剧情文本归属的至少一种剧情类别,每种剧情类别是将所述剧情文本按照一种分类方式进行分类得到的;

10、数量获取模块,用于获取用于确定所述多个训练样本归属的剧情类别所采用的分类方式的数量,并获取针对一批次训练所使用的训练样本配置的剧情类别数量;

11、抽取数量确定模块,用于根据所述分类方式的数量和所述剧情类别数量,确定从所述多个训练样本每种分类方式下的剧情类别中分别抽取剧情类别的剧情类别抽取数量;

12、训练样本抽取模块,用于针对每种分类方式,按照所述剧情类别抽取数量,从所述多个训练样本在所述分类方式下的剧情类别中,抽取目标剧情类别,并从包含所述目标剧情类别的所述训练样本中,抽取目标训练样本,得到一批次训练所使用的训练样本;

13、训练模块,用于根据所述一批次训练所使用的训练样本,训练得到摘要生成模型;经过训练的摘要生成模型用于基于输入的待处理剧情文本输出所述待处理剧情文本相应的剧情摘要。

14、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

15、获取多个训练样本,所述训练样本包括剧情文本、剧情摘要以及所述剧情文本归属的至少一种剧情类别,每种剧情类别是将所述剧情文本按照一种分类方式进行分类得到的;

16、获取用于确定所述多个训练样本归属的剧情类别所采用的分类方式的数量,并获取针对一批次训练所使用的训练样本配置的剧情类别数量;

17、根据所述分类方式的数量和所述剧情类别数量,确定从所述多个训练样本每种分类方式下的剧情类别中分别抽取剧情类别的剧情类别抽取数量;

18、针对每种分类方式,按照所述剧情类别抽取数量,从所述多个训练样本在所述分类方式下的剧情类别中,抽取目标剧情类别,并从包含所述目标剧情类别的所述训练样本中,抽取目标训练样本,得到一批次训练所使用的训练样本;

19、根据所述一批次训练所使用的训练样本,训练得到摘要生成模型;经过训练的摘要生成模型用于基于输入的待处理剧情文本输出所述待处理剧情文本相应的剧情摘要。

20、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

21、获取多个训练样本,所述训练样本包括剧情文本、剧情摘要以及所述剧情文本归属的至少一种剧情类别,每种剧情类别是将所述剧情文本按照一种分类方式进行分类得到的;

22、获取用于确定所述多个训练样本归属的剧情类别所采用的分类方式的数量,并获取针对一批次训练所使用的训练样本配置的剧情类别数量;

23、根据所述分类方式的数量和所述剧情类别数量,确定从所述多个训练样本每种分类方式下的剧情类别中分别抽取剧情类别的剧情类别抽取数量;

24、针对每种分类方式,按照所述剧情类别抽取数量,从所述多个训练样本在所述分类方式下的剧情类别中,抽取目标剧情类别,并从包含所述目标剧情类别的所述训练样本中,抽取目标训练样本,得到一批次训练所使用的训练样本;

25、根据所述一批次训练所使用的训练样本,训练得到摘要生成模型;经过训练的摘要生成模型用于基于输入的待处理剧情文本输出所述待处理剧情文本相应的剧情摘要。

26、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

27、获取多个训练样本,所述训练样本包括剧情文本、剧情摘要以及所述剧情文本归属的至少一种剧情类别,每种剧情类别是将所述剧情文本按照一种分类方式进行分类得到的;

28、获取用于确定所述多个训练样本归属的剧情类别所采用的分类方式的数量,并获取针对一批次训练所使用的训练样本配置的剧情类别数量;

29、根据所述分类方式的数量和所述剧情类别数量,确定从所述多个训练样本每种分类方式下的剧情类别中分别抽取剧情类别的剧情类别抽取数量;

30、针对每种分类方式,按照所述剧情类别抽取数量,从所述多个训练样本在所述分类方式下的剧情类别中,抽取目标剧情类别,并从包含所述目标剧情类别的所述训练样本中,抽取目标训练样本,得到一批次训练所使用的训练样本;

31、根据所述一批次训练所使用的训练样本,训练得到摘要生成模型;经过训练的摘要生成模型用于基于输入的待处理剧情文本输出所述待处理剧情文本相应的剧情摘要。

32、上述剧情文本处理方法、装置、计算机设备、存储介质和计算机程序产品,在训练得到摘要生成模型时,在训练样本中引入剧情文本归属的至少一种剧情类别,将剧情类别联合到摘要生成模型中学习,支持剧情摘要的生成,能够减少剧情摘要输出对剧情文本产生错误理解的情况,在此基础上,通过获取用于确定多个训练样本归属的剧情类别所采用的分类方式的数量,并获取针对一批次训练所使用的训练样本配置的剧情类别数量,能够利用分类方式的数量和剧情类别数量,实现对从多个训练样本每种分类方式下的剧情类别中分别抽取剧情类别的剧情类别抽取数量的确定,进而可以针对每种分类方式,按照剧情类别抽取数量,从多个训练样本在分类方式下的剧情类别中,抽取出目标剧情类别,并从包含目标剧情类别的训练样本中,抽取目标训练样本,得到一批次训练所使用的训练样本,根据一批次训练所使用的训练样本,训练得到摘要生成模型,整个过程,通过先抽取目标剧情类别,再以目标剧情类别为基础抽取目标训练样本的方式,能够实现对剧情类别预测和剧情摘要预测两个层级的预测任务的均衡,使得模型能够从两个层级的预测任务均衡中联合学习剧情摘要,能够降低有偏差数据影响,提升剧情摘要在不同剧情类别下的生成效果,得到能够输出准确的剧情摘要的摘要生成模型,通过将待处理剧情文本输入训练后的摘要生成模型即可实现生成准确剧情摘要。

本文地址:https://www.jishuxx.com/zhuanli/20240929/311004.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。