技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种戏曲文本分析和剧情摘要提取的方法与流程 > 正文

一种戏曲文本分析和剧情摘要提取的方法与流程

国知局
2024-08-22 14:17:26

本发明涉及戏曲分析，尤其涉及一种戏曲文本分析和剧情摘要提取的方法。

背景技术：

1、戏曲是一种融合多种模态的艺术表现形式，典型的戏曲包含了基于视觉信息的人物动作、场景，其中人物动作与戏曲的故事情节紧密结合，将故事的发展呈现给观众，推动戏曲的剧情发展，动作结合戏曲剧本反映出角色相应的性格、情绪和心理，如：文雅的动作可以塑造温文尔雅的书生形象，而刚猛的动作则能塑造勇猛果敢的英雄形象，旦角的细腻手势和身段可以传达温柔、害羞等内在情感；生角的举止和步态则能展现其坚定、豪迈等性格特点；场景通过具体的布景和环境设置将结合戏曲剧本将故事的时空背景呈现出来；基于听觉的唱、念、乐器表达，唱、念作为人物的唱念。现有的戏曲剧情分析和剧情摘要往往基于单一大语言模型进行文本分析，文本分析和剧情摘要的对象形式单一，内容缺乏，导致效果较差。提取戏曲剧情的摘要的分析对象分布于戏曲剧本模态、戏曲视频模态和戏曲音频模态中，各个模态的侧重各有不同，需要综合多种模态中的摘要分析对象，才能够更加精准的进行戏曲分析和剧情摘要。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本发明提供一种戏曲文本分析和剧情摘要提取的方法。

2、第一方面，本发明提供一种戏曲文本分析和剧情摘要提取的方法，包括：

3、通过预设的戏曲文本生成网络综合时间对齐的戏曲视频、音频和剧本内容生成戏曲文本，所述戏曲文本包含多模态戏曲场景、人物活动、情节内容；所述戏曲文本生成网络包含：戏曲人声单模编码器、戏曲音频单模编码器、戏曲视频单模编码器、戏曲剧本单模编码器、前馈网络和模态融合网络，所述前馈网络将各个单模编码器生成的特征映射到相同维度输入模态融合网络，所述模态融合网络基于从多模态的戏曲内容载体中获取的内容特征生成戏曲文本；

4、将得到的戏曲文本按语义进行文本切割，并将分割的文本内容通过embedding模型编码得到分割文本内容的向量表示，并将向量表示组成戏曲文本的内容向量库；

5、获取剧情摘要相关的提问，通过embedding模型编码剧情摘要相关的提问向量，通过相似性检索匹配从戏曲文本的向量知识库中获取与摘要相关的提问关联性强的戏曲文本向量；

6、结合剧情摘要相关的提问向量和匹配到的戏曲文本向量形成llm语言模型提示词，llm语言模型基于llm语言模型提示词所表征的内容进行剧情摘要。

7、更进一步的，所述戏曲人声单模编码器包含：基于卷积神经网络的人声音频特征编码器，基于transformer模块的第一上下文网络，第一量化模块，基于线性层和softmax层的语义时序分类模块，和，基于gru、注意力机制和语义序列到序列线性层的语义序列到序列分类模块；

8、其中，所述人声音频特征编码器包括：堆叠的多通道的时空一维卷积，归一化层和gelu激活函数层，所述人声音频特征编码器从时间对齐的戏曲音频人声片段中提取人声特征向量；

9、所述第一量化模块将人声特征向量与预设的码本中的码本向量比较，输出与人声特征向量最近的码本向量的索引；

10、语义序列到序列分类模块包括：gru，注意力权重计算模块和语义序列到序列线性层。

11、更进一步的，戏曲人声单模编码器的训练过程包括：

12、使用无标记的语音数据和第一量化模块训练人声音频特征编码器和第一上下文网络；训练时，将语音数据输入人声音频特征编码器得到人声特征向量，在将人声特征向量输入第一上下文网络前，通过随机掩码屏蔽部分人声特征向量，第一上下文网络基于被屏蔽人声特征向量的前序特征得到被屏蔽人声特征向量的预测上下文表征，训练所用到的损失函数如下：

13、，

14、，

15、；

16、其中，表征人声特征向量，表示对应人声特征向量的第一码本向量，为第一码本中码本向量总数，为第个码本向量，为第一热度参数，为l2范数，为人声特征向量序列的帧计数，为第帧人声特征向量对应码本向量的概率，为指示参数，第帧人声特征向量真实的码本向量为时，，否则，，为第一损失权重。

17、更进一步的，戏曲人声单模编码器的训练过程包括：通过语义字符标注的语音数据对戏曲人声单模编码器进行训练，在训练过程中，在第一上下文网络后引入基于线性层和softmax激活函数的语义时序分类模块，语义时序分类模块基于第一上下文网络提供的上下文表征进行分类得到上下文表征所表示的具体语义，训练需将量化模块剔除，训练语义时序分类模块的损失函数为：

18、；

19、其中，表示第t帧人声特征向量的上下文表征，表示第t帧人声特征向量的对应的语义字符，为语义时序分类模块输出的基于预测到的概率，通过该训练过程给语义时序分类模块设置初始的参数。

20、更进一步的，戏曲人声单模编码器的训练过程包括：在确定语义时序分类模块的初始参数后，通过语义字符标注的纯人声戏曲音频数据对戏曲人声单模编码器进行训练；

21、在训练过程中，在所述第一上下文网络后增加线性层和leakyrelu激活函数，上下文表征经线性层和leakyrelu激活函数处理后分别送入语义时序分类模块和语义序列到序列分类模块，将语义时序分类模块和语义序列到序列分类模块分类结果加权得到最终的戏曲人声编码特征；

22、训练的损失函数为：

23、；

24、其中，，，为线性层函数，表示上下文表征经线性层和leakyrelu激活函数处理后的序列结果，；为时序分类模块输出的基于预测到的概率，为语义序列到序列分类模块基于和的前序预测结果预测得到的概率，是分类结果的权重。

25、更进一步的，戏曲音频单模编码器包含：基于卷积神经网络的戏曲音频特征编码器，基于transformer模块的第二上下文网络，第二量化模块，曲谱序列到序列分类模块和多层感知机；

26、其中，戏曲音频特征编码器包括：堆叠的多通道的时空一维卷积，归一化层和gelu激活函数层，所述戏曲音频特征编码器提取戏曲音频特征向量；

27、所述第二量化模块将戏曲音频特征编码器提取戏曲音频特征向量与预设的第二码本中的码本向量比较，输出与戏曲音频特征向量最近的码本向量的索引；

28、所述曲谱序列到序列分类模块包括gru，注意力权重计算模块和曲谱序列到序列线性层。

29、更进一步的，戏曲音频单模编码器的训练过程包括：

30、使用无标记的戏曲音频数据和第二量化模块训练戏曲音频特征编码器和第二上下文网络；训练时，将戏曲音频数据输入戏曲音频特征编码器得到戏曲音频特征向量，在将戏曲音频特征向量输入第一上下文网络前，通过随机掩码屏蔽部分戏曲音频特征向量，第一上下文网络基于被屏蔽戏曲音频特征向量的前序特征得到被屏蔽戏曲音频特征向量的预测上下文表征，训练所用到的损失函数如下：

31、，

32、，

33、；

34、其中，表征戏曲音频特征向量，表示对应戏曲音频特征向量的第二码本向量，为第一码本中码本向量总数，为第个码本向量，为第二热度参数，为l2范数，为戏曲音频特征向量序列的帧计数，为第帧戏曲音频特征向量对应码本向量的概率，为指示参数，第帧戏曲音频特征向量真实的码本向量为时，，否则，，为第二损失权重。

35、更进一步的，戏曲音频单模编码器的训练过程包括：

36、通过曲谱乐符标注和情感语义标注的戏曲音频数据对戏曲音频单模编码器进行训练，在训练过程中，在第二上下文网络后引入曲谱序列到序列分类模块和多层感知机；

37、训练的损失函数为：

38、；

39、其中，表示第二上下文网络提取的上下文表征序列；曲谱序列到序列分类模块基于和的前序曲谱乐符标注预测结果预测得到曲谱乐符标注的概率，为多层感知机基于曲谱序列到序列线性层输出的拼接特征预测得到情感语义标签的概率。在曲谱序列到序列分类模块中，gru基于得到隐藏状态序列，对隐藏状态序列中的每个隐藏状态提取注意力权重后与自身加权，加权后的特征输入到曲谱序列到序列线性层中得到曲谱中的乐符特征；通过多层感知机基于融合后乐符特征预测情感语义标签。

40、更进一步的，所述戏曲剧本单模编码器采用deberta模型，通过deberta模型提取戏曲剧本编码特征；所述戏曲视频单模编码器采用针对戏曲视频进行训练的，提取戏曲视频中场景信息、人物动作信息的swin transformer模型，通过swin transformer模型提取戏曲视频编码特征。

41、更进一步的，所述模态融合网络包括：对应各个模态的采用残差连接的自注意力transformer编码器，交叉注意力transformer编码器和前馈网络，各个模态交叉注意力transformer编码器的输出拼接后输入前馈网络，自注意力transformer编码器，交叉注意力transformer编码器和前馈网络后分别设置融合归一化层；其中，交叉注意力transformer编码器中任意模态对应的q值基于其他模态特征拼接后与权重矩阵相乘得到。

42、第二方面，本发明提供一种实现戏曲文本分析和剧情摘要提取的方法的装置，包括：至少一处理单元，所述处理单元通过总线单元连接存储单元，所述存储单元存储计算机程序，所述计算机程序被所述处理单元执行时，实现所述的戏曲文本分析和剧情摘要提取的方法。

43、第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序被处理器执行时，实现所述的戏曲文本分析和剧情摘要提取的方法。

44、本发明实施例提供的上述技术方案与现有技术相比具有如下优点：

45、本技术通过预设的戏曲文本生成网络综合时间对齐的戏曲视频、音频和剧本的多模态内容生成戏曲文本，所述戏曲文本包含多模态戏曲场景、人物活动、情节内容；通过戏曲文本生成网络从多模态的戏曲内容载体中获取丰富的内容生成戏曲文本。通过分析获得的戏曲文本，相比单单通过剧本进行剧情摘要的效果更好。

46、本技术的戏曲文本生成网络中，戏曲人声单模编码器和戏曲音频单模编码器分别从戏曲语义和戏曲情感方面提取音频编码，支持丰富戏曲文本人物情绪、情感、性格方面的内容；本技术的戏曲视频单模编码器能提取戏曲视频场景、人物动作信息，支持丰富戏曲文本中人物、场景方面的内容。

47、本技术获取剧情摘要相关的提问，通过embedding模型编码剧情摘要相关的提问向量，通过相似性检索匹配从戏曲文本的向量知识库中获取与摘要相关的提问关联性强的戏曲文本向量；结合剧情摘要相关的提问向量和匹配到的戏曲文本向量形成llm语言模型提示词，llm语言模型基于llm语言模型提示词所表征的内容进行剧情摘要。支持用户就剧情任意方面进行提问，检索戏曲文本中与提问相关的内容，通过llm语言模型基于匹配到的内容进行剧情摘要。