技术新讯 > 电子通信装置的制造及其应用技术 > 智能型解说音轨生成方法、装置、设备以及存储介质与流程 > 正文

智能型解说音轨生成方法、装置、设备以及存储介质与流程

国知局
2024-08-02 14:22:10

本公开涉及计算机，尤其涉及一种智能型解说音轨生成方法、装置、设备以及存储介质。

背景技术：

1、目前观看视频已经成为用户放松身心的重要方式，但是目前的视频在播放时还存在以下缺陷：

2、盲人以及视障群体因为身体原因，无法看到图像信息，只能通过聆听视频中的对话来获取信息，进而也就无法了解视频的细节，导致视频中的大量内容无法有效传递给盲人以及视障群体；

3、部分视频涉及的领域较为专业，例如(戏剧、军事)，非专业人士在观看时往往无法了解其中部分内容的具体含义。

技术实现思路

1、本公开的实施例提供了一种智能型解说音轨生成方法、装置、设备以及存储介质。

2、第一方面，本公开的实施例提供了一种智能型解说音轨生成方法，该方法包括：

3、对目标视频进行场景切片，得到多个场景片段；

4、针对任一场景片段，根据其对应的场景关键词，从目标视频对应的剧本中提取对应的场景描述文本；

5、根据场景片段对应的场景关键词和场景描述文本生成场景片段对应的解说文本，并以此生成场景片段对应的解说音轨片段；

6、按照各场景片段对应的先后顺序将各场景片段对应的解说音轨片段拼接，得到解说音轨。

7、在第一方面的一些可实现方式中，场景片段对应的场景关键词是通过以下步骤提取的：

8、将场景片段输入场景关键词提取模型，由场景关键词提取模型提取场景片段对应的场景关键词；

9、场景关键词提取模型是采用场景关键词提取数据集对深度残差收缩网络模型进行训练得到的，场景关键词提取数据集包括多个场景关键词提取样本及其对应的标签，场景关键词提取样本包括场景片段，标签包括场景片段对应的场景关键词，其由人工根据场景片段进行标注得到。

10、在第一方面的一些可实现方式中，根据场景片段对应的场景关键词和场景描述文本生成场景片段对应的解说文本，并以此生成解说音轨片段，包括：

11、将场景片段对应的场景关键词和场景描述文本输入解说文本生成模型，由解说文本生成模型生成场景片段对应的解说文本；

12、解说文本生成模型是采用解说文本生成数据集对预训练的大语言模型进行微调得到的，解说文本生成数据集包括多个解说文本生成样本及其对应的标签，解说文本生成样本包括场景片段对应的场景关键词和场景描述文本，标签包括场景片段对应的解说文本，其由人工根据场景片段对应的场景关键词和场景描述文本进行标注得到。

13、在第一方面的一些可实现方式中，根据场景片段对应的解说文本生成场景片段对应的解说音轨片段，包括：

14、将场景片段对应的解说文本输入解说语音生成模型，由解说语音生成模型生成场景片段对应的解说语音；

15、解说语音生成模型是采用解说语音生成数据集对带有自注意力机制的transformer模型进行训练得到的，解说语音生成数据集包括多个解说语音生成样本及其对应的标签，解说语音生成样本包括场景片段对应的解说文本，标签包括场景片段对应的解说语音，其由人工根据场景片段对应的解说文本进行语音输入得到，且频率波动符合期望范围；

16、根据场景片段对应的解说语音，生成场景片段对应的解说音轨片段。

17、在第一方面的一些可实现方式中，在按照各场景片段对应的先后顺序将各场景片段对应的解说音轨片段拼接，得到解说音轨之后，方法还包括：

18、将解说音轨与目标视频的其他音轨组合，构成目标视频的声音轨道。

19、在第一方面的一些可实现方式中，在将解说音轨与目标视频的其他音轨组合，构成目标视频的声音轨道之后，该方法还包括：

20、在播放目标视频时，若解说音轨的开启选项被选中，则通过扬声器对声音轨道中除解说音轨的之外的其他音轨进行播放，通过耳机设备对声音轨道中的所有音轨进行播放；或者，通过扬声器对声音轨道中的所有音轨进行播放。

21、在第一方面的一些可实现方式中，该方法还包括：

22、在对声音轨道中的所有音轨进行播放时，将当前各音轨的参数输入音轨调优模型，由音轨调优模型生成各音轨的调优参数；

23、音轨调优模型是采用音轨调优数据集对带有遗传算法优化机制的卷积神经网络模型进行训练得到的，音轨调优数据集包括多个音轨调优样本及其对应的标签，音轨调优样本包括声音轨道各音轨的原始参数，标签包括声音轨道各音轨的调优参数，其由人工根据声音轨道各音轨的原始参数进行调优得到；

24、根据各音轨的调优参数对各音轨进行参数调优，以对各音轨进行平衡优化。

25、第二方面，本公开的实施例提供了一种智能型解说音轨生成装置，该装置包括：

26、切片模块，用于对目标视频进行场景切片，得到多个场景片段；

27、提取模块，用于针对任一场景片段，根据其对应的场景关键词，从目标视频对应的剧本中提取对应的场景描述文本；

28、生成模块，用于根据场景片段对应的场景关键词和场景描述文本生成场景片段对应的解说文本，并以此生成场景片段对应的解说音轨片段；

29、拼接模块，用于按照各场景片段对应的先后顺序将各场景片段对应的解说音轨片段拼接，得到解说音轨。

30、第三方面，本公开的实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如以上所述的方法。

31、第四方面，本公开的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如以上所述的方法。

32、在本公开的实施例中，可以为视频预先生成用于解说视频内容的解说音轨，从而在后续视频播放时为有需要的用户提供详细解说，有效提高用户沉浸体验。

33、应当理解，技术实现要素：部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

技术特征：

1.一种智能型解说音轨生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述场景片段对应的场景关键词是通过以下步骤提取的：

3.根据权利要求1所述的方法，其特征在于，所述根据所述场景片段对应的场景关键词和场景描述文本生成所述场景片段对应的解说文本，并以此生成解说音轨片段，包括：

4.根据权利要求1所述的方法，其特征在于，根据所述场景片段对应的解说文本生成所述场景片段对应的解说音轨片段，包括：

5.根据权利要求1所述的方法，其特征在于，在所述按照各场景片段对应的先后顺序将各场景片段对应的解说音轨片段拼接，得到解说音轨之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，在所述将所述解说音轨与所述目标视频的其他音轨组合，构成所述目标视频的声音轨道之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种智能型解说音轨生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。

技术总结本公开的实施例提供了一种智能型解说音轨生成方法、装置、设备以及存储介质，应用于计算机技术领域。该方法包括：对目标视频进行场景切片，得到多个场景片段；针对任一场景片段，根据其对应的场景关键词，从目标视频对应的剧本中提取对应的场景描述文本；根据场景片段对应的场景关键词和场景描述文本生成场景片段对应的解说文本，并以此生成场景片段对应的解说音轨片段；按照各场景片段对应的先后顺序将各场景片段对应的解说音轨片段拼接，得到解说音轨。以此方式，可以为视频预先生成用于解说视频内容的解说音轨，从而在后续视频播放时为有需要的用户提供详细解说，有效提高用户沉浸体验。技术研发人员：胡肇洋受保护的技术使用者：北京风尚天成文化发展有限公司技术研发日：技术公布日：2024/7/25