技术新讯 > 电子通信装置的制造及其应用技术 > 音频存储方法、装置、电子设备和计算机可读介质与流程 > 正文

音频存储方法、装置、电子设备和计算机可读介质与流程

国知局
2024-08-02 14:46:59

本公开的实施例涉及计算机，具体涉及音频存储方法、装置、电子设备和计算机可读介质。

背景技术：

1、目前，基于视频转音频的相关应用已经较为广泛的出现在人们的生成中。对于视频转讲解音频，通常采用的方式为：首先，从视频中提取音频。然后，添加音频对应的旁白，以生成讲解音频。

2、然而，当采用上述方式来生成讲解音频，经常会存在如下技术问题：

3、所生成的讲解音频的讲解内容有限，且讲解内容不连贯，导致音频的讲解效果较差。

4、在采用技术方案来解决上述技术问题一的过程中，往往又会伴随着如下技术问题：如何针对字幕信息序列对应的第一音频序列和片段描述信息序列的第二音频序列，来生成精准地讲解音频。针对上述技术问题，常规的解决方案一般是：直接将第一音频序列和第二音频序列进行音频组合，以生成组合音频，作为讲解音频。然而，上述常规解决方案依然存在如下问题二：所得到的讲解音频的音频内容可能存在不流畅的问题，可能出现讲解错误情况的发生。

5、该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解，并因此，其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了音频存储方法、装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题中的一项或多项。

3、第一方面，本公开的一些实施例提供了一种音频存储方法，包括：对目标视频进行视频抽帧处理，以生成帧图像序列；提取上述目标视频对应的字幕信息，得到字幕信息序列；对于上述字幕信息序列中的每相邻两个字幕信息，执行以下第一生成步骤：确定上述相邻两个字幕信息之间的、上述帧图像序列中的帧图像子序列；生成针对上述帧图像子序列的片段描述信息；对上述字幕信息序列中的每个字幕信息添加对应的对象陈述信息，以生成添加字幕信息，得到添加字幕信息序列；根据时间先后关系，将所得到的片段描述信息序列和上述添加字幕信息序列进行对应信息融合，以生成融合信息序列；生成针对上述融合信息序列的视频讲解文本；提取上述目标视频中的、上述字幕信息序列对应的第一音频序列；生成针对上述片段描述信息序列的第二音频序列；根据上述第一音频序列和上述第二音频序列，生成针对上述视频讲解文本的讲解音频；将上述讲解音频和上述目标视频对应的视频标识进行对应存储。

4、第二方面，本公开的一些实施例提供了一种音频存储装置，包括：视频抽帧处理单元，被配置成对目标视频进行视频抽帧处理，以生成帧图像序列；第一提取单元，被配置成提取上述目标视频对应的字幕信息，得到字幕信息序列；执行单元，被配置成对于上述字幕信息序列中的每相邻两个字幕信息，执行以下第一生成步骤：确定上述相邻两个字幕信息之间的、上述帧图像序列中的帧图像子序列；生成针对上述帧图像子序列的片段描述信息；添加单元，被配置成对上述字幕信息序列中的每个字幕信息添加对应的对象陈述信息，以生成添加字幕信息，得到添加字幕信息序列；信息融合单元，被配置成根据时间先后关系，将所得到的片段描述信息序列和上述添加字幕信息序列进行对应信息融合，以生成融合信息序列；第一生成单元，被配置成生成针对上述融合信息序列的视频讲解文本；第二提取单元，被配置成提取上述目标视频中的、上述字幕信息序列对应的第一音频序列；第二生成单元，被配置成生成针对上述片段描述信息序列的第二音频序列；第三生成单元，被配置成根据上述第一音频序列和上述第二音频序列，生成针对上述视频讲解文本的讲解音频；存储单元，被配置成将上述讲解音频和上述目标视频对应的视频标识进行对应存储。

5、第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

6、第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

7、本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的音频存储方法可以准确、高效地生成讲解音频，以便于后续目标用户执行针对讲解音频的音频讲解。具体来说，造成相关的讲解音频不够精确的原因在于：所生成的讲解音频的讲解内容有限，且讲解内容不连贯，导致音频的讲解效果较差。基于此，本公开的一些实施例的音频存储方法，首先，对目标视频进行视频抽帧处理，以生成帧图像序列，以便于后续提取对应的字幕信息和生成对应的讲解音频的文本内容。然后，提取上述目标视频对应的字幕信息，得到字幕信息序列，以作为后续讲解音频中的重要文字特征，有效保障后续所生成的讲解音频的关键内容的正确性。接着，对于上述字幕信息序列中的每相邻两个字幕信息，执行以下第一生成步骤：第一步，确定上述相邻两个字幕信息之间的、上述帧图像序列中的帧图像子序列，以便于后续生成无字幕信息条件下的片段描述信息。第二步，生成针对上述帧图像子序列的片段描述信息，以丰富后续讲解音频的音频内容。再接着，对上述字幕信息序列中的每个字幕信息添加对应的对象陈述信息，以生成添加字幕信息，得到添加字幕信息序列，以便于后续听者清晰的了解到字幕的讲解对象，了解对应字幕信息的实质内容。进一步，根据时间先后关系，将所得到的片段描述信息序列和上述添加字幕信息序列进行对应信息融合，以生成融合信息序列，以得到初步完善的讲解文本。在此基础上，可以准确地生成针对上述融合信息序列的视频讲解文本，以在融合信息序列的基础上，进一步增强内容的表达性和丰富度。其次，提取上述目标视频中的、上述字幕信息序列对应的第一音频序列，以获取对应的音频特征内容。除此之外，可以准确地生成针对上述片段描述信息序列的第二音频序列。进而，根据上述第一音频序列和上述第二音频序列，可以准确地生成针对上述视频讲解文本的、内容不仅正确且丰富的讲解音频。最后，将上述讲解音频和上述目标视频对应的视频标识进行对应存储，以便于后续目标用户执行针对讲解音频的音频讲解。

技术特征：

1.一种音频存储方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

3.根据权利要求1所述的方法，其中，所述生成针对所述帧图像子序列的片段描述信息，包括：

4.根据权利要求3所述的方法，其中，所述图像集划分信息模型包括：图像集划分模型和多个图像相似度确定模型，其中，多个图像相似度确定模型包括的各个图像相似度确定模型的数目为预定数目，所述预定数目大于所述簇数目，所述图像集划分模型所输出的图像集的数目与所述预定数目相同；以及

5.根据权利要求4所述的方法，其中，所述利用所述调整后图像集划分信息模型，生成针对所述图像特征信息子序列的图像特征信息组集，包括：

6.根据权利要求3所述的方法，其中，所述根据所述划分帧图像组序列，生成片段描述信息，包括：

7.根据权利要求1所述的方法，其中，所述生成针对所述融合信息序列的视频讲解文本，包括：

8.一种音频存储装置，包括：

9.一种电子设备，包括：

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结本公开的实施例公开了音频存储方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：对目标视频进行视频抽帧处理，以生成帧图像序列；提取字幕信息，得到字幕信息序列；对于每相邻两个字幕信息，执行第一生成步骤：确定帧图像子序列；生成片段描述信息；对每个字幕信息添加对象陈述信息，以生成添加字幕信息，得到添加字幕信息序列；将片段描述信息序列和添加字幕信息序列进行信息融合，以生成融合信息序列；生成视频讲解文本；提取第一音频序列；生成第二音频序列；生成讲解音频；将讲解音频和目标视频对应的视频标识进行对应存储。该实施方式可以准确、高效地生成讲解音频，以便于后续目标用户执行针对讲解音频的音频讲解。技术研发人员：曹晓航,董涵,唐矗,蒲立受保护的技术使用者：北京积加科技有限公司技术研发日：技术公布日：2024/7/29