技术新讯 > 电子通信装置的制造及其应用技术 > 视频看点分析方法、装置、设备和介质与流程 > 正文

视频看点分析方法、装置、设备和介质与流程

国知局
2024-09-14 14:23:33

本技术涉及视频分析，例如涉及一种视频看点分析方法、装置、设备和介质。

背景技术：

1、当前互联网上的视频数量呈现爆发式增长，人们对快速浏览视频具体内容的需求日益增加，为了帮助用户快速理解视频内容，提升用户体验，需要进行视频看点抽取。视频看点抽取包括提取视频看点的起始时间和该看点片段的结构化摘要。现有的视频看点分析方法有两种：第一种是人工分析法，通过视频上传者对视频进行逐帧观察切片得出看点片段所在的位置，提取该片段的起始时间，并对该片段进行概括性总结得到看点摘要。人工分析法会耗费较大的人工成本，而且不同的人对视频看点理解不一致，会使生成的视频内容大纲参差不齐。第二种方法是设备采集辅助分析法，通过添加终端采集设备，对用户行为进行分析从而得出视频看点信息。设备采集辅助分析法需要使用终端采集设备，增加了硬件成本，场景适用性差和需要对多个用户进行分析才能得到统一的结果的问题。

2、综上所述，现有的视频看点分析方法存在耗费较大的人工成本，生成的视频内容大纲参差不齐，增加了硬件成本，和/或场景适用性差的问题。

技术实现思路

1、本技术目的在于：提供一种视频看点分析方法、装置、设备和介质，其能够解决现有的视频看点分析方法存在耗费较大的人工成本，生成的视频内容大纲参差不齐，增加了硬件成本，和/或场景适用性差的问题。为达到上述目的，本技术提供了一种视频看点分析方法，包括：

2、获取待分析视频，将所述待分析视频中的语音转换为文字，得到文本内容；

3、按照结束标点符号获取所述文本内容中每个文本语句的第一字符对应的时间戳，按照所述时间戳拼接各个所述文本语句，得到拼接文本；所述拼接文本的拼接语句的长度为第一预设长度；

4、依次将第i个所述拼接语句的最后一个字符向前滑动第二预设长度，得到第i+1个所述拼接语句；其中，所述i≥1；

5、将每个所述拼接语句输入预训练语言模型，对所述拼接语句进行向量表示，得到拼接向量；

6、根据所述拼接向量预测看点起始位置和看点终止位置，根据所述看点起始位置和所述看点终止位置提取看点片段；

7、提取所述看点片段的看点摘要；

8、使用单层线性网络对所述看点摘要中的每个字符进行预测，得到视频内容大纲。

9、优选地，所述依次将第i个所述拼接语句的最后一个字符向前滑动第二预设长度，得到第i+1个所述拼接语句，包括：

10、以所述拼接文本的第一个字符为起点，截取所述第一预设长度个字符，得到第一个所述拼接语句；

11、将第一个所述拼接语句的最后一个字符向前滑动所述第二预设长度，得到第二个所述拼接语句；

12、判断第i个所述拼接语句的最后一个字符是否为所述拼接文本的最后一个字符，若否，则将第i个所述拼接语句的最后一个字符向前滑动所述第二预设长度，得到第i+1个所述拼接语句。

13、优选地，所述根据所述拼接向量预测看点起始位置和看点终止位置，包括：

14、将所述拼接向量输入单层指针网络的softmax层进行映射，得到映射向量；

15、对所述映射向量进行拆分，得到起始位置向量和终止位置向量；

16、根据所述起始位置向量确定所述看点起始位置，根据所述终止位置向量确定所述看点终止位置。

17、优选地，所述使用单层线性网络对所述看点摘要中的每个字符进行预测，得到视频内容大纲，包括：

18、将所述看点摘要中的每个字符对应的向量输入所述单层线性网络的sigmoid层，对所述看点摘要的每个字符进行分类，得到第一分类标签和第二分类标签；

19、将所述第二分类标签对应的字符删除，得到所述视频内容大纲。

20、优选地，所述按照结束标点符号获取所述文本内容中每个文本语句的第一字符对应的时间戳，包括：

21、统计所述文本内容中的结束标点符号；

22、按照所述结束标点符号获取每个所述文本语句的所述第一字符对应的所述时间戳。

23、优选地，所述将所述待分析视频中的语音转换为文字，得到文本内容，包括：

24、获取所述待分析视频中的语音；

25、使用asr语音识别工具将所述待分析视频中的语音转换为文字，得到所述文本内容。

26、优选地，所述提取所述看点片段的看点摘要，包括：

27、将所述看点片段输入所述预训练语言模型，对所述看点片段进行向量表示，得到所述看点摘要。

28、本技术提供了一种视频看点分析装置，包括：

29、语音文字转换模块，用于获取待分析视频，将所述待分析视频中的语音转换为文字，得到文本内容；

30、文本语句拼接模块，用于按照结束标点符号获取所述文本内容中每个文本语句的第一字符对应的时间戳，按照所述时间戳拼接各个所述文本语句，得到拼接文本；所述拼接文本的拼接语句的长度为第一预设长度；

31、拼接语句滑动模块，用于依次将第i个所述拼接语句的最后一个字符向前滑动第二预设长度，得到第i+1个所述拼接语句；其中，所述i≥1；

32、第一向量表示模块，用于将每个所述拼接语句输入预训练语言模型，对所述拼接语句进行向量表示，得到拼接向量；

33、看点片段提取模块，用于根据所述拼接向量预测看点起始位置和看点终止位置，根据所述看点起始位置和所述看点终止位置提取看点片段；

34、看点摘要提取模块，用于提取所述看点片段的看点摘要；

35、字符预测模块，用于使用单层线性网络对所述看点摘要中的每个字符进行预测，得到视频内容大纲。

36、本技术还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的一种视频看点分析方法和/或上述任一项所述的视频看点分析方法的步骤。

37、本技术还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的一种视频看点分析方法和/或上述任一项所述的视频看点分析方法的步骤。

38、本技术的一种视频看点分析方法，包括获取待分析视频，将待分析视频中的语音转换为文字，得到文本内容。获取文本内容中每个文本语句的第一字符对应的时间戳，按照时间戳拼接各个文本语句，得到拼接文本；拼接文本的拼接语句的长度为第一预设长度；依次将第i个拼接语句的最后一个字符向前滑动第二预设长度，得到第i+1个拼接语句；其中，i≥1。将每个所述拼接语句输入预训练语言模型，对拼接语句进行向量表示，得到拼接向量。采用固定步幅度滑动的方法对拼接文本进行滑动切分，使得拼接文本可以通过预训练语言模型进行编码，能够防止对超出长度限制的文本进行切割，从而防止丢失大量文本信息。根据拼接向量预测看点起始位置和看点终止位置，根据看点起始位置和看点终止位置提取看点片段。提取看点片段的看点摘要，使用单层线性网络对看点摘要中的每个字符进行预测，得到视频内容大纲。通过自动计算可以节省人力成本，并且具有统一的分析标准，可以使生成的视频内容大纲统一。另外，上述视频看点分析方法不依赖于外部采集设备，可以节省硬件成本，可以减少设备采集所带来的误差，其场景适用性更强，只需要对视频内容进行一次分析即可得到视频内容大纲，具有较高的视频分析效率。