视频处理方法和存储介质与流程

2022-06-11 15:25:05 来源：中国专利 TAG：

1.本发明涉及计算机领域，具体而言，涉及一种视频处理方法和存储介质。

背景技术：

2.目前，一键成片会依据视频中的话语内容自动添加字幕到成片中，而添加字幕的正确与否对成片效果存在一定影响，因此需要检测自动添加的字幕的准确性。
3.相关技术中，通常使用纯人工的方式，在观看视频后指出成片中添加的字幕是否准确同步，存在对视频的字幕进行校验的效率低的技术问题。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种视频处理方法和存储介质，以至少解决对视频的字幕进行校验的效率低的技术问题。
6.根据本发明实施例的一个方面，提供了一种视频字幕处理方法。该方法可以包括：从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确。
7.根据本发明实施例的一个方面，还提供了一种视频处理方法。该方法可以包括：通过调用第一接口获取视频，其中，第一接口包括第一参数，第一参数的参数值为视频；从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确，得到校验结果；通过调用第二接口输出校验结果，其中，第二接口包括第二参数，第二参数的参数值为校验结果。
8.根据本发明实施例的一个方面，还提供了一种视频字幕处理方法。该方法可以包括：从短视频平台获取目标短视频；从目标短视频中提取出音频数据；将音频数据转换为目标短视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与目标短视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确，得到校验结果；将校验结果返回至短视频平台，其中，在校验结果用于表示待校验字幕有误时，校验结果用于使短视频平台对待校验字幕进行调整，在校验结果用于表示待校验字幕正确时，校验结果用于使短视频平台在播放目标短视频时显示待校验字幕。
9.根据本发明实施例的一个方面，还提供了一种视频字幕处理方法。该方法可以包括：响应作用于操作界面上的视频输入指令，在操作界面上显示视频；响应作用于操作界面上的字幕校验指令，在操作界面上显示视频的待校验字幕的校验结果，其中，校验结果为基
于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
10.根据本发明实施例的一个方面，还提供了一种视频字幕处理方法。该方法可以包括：响应作用于虚拟现实设备上的视频输入指令，在虚拟现实设备的显示屏上显示用于呈现虚拟现实场景的视频的画面；响应作用于虚拟现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到；响应于校验结果表示出字幕正确，在显示屏上显示正确的字幕。
11.根据本发明实施例的一个方面，还提供了一种视频字幕处理方法。该方法可以包括：响应作用于增强现实设备上的视频输入指令，在增强现实设备的显示屏上显示对真实场景进行拍摄而得到的视频的画面；响应作用于增强现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到；响应于校验结果表示出字幕正确，在显示屏上将正确的字幕显示在视频的画面中。
12.根据本发明实施例的一个方面，还提供了一种视频字幕处理装置。该装置可以包括：第一提取单元，从视频中提取出音频数据；第一转换单元，用于将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；第一获取单元，用于基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；第一校验单元，用于基于相似度确定待校验字幕是否正确。
13.根据本发明实施例的一个方面，还提供了一种视频处理装置。该装置可以包括：第二获取单元，用于通过调用第一接口获取视频，其中，第一接口包括第一参数，第一参数的参数值为视频；第二提取单元，用于从视频中提取出音频数据；第二转换单元，用于将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；第三获取单元，用于基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；第一确定单元，用于基于相似度确定待校验字幕是否正确，得到校验结果；第一输出单元，用于通过调用第二接口输出校验结果，其中，第二接口包括第二参数，第二参数的参数值为校验结果。
14.根据本发明实施例的一个方面，还提供了一种视频字幕处理装置。该装置可以包括：第四获取单元，用于从短视频平台获取目标短视频；第三提取单元，用于从目标短视频中提取出音频数据；第三转换单元，用于将音频数据转换为目标短视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；第五获取单元，用于基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与目标短视频的参照字幕之间的相似度；第二确定单元，用于基于相似度确定待校验字幕是否正确，得到校验结果；第一返回单元，用于将校验结果返回至短视频平台，其中，在校验结果用于表示待校验字幕有误时，校验结果用于使短视频平台对待校验字幕进行调整，在校验结果用于表示待校验字幕正确时，校验结果用于使短视频平台在播放目标短视频时显示待校验字幕。
15.根据本发明实施例的一个方面，还提供了一种视频字幕处理装置。该装置可以包括：第一显示单元，用于响应作用于操作界面上的视频输入指令，在操作界面上显示视频；第二显示单元，用于响应作用于操作界面上的字幕校验指令，在操作界面上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
16.根据本发明实施例的一个方面，还提供了一种视频字幕处理装置。该装置可以包括：第三显示单元，用于响应作用于虚拟现实设备上的视频输入指令，在虚拟现实设备的显示屏上显示用于呈现虚拟现实场景的视频的画面；第四显示单元，用于响应作用于虚拟现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到；第五显示单元，用于响应于校验结果表示出字幕正确，在显示屏上显示正确的字幕。
17.根据本发明实施例的一个方面，还提供了一种视频字幕处理装置。该装置可以包括：第六显示单元，用于响应作用于增强现实设备上的视频输入指令，在增强现实设备的显示屏上显示对真实场景进行拍摄而得到的视频的画面；第七显示单元，用于响应作用于增强现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到；第八显示单元，用于响应于校验结果表示出字幕正确，在显示屏上将正确的字幕显示在视频的画面中。
18.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一项的视频处理的方法。
19.根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述任意一项的视频处理的方法。
20.根据本发明实施例的另一方面，还提供了一种视频处理系统，包括：处理器；存储器，与处理器相连接，用于为处理器提供处理以下处理步骤的指令：从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确。
21.在本发明实施例中，从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确。也就是说，本发明基于视频的待校验字幕的起止时间与参照字幕之间进行相似度对比，确定视频待校验字幕的正确性，无需人工，从而实现了提高对视频的字幕进行校验的效率的技术效果，解决了对视频的字幕进行校验的效率低的技术问题。
附图说明
22.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
23.图1是根据本发明实施例的一种视频处理方法的计算机终端(或移动设备)的硬件结构框图；
24.图2是根据本发明实施例的一种视频字幕处理方法的流程图；
25.图3是根据本发明实施例的一种视频处理方法的流程图；
26.图4是根据本发明实施例的另一种视频字幕处理方法的流程图；
27.图5是根据本发明实施例的另一种视频字幕处理方法的流程图；
28.图6是根据本发明实施例的一种查找用户字幕起始时间的示意图；
29.图7是根据本发明实施例的一种滑动相似度对比的示意图；
30.图8是根据本发明实施例的一种视频字幕处理装置的示意图；
31.图9是根据本发明实施例的一种视频处理装置的示意图；
32.图10是根据本发明实施例的另一种视频字幕处理装置的示意图；
33.图11是根据本发明实施例的另一种视频字幕处理装置的示意图；
34.图12是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
35.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
36.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
37.首先，在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
38.自动语音识别技术(automatic speech recognition，简称为asr)，将人的语音转换为文本的技术；
39.开源计算机程序(ffmpeg)，是一套可以用来记录、转换数字音频、视频，并能将其转化为流的计算机程序，可以采用通用普通许可证(lesser general public license，简称为lgpl)或使用通用公共许可证(general public license，简称为gpl)对开源计算机程序进行调用；
40.音频采样率，指录音设备在单位时间内对模拟信号采样的多少，其中，采样频率越
高，机械波的波形就越真实越自然；
41.音频声道，声道(sound channel)是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以，声道数也就是声音录制时的音源数量或回放时相应的扬声器数量；
42.编辑距离(edit distance)，又称莱文斯坦(levenshtein)距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同；
43.成片视频，用户使用原始视频添加特效或字幕后生成的加工后的视频，叫做成片视频；
44.文字识别(optical character recognition，简称为ocr)，是指电子设备,比如，扫描仪或数码相机检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；
45.用户字幕文件，可以简单理解为最准确的字幕文件，用于和成片中的字幕争取性和实时性进行对比，用户字幕文件包含字幕文字、起始时间和结束时间。
46.实施例1
47.根据本发明实施例，还提供了一种视频处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
48.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现视频处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
49.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
50.存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的视频处理方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括
但不限于互联网、企业内部网、局域网、移动通信网及其组合。
51.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
52.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
53.此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
54.在图1所示的运行环境下，本技术提供了如图2所示的视频字幕处理方法。需要说明的是，该实施例的视频字幕处理方法可以由图1所示实施例的移动终端执行。
55.图2是根据本发明实施例的一种视频字幕处理方法的流程图。如图2所示，该方法可以包括以下步骤：
56.步骤s202，从视频中提取出音频数据。
57.在本发明上述步骤s202提供的技术方案中，选择要处理的视频，对选择的视频进行处理，以从视频中提取出音频数据，其中，音频数据可以为1600采样，有符号16位小端的脉冲编码调制(pcm)格式的数据。
58.可选地，通过ffmpeg对视频进行处理，提取出格式为1600采样，有符号16位小端的脉冲编码调制(pcm)的音频数据。
59.步骤s204，将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间。
60.在本发明上述步骤s204提供的技术方案中，将获取到的音频数据转换为视频的至少一段待校验字幕，确定获取到的待校验字幕的起始时间和待校验字幕的终止时间，其中，目标字幕可以为asr字幕，可以为通过自动语音识别技术对音频数据进行识别之后得到的字幕。
61.可选地，选择要处理的视频，获取视频的音频数据，利用自动语音识别技术对视频的音频数据进行识别，获取视频的至少一段待校验字幕，同时，利用自动语音识别技术对音频数据的待校验字幕的起始时间和终止时间进行提取，达到确定待校验字幕的起始时间和待校验字幕的终止时间的目的。
62.步骤s206，基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度。
63.在本发明上述步骤s206提供的技术方案中，基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度，其中，参照字幕可以为用户提供的字幕，又可以称为用户字幕。
64.可选地，使用参照字幕在待校验字幕中查找起始时间所在段落、中间时间所在段落、结束时间所在段落，可以将参照字幕沿着待校验字幕从最左侧开始向右侧进行滑动，或
者从右向左进行滑动，找到在合并后的待校验字幕中的最大相似度起始点，获取待校验字幕与视频的参照字幕之间的相似度。
65.步骤s208，基于相似度确定待校验字幕是否正确。
66.在本发明上述步骤s208提供的技术方案中，基于目标相似度确定待校验字幕是否正确，得到校验结果，比如，如果相似度大于某一设定阈值，则确定待校验字幕正确，如果相似度小于某一设定阈值，则确定待校验字幕错误。
67.可选地，判定滑动匹配最高的相似度，如果滑动匹配最高的相似度大于设定阈值，则可以确定此时待校验字幕匹配点的起始时间与参照字幕的起始时间差小，则可以确定待校验字幕是正确的；如果滑动匹配最高的相似度小于设定阈值，则可以判断待校验字幕匹配点的起始时间与用户字幕的起始时间差大，则可以确定待校验字幕是错误的。
68.可选地，待校验字幕与视频的参照字幕之间的目标相似度高，则验证得到视频的参照字幕与待校验字幕一致，则可以得到待校验字幕的内容准确且同步，待校验字幕正确。
69.通过本技术上述步骤s202至步骤s208，从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确。也就是说，本发明基于视频的待校验字幕的起止时间与参照字幕之间进行相似度对比，确定视频待校验字幕的正确性，无需人工，从而实现了提高对视频的字幕进行校验的效率的技术效果，解决了对视频的字幕进行校验的效率低的技术问题。
70.下面对该实施例的上述方法进行进一步地介绍。
71.作为一种可选的实施方式，步骤s206，基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度，包括：响应于参照字幕的目标时间处于待校验字幕的起始时间和待校验字幕的终止时间之间，则获取待校验字幕与参照字幕之间的相似度，其中，目标时间包括参照字幕的起始时间和/或参照字幕的终止时间。
72.在该实施例中，当参照字幕的起始时间和/或参照字幕的终止时间处于待校验字幕的起始时间和待校验字幕的终止时间之间，则将参照字幕和待校验字幕进行对比，以获取待校验字幕与参照字幕之间的相似度，其中，相似度可以为用百分数表示的值，百分数越大，则表明相似度越高。
73.作为一种可选的实施方式，至少一段待校验字幕至少包括第一段待校验字幕和第二段待校验字幕，响应于参照字幕的目标时间处于待校验字幕的起始时间和待校验字幕的终止时间之间，则获取待校验字幕与参照字幕之间的相似度，包括：响应于参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间，则对第一段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕；对目标合并字幕和参照字幕进行对比，得到相似度。
74.在该实施例中，当参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间时，则对第一段待校验字幕和第二段待校验字幕进行
合并，得到目标合并字幕；将目标合并字幕和参照字幕进行对比，得到相似度，其中，一段视频有多段待校验字幕。
75.可选地，基于参照字幕作为外层遍历条件，在待校验字幕中使用参照字幕在待校验字幕中查找起始时间所在段落、中间时间所在段落、结束时间所在段落，并将找到的多个待校验字幕段内容的字幕进行合并，得到目标合并字幕，将目标合并字幕和参照字幕进行对比，得到相似度。
76.作为一种可选的实施方式，对目标合并字幕和参照字幕进行对比，得到相似度，包括：在目标合并字幕中确定与参照字幕中的子参照字幕之间的最大相似度的子待校验字幕；将子待校验字幕对应的最大相似度确定为相似度。
77.在该实施例中，对目标合并字幕和参照字幕进行对比，在目标合并字幕中确定与参照字幕中的子参照字幕之间的最大相似度的子待校验字幕，将子待校验字幕对应的最大相似度确定为相似度，得到相似度。
78.可选地，参照字幕可以沿着目标合并字幕从最左侧开始向右侧进行滑动，每滑动一个字进行一次编辑距离计算，直至找到最大相似度点，则可以在目标合并字幕中确定与参照字幕中的子参照字幕之间的最大相似度的子待校验字幕，并得到最大相似度，将子待校验字幕对应的最大相似度确定为相似度。
79.作为一种可选的实施方式，基于相似度确定待校验字幕是否正确，包括：响应于相似度大于第一目标阈值，且子待校验字幕的起始时间和子参照字幕的起始时间之间的差值小于第二目标阈值，则确定子待校验字幕正确；响应于相似度不大于第一目标阈值，和/或，子待校验字幕的起始时间和子参照字幕的起始时间之间的差值不小于第二目标阈值，则确定子待校验字幕有误。
80.在该实施例中，当参照字幕与子待校验字幕的相似度大于第一目标阈值，且子待校验字幕的起始时间和子参照字幕的起始时间之间的差值小于第二目标阈值时，则确定子待校验字幕正确；当参照字幕与子待校验字幕的相似度不大于第一目标阈值，和/或，子待校验字幕的起始时间和子参照字幕的起始时间之间的差值不小于第二目标阈值，则确定子待校验字幕有误，其中，子待校验字幕的起始时间可以为待校验字幕中的最大相似度的起始点；第一目标阈值可以为根据实际情况设定的相似度阈值，可以用百分数表示；第二目标阈值可以为根据实际情况设定的具体的值。
81.可选地，当参照字幕与子待校验字幕的相似度大于第一目标阈值，且子待校验字幕的匹配点的起始时间与用户字幕的起始时间差小于第二目标阈值时，则可以确定待校验字幕同步准确；当参照字幕与子待校验字幕的相似度不大于第一目标阈值，和/或，且子待校验字幕的匹配点的起始时间与用户字幕的起始时间差不小于第二目标阈值，则可以确定子待校验字幕有误。
82.作为一种可选的实施方式，在目标合并字幕中确定与参照字幕中的子参照字幕之间的最大相似度的子待校验字幕，包括：基于子参照字幕的字幕长度在目标合并字幕中确定待比对的多个子合并字幕；获取每个子合并字幕与子参照字幕之间的相似度，得到多个相似度；将多个相似度中最大相似度对应的子字幕，确定为子待校验字幕。
83.在该实施例中，基于子参照字幕的字幕长度在目标合并字幕中确定待比对的多个子合并字幕，获取每个子合并字幕与子参照字幕之间的相似度，得到多个相似度；将多个相
似度中最大相似度对应的子字幕，确定为子待校验字幕，以达到在目标合并字幕中确定与参照字幕中的子参照字幕之间的最大相似度的子待校验字幕的目的。
84.可选地，从参照字幕中获取多个子参照字幕，基于获取到的子参照字幕的字幕长度在目标合并字幕中从最左侧开始向右侧进行滑动，每滑动一个字进行一次编辑距离计算，以确定待比对的多个子合并字幕，获取每个子合并字幕与子参照字幕之间的相似度，得到多个相似度，将多个相似度中最大相似度对应的子字幕，确定为子待校验字幕，以达到在目标合并字幕中确定与参照字幕中的子参照字幕之间的最大相似度的子待校验字幕的目的
85.作为一种可选的实施方式，每相邻两个子字幕之间相差目标单位字幕。
86.在该实施例中，每相邻两个子字幕之间相差目标单位字幕，其中，目标单位字幕可以为滑动单位字数字。
87.可选地，基于获取到的子参照字幕的字幕长度在目标合并字幕中从最左侧开始向右侧进行滑动，每滑动一个字，得到一段子字幕，需要说明的是，这里的滑动一个字仅为举例，可以根据实际情况进行设定。
88.作为一种可选的实施方式，待校验字幕包括至少一第三段待校验字幕，响应于参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间，则对第一段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕，包括：响应于参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，参照字幕的中间时间处于第三段待校验字幕的起始时间和第三段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间，则对第一段待校验字幕、第三段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕。
89.在该实施例中，当参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，参照字幕的中间时间处于第三段待校验字幕的起始时间和第三段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间，则对第一段待校验字幕、第三段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕。
90.可选地，参照字幕的起始时间在待校验字幕段中进行查找，确定第一段待校验字幕，其中，参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间；然后查找参照字幕所处的中间段对应的待校验字幕段，确定第三段待校验字幕，其中，参照字幕的中间时间处于第三段待校验字幕的起始时间和第三段待校验字幕的终止时间之间；最后确定参照字幕的结束时间在待校验字幕段中的匹配段，得到第二段待校验字幕，其中，参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间。
91.可选地，对找到的第一段待校验字幕、第三段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕。
92.作为一种可选的实施方式，将音频数据转换为视频的至少一段待校验字幕包括：将音频数据转换为至少一段原始字幕；对原始字幕中的无效字幕进行调整或删除，得到待
校验字幕。
93.在该实施例中，将音频数据转换为至少一段原始字幕，对原始字幕中的无效字幕进行调整或删除，比如，对空字幕、空格、标点符号等无效字幕进行删除，得到待校验字幕。
94.可选地，遍历原始字幕，通过正则匹配空格，将标点符号去除，得到待校验字幕。
95.作为一种可选的实施方式，获取视频的原始参照字幕；对原始参照字幕中的无效字幕进行调整或删除，得到参照字幕。
96.在该实施例中，获取视频的原始参照字幕，对原始参照字幕中的无效字幕进行调整或删除，比如，对空字幕、空格、标点符号等无效字幕进行删除，得到参照字幕。
97.可选地，遍历原始参照字幕，通过正则匹配空格，将标点符号去除，得到参照字幕。
98.该实施例基于视频的待校验字幕的起止时间与参照字幕之间进行相似度对比，确定视频待校验字幕的正确性，无需人工，从而实现了提高对视频的字幕进行校验的效率的技术效果，解决了对视频的字幕进行校验的效率低的技术问题。
99.本发明实施例还提供了另一种视频处理方法。
100.图3是根据本发明实施例的另一种视频字幕处理方法的流程图。如图3所示，该方法可以包括以下步骤：
101.步骤s302，通过调用第一接口获取视频，其中，第一接口包括第一参数，第一参数的参数值为视频。
102.在本发明上述步骤s302提供的技术方案中，第一接口可以是服务器与客户端之间进行数据交互的接口。客户端可以将至少一个负载传入第一接口，作为第一接口的一个第一参数，实现获取视频的目的。
103.可选地，通过调用第一接口的第一参数，达到获取第一视频的目的。
104.步骤s304，从视频中提取出音频数据。
105.在本发明上述步骤s304提供的技术方案中，选择要处理的视频，从选择的视频中提取出音频数据。
106.步骤s306，将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间。
107.在本发明上述步骤s306提供的技术方案中，将获取到的音频数据转换为视频的至少一段待校验字幕，确定获取到的待校验字幕的起始时间和待校验字幕的终止时间。
108.可选地，选择要处理的视频，获视频的音频数据，利用自动语音识别技术对获取到的音频数据进行识别，获取目标视频的至少一段待校验字幕，同时，利用自动语音识别技术对音频数据的待校验字幕的起始时间和终止时间进行提取，达到确定待校验字幕的起始时间和待校验字幕的终止时间的目的。
109.步骤s308，基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度。
110.在本发明上述步骤s308提供的技术方案中，使用参照字幕在待校验字幕中查找起始时间所在段落、中间时间所在段落、结束时间所在段落，可以将参照字幕沿着待校验字幕从最左侧开始向右侧进行滑动，或者从右向左进行滑动，找到在合并后的待校验字幕中的最大相似度起始点，获取待校验字幕与视频的参照字幕之间的相似度。
111.步骤s310，基于相似度确定待校验字幕是否正确，得到校验结果。
112.在本发明上述步骤s310提供的技术方案中，基于目标相似度确定待校验字幕是否正确，得到校验结果，比如，如果相似度大于某一设定阈值，则确定待校验字幕正确，如果相似度小于某一设定阈值，则确定待校验字幕错误。
113.步骤s312，通过调用第二接口输出校验结果，其中，第二接口包括第二参数，第二参数的参数值为校验结果。
114.在本发明上述步骤s312提供的技术方案中，第二接口可以是服务器与客户端之间进行数据交互的接口，服务器可以通过调用第二接口输出校验结果，第二参数作为第二接口的一个参数，实现输出校验结果的目的。
115.该实施例中，通过调用第一接口获取视频，其中，第一接口包括第一参数，第一参数的参数值为视频；从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确，得到校验结果；通过调用第二接口输出校验结果，其中，第二接口包括第二参数，第二参数的参数值为校验结果，从而实现了提高对视频的字幕进行校验的效率的技术效果，解决了对视频的字幕进行校验的效率低的技术问题。
116.本发明实施例还提供了另一种应用于直播场景的视频处理方法。
117.图4是根据本发明实施例的另一种视频字幕处理方法的流程图。如图4所示，该方法可以包括以下步骤：
118.步骤s402，从短视频平台获取目标短视频。
119.在本发明上述步骤s402提供的技术方案中，从短视频平台获取需要处理的目标短视频。
120.步骤s404，从目标短视频中提取出音频数据。
121.在本发明上述步骤s404提供的技术方案中，选择要处理的目标短视频从选择的目标短视频中提取出音频数据。
122.可选地，通过ffmpeg对目标视频进行处理，提取出格式为1600采样，有符号16位小端的脉冲编码调制(pcm)的音频数据。
123.步骤s406，将音频数据转换为目标短视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间。
124.在本发明上述步骤s406提供的技术方案中，对选择目标短视频的音频数据进行提取，得到音频数据，将得到的音频数据转换为目标短视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间。
125.可选地，选择要处理的目标短视频，获取目标短视频的音频数据，利用自动语音识别技术对目标视频的音频数据进行识别，获取目标视频的至少一段待校验字幕，同时，利用自动语音识别技术对音频数据的待校验字幕的起始时间和终止时间进行提取，达到确定待校验字幕的起始时间和待校验字幕的终止时间的目的。
126.步骤s408，基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与目标短视频的参照字幕之间的相似度。
127.在本发明上述步骤s408提供的技术方案中，基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与目标短视频的参照字幕之间的相似度，其中，参照字幕
可以为用户提供的字幕，又可以称为用户字幕。
128.可选地，使用参照字幕在待校验字幕中查找起始时间所在段落、中间时间所在段落、结束时间所在段落，可以将参照字幕沿着待校验字幕从最左侧开始向右侧进行滑动，或者从右向左进行滑动，找到在合并后的待校验字幕中的最大相似度起始点，获取待校验字幕与目标短视频的参照字幕之间的相似度。
129.步骤s410，基于相似度确定待校验字幕是否正确，得到校验结果。
130.在本发明上述步骤s410提供的技术方案中，基于目标相似度确定待校验字幕是否正确，得到校验结果，比如，如果相似度大于某一设定阈值，则确定待校验字幕正确，如果相似度小于某一设定阈值，则确定待校验字幕错误。
131.可选地，判定滑动匹配最高的相似度，如果滑动匹配最高的相似度大于设定阈值，判定待校验字幕匹配点的起始时间与参照字幕的起始时间差小，则确定待校验字幕是正确的；如果滑动匹配最高的相似度小于设定阈值，则判断待校验字幕匹配点的起始时间与参照字幕的起始时间差大，则待校验字幕是错误的。
132.步骤s412，将校验结果返回至短视频平台，其中，在校验结果用于表示待校验字幕有误时，校验结果用于使短视频平台对待校验字幕进行调整，在校验结果用于表示待校验字幕正确时，校验结果用于使短视频平台在播放目标短视频时显示待校验字幕。
133.在本发明上述步骤s412提供的技术方案中，将校验结果返回至短视频平台，当待校验字幕有误时，校验结果显示在短视频平台界面，短视频平台基于校验结果对待校验字幕进行调整，调整正确后将调整后的待校验字幕显示在播放的目标短视频。
134.可选地，当待校验字幕正确时，将校验结果返回至短视屏平台的界面，并且短视频平台在播放目标短视频时显示待校验字幕。
135.本发明实施例还从人机交互侧提供了另一种视频字幕处理方法。
136.图5是根据本发明实施例的另一种视频字幕处理方法的流程图。如图5所示，该方法可以包括以下步骤：
137.步骤s502，响应作用于操作界面上的视频输入指令，在操作界面上显示视频。
138.在本发明上述步骤s502提供的技术方案中，视频输入指令可以由用户触发，用于触发显示视频的请求，从而该实施例响应作用于交互界面上的视频输入指令，在操作界面上显示视频。
139.步骤s504，响应作用于操作界面上的字幕校验指令，在操作界面上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
140.在本发明上述步骤s504提供的技术方案中，响应作用于操作界面上的字幕校验指令，在操作界面上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
141.本发明实施例还提供了另一种应用于虚拟现实(virtual reality，简称为vr)设备的视频字幕处理方法。
142.在该实施例中，响应作用于虚拟现实设备上的视频输入指令，在虚拟现实设备的
显示屏上显示用于呈现虚拟现实场景的视频的画面。
143.可选地，视频输入指令可以由用户触发，用于触发显示视频的请求，选择虚拟现实设备上的视频输入指令，响应作用于虚拟现实设备上的视频输入指令，在虚拟现实设备的显示屏上显示用于呈现虚拟现实场景的视频的画面。
144.在该实施例中，响应作用于虚拟现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
145.可选地，对视频的音频数据进行转换，得到待校验字幕，响应作用于虚拟现实设备上的字幕校验指令，对显示屏上显示视频的待校验字幕进行校验，可以包括确定待校验字幕的起始时间和待校验字幕的终止时间，基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到待校验字幕与视频的参照字幕之间的相似度，基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到校验结果，并将校验结果显示在显示屏。
146.可选地，选择要显示的视频，获取要显示的视频的音频数据，利用自动语音识别技术对视频的音频数据进行识别，获取视频的至少一段待校验字幕，同时利用自动语音识别技术对音频数据的待校验字幕的起始时间和终止时间进行提取，得到待校验字幕的起始时间和待校验字幕的终止时间，使用参照字幕在待校验字幕中查找起始时间所在段落、中间时间所在段落、结束时间所在段落，可以将参照字幕沿着待校验字幕从最左侧开始向右侧进行滑动，或者从右向左进行滑动，找到在合并后的待校验字幕中的最大相似度起始点，获取待校验字幕与视频的参照字幕之间的相似度，基于目标相似度确定待校验字幕是否正确，得到校验结果，响应作用于虚拟现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果。
147.在该实施例中，响应于校验结果表示出字幕正确，在显示屏上显示正确的字幕。
148.可选地，判定滑动匹配最高的相似度，如果滑动匹配最高的相似度大于设定阈值，则可以确定此时待校验字幕匹配点的起始时间与参照字幕的起始时间差小，则可以确定待校验字幕是正确的，响应于校验结果表示出字幕正确，则在显示屏上显示正确的字幕。
149.作为一种可选的实施方式，响应于校验结果表示出字幕有误，在显示屏上显示基于校校验结果调整后的字幕。
150.可选地，如果滑动匹配最高的相似度小于设定阈值，则可以判断待校验字幕匹配点的起始时间与用户字幕的起始时间差大，则可以确定待校验字幕是错误的，响应于校验结果表示出字幕有误，则基于校校验结果对视频字幕进行调整，将基于校校验结果调整后的字幕显示在显示屏上。
151.作为一种可选的实施方式，虚拟现实设备为头戴现实设备。
152.在该实施例中，虚拟现实设备可以为头戴式现实设备，比如，可以为带有眼球追踪的头戴显示器，也可以为虚拟眼镜、虚拟现实一体机等能够实现虚拟现实场景中的视频字幕处理方法的虚拟现实设备，此次不再一一举例说明。
153.本发明实施例基于虚拟现实场景的视频的待校验字幕的起止时间与参照字幕之间进行相似度对比，确定虚拟现实场景的视频待校验字幕的正确性，无需人工，从而实现了
提高对虚拟现实场景的视频的字幕进行校验的效率的技术效果，解决了对虚拟现实场景的视频的字幕进行校验的效率低的技术问题。
154.本发明实施例还提供了另一种应用于增强现实显示(augmented reality，简称为ar)设备的视频字幕处理方法。
155.在该实施例中，响应作用于增强现实设备上的视频输入指令，在增强现实设备的显示屏上显示对真实场景进行拍摄而得到的视频的画面。
156.可选地，视频输入指令可以由用户触发，用于触发显示视频的请求，选择增强现实设备上的视频输入指令，响应作用于增强现实设备上的视频输入指令，在增强现实设备的显示屏上显示对真实场景进行拍摄而得到的视频的画面。
157.在该实施例中，响应作用于增强现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
158.可选地，对视频的音频数据进行转换，得到待校验字幕，响应作用于增强现实设备上的字幕校验指令，对显示屏上显示视频的待校验字幕进行校验，可以包括，确定待校验字幕的起始时间和待校验字幕的终止时间，基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到待校验字幕与视频的参照字幕之间的相似度，基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到校验结果，并将校验结果显示在显示屏。
159.可选地，对真实场景进行拍摄得到视频的画面，获取要显示在增强现实设备显示屏上的视频的音频数据，利用自动语音识别技术对视频的音频数据进行识别，获取视频的至少一段待校验字幕，同时，利用自动语音识别技术对音频数据的待校验字幕的起始时间和终止时间进行提取，得到待校验字幕的起始时间和待校验字幕的终止时间，使用参照字幕在待校验字幕中查找起始时间所在段落、中间时间所在段落、结束时间所在段落，可以将参照字幕沿着待校验字幕从最左侧开始向右侧进行滑动，或者从右向左进行滑动，找到在合并后的待校验字幕中的最大相似度起始点，获取待校验字幕与视频的参照字幕之间的相似度，基于目标相似度确定待校验字幕是否正确，得到校验结果，响应作用于增强现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果。
160.在该实施例中，响应于校验结果表示出字幕正确，在显示屏上将正确的字幕显示在视频的画面中。
161.可选地，判定滑动匹配最高的相似度，如果滑动匹配最高的相似度大于设定阈值，则可以确定此时待校验字幕匹配点的起始时间与参照字幕的起始时间差小，则可以确定待校验字幕是正确的，响应于校验结果表示出字幕正确，则在显示屏上将正确的字幕显示在视频的画面中。
162.本发明实施例基于真实场景进行拍摄而得到的视频的待校验字幕的起止时间与参照字幕之间进行相似度对比，确定真实场景进行拍摄而得到的视频待校验字幕的正确性，无需人工，从而实现了提高对增强现实设备的视频的字幕的校验效率的技术效果，解决了对增强现实设备的视频的字幕进行校验的效率低的技术问题。
163.在本发明实施例中，响应作用于操作界面上的视频输入指令，在操作界面上显示
视频；响应作用于操作界面上的字幕校验指令，在操作界面上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。也就是说，本发明基于目标视频的目标字幕的起止时间与目标参照字幕之间进行相似度对比，确定目标视频的目标字幕的正确性，无需人工，从而实现了提高对视频的字幕进行校验的效率的技术效果，解决了对视频的字幕进行校验的效率低的技术问题。
164.实施例2
165.下面对该实施例的上述方法的优选实施方式进行进一步介绍，具体以一种成片视频字幕正确性校验方法进行说明。
166.目前，一键成片会依据视频中的主播话语内容自动添加字幕到成片中，而该字幕的正确与否对用户的成片效果有着明显的质量影响，因此需要具备一定的检测能力，但是，对成片视频内嵌字幕的正确性校验的方案很少，尤其高效且准确的方案并不多见。
167.字幕的正确性对用户视频观感和理解有着非常重要的影响，自动添加字幕存在字幕正确性不达标、字幕与实际语音时间不同步等问题，比如，当直播视频中介绍：“这个毛衣是个高领的带亮片的，拍2号链接啊亲们”，而自动添加字幕的成片视频中的实际字幕却为：“这个贸易是个高龄的戴良翩的，排号链接啊秦梦”；当直播视频中介绍的语音在3s到8s时间段被念出，却在7s到12s才出现再字幕上。
168.相关技术中，使用纯人工的方式进行视频字幕正确校验，即，观看视频后指出成片中字幕的正确性及不同步问题，但该方法存在效率极低的问题；或者，使用文字识别方案，即，通过将视频进行拆帧记录每帧时间，而后通过文字识别设备提取每帧的字幕，与用户提供的字幕文件进行对比，但该方案存在无法精确检测时间正确性、误差大的问题。
169.本发明基于自动语音识别技术及字幕正确性和实时性校验策略，即，为将视频中语音与字幕文字的正确性与同步性拆解为语音转为的文本和时间戳与用户字幕的准确性与时间一致性，其中，字幕文字检测采用滑动相似性对比，时间准确性建立在滑动相似性的基础上基于语音自动识别技术识别字幕内容，并找到更加精确的用户字幕的开始时间，从而极大的提升了准确性。
170.下面对该实施例的上述方法进行进一步地介绍。
171.第一步，将视频中的语音进行提取，达到提取音频流的目的。
172.通过ffmpeg进行音频流的提取，并将提取到的音频流保存为1600采样、有符号16位小端的脉冲编码调制(pcm)的纯音频格式，比如，将视频文件中的语音提取后保存为脉冲编码调制的纯音频格式
173.第二步：将得到的脉冲编码调制格式的纯音频文件，通过自动语音识别技术提取出音频中的文字和文字的起止时间，用于与用户字幕进行校验及对比。
174.将脉冲编码调制的音频文件作为数据源，发送给自动语音识别技术服务，接收并解析自动语音识别技术服务返回的解析字幕结果，其中，解析字幕结果中的text为识别出来的段落语音转文本，begintime为该段文字的开始时间，endtime为该段文字的结束时间。
175.举例而言，text：“时尚儿童运动鞋，穿出无限活力”，begintime：0，endtime：1200，可以表示为：字幕“时尚儿童运动鞋，穿出无限活力”的开始时间在0秒，结束时间在1200秒。
176.举例而言，text：“时尚儿童运动鞋，穿出无限活力。对那这款鞋子它整个鞋面呢是做这样一个磨砂皮的”，begintime：1200，endtime：5300，可以表示：字幕为“时尚儿童运动鞋，穿出无限活力。对那这款鞋子它整个鞋面呢是做这样一个磨砂皮的”的开始时间在1200秒，结束时间在5300秒。
177.举例而言，text：“磨砂皮的鞋面呢它比较耐穿”，begintime：5200，endtime：7500，可以表示：字幕为“磨砂皮的鞋面呢它比较耐穿”的开始时间在5200秒，结束时间在7500秒。
178.举例而言，text：“会有褶皱”，begintime：7500，endtime：8000，可以表示：字幕为“会有褶皱”的开始时间在7500秒，结束时间在8000秒。
179.第三步，将自动语音识别技术识别的字幕以及用户字幕中的无效字幕内容进行剔除及优化，主要针对空字幕、用户字幕结束时间大于自动语音识别技术识别的字幕时间、字幕起始时间不为0、存在标点符号、空格等情况。
180.可选地，对自动语音识别出的字幕及用户字幕进行遍历，通过正则匹配去除空格等标点符号。
181.可选地，当自动语音识别字幕起始时间不为0，但起始时间与0之差的绝对值小于阈值时间，则强行将起始时间设置为0；当用户字幕结束时间大于自动语音识别出的字幕时间时，则将自动语音识别出的字幕结束时间与阈值时间相加。
182.第四步，验证用户提供的字幕文件与视频中的发声内容，进行正确性及同步性校验，当用户提供的字幕文件与视频中的发声内容一致，则说明内容准确且同步。
183.可选地，基于用户字幕作为外层遍历条件，在自动语音识别出的字幕中进行如下操作：一，使用用户字幕在自动语音识别出的字幕(asr字幕)中查找起始时间所在段落、中间时间所在段落、结束时间所在段落，并将找到的多个自动语音识别出的字幕段内容的字幕进行合并、单字时间提取等操作留存后用；二，使用滑动匹配方案滑动匹配找出当前用户字幕在合并后的自动语音识别出的字幕中的最大相似度起始点，并通过单字时间戳计算自动语音识别出的字幕的匹配点的起始时间留作后用；三、判定滑动匹配最高的相似度大于用户阈值，判断自动语音识别出的字幕匹配点的起始时间与用户字幕的起始时间差与不超过阈值。
184.可选地，当遍历完全部用户字幕后判断失败数量，即，判断不符合阈值的字幕相似度及起始时间差，如存在则判定成片字幕正确性检测失败，反之则检测成功。
185.下面针对第四步中的用户字幕起始时间查找及滑动对比方案做如下说明。
186.一，使用用户字幕在自动语音识别出的字幕(asr字幕)中查找起始时间所在段落、中间时间所在段落、结束时间所在段落，图6是根据本发明实施例的一种查找用户字幕起始时间的示意图，如图6所示，在左侧第一asr字幕段中查找与右侧用户字幕对应的起始时间段，找到后在第二asr字幕段中查找与用户字幕对应的中间时间段，最后，在第三asr字幕段中查找与用户字幕对应的结束时间段，图6中三段asr字幕即为用户字幕匹配段落。
187.二，使用滑动匹配方案滑动匹配找出当前用户字幕在合并后的自动语音识别出的字幕中的最大相似度起始点，图7是根据本发明实施例的一种滑动相似度对比的示意图，如图7所示，用户字幕沿着asr字幕从最左侧开始向右侧进行滑动，每滑动一个字进行一次相似度计算，从左到右滑动即可找到最大相似度点。
188.上述实施例，利用起止时间区间查找及合并方案，提升检测准确度；同时，采用滑
动相似性对比加asr识别单字时间计算字幕同步性，提升检测准确度，从而实现了提高对视频的字幕进行校验的效率的技术效果，解决了对视频的字幕进行校验的效率低的技术问题。
189.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
190.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的视频处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
191.实施例3
192.根据本发明实施例，还提供了一种用于实施上述图2所示的视频字幕处理方法的视频字幕处理装置。
193.图8是根据本发明实施例的一种视频字幕处理装置的示意图。如图8所示，该视频字幕处理装置800可以包括：第一提取单元802、第一转换单元804、第一获取单元806和第一校验单元808。
194.第一提取单元802，用于从视频中提取出音频数据。
195.第一转换单元804，用于将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间。
196.第一获取单元806，用于基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度。
197.第一校验单元808，用于基于相似度确定待校验字幕是否正确。
198.此处需要说明的是，上述第一提取单元802、第一转换单元804、第一获取单元806和第一校验单元808对应于实施例1中的步骤s202至步骤s208，四个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
199.根据本发明实施例，还提供了一种用于实施上述图3所示的视频处理方法的视频处理装置。
200.图9是根据本发明实施例的另一种视频处理装置的示意图。如图9所示，该视频处理装置900可以包括：第二获取单元902、第二提取单元904、第二转换单元906、第三获取单元908、第一确定单元910和第一输出单元912。
201.第二获取单元902，用于通过调用第一接口获取视频，其中，第一接口包括第一参数，第一参数的参数值为视频。
202.第二提取单元904，用于从视频中提取出音频数据。
203.第二转换单元906，用于将音频数据转换为视频的至少一段待校验字幕，且确定待
校验字幕的起始时间和待校验字幕的终止时间。
204.第三获取单元908，用于基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度。
205.第一确定单元910，用于基于相似度确定待校验字幕是否正确，得到校验结果。
206.第一输出单元912，用于通过调用第二接口输出校验结果，其中，第二接口包括第二参数，第二参数的参数值为校验结果。
207.此处需要说明的是，上述第二获取单元902、第二提取单元904、第二转换单元906、第三获取单元908、第一确定单元910和第一输出单元912对应于实施例1中的步骤s302至步骤s312，六个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
208.根据本发明实施例，还提供了一种用于实施上述图4所示的视频字幕处理方法的视频字幕处理装置。
209.图10是根据本发明实施例的另一种视频字幕处理装置的示意图。如图10所示，该视频字幕处理装置1000可以包括：第四获取单元1002、第三提取单元1004、第三转换单元1006、第五获取单元1008、第二确定单元1010和第一返回单元1012。
210.第四获取单元1002，用于从短视频平台获取目标短视频。
211.第三提取单元1004，用于从目标短视频中提取出音频数据。
212.第三转换单元1006，用于将音频数据转换为目标短视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间。
213.第五获取单元1008，用于基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与目标短视频的参照字幕之间的相似度。
214.第二确定单元1010，用于基于相似度确定待校验字幕是否正确，得到校验结果。
215.第一返回单元1012，用于将校验结果返回至短视频平台，其中，在校验结果用于表示待校验字幕有误时，校验结果用于使短视频平台对待校验字幕进行调整，在校验结果用于表示待校验字幕正确时，校验结果用于使短视频平台在播放目标短视频时显示待校验字幕。
216.此处需要说明的是，上述第四获取单元1002、第三提取单元1004、第三转换单元1006、第五获取单元1008、第二确定单元1010和第一返回单元1012对应于实施例1中的步骤s402至步骤s412，六个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
217.根据本发明实施例，还提供了一种用于实施上述图5所示的视频字幕处理方法的视频字幕处理装置。
218.图11是根据本发明实施例的另一种视频字幕处理装置的示意图。如图11所示，该视频处理装置1100可以包括：第一显示单元1102和第二显示单元1104。
219.第一显示单元1102，用于响应作用于操作界面上的视频输入指令，在操作界面上显示视频。
220.第二显示单元1104，用于响应作用于操作界面上的字幕校验指令，在操作界面上
显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
221.此处需要说明的是，上述第一显示单元1102和第二显示单元1104对应于实施例1中的步骤s502至步骤s504，两个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
222.根据本发明实施例，还提供了一种视频字幕处理方法的视频字幕处理装置。
223.该视频字幕处理装置可以包括：第三显示单元、第四显示单元和第五显示单元。
224.第三显示单元，用于响应作用于虚拟现实设备上的视频输入指令，在虚拟现实设备的显示屏上显示用于呈现虚拟现实场景的视频的画面。
225.第四显示单元，用于响应作用于虚拟现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
226.第五显示单元，用于响应于校验结果表示出字幕正确，在显示屏上显示正确的字幕。
227.此处需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
228.根据本发明实施例，还提供了一种视频字幕处理方法的视频字幕处理装置。
229.该视频字幕处理装置可以包括：第六显示单元、第七显示单元和第八显示单元。
230.第六显示单元，用于响应作用于增强现实设备上的视频输入指令，在增强现实设备的显示屏上显示对真实场景进行拍摄而得到的视频的画面。
231.第七显示单元，用于响应作用于增强现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
232.第八显示单元，用于响应于校验结果表示出字幕正确，在显示屏上将正确的字幕显示在视频的画面中。
233.此处需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
234.在该实施例的视频处理装置中，通过第一提取单元，从视频中提取出音频数据；通过第一转换单元，用于将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；通过第一获取单元，用于基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；通过第一校验单元，用于基于相似度确定待校验字幕是否正确。也就是说，本发明基于目标视频的目标字幕的起止时间与目标参照字幕之间进行相似度对比，确定目标视频的目标字幕的正确性，无需人工，从而实现了提高对视频的字幕进行校验的效率的技术效果，解决了对视频的字幕进行校验的效率低的技术问题。
235.实施例4
236.本发明的实施例可以提供一种视频处理系统，该视频处理系统可以包括计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
237.可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
238.在本实施例中，上述计算机终端可以执行视频处理方法中以下步骤的程序代码：从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确。
239.可选地，图12是根据本发明实施例的一种计算机终端的结构框图。如图12所示，该计算机终端a可以包括：一个或多个(图中仅示出一个)处理器1202、存储器1204、以及传输装置1206。
240.其中，存储器可用于存储软件程序以及模块，如本发明实施例中的视频处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及视频处理，即实现上述的视频处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
241.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定目标字幕的起始时间和目标字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确
242.可选地，上述处理器还可以执行如下步骤的程序代码：响应于参照字幕的目标时间处于待校验字幕的起始时间和待校验字幕的终止时间之间，则获取待校验字幕与参照字幕之间的相似度，其中，目标时间包括参照字幕的起始时间和/或参照字幕的终止时间。
243.可选地，上述处理器还可以执行如下步骤的程序代码：响应于参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间，则对第一段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕；对目标合并字幕和参照字幕进行对比，得到相似度。
244.可选地，上述处理器还可以执行如下步骤的程序代码：在目标合并字幕中确定与参照字幕中的子参照字幕之间的最大相似度的子待校验字幕；将子待校验字幕对应的最大相似度确定为相似度。
245.可选地，上述处理器还可以执行如下步骤的程序代码：响应于相似度大于第一目标阈值，且子待校验字幕的起始时间和子参照字幕的起始时间之间的差值小于第二目标阈
值，则确定子待校验字幕正确；响应于相似度不大于第一目标阈值，和/或，子待校验字幕的起始时间和子参照字幕的起始时间之间的差值不小于第二目标阈值，则确定子待校验字幕有误。
246.可选地，上述处理器还可以执行如下步骤的程序代码：基于子参照字幕的字幕长度在目标合并字幕中确定待比对的多个子合并字幕；获取每个子合并字幕与子参照字幕之间的相似度，得到多个相似度；将多个相似度中最大相似度对应的子字幕，确定为子待校验字幕。
247.可选地，上述处理器还可以执行如下步骤的程序代码：响应于参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，参照字幕的中间时间处于第三段待校验字幕的起始时间和第三段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间，则对第一段待校验字幕、第三段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕。
248.可选地，上述处理器还可以执行如下步骤的程序代码：将音频数据转换为至少一段原始字幕；对原始字幕中的无效字幕进行调整或删除，得到待校验字幕。
249.可选地，上述处理器还可以执行如下步骤的程序代码：获取视频的原始参照字幕；对原始参照字幕中的无效字幕进行调整或删除，得到参照字幕。
250.作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取视频，其中，第一接口包括第一参数，第一参数的参数值为视频；从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确，得到校验结果；通过调用第二接口输出校验结果，其中，第二接口包括第二参数，第二参数的参数值为校验结果。
251.作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：从短视频平台获取目标短视频；从目标短视频中提取出音频数据；将音频数据转换为目标短视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与目标短视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确，得到校验结果；将校验结果返回至短视频平台，其中，在校验结果用于表示待校验字幕有误时，校验结果用于使短视频平台对待校验字幕进行调整，在校验结果用于表示待校验字幕正确时，校验结果用于使短视频平台在播放目标短视频时显示待校验字幕。
252.作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应作用于操作界面上的视频输入指令，在操作界面上显示视频；响应作用于操作界面上的字幕校验指令，在操作界面上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
253.作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程
序，以执行下述步骤：响应作用于虚拟现实设备上的视频输入指令，在虚拟现实设备的显示屏上显示用于呈现虚拟现实场景的视频的画面；响应作用于虚拟现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到；响应于校验结果表示出字幕正确，在显示屏上显示正确的字幕。
254.可选地，上述处理器还可以执行如下步骤的程序代码：响应于校验结果表示出字幕有误，在显示屏上显示基于校校验结果调整后的字幕。
255.作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应作用于增强现实设备上的视频输入指令，在增强现实设备的显示屏上显示对真实场景进行拍摄而得到的视频的画面；响应作用于增强现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到；响应于校验结果表示出字幕正确，在显示屏上将正确的字幕显示在视频的画面中。
256.本发明实施例，提供了一种视频处理方法，基于目标视频的目标字幕的起止时间与目标参照字幕之间进行相似度对比，确定目标视频的目标字幕的正确性，无需人工，从而实现了提高对视频的字幕进行校验的效率的技术效果，解决了对视频的字幕进行校验的效率低的技术问题。
257.本领域普通技术人员可以理解，图12所示的结构仅为示意，计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图12其并不对上述计算机终端的结构造成限定。例如，计算机终端a还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。
258.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
259.实施例4
260.本发明的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例一所提供的视频处理方法所执行的程序代码。
261.可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
262.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确。
263.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：响应于参照字幕的目标时间处于待校验字幕的起始时间和待校验字幕的终止时间之间，则获取待校验字幕与参照字幕之间的相似度，其中，目标时间包括参照字幕的起始时间和/或参照字幕的终止时间。
264.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：响应于参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间，则对第一段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕；对目标合并字幕和参照字幕进行对比，得到相似度。
265.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：在目标合并字幕中确定与参照字幕中的子参照字幕之间的最大相似度的子待校验字幕；将子待校验字幕对应的最大相似度确定为相似度。
266.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：响应于相似度大于第一目标阈值，且子待校验字幕的起始时间和子参照字幕的起始时间之间的差值小于第二目标阈值，则确定子待校验字幕正确；响应于相似度不大于第一目标阈值，和/或，子待校验字幕的起始时间和子参照字幕的起始时间之间的差值不小于第二目标阈值，则确定子待校验字幕有误。
267.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于子参照字幕的字幕长度在目标合并字幕中确定待比对的多个子合并字幕；获取每个子合并字幕与子参照字幕之间的相似度，得到多个相似度；将多个相似度中最大相似度对应的子字幕，确定为子待校验字幕。
268.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：响应于参照字幕的起始时间处于第一段待校验字幕的起始时间和第一段待校验字幕的终止时间之间，参照字幕的中间时间处于第三段待校验字幕的起始时间和第三段待校验字幕的终止时间之间，且参照字幕的终止时间处于第二段待校验字幕的起始时间和第二段待校验字幕的终止时间之间，则对第一段待校验字幕、第三段待校验字幕和第二段待校验字幕进行合并，得到目标合并字幕。
269.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：将音频数据转换为至少一段原始字幕；对原始字幕中的无效字幕进行调整或删除，得到待校验字幕。
270.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：获取视频的原始参照字幕；对原始参照字幕中的无效字幕进行调整或删除，得到参照字幕。
271.作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取视频，其中，第一接口包括第一参数，第一参数的参数值为视频；从视频中提取出音频数据；将音频数据转换为视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确，得到校验结果；通过调用第二接口输出校验结果，其中，第二接口包括第二参数，第二参数的参数值为校验结果。
272.作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程
序代码：从短视频平台获取目标短视频；从目标短视频中提取出音频数据；将音频数据转换为目标短视频的至少一段待校验字幕，且确定待校验字幕的起始时间和待校验字幕的终止时间；基于待校验字幕的起始时间和待校验字幕的终止时间，获取待校验字幕与目标短视频的参照字幕之间的相似度；基于相似度确定待校验字幕是否正确，得到校验结果；将校验结果返回至短视频平台，其中，在校验结果用于表示待校验字幕有误时，校验结果用于使短视频平台对待校验字幕进行调整，在校验结果用于表示待校验字幕正确时，校验结果用于使短视频平台在播放目标短视频时显示待校验字幕。
273.作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的视频输入指令，在操作界面上显示视频；响应作用于操作界面上的字幕校验指令，在操作界面上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到。
274.作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于虚拟现实设备上的视频输入指令，在虚拟现实设备的显示屏上显示用于呈现虚拟现实场景的视频的画面；响应作用于虚拟现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到；响应于校验结果表示出字幕正确，在显示屏上显示正确的字幕。
275.可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：响应于校验结果表示出字幕有误，在显示屏上显示基于校校验结果调整后的字幕。
276.作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于增强现实设备上的视频输入指令，在增强现实设备的显示屏上显示对真实场景进行拍摄而得到的视频的画面；响应作用于增强现实设备上的字幕校验指令，在显示屏上显示视频的待校验字幕的校验结果，其中，校验结果为基于待校验字幕与视频的参照字幕之间的相似度对待校验字幕进行确定得到，相似度为基于待校验字幕的起始时间和待校验字幕的终止时间得到，待校验字幕为由视频的音频数据转换得到；响应于校验结果表示出字幕正确，在显示屏上将正确的字幕显示在视频的画面中。
277.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
278.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
279.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
280.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显
示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
281.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
282.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
283.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、机器学习的训练方法及相关装置、设备与流程

视频处理方法和存储介质与流程

相关文献

最热文献