基于视频图像识别的并行信号处理方法及系统与流程

2022-05-31 18:01:25 来源：中国专利 TAG：

1.本发明涉及信号处理技术领域，尤其涉及一种基于视频图像识别的并行信号处理方法及系统。

背景技术：

2.随着多媒体播放技术的快速发展，通常在播放音像文件时，最容易遇到的问题除了文件本身在存储时可能产生的错误之外，图像与声音在播放时不同步最易导致观赏者的不悦，如此一来，良好的音像解码装置将会在未来的休闲市场愈显重要。
3.公开号为cn101212588的专利文献公开了一种视频信号和音频信号同步播放的方法，由于扬声器播放其中一音频帧的时间会早于显示模块播放相对应该音频帧的图像帧有(t2-t1)单位时间，故扬声器必须以 (t2-t1)单位时间延迟输出相对应该音频信号的声波，来达到与显示模块显示相对应的图像画面同步的目的。利用延迟输出相对应音频信号的声波的作用原理，以解决视频信号由音像信号接收模块传输至显示模块以被播放的传输时间会大于音频信号由音像信号接收模块传输至扬声器以被播放的传输时间而造成音像不同步的问题，进而达到同步播放视频信号及音频信号的目的，而可有效地改善音像信号的播放品质。但是虽然视频信号和音频信号的起始时间节点同步后，但是在实际播放过程中依然存在视频卡顿或是音频卡顿的情况，因此在播放过程中依然存在不同步的问题。

技术实现要素：

4.为此，本发明提供一种基于视频图像识别的并行信号处理方法，可以解决现有技术中的并行信号无法实时同步的技术问题。
5.为实现上述目的，本发明第一方面提供一种基于视频图像识别的并行信号处理方法，包括：接收待播放音频和待播放视频；对所述待播放视频中进行目标特征识别，并对目标特征进行标记，确定标记帧；将所述待播放音频的播放起点置于所述标记帧处；在对音频进行播放时，在所述标记帧处进行视频的播放；对所述待播放视频中进行目标特征识别包括：将视频段分为若干帧，对于任意帧画面，确定在对帧画面进行人脸识别，确定前一帧画面中的人嘴处于闭合状态，下一帧画面中的人嘴处于打开状态，则将该下一帧画面作为标记帧；在对脸部肌肉的变化情况进行识别时，以前一帧的人脸面部肌肉的状态作为基准点，在任意侧的脸部进行判断，若是在下一帧画面中的面部肌肉相对于基准点存在位移差，且所述位移差在预设的标准位移差范围内，所述标准位移差是根据人在开口讲话过程中所引起的面部肌肉活动的活动极大值和极小值，所述极大值为面部肌肉在人嘴说话时所能达到的最大值，对应的极小值为面部肌肉在人嘴说话时多能达到的极小值，比较下一帧画面中的面部肌肉相对于基准点存在位移差是否在预设的标准位移差范围内，若位移差在标准
位移差范围内，则表示此时存在画面中的人在讲话，则该帧画面则为标记帧，在标记帧处进行语音的播放；若位移差在标准位移差范围内，此时画面中的人是否进行讲话则需要进一步判断。
6.进一步地，在接收到待播放音频和待播放视频后，还包括对所述待播放音频根据语义的完整性进行分段，将所述待播放音频分为若干个语段；相应地，所述待播放视频也根据语段的数量分割为相应地若干视频段；在任意视频段内均设置标记帧，当视频播放至对应的标记帧处播放对应的音频。
7.进一步地，在对画面进行人脸识别时，还包括识别脸部肌肉的变化情况，用以在存在人嘴打开状态的进一步辅助，当存在人嘴打开且对应的脸部肌肉存在变化时，确定该帧画面为标记帧。
8.进一步地，若位移差《标准位移差范围的极小值，则判定画面中是否存在玩偶，若是在画面中存在玩偶，判定玩偶的嘴巴在前一帧处于闭合状态，在下一帧处于打开状态，此时则判定该画面为腹语演示画面，此时虽然人的面部肌肉的活动状态显示没有说话，此时也要将首次出现玩偶最后由闭合到开启的开启画面帧作为标记帧，在标记帧处进行对应语音段的播放。
9.进一步地，若位移差》标准位移差范围的极大值，则判定当前的视频段内不存在标记帧，该视频段内为空白语音段，此时需要记录当前位移差对应的实际面积肌肉的起伏值，并在下一视频段的判断过程中，将该语音段内的异常值更新下一视频段内的标准位移差范围。
10.另一方面，本发明还提供一种应用如上所述的基于视频图像识别的并行信号处理方法的基于视频图像识别的并行信号处理系统，该系统包括：接收模块、识别模块、标记模块和播放模块；接收模块用以接收待播放音频和待播放视频；识别模块用以对所述待播放视频中进行目标特征识别，所述识别模块还用于将视频段分为若干帧，对于任意帧画面，确定在对帧画面进行人脸识别，确定前一帧画面中的人嘴处于闭合状态，下一帧画面中的人嘴处于打开状态，则将该下一帧画面作为标记帧；所述识别模块包括肌肉状态识别单元，用以在对脸部肌肉的变化情况进行识别时，以前一帧的人脸面部肌肉的状态作为基准点，在任意侧的脸部进行判断，若是在下一帧画面中的面部肌肉相对于基准点存在位移差，且所述位移差在预设的标准位移差范围内，所述标准位移差是根据人在开口讲话过程中所引起的面部肌肉活动的活动极大值和极小值，所述极大值为面部肌肉在人嘴说话时所能达到的最大值，对应的极小值为面部肌肉在人嘴说话时多能达到的极小值，比较下一帧画面中的面部肌肉相对于基准点存在位移差是否在预设的标准位移差范围内，若位移差在标准位移差范围内，则表示此时存在画面中的人在讲话，则该帧画面则为标记帧，在标记帧处进行语音的播放；若位移差在标准位移差范围内，此时画面中的人是否进行讲话则需要进一步判断；标记模块用以对目标特征进行标记，确定标记帧，将所述待播放音频的播放起点置于所述标记帧处；
播放模块，用以在对音频进行播放时，在所述标记帧处进行视频的播放。
11.进一步地，还包括分段模块，用以在接收到待播放音频和待播放视频后，对所述待播放音频根据语义的完整性进行分段，将所述待播放音频分为若干个语段；相应地，所述待播放视频也根据语段的数量分割为相应地若干视频段；在任意视频段内均设置标记帧，当视频播放至对应的标记帧处播放对应的音频。
12.进一步地，在对画面进行人脸识别时，还包括识别脸部肌肉的变化情况，用以在存在人嘴打开状态的进一步辅助，当存在人嘴打开且对应的脸部肌肉存在变化时，确定该帧画面为标记帧。
13.进一步地，所述识别模块还用于在位移差《标准位移差范围的极小值，则判定画面中是否存在玩偶，若是在画面中存在玩偶，判定玩偶的嘴巴在前一帧处于闭合状态，在下一帧处于打开状态，此时则判定该画面为腹语演示画面，此时虽然人的面部肌肉的活动状态显示没有说话，此时也要将首次出现玩偶最后由闭合到开启的开启画面帧作为标记帧，在标记帧处进行对应语音段的播放。
14.进一步地，所述识别模块还用以在位移差》标准位移差范围的极大值时，则判定当前的视频段内不存在标记帧，该视频段内为空白语音段，此时需要记录当前位移差对应的实际面积肌肉的起伏值，并在下一视频段的判断过程中，将该语音段内的异常值更新下一视频段内的标准位移差范围。
15.与现有技术相比，本发明的有益效果在于，通过对待播放视频进行目标特征的识别，使得在进行视频播放时能够根据视频中的画面识别进行语音播放的节点进行有效控制，对于语音播放的节点的确定更为精准，实现视频播放与语音播放的同步，减少视频播放时的语音延迟或是语音与实际播放画面不符的情况，提高用户体验。
16.尤其，通过对待播放视频和语音进行分段，使得对于每段均设置有标记帧，有效避免了当画面或语音卡顿产生错位时能够进行及时调整，通过对每个视频段设置标记帧，能够有效避免错位叠加的情况，进而提高对于语音播放节点的有效控制，提高多路并行信号的处理精度。
17.尤其，将目标识别设定为在进行人员在画面中首次出现开合嘴巴的画面作为标记帧，使得对于标记帧的选择更为精确，进而精准确定语音进入的时间，大大提高了对于目标识别的有效判定，本发明实施例中在进行目标识别时，在进行目标帧的确定时选择嘴巴开合的临界画面作为标记帧的画面，使得对于语音播放的时间节点能够进行有效控制，提高语音接入的准确性和及时性，提高信号处理的效率。
18.尤其，通过识别脸部肌肉的变化情况，来辅助判断对于人嘴开合状态的进一步判定，进而提高对于目标帧的判定精度，使得对于语音接入时间点的判定更为精准和高效，提高并行信号的处理效率。
19.尤其，通过设置标准位移差范围作为判定基础，将实际的位移差与标准位移差进行判断，若是实际的位移差在标准位移差的范围内，则表示画面中的人的嘴是张开的，且脸部肌肉的变化是符合嘴部张开的标准的，表示嘴巴的张开牵动了对应的脸部肌肉发生了变化，属于确实发生了语音输出，实现对于语音接入时间节点的准确判断，提高语音接入的准确性。
20.尤其，通过在画面中确定面部肌肉的位移差不在标准位移差范围内，当实际的位
移差小于标准位移差范围的极小值时，表示脸部肌肉的起伏变化不大，此时需要进一步判断在画面中是否存在人偶，若是人偶的嘴巴有闭合开启的状态变化，则判定该视频段可能为腹语演示画面，虽然人的嘴巴没有变化人的脸部肌肉也没有变化，此时也是需要对语音进行输出，能够对于画面的丰富性判断精准地判断，对于腹语的输出时间节点的判断更为精准，提高语音信号的处理效率。
21.尤其，通过对于每一段视频中的标准位移范围根据前一视频段的检测情况进行动态调整，使得对于每一段内的语音节点的识别更为精准和高效，有效提高在视频播放过程中语音接入的时间节点的判定精准度，进一步提高语音接入的效率，有效防止语音和画面不匹配的情形的发生，大大提高用户体验。
附图说明
22.图1为本发明实施例提供的基于视频图像识别的并行信号处理方法的流程示意图；图2为本发明实施例提供的基于视频图像识别的并行信号处理系统的结构示意图。
具体实施方式
23.为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。
24.下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。
25.需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
26.此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。
27.请参阅图1所示，本发明实施例提供的基于视频图像识别的并行信号处理方法，包括：步骤s100：接收待播放音频和待播放视频；步骤s200：对所述待播放视频中进行目标特征识别，并对目标特征进行标记，确定标记帧；步骤s300：将所述待播放音频的播放起点置于所述标记帧处；步骤s400：在对音频进行播放时，在所述标记帧处进行视频的播放。
28.具体而言，本发明实施例通过对待播放视频进行目标特征的识别，使得在进行视频播放时能够根据视频中的画面识别进行语音播放的节点进行有效控制，对于语音播放的
节点的确定更为精准，实现视频播放与语音播放的同步，减少视频播放时的语音延迟或是语音与实际播放画面不符的情况，提高用户体验。
29.具体而言，在接收到待播放音频和待播放视频后，还包括对所述待播放音频根据语义的完整性进行分段，将所述待播放音频分为若干个语段；相应地，所述待播放视频也根据语段的数量分割为相应地若干视频段；在任意视频段内均设置标记帧，当视频播放至对应的标记帧处播放对应的音频。
30.本发明实施例通过对待播放视频和语音进行分段，使得对于每段均设置有标记帧，有效避免了当画面或语音卡顿产生错位时能够进行及时调整，通过对每个视频段设置标记帧，能够有效避免错位叠加的情况，进而提高对于语音播放节点的有效控制，提高多路并行信号的处理精度。
31.具体而言，对所述待播放视频中进行目标特征识别包括：将视频段分为若干帧，对于任意帧画面，确定在对帧画面进行人脸识别，确定前一帧画面中的人嘴处于闭合状态，下一帧画面中的人嘴处于打开状态，则将该下一帧画面作为标记帧。
32.具体而言，本发明实施例中将目标识别设定为在进行人员在画面中首次出现开合嘴巴的画面作为标记帧，使得对于标记帧的选择更为精确，进而精准确定语音进入的时间，大大提高了对于目标识别的有效判定，本发明实施例中在进行目标识别时，在进行目标帧的确定时选择嘴巴开合的临界画面作为标记帧的画面，使得对于语音播放的时间节点能够进行有效控制，提高语音接入的准确性和及时性，提高信号处理的效率。
33.具体而言，在对画面进行人脸识别时，还包括识别脸部肌肉的变化情况，用以在存在人嘴打开状态的进一步辅助，当存在人嘴打开且对应的脸部肌肉存在变化时，确定该帧画面为标记帧。
34.具体而言，本发明实施例通过识别脸部肌肉的变化情况，来辅助判断对于人嘴开合状态的进一步判定，进而提高对于目标帧的判定精度，使得对于语音接入时间点的判定更为精准和高效，提高并行信号的处理效率。
35.具体而言，在对脸部肌肉的变化情况进行识别时，以前一帧的人脸面部肌肉的状态作为基准点，在任意侧的脸部进行判断，若是在下一帧画面中的面部肌肉相对于基准点存在位移差，且所述位移差在预设的标准位移差范围内，所述标准位移差是根据人在开口讲话过程中所引起的面部肌肉活动的活动极大值和极小值，所述极大值为面部肌肉在人嘴说话时所能达到的最大值，不同的人在讲话时所因为的肌肉起伏量是不同的，对应的极小值为面部肌肉在人嘴说话时多能达到的极小值，本发明实施例通过比较下一帧画面中的面部肌肉相对于基准点存在位移差是否在预设的标准位移差范围内，若位移差在标准位移差范围内，则表示此时存在画面中的人在讲话，则该帧画面则为标记帧，在标记帧处进行语音的播放；若位移差在标准位移差范围内，此时画面中的人是否进行讲话则需要进一步判断。
36.具体而言，本发明实施例通过设置标准位移差范围作为判定基础，将实际的位移差与标准位移差进行判断，若是实际的位移差在标准位移差的范围内，则表示画面中的人的嘴是张开的，且脸部肌肉的变化是符合嘴部张开的标准的，表示嘴巴的张开牵动了对应的脸部肌肉发生了变化，属于确实发生了语音输出，实现对于语音接入时间节点的准确判
断，提高语音接入的准确性。
37.具体而言，若位移差《标准位移差范围的极小值，则判定画面中是否存在玩偶，若是在画面中存在玩偶，判定玩偶的嘴巴在前一帧处于闭合状态，在下一帧处于打开状态，此时则判定该画面为腹语演示画面，此时虽然人的面部肌肉的活动状态显示没有说话，此时也要将首次出现玩偶最后由闭合到开启的开启画面帧作为标记帧，在标记帧处进行对应语音段的播放。
38.具体而言，本发明实施例通过在画面中确定面部肌肉的位移差不在标准位移差范围内，当实际的位移差小于标准位移差范围的极小值时，表示脸部肌肉的起伏变化不大，此时需要进一步判断在画面中是否存在人偶，若是人偶的嘴巴有闭合开启的状态变化，则判定该视频段可能为腹语演示画面，虽然人的嘴巴没有变化人的脸部肌肉也没有变化，此时也是需要对语音进行输出，能够对于画面的丰富性判断精准地判断，对于腹语的输出时间节点的判断更为精准，提高语音信号的处理效率。
39.具体而言，若位移差》标准位移差范围的极大值，则判定当前的视频段内不存在标记帧，该视频段内为空白语音段，此时需要记录当前位移差对应的实际面积肌肉的起伏值，并在下一视频段的判断过程中，将该语音段内的异常值更新下一视频段内的标准位移差范围。
40.具体而言，本发明实施例通过对于每一段视频中的标准位移范围根据前一视频段的检测情况进行动态调整，使得对于每一段内的语音节点的识别更为精准和高效，有效提高在视频播放过程中语音接入的时间节点的判定精准度，进一步提高语音接入的效率，有效防止语音和画面不匹配的情形的发生，大大提高用户体验。
41.具体而言，本发明实施例中的位移差不在标准位移差范围内，且位移差》标准位移差范围的极大值，在进行面部特征识别时，可能出现错误的识别，因此此时认定当前的视频段内不存在标记帧，由于在画面帧中的面部肌肉活动的位移差较大，且大于标准位移差范围的极大值，则判定为该视频画面中的每一帧中不存在产生正常语音帧的画面，无需对视频段进行标记，并且将该时段的产生的位移差增加至标准位移差范围内，使得在后续的识别过程中，增加了历史数据，从而实现对于历史数据的再利用，有效提高对于视频中的画面识别的精准度。
42.具体而言，本发明实施例中的基于视频图像识别的并行信号处理方法，通过对视频进行处理，实现对于画面的有效识别，并且根据历史数据来更新设置的标准位移差范围，实现对于预设标准的动态处理，实现利用历史数据来修正数据，有效提高并行信号处理的精度。
43.如图2所示，本发明实施例提供了一种基于视频图像识别的并行信号处理系统，该系统包括：接收模块10、识别模块20、标记模块30和播放模块40，其中接收模块10用以接收待播放音频和待播放视频；识别模块20用以对所述待播放视频中进行目标特征识别；标记模块30用以对目标特征进行标记，确定标记帧，将所述待播放音频的播放起点置于所述标记帧处；播放模块40，用以在对音频进行播放时，在所述标记帧处进行视频的播放。
44.具体而言，还包括分段模块11，用以在接收到待播放音频和待播放视频后，对所述
待播放音频根据语义的完整性进行分段，将所述待播放音频分为若干个语段；相应地，所述待播放视频也根据语段的数量分割为相应地若干视频段；在任意视频段内均设置标记帧，当视频播放至对应的标记帧处播放对应的音频。
45.具体而言，所述识别模块还用于将视频段分为若干帧，对于任意帧画面，确定在对帧画面进行人脸识别，确定前一帧画面中的人嘴处于闭合状态，下一帧画面中的人嘴处于打开状态，则将该下一帧画面作为标记帧。
46.具体而言，在对画面进行人脸识别时，还包括肌肉状态识别单元，用以识别脸部肌肉的变化情况，用以在存在人嘴打开状态的进一步辅助，当存在人嘴打开且对应的脸部肌肉存在变化时，确定该帧画面为标记帧。
47.所述肌肉识别单元还用于在对脸部肌肉的变化情况进行识别时，以前一帧的人脸面部肌肉的状态作为基准点，在任意侧的脸部进行判断，若是在下一帧画面中的面部肌肉相对于基准点存在位移差，且所述位移差在预设的标准位移差范围内，所述标准位移差是根据人在开口讲话过程中所引起的面部肌肉活动的活动极大值和极小值，所述极大值为面部肌肉在人嘴说话时所能达到的最大值，对应的极小值为面部肌肉在人嘴说话时多能达到的极小值，比较下一帧画面中的面部肌肉相对于基准点存在位移差是否在预设的标准位移差范围内，若位移差在标准位移差范围内，则表示此时存在画面中的人在讲话，则该帧画面则为标记帧，在标记帧处进行语音的播放；若位移差在标准位移差范围内，此时画面中的人是否进行讲话则需要进一步判断。
48.所述识别模块还用于在位移差《标准位移差范围的极小值时，则判定画面中是否存在玩偶，若是在画面中存在玩偶，判定玩偶的嘴巴在前一帧处于闭合状态，在下一帧处于打开状态，此时则判定该画面为腹语演示画面，此时虽然人的面部肌肉的活动状态显示没有说话，此时也要将首次出现玩偶最后由闭合到开启的开启画面帧作为标记帧，在标记帧处进行对应语音段的播放。
49.所述识别模块还用以在位移差》标准位移差范围的极大值时，则判定当前的视频段内不存在标记帧，该视频段内为空白语音段，此时需要记录当前位移差对应的实际面积肌肉的起伏值，并在下一视频段的判断过程中，将该语音段内的异常值更新下一视频段内的标准位移差范围。
50.本发明实施例中的基于视频图像识别的并行信号处理系统与上述基于视频图像识别的并行信号处理方法具备相同的技术特征，能够实现相同的技术效果，在此不做赘述。
51.至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
52.以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种针对材料均匀分布反应堆的中子输运求解方法

基于视频图像识别的并行信号处理方法及系统与流程

相关文献

最热文献