技术新讯 > 电子通信装置的制造及其应用技术 > 监控对讲系统中视频录制处理方法、相关装置及存储介质与流程 > 正文

监控对讲系统中视频录制处理方法、相关装置及存储介质与流程

国知局
2024-08-02 15:00:22

本技术实施例涉及音视频，尤其涉及一种监控对讲系统中视频录制处理方法、相关装置及存储介质。

背景技术：

1、监控对讲系统是一种结合了监控技术和对讲功能的系统。它可以通过音频和视频信号传输实现远程交流。这种系统在各个行业中起到重要的作用，不仅可以提高工作效率，还可以增强安全性和保障。以网络摄像头语音对讲为例，网络摄像头语音对讲是一种可以通过网络摄像头进行远程监控和通信的技术。它可以让你通过网络摄像头观察到远程目标，并通过语音对讲功能进行交流，这种技术可以应用于家庭、工作场所和其他需要远程监控和通信的场合。

2、监控对讲系统的工作原理为：监控对讲系统通过将音频和视频信号整合，并通过远程控制和管理实现远程交流。主控台负责接收和处理来自对讲设备和网络摄像头的信号，并转发给指定的终端设备。用户可以通过对讲设备进行双向语音通话，同时观看网络摄像头的实时画面。远程控制和管理功能使得用户可以随时操控系统，进行设置和参数调整。

3、在对现有技术的研究和实践过程中，本技术实施例的发明人发现，虽然目前的网络摄像头语音对讲系统可以实现远程的用户a监控端app的对讲功能来实现与在监控设备周围的用户b之间的通话，但是，用户a通过对讲功能在讲话期间的语音是无法被录制到监控录像中的，并且用户b在说话期间，只要用户a也通过对讲功能说话，那监控录像中就会对用户b的说话声无法完整的录到监控录像中，例如监控录像出现：在用户a同时讲话期间用户a的语音丢失、跳音、断断续续等异常问题。如果后期任意权限用户在监控端后台想要下载或者保存两人之间的互动录像时，就会通过回放功能发现监控录像不仅无法录下用户a的说话声，还丢失用户b的部分说话声，导致用于后期回忆或者用作证据等场景时出现不完整问题，影响用户体验，甚至丢失关键的宝贵信息。

技术实现思路

1、本技术实施例提供了一种监控对讲系统中视频录制处理方法、相关装置及存储介质，能够得到可视对讲模式下远端用户与现场用户之间的对话互动录像，该对话互动录像在语音信号上丢失少，该对话互动录像的音频内容完整，关键信息的丢失率低。

2、第一方面，本技术实施例从所述监控管理后台角度提供一种监控对讲系统中视频录制处理方法，所述监控对讲系统包括监控管理后台、至少一个网络摄像头、至少一个监控远程客户端；所述方法应用于监控远程客户端与网络摄像头之间的通信交互，使用所述监控远程客户端的远端用户当前开启可视对讲模式，所述网络摄像头的收音范围内的至少一个现场用户面向所述网络摄像头讲话；所述监控远程客户端内置第一麦克风，所述网络摄像头内置第二麦克风和扬声器；所述方法包括：

3、所述监控管理后台从所述监控远程客户端获取第一数字语音信号，所述第一数字语音信号为所述监控远程客户端对接收的所述远端用户在第一时段的第一模拟语音信号转化和回音消除处理得到，所述第一模拟语音信号为通过所述第一麦克风采集的所述远端用户的说话声；

4、所述监控管理后台从所述网络摄像头获取所述现场用户在所述第一时段的第二数字语音信号和第一视频画面；

5、所述监控管理后台将所述第一数字语音信号、所述第二数字语音信号和所述第一视频画面合成，得到第一目标录像并保存至云端或者所述网络摄像头的本地存储器。

6、第二方面，本技术实施例从监控远程客户端提供了一种监控对讲系统中视频录制处理方法，所述监控对讲系统包括监控管理后台、至少一个网络摄像头、至少一个监控远程客户端；所述方法应用于监控远程客户端与网络摄像头之间的通信交互，使用所述监控远程客户端的远端用户当前开启可视对讲模式，所述网络摄像头的收音范围内的至少一个现场用户面向所述网络摄像头讲话；所述监控远程客户端内置第一麦克风，所述网络摄像头内置第二麦克风和扬声器；

7、所述监控远程客户端接收所述远端用户在第一时段的第一模拟语音信号，将所述第一模拟语音信号转化为第一数字语音信号，对所述第一数字语音信号进行回音消除处理，并发送至所述监控管理后台，所述第一模拟语音信号为通过所述第一麦克风采集所述远端用户的说话声后得到；

8、所述监控远程客户端接收所述远端用户针对第一目标录像的第一播放指令；

9、所述监控远程客户端响应于所述第一播放指令，播放所述第一目标录像；其中，所述第一目标录像为所述监控管理后台将所述第一数字语音信号、第二数字语音信号和第一视频画面合成得到，所述第二数字语音信号和所述第一视频画面为所述监控管理后台从所述网络摄像头获取的所述现场用户在所述第一时段的说话声和视频画面。

10、第三方面，本技术实施例提供一种应用于监控对讲系统的视频录制装置，具有实现对应于上述第一方面提供的监控对讲系统中视频录制处理方法的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，模块可以是软件和/或硬件。

11、一些实施方式中，所述监控对讲系统包括监控管理后台、至少一个网络摄像头、至少一个监控远程客户端；所述视频录制装置应用于监控管理后台，使用所述监控远程客户端的远端用户当前开启可视对讲模式，所述网络摄像头的收音范围内的至少一个现场用户面向所述网络摄像头讲话；所述监控远程客户端内置第一麦克风，所述网络摄像头内置第二麦克风和扬声器。所述应用于监控对讲系统的视频录制包括：

12、收发模块，用于从所述监控远程客户端获取第一数字语音信号，所述第一数字语音信号为所述监控远程客户端对接收的所述远端用户在第一时段的第一模拟语音信号转化和回音消除处理得到，所述第一模拟语音信号为通过所述第一麦克风采集的所述远端用户的说话声；

13、所述收发模块还用于从所述网络摄像头获取所述现场用户在所述第一时段的第二数字语音信号和第一视频画面；

14、处理模块，用于将所述收发模块获取的所述第一数字语音信号、所述第二数字语音信号和所述第一视频画面合成，得到第一目标录像并保存至云端或者所述监控远程客户端本地存储器。

15、一些实施方式中，所述处理模块还用于：

16、从所述监控远程客户端获取第三数字语音信号，以及从所述网络摄像头获取所述现场用户在第二时段的第四数字语音信号和第二视频画面；其中，所述第三数字语音信号为所述第一麦克风录制的所述远端用户在第二时段的说话声；所述第四数字语音信号为所述第二麦克风录制的所述现场用户在所述第二时段内的至少一个子时段内的说话声；

17、按照实际录制的时间戳的先后顺序，将所述第三数字语音信号与所述第四数字语音信号叠加，并合成到所述第二视频画面中，得到第二目标录像；

18、其中，所述第二时段与所述第一时段无交集，或者，所述第一时段与所述第二时段至少有部分交集。

19、一些实施方式中，所述处理模块还用于：

20、所述监控管理后台分析所述第二数字语音信号的音量是否小于预设音量；

21、若小于，则生成并通过所述扬声器播放第一语音提示，所述第一语音提示用于提示所述现场用户缩小与所述网络摄像头之间的收音距离；或者，所述第一语音提示用于提示所述现场用户移动至所述第二麦克风的有效收音距离内的预设物理区域内，并同步在所述远端用户的显示界面上对所述现场用户进行跟踪检测，当检测到所述现场用户移动至所述预设物理区域内后，提示收音正常。

22、第四方面，本技术实施例还提供实施上述第二方面中所述的监控对讲系统中视频录制处理方法的一种应用于监控对讲系统的视频处理装置，所述视频处理装置包括：

23、一些实施方式中，所述监控对讲系统包括监控管理后台、至少一个网络摄像头、至少一个监控远程客户端；所述方法应用于监控远程客户端与网络摄像头之间的通信交互，使用所述监控远程客户端的远端用户当前开启可视对讲模式，所述网络摄像头的收音范围内的至少一个现场用户面向所述网络摄像头讲话；所述监控远程客户端内置第一麦克风，所述网络摄像头内置第二麦克风和扬声器。所述视频处理装置包括：

24、收发模块，用于接收所述远端用户在第一时段的第一模拟语音信号，将所述第一模拟语音信号转化为第一数字语音信号，对所述第一数字语音信号进行回音消除处理，并发送至所述监控管理后台，所述第一模拟语音信号为通过所述第一麦克风采集所述远端用户的说话声后得到；

25、所述收发模块还用于接收所述远端用户针对第一目标录像的第一播放指令；

26、处理模块，用于响应于所述第一播放指令，播放所述第一目标录像；其中，所述第一目标录像为所述监控管理后台将所述第一数字语音信号、第二数字语音信号和第一视频画面合成得到，所述第二数字语音信号和所述第一视频画面为所述监控管理后台从所述网络摄像头获取的所述现场用户在所述第一时段的说话声和视频画面。

27、一些实施方式中，在所述监控管理后台生成并通过所述扬声器播放第一语音提示之前，所述处理模块还用于：

28、通过所述收发模块接收所述远端用户的第一指令；

29、响应于所述第一指令，在监控画面设置预设物理区域，其中，所述预设物理区域为在所述第二麦克风的有效收音距离内且在所述网络摄像头的视场范围内的任意物理区域；

30、在所述可视对讲模式下，在所述监控远程客户端的显示界面上跟随所述现场用户的物理位移，动态更新和显示所述现场用户的检测框，所述检测框用于标识所述现场用户当前是否已处于所述预设物理区域内；

31、其中，所述第一语音提示用于提示所述现场用户缩小与所述网络摄像头之间的收音距离；或者，所述第一语音提示用于提示所述现场用户移动至所述第二麦克风的有效收音距离内的预设物理区域内。

32、第五方面，本技术实施例提供一种人脸应用于监控对讲系统的视频录制，所述人脸应用于监控对讲系统的视频录制包括：至少一个处理器和存储器；其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行上述第一方面、或者第二方面提供的任一种监控对讲系统中视频录制处理方法中的步骤。

33、第六方面，本技术实施例提供一种计算机可读存储介质，具有实现对应于上述第一方面提供的监控对讲系统中视频录制处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。具体的，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本技术实施例中第一方面、第一方面的任一种实施方式、或者第二方面提供的任一种监控对讲系统中视频录制处理方法中的步骤。

34、相较于现有技术，本技术实施例提供的方案中，在监控管理后台从所述监控远程客户端、网络摄像头分别获取在第一时段内的远端用户的第一数字语音信号、现场用户的第二数字语音信号后和第一视频画面后，监控管理后台将所述第一数字语音信号、所述第二数字语音信号和所述第一视频画面合成，得到第一目标录像并保存。由于第一目标录像包括对话双方的第一数字语音信号、所述第二数字语音信号和所述第一视频画面，因此，相较于现有技术不会将使用可视对讲模式的远端用户的说话声录制到录像中(基本都是类似水下气泡音代替)而言，本技术能够比较完整的保留远端用户在第一时段内的说话声，可见，最终得到的第一目标录像能够完整的再现第一时段内远端用户与现场用户的整个互动过程。由此，后期任意权限用户在监控端后台想要下载或者保存两人之间的互动录像时，只需要通过回放功能即可下载包括远端用户说话声的监控录像，可直接将该监控录像用于后期回忆或者用作证据等场景时，能够直接得到可视对讲模式下远端用户与现场用户之间的对话互动录像，其在语音信号上丢失少，该对话互动录像的音频内容完整，关键信息的丢失率低，用户体验高。