本发明属于视频数据处理,尤其涉及一种基于无标注网络视频数据的多模态预训练方法及系统。背景技术:1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。2、视频-语言预训练技术(vi......