本申请属于音像识别,尤其涉及基于多模态的话者分离方法、装置、设备及存储介质。背景技术:1、说话人分离(speaker diarization),也叫话者分离,是指将语音按照说话人id分类,解决“who......