技术新讯 > 电子通信装置的制造及其应用技术 > 视频会议的任务生成方法和系统、电子设备及存储介质与流程  >  正文

视频会议的任务生成方法和系统、电子设备及存储介质与流程

  • 国知局
  • 2024-08-02 12:43:28

本发明涉及人工智能,尤其涉及一种视频会议的任务生成方法和系统、电子设备及存储介质。

背景技术:

1、相关技术中,目标对象采用单一的语音对视频会议进行控制,但语音中包含的语义信息有限,对目标对象的说话意图难以识别,使得视频会议无法及时对目标对象的语音指令进行准确响应,导致视频会议无法生成任务或者生成错误的任务,影响了视频会议任务的正常进行。

技术实现思路

1、本发明实施例提供了一种视频会议的任务生成方法和系统、电子设备及存储介质,旨在提高对视频会议中目标对象意图识别的准确率,从而提高视频会议的控制准确率。

2、为实现上述目的,本申请实施例的第一方面提出了一种视频会议的任务生成方法,所述方法包括:

3、获取目标对象在视频会议中的视频数据和语音数据;

4、通过预设语义对齐网络对所述视频数据和所述语音数据进行多模态语义对齐,得到文本语义特征;

5、通过预设意图识别模型对所述文本语义特征进行意图识别,得到所述目标对象的对象意图,所述对象意图用于指示所述目标对象对所述视频会议的任务操作;

6、根据所述对象意图进行任务生成,得到针对所述视频会议的任务。

7、在一些实施例,所述预设语义对齐网络根据以下步骤训练得到:

8、获取样本视频数据、样本语音数据和第一样本文本数据;

9、通过预设多模态编码器,对所述样本视频数据进行视频特征提取得到样本视频特征向量,对所述样本语音数据进行语音特征提取得到样本语音特征向量;

10、对所述样本视频特征向量和所述样本语音特征向量进行特征融合,得到多模态特征向量;

11、对所述第一样本文本数据进行文本特征提取,得到样本文本特征向量;

12、对所述多模态特征向量和所述样本文本特征向量进行对比学习,得到第一目标损失数据;

13、根据所述第一目标损失数据对所述预设多模态编码器进行模型参数更新,得到所述预设语义对齐网络。

14、在一些实施例,所述对所述多模态特征向量和所述样本文本特征向量进行对比学习,得到第一目标损失数据,包括:

15、根据所述样本文本特征向量对所述多模态特征向量进行语义对齐,得到第一损失;

16、根据所述多模态特征向量对所述样本文本特征向量进行语义对齐,得到第二损失;

17、根据所述第一损失和所述第二损失进行损失计算,得到所述第一目标损失数据。

18、在一些实施例,所述通过预设意图识别模型对所述文本语义特征进行意图识别,得到所述目标对象的对象意图,包括:

19、通过所述预设意图识别模型对所述文本语义特征进行领域识别,得到所述文本语义特征对应的领域;

20、对所述领域和所述文本语义特征进行特征拼接,得到文本融合特征;

21、对所述文本融合特征进行意图分类,得到对象意图类别;

22、对所述文本融合特征进行语义槽填充,得到对象意图描述;

23、根据所述对象意图类别和所述对象意图描述,确定所述对象意图。

24、在一些实施例,所述预设意图识别模型根据以下步骤训练得到:

25、获取第二样本文本数据;

26、对所述第二样本文本数据进行特征提取,得到文本特征向量;

27、通过预设模型对所述文本特征向量进行意图识别,得到样本意图类别信息和样本槽位填充词元信息;

28、根据所述样本意图类别信息和所述样本槽位填充词元信息进行损失计算,得到第三损失;

29、根据所述第二样本文本数据和所述文本特征向量进行损失计算,得到第四损失;

30、对所述第三损失和所述第四损失进行损失求和,得到第二目标损失数据;

31、根据所述第二目标损失数据对所述预设模型进行模型参数更新,得到所述预设意图识别模型。

32、在一些实施例,所述根据所述第二样本文本数据和所述文本特征向量进行损失计算,得到第四损失,包括

33、对所述第二样本文本数据进行文本掩码,得到文本掩码向量;

34、计算所述文本掩码向量与所述文本特征向量之间的第一相似度数据;

35、计算所述文本特征向量中任意两个词元特征之间的第二相似度数据;

36、对所述第一相似度数据和所述第二相似度数据进行损失加权,得到所述第四损失。

37、在一些实施例,所述文本掩码向量包括第一掩码向量和第二掩码向量,所述计算所述文本掩码向量与所述文本特征向量之间的第一相似度数据,包括:

38、计算所述第一掩码向量与所述文本特征向量之间的第一子相似度;

39、计算所述第二掩码向量与所述文本特征向量之间的第二子相似度;

40、根据所述第一子相似度和所述第二子相似度进行损失计算,得到所述第一相似度数据。

41、为实现上述目的,本申请实施例的第二方面提出了一种视频会议的任务生成系统,所述系统包括:

42、数据获取模块,用于获取目标对象在视频会议中的视频数据和语音数据;

43、语义对齐模块,用于通过预设语义对齐网络对所述视频数据和所述语音数据进行多模态语义对齐,得到文本语义特征;

44、意图识别模块,用于通过预设意图识别模型对所述文本语义特征进行意图识别,得到所述目标对象的对象意图,所述对象意图用于指示所述目标对象对所述视频会议的任务操作;

45、任务生成模块,用于根据所述对象意图进行任务生成,得到针对所述视频会议的任务。

46、为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,所述处理器、通信接口、和存储器通过通信总线完成相互间的通信,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

47、为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

48、本申请提出的视频会议的任务生成方法和系统、电子设备及存储介质,其通过获取目标对象在视频会议中的视频数据和语音数据;通过预设语义对齐网络对视频数据和语音数据进行多模态语义对齐,得到文本语义特征,相比于仅对单一模态进行语义特征提取,通过获取多模态信息可以提高语义特征的全面性和丰富性,有助于更准确地理解和分析数据。进一步地,通过预设意图识别模型对文本语义特征进行意图识别,得到目标对象的对象意图,对象意图用于指示目标对象对视频会议的任务操作,通过对多模态信息进行意图识别能够提高意图识别的准确率。进一步地,根据对象意图进行任务生成,得到针对视频会议的任务,这一方式能够提高对视频会议中目标对象意图识别的准确率,以提高生成的任务的准确率,从而提高视频会议的控制准确率。

技术特征:

1.视频会议的任务生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的视频会议的任务生成方法,其特征在于,所述预设语义对齐网络根据以下步骤训练得到:

3.根据权利要求2所述的视频会议的任务生成方法,其特征在于,所述对所述多模态特征向量和所述样本文本特征向量进行对比学习,得到第一目标损失数据,包括:

4.根据权利要求1所述的视频会议的任务生成方法,其特征在于,所述通过预设意图识别模型对所述文本语义特征进行意图识别,得到所述目标对象的对象意图,包括:

5.根据权利要求1至4任一项所述的视频会议的任务生成方法,其特征在于,所述预设意图识别模型根据以下步骤训练得到:

6.根据权利要求5所述的视频会议的任务生成方法,其特征在于,所述根据所述第二样本文本数据和所述文本特征向量进行损失计算,得到第四损失,包括

7.根据权利要求6所述的视频会议的任务生成方法,其特征在于,所述文本掩码向量包括第一掩码向量和第二掩码向量,所述计算所述文本掩码向量与所述文本特征向量之间的第一相似度数据,包括:

8.视频会议的任务生成系统,其特征在于,系统包括:

9.一种电子设备,其特征在于,设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1-7中任一项所述的视频会议的任务生成方法的步骤。

技术总结本申请提供了视频会议的任务生成方法和系统、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取目标对象在视频会议中的视频数据和语音数据;通过预设语义对齐网络对视频数据和语音数据进行多模态语义对齐,得到文本语义特征;通过预设意图识别模型对文本语义特征进行意图识别,得到目标对象的对象意图,对象意图用于指示目标对象对视频会议的任务操作;根据对象意图进行任务生成,得到针对视频会议的任务。本申请能够提高对视频会议中目标对象意图识别的准确率,从而提高视频会议的控制准确率。技术研发人员:夏修理,王伟,张兴,曹加一,姚敏森受保护的技术使用者:华润数字科技有限公司技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/237540.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。