技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种汉藏语多模态的图文处理方法及处理系统与流程  >  正文

一种汉藏语多模态的图文处理方法及处理系统与流程

  • 国知局
  • 2024-10-09 15:40:21

本技术涉及图文处理,更具体的说,本技术涉及一种汉藏语多模态的图文处理方法及处理系统。

背景技术:

1、图文处理技术在信息时代至关重要,包含了图像处理技术、文本处理技术等,广泛应用于数字出版、广告设计、教育、医疗和娱乐等领域,其核心在于高效采集、处理、分析和展示图像与文本数据,以满足各类应用需求,随着计算机技术、人工智能和大数据技术的快速发展,图文处理技术也在不断革新,其中,图像处理技术涵盖图像的获取、压缩、存储、增强、分析和识别,深度学习也广泛应用于图像处理中,如卷积神经网络(cnn),显著提升了图文识别的准确性和速度,此外,文本处理技术涉及文本的采集、分析、生成和检索,包括字符识别(ocr)、自然语言处理(nlp)和文本挖掘,nlp通过机器学习和深度学习,可以实现语法分析、情感分析和主题识别等任务,另外,多模态融合技术则将图像、文本和音频等多种模态的信息综合处理,提供了全面的信息理解与分析。

2、在现有技术中,图文处理技术的实现原理包括:图像采集、预处理、特征提取、文本采集、光学字符识别、自然语言处理以及多模态数据融合等步骤,其中,通过图像处理,系统能够识别图像中的关键信息,而文本处理则利用光学字符识别和自然语言处理技术,将文本数据转换为可编辑的文字,以进行语义分析和情感识别,此外,多模态融合技术则将图像、文本等多种模态的数据进行综合利用,提供了更全面的信息分析和决策支持;然而,在汉藏语的图文交互处理中,不同模态数据之间的语义表示方式存在差异,导致语义鸿沟问题,例如,图像数据是以像素点或特征向量的形式表示,而文本数据则是以词汇或句子的形式表示,这种差异会使得跨模态之间的语义关联难以建立和理解,从而导致汉藏语多模态交互处理的处理结果偏离真实的语义信息,因此,如何实现汉藏语图文跨模态交互的语义关联,从而提高汉藏语图文跨模态交互处理结果的真实性成为了业界面临的难题。

技术实现思路

1、本技术提供一种汉藏语多模态的图文处理方法及处理系统,可实现汉藏语图文跨模态交互的语义关联。

2、第一方面,本技术提供一种汉藏语多模态的图文处理方法,包括如下步骤:

3、获取待处理的汉藏语图文信息;

4、根据不同模态提取器对应提取所述汉藏语图文信息中汉藏语图像模态的图像特征和汉藏语文本模态的文本特征;

5、对所述图像特征和所述文本特征进行特征交互,得到第一汉藏语图文交互特征信息,根据所述第一汉藏语图文交互特征信息构建汉藏语图文的第一交互轨迹,进而得到第一交互特征量;

6、根据预设的多梯度切分尺度对所述汉藏语图像模态的图像进行切分处理,得到多个切分图块,通过所述汉藏语图像模态的图像的画幅比例重组所有的切分图块,得到汉藏语图像副本,根据对应提取器提取所述汉藏语图像副本的图像副本特征;

7、对所述图像副本特征和所述文本特征进行特征交互,得到第二汉藏语图文交互特征信息,根据所述第二汉藏语图文交互特征信息构建汉藏语图文的第二交互轨迹,进而得到第二交互特征量;

8、根据所述第一交互特征量和所述第二交互特征量确定汉藏语图文交互处理过程中的交互处理置信度,基于所述交互处理置信度输出汉藏语图文交互的交互结果。

9、在一些实施例中,对所述图像特征和所述文本特征进行特征交互,得到第一汉藏语图文交互特征信息具体包括:

10、确定所述图像特征的交互影响参量;

11、确定所述文本特征的第一交互影响参量;

12、将所述图像特征与所述文本特征进行维度对齐;

13、根据所述图像特征的交互影响参量、所述文本特征的第一交互影响参量以及维度对齐后的图像特征和文本特征确定第一汉藏语图文交互特征信息。

14、在一些实施例中,确定所述图像特征的交互影响参量具体包括:

15、获取所述图像特征与所述文本特征进行维度对齐后的维度大小;

16、获取所述图像特征与转置后的文本特征;

17、根据所述图像特征、所述转置后的文本特征以及所述维度大小确定所述图像特征的交互影响参量。

18、在一些实施例中,根据所述第一汉藏语图文交互特征信息构建汉藏语图文的第一交互轨迹,进而得到第一交互特征量具体包括:

19、获取所述第一汉藏语图文交互特征信息中的所有汉藏语图文第一交互特征值;

20、对所有的汉藏语图文第一交互特征值进行相连,得到汉藏语图文的第一交互轨迹;

21、从所述第一交互轨迹中获取所有的尖峰点和低谷点;

22、根据所述第一交互轨迹获取的所有尖峰点和低谷点确定第一交互特征量。

23、在一些实施例中,根据预设的多梯度切分尺度对所述汉藏语图像模态的图像进行切分处理,得到多个切分图块具体包括:

24、获取预设的多梯度切分尺度,所述多梯度切分尺度包括水平切分尺度和垂直切分尺度;

25、根据所述水平切分尺度和垂直切分尺度对所述汉藏语图像模态的图像进行逐一切割,得到多个切分图块。

26、在一些实施例中,通过所述汉藏语图像模态的图像的画幅比例重组所有的切分图块,得到汉藏语图像副本具体包括:

27、确定所述汉藏语图像模态的图像的画幅比例;

28、确定所述切分图块的最大扰动距离;

29、基于所述画幅比例和所述最大扰动距离对所有的切分图块进行随机扰动,进而将扰动后的切分图块进行重组,得到汉藏语图像副本。

30、在一些实施例中,通过汉藏语图文数据库获取待处理的汉藏语图文信息。

31、第二方面,本技术提供一种汉藏语多模态的图文处理系统,包括:

32、获取模块,用于获取待处理的汉藏语图文信息;

33、处理模块,用于根据不同模态提取器对应提取所述汉藏语图文信息中汉藏语图像模态的图像特征和汉藏语文本模态的文本特征;

34、所述处理模块,还用于对所述图像特征和所述文本特征进行特征交互,得到第一汉藏语图文交互特征信息,根据所述第一汉藏语图文交互特征信息构建汉藏语图文的第一交互轨迹,进而得到第一交互特征量;

35、所述处理模块,还用于根据预设的多梯度切分尺度对所述汉藏语图像模态的图像进行切分处理,得到多个切分图块,通过所述汉藏语图像模态的图像的画幅比例重组所有的切分图块,得到汉藏语图像副本,根据对应提取器提取所述汉藏语图像副本的图像副本特征;

36、所述处理模块,还用于对所述图像副本特征和所述文本特征进行特征交互,得到第二汉藏语图文交互特征信息,根据所述第二汉藏语图文交互特征信息构建汉藏语图文的第二交互轨迹,进而得到第二交互特征量;

37、执行模块,用于根据所述第一交互特征量和所述第二交互特征量确定汉藏语图文交互处理过程中的交互处理置信度,基于所述交互处理置信度输出汉藏语图文交互的交互结果。

38、第三方面,本技术提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行上述的汉藏语多模态的图文处理方法。

39、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的汉藏语多模态的图文处理方法。

40、本技术公开的实施例提供的技术方案具有以下有益效果:

41、本技术提供的汉藏语多模态的图文处理方法及处理系统中,首先,获取待处理的汉藏语图文信息;其次根据不同模态提取器对应提取所述汉藏语图文信息中汉藏语图像模态的图像特征和汉藏语文本模态的文本特征;进一步,对所述图像特征和所述文本特征进行特征交互,得到第一汉藏语图文交互特征信息,根据所述第一汉藏语图文交互特征信息构建汉藏语图文的第一交互轨迹,进而得到第一交互特征量;再进一步,根据预设的多梯度切分尺度对所述汉藏语图像模态的图像进行切分处理,得到多个切分图块,通过所述汉藏语图像模态的图像的画幅比例重组所有的切分图块,得到汉藏语图像副本,根据对应提取器提取所述汉藏语图像副本的图像副本特征;然后,对所述图像副本特征和所述文本特征进行特征交互,得到第二汉藏语图文交互特征信息,根据所述第二汉藏语图文交互特征信息构建汉藏语图文的第二交互轨迹,进而得到第二交互特征量;最后,根据所述第一交互特征量和所述第二交互特征量确定汉藏语图文交互处理过程中的交互处理置信度,基于所述交互处理置信度输出汉藏语图文交互的交互结果。

42、由此可见,本技术首先通过预先训练好的图像特征提取器和文本特征提取器提取得到所述汉藏语图文信息中汉藏语图像模态的图像特征和汉藏语文本模态的文本特征,以更加有效的理解汉藏语图像内容和汉藏语文本表达,从而实现对汉藏语图像和文本之间的语义理解和分析;其次,对汉藏语图像内容和汉藏语文本表达进行特征交互并确定第一交互特征量,以分析模型对复杂数据的理解和处理能力,进而识别跨模态之间的语义关联建立能力和理解能力;然后,依据无序重组的汉藏语图像副本的图像副本特征与文本特征确定第二交互特征量,以更进一步识别跨模态之间的语义关联建立能力和理解能力,从而避免了汉藏语多模态交互处理的处理结果偏离真实语义信息;最后,根据所述第一交互特征量和所述第二交互特征量确定汉藏语图文交互处理过程中的交互处理置信度,基于所述交互处理置信度输出汉藏语图文交互的交互结果;综上所述,可实现汉藏语图文跨模态交互的语义关联,从而提高汉藏语图文跨模态交互处理结果的真实性。

本文地址:https://www.jishuxx.com/zhuanli/20241009/309564.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。