技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文本处理方法、装置、电子设备和存储介质与流程 > 正文

文本处理方法、装置、电子设备和存储介质与流程

国知局
2024-10-21 14:24:14

本公开涉及文本处理，尤其是涉及一种文本处理方法、装置、电子设备和存储介质。

背景技术：

1、图像文本的多模态理解是理解视觉-语言中非常重要的环节，同时该方面的技术在搜索和推荐等实际的场景中也有着非常广泛的应用。通常图文匹配的方法用来衡量一个给定的图像和一个给定的文本的相关性，即任意给定一张图像再给定一段相关的描述，通过匹配方法最终得到这两个部分的相关程度。

2、现有模型在对文本进行语义识别时，首先对文本进行分词，然后无差别将分词得到的各个词语进行编码，提取语义。但是文本信息中的不同词通常对最终语义的影响不同，这种无差别地将分词得到的词语编码的方式难以体现各个分词对最终语义的影响。例如“红色裙子”和“红色的裙子”虽然是不同的句子，但是表征的含义是完全一样的。再例如“红色的裙子”和“蓝色的裙子”从句子构造上也只有一字之差，但是表征的语义是完全不一样的。由此可见，不同词语对最终句子表达信息的贡献差异很大。

3、另外，通常文本中的句子有相对严谨的句子结构，现有模型只是单纯地将句子拆解为单字的组合，没有完整理解句子内部的管理。例如句子“人在追着狗”和“狗在追着人”，拆解为词单元后均为“人/狗/在/追/着”，基于此得到的语义表达也难以表达出上述句子的真正含义。

4、上述模型针对文本无差别的词语编码以及单纯的拆解句子为单字的组合方式，得到的文本语义均难以贴合文本的实际语义。

技术实现思路

1、本公开实施例的目的在于提供一种文本处理方法、装置、电子设备和存储介质，以提升文本语义识别的准确性。

2、本公开实施例提供一种文本处理方法，该方法包括：获取待处理的文本语句对应的知识图谱；其中，所述知识图谱包含所述文本语句中的核心元素以及各个核心元素间的连接关系；根据所述知识图谱确定所述文本语句的基础元素语义；其中，所述基础元素语义包括所述核心元素中的物体元素与属性元素的二元组、物体元素间关系的三元组；根据所述基础元素语义确定所述文本语句的外部增强向量；其中，所述外部增强向量包含所述二元组和所述三元组对应的语义向量；将所述外部增强向量和所述文本语句包含的分词对应的原始语义向量融合，得到所述文本语句的完整语义表征向量。

3、第二方面，本公开实施例还提供一种文本处理装置，所述装置包括：知识图谱获取模块，用于获取待处理的文本语句对应的知识图谱；其中，所述知识图谱包含所述文本语句中的核心元素以及各个核心元素间的连接关系；第一确定模块，用于根据所述知识图谱确定所述文本语句的基础元素语义；其中，所述基础元素语义包括所述核心元素中的物体元素与属性元素的二元组、物体元素间关系的三元组；第二确定模块，用于根据所述基础元素语义确定所述文本语句的外部增强向量；其中，所述外部增强向量包含所述二元组和所述三元组对应的语义向量；第三确定模块，用于将所述外部增强向量和所述文本语句包含的分词对应的原始语义向量融合，得到所述文本语句的完整语义表征向量。

4、第三方面，本公开实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述文本处理方法。

5、第四方面，本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述文本处理方法。

6、本公开实施例提供一种文本处理方法、装置、电子设备和存储介质，通过文本语句的知识图谱确定出包含二元组和三元组的基础元素语义，根据基础元素语义确定包含二元组和三元组语义的外部增强向量，将该外部增强向量与原始语义向量融合，得到文本语句的完整语义表征向量，该向量相比于原始语义向量，增加了外部增强向量对应的信息，信息量增多，例如在处理“狗追着人”和“人追着狗”语句时，“狗追着人”的三元组表示为(狗，追着，人)，“人追着狗”表示为(人，追着，狗)，每个三元组将视为一个整体，形式不同，对应的语义不同，因此得到的基础元素语义和外部增强向量不同，进而使得不同语句对应的完整语义表征向量也不同，更好的表达了文本语句的语义。

技术特征：

1.一种文本处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理的文本语句对应的知识图谱包括：

3.根据权利要求1所述的方法，其特征在于，根据所述知识图谱确定所述文本语句的基础元素语义包括：

4.根据权利要求3所述的方法，其特征在于，根据所述知识图谱中核心元素间的连接关系，确定物体元素与属性元素的二元组、物体元素间关系的三元组包括：

5.根据权利要求1所述的方法，其特征在于，根据所述基础元素语义确定所述文本语句的外部增强向量包括：

6.根据权利要求1所述的方法，其特征在于，将所述外部增强向量和所述文本语句包含的分词对应的原始语义向量融合包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述完整语义表征向量用于图文匹配，所述图文匹配的过程包括：

8.根据权利要求7所述的方法，其特征在于，通过双塔模型实现所述图文匹配，所述双塔模型包括文本编码器和图像编码器，以及与所述文本编码器和所述图像编码器分别连接的计算器；

9.一种文本处理装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至8任一项所述方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至8任一项所述的方法。

技术总结本公开提供了一种文本处理方法、装置、电子设备和存储介质。其中，该方法包括：获取待处理的文本语句对应的知识图谱；根据所述知识图谱确定所述文本语句的基础元素语义；根据所述基础元素语义确定所述文本语句的外部增强向量；将所述外部增强向量和所述文本语句包含的分词对应的原始语义向量融合，得到所述文本语句的完整语义表征向量。通过上述技术，可以提升文本语义识别的准确性。技术研发人员：唐霁霁,陈伟杰,章鑫锋,马宇航,张荣升,吕唐杰,范长杰受保护的技术使用者：网易(杭州)网络有限公司技术研发日：技术公布日：2024/10/17