技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于无监督方式的小众领域英文关系抽取方法 > 正文

一种基于无监督方式的小众领域英文关系抽取方法

国知局
2024-07-31 22:38:45

本发明涉及英文关系抽取，尤其涉及一种基于无监督方式的小众领域英文关系抽取方法。

背景技术：

1、随着互联网技术的飞速发展，信息的获取和传播变得日益便捷。在海量的网络数据中，蕴含着丰富的实体间关系信息，这些信息对于知识图谱构建、智能搜索引擎、推荐系统等应用具有重要价值。英文关系抽取作为自然语言处理（nlp）领域的关键任务之一，旨在自动识别文本中的实体及其相互之间的关系，从而促进数据的智能化处理和利用。

2、然而，现有的关系抽取方法主要依赖于有监督学习，这类方法需要大量的标注数据来训练模型。在大多数通用领域，标注数据相对容易获得，因此有监督学习方法在这些领域取得了显著的成果。然而，在一些小众领域，如特定行业的专业文献、小众文化研究等，获取充足且高质量的标注数据往往代价昂贵且难以实现。这些领域的文本通常具有术语丰富、概念抽象、关系隐蔽等特点，使得现有的有监督学习方法难以应用。

3、此外，有监督学习方法在面对领域迁移时，其泛化能力和适应性常常受限，导致模型性能下降。例如，在金融领域训练的关系抽取模型可能无法直接应用于医学领域，因为两个领域的术语和关系类型差异较大。这种情况下，往往需要重新标注大量的数据并重新训练模型，增加了时间和经济成本。

4、为了解决上述问题，无监督学习作为一种有效的解决方案应运而生。无监督学习方法不依赖于标注数据，而是通过挖掘数据本身的结构和模式来学习。这种方法在资源受限的情况下具有显著优势，尤其是在小众领域，能够更快速、高效地进行实体间关系的抽取和筛选。然而，现有的无监督关系抽取方法主要关注于通用领域，对于小众领域的特殊性和复杂性考虑不足。小众领域的文本往往具有术语丰富、概念抽象、关系隐蔽等特点，这给关系抽取带来了额外的挑战。

5、当前的无监督关系抽取方法在处理小众领域文本时，主要面临以下几个缺陷：

6、1、语法和语义的准确性：现有方法在处理复杂的句法结构和隐蔽的语义关系时，往往无法准确识别和抽取关系。对于小众领域的专业术语和独特表达，这种情况尤为明显。

7、2、模型的可扩展性和适应性：由于小众领域的文本具有高度专业化的特点，现有方法在不同领域间的迁移和扩展能力有限，难以满足多样化需求。

8、3、数据处理效率：处理小众领域的大量文本数据需要高效的数据处理和分析能力，现有方法在处理速度和效率上仍有提升空间。

9、4、缺乏领域知识的综合利用：现有无监督学习方法在利用领域知识和背景信息方面存在不足，无法充分结合领域专家的知识进行关系抽取。

10、因此，如何提供一种基于无监督方式的小众领域英文关系抽取方法是本领域技术人员亟需解决的问题。

技术实现思路

1、本发明的一个目的在于提出一种基于无监督方式的小众领域英文关系抽取方法，本发明采用无监督学习方法，避免了对大量标注数据的依赖，减少了人工标注的高昂费用，尤其适用于数据稀缺且标注困难的小众领域。

2、根据本发明实施例的一种基于无监督方式的小众领域英文关系抽取方法，包括以下步骤：

3、s1、获取小众领域的英文文本数据；

4、s2、对所述英文文本数据进行预处理，包括分词、词性标注和依存句法分析；

5、s3、利用e2e模型进行指代消解，解决预处理后的英文文本数据中的代词指代问题；

6、s4、通过t5模型从预处理后的英文文本数据中抽取不同种类的实体内容；

7、s5、在依存句法分析的基础上，抽取英文文本数据中的关系三元组；

8、s6、将抽取的关系三元组与步骤s4中提取的实体内容进行匹配；

9、s7、根据用户提供的实体字典，对匹配的关系三元组进行过滤；

10、s8、对获取的关系三元组进行规则过滤，使得最终输出的关系三元组符合预设的质量标准；

11、s9、对过滤后的关系三元组进行无监督聚类分析，识别和归纳关系类别；

12、s10、输出结构化的关系三元组，形成最终的关系抽取结果；

13、s11、提供一定程度的可解释性，使用户理解和信任模型的抽取结果。

14、可选的，所述s2包括以下步骤：

15、s21、对所述英文文本数据进行分词处理，将英文文本数据分割为独立的词语单元：

16、；

17、其中，表示分词后的词语集合，表示单个词语，表示原始英文文本数据，表示分词算法；

18、s22、对分词后的英文文本数据进行词性标注，确定每个词语单元的词性标签，词性标签包括名词、动词、形容词和副词：

19、；

20、其中，表示词性标注后的词语及其词性标签集合，表示词语的词性标签，表示词性标注算法；

21、s23、对词性标注后的英文文本数据进行依存句法分析，构建句子的依存关系树，依存关系树表示句子中词语之间的语法依赖关系，其中每个节点表示一个词语，边表示词语之间的依存关系；

22、；

23、；

24、；

25、其中，表示预处理后的英文文本数据，表示词语节点集合，表示词语之间的依存关系集合，表示词语和之间的依存关系类型，表示依存关系识别算法。

26、可选的，所述s3包括以下步骤：

27、s31、对预处理后的英文文本数据进行多层上下文编码，将英文文本数据编码为多层次的上下文表示，捕捉语义信息：

28、；

29、；

30、其中，表示多层次编码后的上下文表示，表示第l层的端到端模型编码器，l表示编码器的层数，表示编码器的层数；

31、s32、利用改进的指代关系识别算法，结合上下文表示和先验知识库对文本中的指代关系进行识别，识别出每个代词的指代对象：

32、；

33、其中，表示识别出的指代关系集合，表示代词，表示代词的指代对象，表示代词识别算法，表示代词的候选指代对象集合，表示结合先验知识库的指代关系得分函数，表示多层次的上下文表示；

34、s33、引入自适应校验机制，对识别出的指代关系进行动态校验和修正，根据上下文变化和语义一致性进行调整，调整每个代词的指代对象在语义上正确：

35、；

36、其中，表示动态校验和修正后的指代关系集合，表示自适应校验和修正函数，输出1表示校验通过，输出0表示校验不通过；

37、s34、根据校验和修正后的指代关系，将代词替换为其指代对象，生成指代消解后的英文文本数据：

38、；

39、其中，表示指代消解后的英文文本数据，表示从预处理后的文本数据中移除代词，表示将移除的代词替换为其指代对象；

40、s35、在指代消解后的英文文本数据中保留原始代词：

41、；

42、其中，表示保留了原始代词的指代消解后英文文本数据，表示从指代关系集合中提取所有的代词形成的集合。

43、可选的，所述s4包括以下步骤：

44、s41、对预处理后的英文文本数据进行序列化处理，将英文文本数据转换为适合t5模型输入的格式：

45、；

46、其中，表示序列化后的英文文本数据，表示序列化处理算法，表示指代消解后的英文文本数据，n表示英文文本数据的数量，表示分词算法，表示词性标注矩阵，表示第i个英文文本数据，表示词语的权重，表示词语嵌入，表示词性嵌入，表示第i个文本数据中第j个词的词性标签；

47、s42、将序列化后的英文文本数据输入预训练的t5模型，生成实体内容预测结果：

48、；

49、；

50、；

51、其中，表示t5模型预测的实体内容集合，表示预训练的t5模型，表示序列化后的英文文本数据，l表示t5模型的层数，表示自注意力机制，表示前馈神经网络，,, 分别表示查询、键和值矩阵，表示键矩阵的维度，表示权重矩阵，表示偏置项；

52、s43、对t5模型输出的实体内容预测结果进行解码，将模型输出的标记序列转换为实体内容：

53、；

54、其中，表示解码后的实体内容集合，表示解码算法，表示词汇表，表示词汇表中每个词的嵌入向量，表示第i个预测结果；

55、s44、对解码后的实体内容进行类型分类，将不同种类的实体内容进行分类标记：

56、；

57、其中，表示分类后的实体内容集合，表示单个实体内容，表示实体的分类标签，表示分类标签集合，表示分类标签的嵌入向量，表示实体的上下文表示。

58、s45、对分类后的实体内容进行质量校验，确保每个实体内容的分类正确且准确：

59、；

60、；

61、其中，表示校验后的实体内容集合，表示质量校验算法，结合上下文表示，输出1表示校验通过，输出0表示校验不通过，表示阈值；

62、s46、将校验后的实体内容作为最终抽取结果输出：

63、；

64、其中，表示最终输出的实体内容集合。

65、可选的，所述s5包括以下步骤：

66、s51、基于步骤s2中的依存句法分析结果，识别句子中的主语、谓语和宾语，构建初步关系三元组：

67、；

68、其中，表示初步关系三元组集合，表示关系三元组中的主语，表示关系三元组中的谓语，表示关系三元组中的宾语，表示词语节点集合，表示谓语集合，表示依存关系集合；

69、s52、对初步关系三元组进行上下文语义匹配，验证并调整关系三元组的正确性；

70、s53、利用先验知识库对匹配后的关系三元组进行补全和修正；

71、s54、对补全和修正后的关系三元组进行过滤，去除不符合预设质量标准的关系三元组，得到过滤后的关系三元组；

72、s55、将过滤后的关系三元组作为最终结果输出：

73、；

74、其中，表示最终输出的关系三元组集合。

75、可选的，所述s6包括以下步骤：

76、s61、对步骤s5中最终输出的关系三元组集合进行实体匹配预处理，提取关系三元组中的实体信息：

77、；

78、其中，表示从最终输出的关系三元组中提取的实体集合；

79、s62、对步骤s4中提取的实体内容进行标准化处理，确保与最终输出的关系三元组中的实体一致；

80、s63、利用相似度计算算法，将最终输出的关系三元组集合中的实体与标准化后的实体内容进行匹配，计算每对实体的匹配度：

81、；

82、其中，表示最终输出的关系三元组集合中实体和与标准化实体内容的匹配度，表示相似度计算函数，表示标准化实体内容；

83、s64、对计算的匹配度进行阈值过滤，保留匹配度大于预设阈值的实体匹配：

84、；

85、其中，表示过滤后的实体匹配集合，表示预设的匹配度阈值；

86、s65、将过滤后的实体匹配结果与最终输出的关系三元组进行整合，生成最终匹配的关系三元组：

87、；

88、其中，表示最终匹配的关系三元组集合。

89、可选的，所述s7包括以下步骤：

90、s71、获取用户提供的实体字典，将实体字典转换为标准格式；

91、s72、对步骤s6中最终匹配的关系三元组集合进行实体字典过滤，保留与实体字典中的实体匹配的关系三元组：

92、；

93、其中，表示经过实体字典过滤后的关系三元组集合；

94、s73、计算关系实体匹配的关系三元组中实体与实体字典中实体的匹配度，保留的实体匹配的关系三元组与字典实体的相关性；

95、s74、对计算的匹配度进行阈值过滤，保留匹配度大于预设阈值的关系三元组：

96、；

97、其中，表示经过阈值过滤后的关系三元组集合，表示预设的匹配度阈值；

98、s75、将过滤后的关系三元组作为最终输出结果，保留与用户实体字典高度匹配的关系三元组：

99、；

100、其中，表示最终过滤后的关系三元组集合。

101、可选的，所述s8包括以下步骤：

102、s81、定义关系三元组的质量标准，包括语法正确性、语义合理性和实体一致性；

103、s82、对获取的关系三元组进行语法规则过滤，确保关系三元组的语法正确性；

104、s83、对通过语法过滤的关系三元组进行语义合理性检查，确保关系三元组在语义上的合理性；

105、s84、对通过语义合理性检查的关系三元组进行实体一致性检查，确保关系三元组中的实体在上下文中的一致性；

106、s85、对通过实体一致性检查的关系三元组进行质量评分，使得输出的关系三元组符合预设的质量标准；

107、s86、将符合质量标准的关系三元组作为最终关系三元组。

108、可选的，所述s9包括以下步骤：

109、s91、对经过质量过滤的最终关系三元组进行特征提取，生成用于聚类分析的特征向量：

110、；

111、其中，为主语的上下文表示，为谓语的上下文表示，为宾语的上下文表示，表示hadamard积，表示向量连接操作，n表示上下文窗口大小，表示上下文词的注意力权重，表示上下文词，表示上下文词的权重矩阵。

112、s92、对提取的特征向量进行归一化处理；

113、s93、利用从最终关系三元组中提取的特征向量进行聚类分析，识别关系三元组的聚类类别：

114、；

115、；

116、其中，表示从最终关系三元组提取的特征向量集合，表示聚类中心，表示向量的欧几里得范数，表示聚类，表示无监督聚类结果；

117、s94、对聚类结果进行分析和验证：

118、；

119、其中，表示层权重，表示相似度计算函数，结合实体的上下文表示，表示第个聚类中心，表示验证阈值；

120、s95、对验证后的聚类结果进行关系类别归纳，生成每个类别的关系描述：

121、；

122、；

123、其中，表示关系类别描述集合，表示关系类别归纳算法，表示单个聚类类别，表示归一化处理后的特征向量，表示谓语的上下文表示，表示用于归纳聚类结果中的关系类别函数；

124、s96、将归纳后的关系类别作为最终输出结果，形成关系类别分析报告：

125、；

126、；

127、其中，表示关系类别分析报告，表示关系三元组的描述函数。

128、本发明的有益效果是：

129、（1）本发明采用无监督学习方法，避免了对大量标注数据的依赖，减少了人工标注的高昂费用，尤其适用于数据稀缺且标注困难的小众领域，通过对数据的预处理、指代消解、实体抽取和关系三元组提取与匹配，确保抽取结果的语法和语义准确性。特别是依存句法分析和指代消解步骤，能够准确识别句子中的实体及其关系，提高抽取结果的质量。

130、（2）本发明通过特征提取和无监督聚类分析，能够快速适应新领域的文本数据，自动发现并抽取新领域内的实体间关系，无需重新标注数据和训练模型。这使得模型在不同小众领域中的适应性和泛化能力显著增强，通过规则过滤和质量检查步骤，确保最终输出的关系三元组符合预设的质量标准。语法、语义和实体一致性检查多层次的质量控制，确保了关系抽取结果的高可靠性。

131、（3）本发明不依赖预先定义的关系类型，能够灵活发现和抽取新的关系类型。无监督聚类分析能够识别和归纳关系类别，为知识发现和数据挖掘提供了新的可能性，提升了小众领域的知识获取效率。通过用户提供的实体字典对关系三元组进行过滤，结合领域知识，提高了抽取结果的准确性。标准化处理和匹配预处理确保了关系三元组与领域知识的紧密结合。