技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种分布式环境下基于本体双关系的文本相似度计算方法 > 正文

一种分布式环境下基于本体双关系的文本相似度计算方法

国知局
2024-09-11 14:15:03

本发明涉及大数据与自然语言处理领域，具体地，涉及一种分布式环境下基于本体双关系的文本相似度计算方法。

背景技术：

1、随着生物医学文本数量的迅速增长，快速、准确地查找所需信息变得愈加重要。为了提高效率，基于基因本体的相似度计算已经成为文档聚类最重要的工具。但以往相似度研究大都只关注本体的单一层次结构，忽略了本体节点之间的各种关系。

2、因此，本领域尚缺乏效率更高，效果更好的文献相似度计算方法。

3、因此，本领域亟需开发一种新的、更快速、准确的文献检索过程中的文本相似度计算方法。

技术实现思路

1、本发明提供了一种新的、更快速、准确的文献检索过程中的文本相似度计算方法。

2、在本发明的第一方面，提供了一种分布式环境下基于双关系的文本相似度计算方法(或文本聚类方法)，包括步骤：

3、(s1)对海量生物医学文献的文本进行预处理：获取文献文本数据集，使用ncgocr提取所述文本数据集的go术语，从而将所述文献转为一组go术语表示；

4、(s2)利用基于基因本体双关系的多重相似度计算方法(diff-cr)，计算所述go术语之间的相似度，从而形成go术语间的相似度矩阵；

5、(s3)基于所述go术语间的相似度矩阵，计算所述文献文本间的相似度，从而得到文本相似度矩阵；和

6、(s4)基于所述文本相似度矩阵，采用谱聚类算法得到最终的文本簇。

7、在另一优选例中，所述go术语是基因本体。

8、在另一优选例中，所述文本簇是生物医学文本簇。

9、在另一优选例中，在步骤(s1)中，所述文献文本数据集的获取方式为通过访问ncbi的e-link接口。

10、在另一优选例中，在步骤(s1)中，还包括以下子步骤：

11、(s1a)根据所述文献的唯一标识码(pmid)，将所有待处理文献转化为go术语；和

12、(s1b)将所述pmid、go术语组织成输入文件，且输入文件中的数据是一个键值对，其中键是所述文献的pmid，值是一个包含一个或多个go术语的集合。

13、在另一优选例中，在步骤(s2)中，还包括以下子步骤：

14、(s2a)使用基于基因本体双关系的多重相似度计算方法(diff-cr)计算所述go术语间的相似度；和

15、(s2b)对所有go术语的相似度进行映射归约，从而构建出go术语相似度矩阵。

16、在另一优选例中，所述diff-cr的计算公式如下：

17、两个节点的相似度＝max(在“is-a”关系下的两个节点相似度，在“part-of”关系下的两个节点相似度)

18、其中，

19、在“is-a”关系下的相似度计算公式如下：

20、

21、在“part-of”关系下的相似度计算公式如下：

22、

23、在另一优选例中，所述α取值为0.6。

24、在另一优选例中，所述节点为go术语。

25、在另一优选例中，在步骤(s2b)中，还包括以下子步骤：

26、(a)分割：基于关系种类，将go术语拆分成两个文件“is-a.txt”与“part-of.txt”；

27、(b)映射：设置两个映射(map)任务分别用于接收所述“is-a.txt”和“part-of.txt”两个关系文件，并基于diff-cr方法分别计算不同关系下go术语之间的相似度值；

28、(c)归约：聚合两种所述不同关系下的go术语之间的相似值，从而构建出go术语之间的两两相似度矩阵；和

29、(d)分桶：将所述go术语相似度矩阵按相同go术语进行分类，使其均匀分配到分布式集群中的各个节点。

30、在另一优选例中，在步骤(s3)中，还包括以下子步骤：

31、(s3a)在分布式环境下，对所述文献进行数据转换，将具有相同go术语的所述文献放在一起，得到特征文献；和

32、(s3b)根据所述go术语间的相似度矩阵，对所述特征文献间的相似度进行计算，且两个文献文本之间的相似度计算公式如下：

33、

34、其中，文献1对文献2的相似度公式如下：

35、文献1对文献2的相似度＝文献1的所有go术语对文献2的相似度之和，

36、其中，一个go术语对文献的相似度公式如下：

37、一个go术语对文献2的相似度＝该go术语对文献2所有go术语相似度的最大值，

38、其中，两个go术语之间的相似度公式如下：

39、两个go术语之间的相似度＝max(两个go术语在″is-a″关系的相似度，两个go术语在″part-of″关系的相似度)；

40、和

41、(s3c)在分布式环境下，对步骤(s3b)进行映射归约，从而得到文本相似度矩阵。

42、在另一优选例中，在步骤(s3a)中，还包括如下子步骤：

43、(a)映射：在mapreduce框架下，利用mapper类的map方法遍历输入数据中每个go术语，并将每个go术语与对应的pmid码写入输出；

44、(b)归约：在mapreduce框架下，利用reducer类的reduce方法接收每个go术语对应的pmid集合，并将集合中的pmid使用'&'符号进行拼接，将拼接结果与对应的go术语一起写入输出，最终输出新的键值对；其中键是go术语，值是包含一个或多个pmid码的集合；和

45、(c)分桶：将所述的键值对按相同go术语进行分类，均匀分配到分布式集群中的各个节点(集群就是分布式环境中的计算机组，每个节点对应一个计算机)。

46、在另一优选例中，在步骤(s4)中，还包括以下子步骤：

47、(s4a)根据所述文本相似度矩阵，构建拉普拉斯矩阵，并对其进行特征值分解以及归一化处理；和

48、(s4b)对所述处理结果进行k-mean聚类，从而得到每个文本相似度对应的聚类结果。

49、应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

技术特征：

1.一种分布式环境下基于双关系的文本相似度计算方法，其特征在于，包括步骤：

2.如权利要求1所述的方法，其特征在于，在步骤(s1)中，还包括以下子步骤：

3.如权利要求1所述的方法，其特征在于，在步骤(s2)中，还包括以下子步骤：

4.如权利要求1所述的方法，其特征在于，所述diff-cr的计算公式如下：

5.如权利要求4所述的方法，其特征在于，所述α取值为0.6。

6.如权利要求3所述的方法，其特征在于，在步骤(s2b)中，还包括以下子步骤：

7.如权利要求1所述的方法，其特征在于，在步骤(s3)中，还包括以下子步骤：

8.如权利要求7所述的方法，其特征在于，在步骤(s3a)中，还包括如下子步骤：

9.如权利要求1所述的方法，其特征在于，在步骤(s4)中，还包括以下子步骤：

10.如权利要求1所述的方法，其特征在于，所述文本簇是生物医学文本簇。

技术总结本发明公开了一种分布式环境下基于本体双关系的文本相似度计算方法。具体地，本发明提供的方法包括如下步骤：(s1)对海量生物医学文献的文本进行预处理：获取文献文本数据集，使用NCGOCR提取所述文本数据集的GO术语，从而将所述文献转为一组GO术语表示；(s2)利用基于基因本体双关系的多重相似度计算方法(DIFF‑CR)，计算所述GO术语之间的相似度，从而形成GO术语间的相似度矩阵；(s3)基于所述GO术语间的相似度矩阵，计算所述文献文本间的相似度，从而得到文本相似度矩阵；和(s4)基于所述文本相似度矩阵，采用谱聚类算法得到最终的文本簇。采用本发明的方法可以显著提高生物医学文献检索的效率和准确度。技术研发人员：张国庆,庄心昊,凌鋆超受保护的技术使用者：中国科学院上海营养与健康研究所技术研发日：技术公布日：2024/9/9