技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种目标文本的确定方法、装置、设备及介质与流程 > 正文

一种目标文本的确定方法、装置、设备及介质与流程

国知局
2024-10-15 09:50:17

本发明涉及文本处理，特别是涉及一种目标文本的确定方法、装置、设备及介质。

背景技术：

1、科技创新技术攻关被定义为需要通过长期高投入研究开发，且具备关键性与独特性的技术领域体系，而“卡脖子”技术必须具备关键核心技术领域的共性特征，它对于整个产业发展的技术领域瓶颈突破具有关键意义。关键核心技术本身存在较高的对外依存度，基础工艺、关键材料与核心设备以及技术领域路线高度依赖于其他企业的供给、其他产业环节的支持等，企业或者产业在发展过程中，由于技术依存度或对外依存度过高，便形成了制约一个地域产业或企业创新发展的“卡脖子”技术，因此，获取与该技术领域相关的可靠研究文本，对掌握该技术领域的发展情况是很有意义的。

技术实现思路

1、本发明目的在于，提供一种目标文本的确定方法、装置、设备及介质，能够获取到与指定技术领域相关度较高的若干目标文本，有利于对指定技术领域的技术成熟度做出预测。

2、根据本发明的第一方面，提供了一种目标文本的确定方法，包括以下步骤：

3、根据预先获取的给定词语对象所属类别下的若干目标词语对象，从预设文本库中获取到每一目标词语对象对应的若干第一待处理文本，并从每一第一待处理文本中确定出若干目标语句；所述目标语句是指从任一第一待处理文本中的目标段落中获取的包括至少一个目标词语对象的语句；所述给定词语对象为用户指定的任一技术领域的名称。

4、针对任一第一待处理文本，根据第一待处理文本中每一目标语句中的每一目标词语对象的数量信息，获取到第一待处理文本对应的第一文本优先级。

5、获取第一待处理文本对应的若干第二待处理文本，并根据每一第二待处理文本对应的若干目标词语对象、第一待处理文本公开时间与每一第二待处理文本公开时间之间的时长，获取到第一待处理文本对应的第二文本优先级；所述第二待处理文本是指公开时间早于第一待处理文本的任一其他第一待处理文本。

6、当第一待处理文本对应的第一文本优先级和对应的第二文本优先级之和大于预设优先级阈值时，将第一待处理文本确定为与给定词语对象相关的目标文本。

7、进一步的，通过以下步骤获取所述给定词语对象所属类别下的若干目标词语对象：

8、将给定词语对象添加至预设的查询文本模板中的目标位置，生成目标查询文本；所述目标位置是指所述查询文本模板中存在缺失文本的位置。

9、将所述目标查询文本输入至预设大语言模型中，得到给定词语对象所属类别下的若干目标词语对象。

10、进一步的，通过以下步骤从第一待处理文本中确定出目标段落：

11、从预设文本库中获取到每一目标词语对象对应的若干第一待处理文本和每一第一待处理文本的文本类别标识。

12、针对任一第一待处理文本，基于预设的文本类别标识与第一待处理文本中的目标段落的对应关系，根据第一待处理文本的文本类别标识，从第一待处理文本中确定出目标段落。

13、进一步的，通过以下步骤获取第一待处理文本对应的第一文本优先级：

14、针对第一待处理文本中的任一目标语句，将目标语句中的若干目标词语对象划分为若干个目标词组；所述目标词组是指在当前剩余的若干目标词语对象中筛选出的目标词语对象数量最多且筛选出的每一目标词语对象仅有一个的任一词组；所述当前剩余的若干目标词语对象是指将筛选出的所有目标词语对象从目标语句中的若干目标词语对象中删除后得到的剩余的若干目标词语对象。

15、针对目标语句对应的任一目标词组，根据目标词组中的目标词语对象的总数量和目标词组对应的目标数量，计算得到目标词组对应的第一词组优先级；所述目标词组对应的目标数量是指从目标语句对应的若干目标词组中获取的与任一目标词组相同的词组数量。

16、根据目标语句对应的若干目标词组中的相同的目标词组信息，对若干第一词组优先级进行去重处理，得到若干第二词组优先级。

17、将若干第二词组优先级之和确定为目标语句对应的语句优先级。

18、将第一待处理文本中的若干目标语句分别对应的语句优先级相加，得到第一待处理文本对应的第一文本优先级。

19、进一步的，通过以下步骤获取第一待处理文本对应的第二文本优先级：

20、根据第一待处理文本公开时间与每一第二待处理文本公开时间之间的时长，对每一时长做归一化处理，得到每一第二待处理文本对应的时间占比参数。

21、针对任一第二待处理文本，根据第二待处理文本对应的若干目标词语对象，获取第二待处理文本与第一待处理文本之间重复的目标词语对象的数量。

22、将第二待处理文本对应的时间占比参数和第二待处理文本与第一待处理文本之间重复的目标词语对象的总数量的乘积确定为第二待处理文本的文本权重。

23、计算每一第二待处理文本的文本权重之和与第二待处理文本数量的比值，并将计算结果作为第一待处理文本对应的第二文本优先级。

24、进一步的，所述方法还包括以下步骤：

25、根据本发明的第二方面，提供了一种目标文本的确定装置，所述装置包括：

26、第一确定模块，用于根据预先获取的给定词语对象所属类别下的若干目标词语对象，从预设文本库中获取到每一目标词语对象对应的若干第一待处理文本，并从每一第一待处理文本中确定出若干目标语句；所述目标语句是指从任一第一待处理文本中的目标段落中获取的包括至少一个目标词语对象的语句；所述给定词语对象为用户指定的任一技术领域的名称。

27、第一获取模块，用于针对任一第一待处理文本，根据第一待处理文本中每一目标语句中的每一目标词语对象的数量信息，获取到第一待处理文本对应的第一文本优先级。

28、第二获取模块，用于获取第一待处理文本对应的若干第二待处理文本，并根据每一第二待处理文本对应的若干目标词语对象、第一待处理文本公开时间与每一第二待处理文本公开时间之间的时长，获取到第一待处理文本对应的第二文本优先级；所述第二待处理文本是指公开时间早于第一待处理文本的任一其他第一待处理文本。

29、第二确定模块，用于当第一待处理文本对应的第一文本优先级和对应的第二文本优先级之和大于预设优先级阈值时，将第一待处理文本确定为与给定词语对象相关的目标文本。

30、进一步的，还包括目标词语对象获取模块，所述目标词语对象获取模块包括：

31、生成模块，用于将给定词语对象添加至预设的查询文本模板中的目标位置，生成目标查询文本；所述目标位置是指所述查询文本模板中存在缺失文本的位置。

32、第三获取模块，用于将所述目标查询文本输入至预设大语言模型中，得到给定词语对象所属类别下的若干目标词语对象。

33、进一步的，所述第一确定模块包括：

34、第四获取模块，用于从预设文本库中获取到每一目标词语对象对应的若干第一待处理文本和每一第一待处理文本的文本类别标识。

35、第三确定模块，用于针对任一第一待处理文本，基于预设的文本类别标识与第一待处理文本中的目标段落的对应关系，根据第一待处理文本的文本类别标识，从第一待处理文本中确定出目标段落。

36、进一步的，所述第一获取模块包括：

37、划分模块，用于针对第一待处理文本中的任一目标语句，将目标语句中的若干目标词语对象划分为若干个目标词组；所述目标词组是指在当前剩余的若干目标词语对象中筛选出的目标词语对象数量最多且筛选出的每一目标词语对象仅有一个的任一词组；所述当前剩余的若干目标词语对象是指将筛选出的所有目标词语对象从目标语句中的若干目标词语对象中删除后得到的剩余的若干目标词语对象。

38、计算模块，用于针对目标语句对应的任一目标词组，根据目标词组中的目标词语对象的总数量和目标词组对应的目标数量，计算得到目标词组对应的第一词组优先级；所述目标词组对应的目标数量是指从目标语句对应的若干目标词组中获取的与任一目标词组相同的词组数量。

39、第一处理模块，用于根据目标语句对应的若干目标词组中的相同的目标词组信息，对若干第一词组优先级进行去重处理，得到若干第二词组优先级。

40、第四确定模块，用于将若干第二词组优先级之和确定为目标语句对应的语句优先级。

41、第五获取模块，用于将第一待处理文本中的若干目标语句分别对应的语句优先级相加，得到第一待处理文本对应的第一文本优先级。

42、进一步的，所述第二获取模块包括：

43、第二处理模块，用于根据第一待处理文本公开时间与每一第二待处理文本公开时间之间的时长，对每一时长做归一化处理，得到每一第二待处理文本对应的时间占比参数。

44、第六获取模块，用于针对任一第二待处理文本，根据第二待处理文本对应的若干目标词语对象，获取第二待处理文本与第一待处理文本之间重复的目标词语对象的数量。

45、第五确定模块，用于将第二待处理文本对应的时间占比参数和第二待处理文本与第一待处理文本之间重复的目标词语对象的总数量的乘积确定为第二待处理文本的文本权重。

46、第七获取模块，用于计算每一第二待处理文本的文本权重之和与第二待处理文本数量的比值，并将计算结果作为第一待处理文本对应的第二文本优先级。

47、根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的目标文本的确定方法。

48、根据本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的目标文本的确定方法。

49、本发明与现有技术相比至少具有以下有益效果：

50、本发明所述目标文本的确定方法，首先获取给定词语对象所属类别下的若干目标词语对象，并从预设文本库中获取包含任一目标词语对象的第一待处理文本，根据每一第一待处理文本中目标语句中的目标词语对象的数量信息，获取到第一待处理文本的第一文本优先级，第一文本优先级通过引入目标词语对象的组合情况及每一组合的数量，能够更准确地反映出第一待处理文本的重要程度；然后获取任一第一待处理文本之前的若干第二待处理文本，并根据与每一第二待处理文本中公开时间之间的时长、第二待处理文本中的目标词语对象情况，获取到第二文本优先级，第二文本优先级在重复词语的数量上还引入了时间维度作为重复词语数量的权重，能够提高第一待处理文本对应的第二文本优先级的可靠性；当第一文本优先级和第二文本优先级之和大于预设优先级阈值时，将对应的第一待处理文本确定为与给定词语对象相关的目标文本，通过多种维度能够确定出与指定技术领域相关度较高的若干目标文本，有利于在一定程度上反映该技术领域的发展进程，从而为进一步预测指定技术领域的技术成熟度提供有力基础。