技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种目标文本的确定方法及系统与流程  >  正文

一种目标文本的确定方法及系统与流程

  • 国知局
  • 2024-09-11 14:31:48

本发明涉及文本处理,特别是涉及一种目标文本的确定方法及系统。

背景技术:

1、随着科技的快速发展以及互联网技术的普及,文本文件的数量与日俱增,在处理和分析大量文本数据时,如何快速有效地评估文本的重要性或评估文本是否是高价值文本就显得尤为重要。

2、现有技术中,通常利用信息检索和信息分类技术对文本文件进行筛选,以最常见的词频-逆向文件频率方法为例,通过构造与筛选条件相关的关键词,计算该关键词在各个文本中的出现频率,以及包含该关键词的文本数量在整个文本数据库中的占比来判断各个文本在这个关键词下的重要性,继而筛选出重要性高的若干个文本文件,这种评估方法只能应用于完整性较高的文本,且评估方式较为单一,准确性较低。

技术实现思路

1、针对上述技术问题,本发明提供一种目标文本的确定方法及系统,以实现对文本的准确有效评估。

2、根据本发明的第一方面,提供了一种目标文本的确定方法,所述方法包括如下步骤:

3、s100,从接收到的初始文本列表集中获取每一初始文本对应的初始文本关键词集和初始文本片段集。

4、s200,将每一初始文本对应的初始文本关键词集和初始文本片段集输入至预设的语言处理模型中,获取到每一初始文本对应的关键文本。

5、s300,根据若干个初始文本、每一初始文本对应的初始文本关键词集和每一初始文本对应的关键文本,获取到每一初始文本对应的文本权重。

6、s400,当存在初始文本对应的文本权重大于预设的文本权重阈值时,将对应文本权重大于预设的文本权重阈值的初始文本确定为目标文本。

7、根据本发明的第二方面,提供了一种目标文本的确定系统,所述系统包括:

8、关键词和文本片段获取模块,用于从接收到的初始文本列表集中获取每一初始文本对应的初始文本关键词集和初始文本片段集。

9、关键文本获取模块,用于将每一初始文本对应的初始文本关键词集和初始文本片段集输入至预设的语言处理模型中,获取到每一初始文本对应的关键文本。

10、文本权重获取模块,用于根据若干个初始文本、每一初始文本对应的初始文本关键词集和每一初始文本对应的关键文本,获取到每一初始文本对应的文本权重。

11、目标文本确定模块,用于当存在初始文本对应的文本权重大于预设的文本权重阈值时,将对应文本权重大于预设的文本权重阈值的初始文本确定为目标文本。

12、本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种目标文本的确定方法及系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:

13、本发明提供了一种目标文本的确定方法,首先从接收的每一初始文本中获取到若干个初始文本关键词和标准化处理后的若干个初始文本片段,并一同输入至语言处理模型中输出关键文本,通过这一方式生成的关键文本为逻辑连贯且完整性高的标准文本,通过自然语言查询和字符识别获取关键文本和初始文本分别对应的参数信息,计算得到每一初始文本的文本权重,且当初始文本对应的文本权重大于预设的文本权重阈值时,将初始文本确定为目标文本,通过初始文本和经标准化处理的关键文本两者参数相结合的方式,充分利用了文本的结构和内容信息来对文本的重要性进行全面评估,使得计算出的初始文本的文本权重更加准确,能够快速有效地筛选出所需的目标文本,有利于大量文本数据的处理和分析。

技术特征:

1.一种目标文本的确定方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的目标文本的确定方法,其特征在于,在步骤s100中包括如下步骤:

3.根据权利要求2所述的目标文本的确定方法,其特征在于,在步骤s100中还包括如下步骤:

4.根据权利要求1所述的目标文本的确定方法,其特征在于,所述初始文本对应的文本权重符合如下条件:

5.根据权利要求1所述的目标文本的确定方法,其特征在于,在步骤s400中通过如下步骤获取预设的文本权重阈值:

6.一种目标文本的确定系统,其特征在于,所述系统包括:

7.根据权利要求6所述的目标文本的确定系统,其特征在于,所述关键词和文本片段获取模块包括:

8.根据权利要求7所述的目标文本的确定系统,其特征在于,所述关键词和文本片段获取模块还包括:

9.根据权利要求6所述的目标文本的确定系统,其特征在于,所述目标文本确定模块包括:

技术总结本申请涉及文本处理技术领域,特别是涉及一种目标文本的确定方法及系统,所述方法包括如下步骤:从接收的每一初始文本中获取到若干个初始文本关键词和处理后的若干个初始文本片段,并一同输入至语言处理模型中输出关键文本,通过这一方式生成的关键文本为逻辑连贯且完整性高的标准文本,通过关键文本和初始文本分别对应的参数信息,计算得到每一初始文本的文本权重,且当初始文本对应的文本权重大于预设的文本权重阈值时,将初始文本确定为目标文本;可知,本发明充分利用了文本的结构和内容信息来对文本的重要性进行全面评估,能够快速有效地筛选出所需的目标文本,有利于大量文本数据的处理和分析。技术研发人员:石江枫,于伟,靳雯,王全修,赵洲洋受保护的技术使用者:北京睿企信息科技有限公司技术研发日:技术公布日:2024/9/9

本文地址:https://www.jishuxx.com/zhuanli/20240911/291268.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。