一种文本处理方法、装置、设备及介质与流程
- 国知局
- 2024-11-21 11:42:29
本技术涉及数据处理领域,具体涉及一种文本处理方法、装置、设备及介质。
背景技术:
1、在某一设备获得原始文本之后,其他设备有可能同样需要原始文本中的一些语句信息,因此,可以将其他设备需要的语句信息从原始文本中进行分类提取,从而发送给其他需要语句信息的设备。
2、目前从原始文本中提取部分信息的方式通常为使用单个自然语言处理(naturelanguage processing,nlp)模型,对原始文本中的语句信息进行分类并提取,但是,使用普通的nlp的模型无法精准识别部分语句对应的类别,并且,如果原始文本中有语句对应多个类型,使用单个模型进行判断容易导致某一类型对应的语句缺失的情况出现。
技术实现思路
1、本技术实施例提供一种文本处理方法、装置、设备及介质,用于解决使用普通的nlp的模型无法精准识别部分语句对应的类别,以及使用单个模型进行判断容易导致某一类型对应的语句缺失的情况出现的问题。
2、第一方面,本技术实施例提供了一种文本处理方法,包括:
3、获取第一组已训练的多个语言模型;其中,第一语言模型用于判定输入语句是否为第一类型语句;所述第一语言模型为所述多个语言模型中的任意一个;
4、将原始文本分别输入所述多个语言模型,得到所述多个语言模型中每个语言模型输出的所述原始文本中的每个语句的语句类型;
5、根据所述每个语句的语句类型确定所述原始文本的文本类型;
6、基于所述每个语句对应的语句类型,对所述原始文本中包含的多个语句进行分类提取,得到分类提取文本;
7、基于所述分类提取文本的语义信息对所述分类提取文本进行概括,得到目标文本。
8、在一种可能的实施方式中,所述将原始文本分别输入所述多个语言模型,得到所述多个语言模型中每个语言模型输出的所述原始文本中的每个语句的语句类型,包括:
9、确定所述多个语言模型中,将第一语句分类为第二类型的语言模型的第一数量;所述第一语句为所述多个语句中的任意一个;所述第二类型为多个语句类型中的任意一个;
10、若所述第一数量大于或等于所述第二类型对应的数量阈值,则确定所述第一语句的类型为第二类型;
11、若所述第一数量小于所述第二类型对应的数量阈值,则将所述第一语句从所述第二类型中包含的语句中移除。
12、在一种可能的实施方式中,所述基于所述每个语句对应的语句类型,对所述原始文本中包含的多个语句进行分类提取,包括:
13、获取第二组已训练的多个语言模型;
14、将所述原始文本分别输入第二组的多个语言模型,得到所述多个语言模型中每个语言模型输出的所述原始文本中的每个语句的目标语句判断结果;所述目标语句判断结果用于表征对应的语句是否包含设定内容;
15、基于所述每个语句对应的语句类型和所述目标语句判断结果,对所述原始文本中包含的多个语句进行分类提取。
16、在一种可能的实施方式中,所述第二组已训练的多个语言模型中包含的语言模型的类型,与所述第一组已训练的多个语言模型中包含的语言模型的类型相同。
17、在一种可能的实施方式中,所述基于所述每个语句对应的语句类型和所述目标语句判断结果,对所述原始文本中包含的多个语句进行分类提取,包括:
18、若针对所述第一语句的目标语句判断结果小于目标阈值,则从所述第一语句对应的语句类型中将所述第一语句进行剔除;
19、若所述原始文本中每个语句的目标语句判断结果均大于或等于所述目标阈值,则根据所述每个语句对应的语句类型,将所述原始文本中的每个语句与对应的语句类型对应地保存至第一文件中。
20、在一种可能的实施方式中,所述获取第一组已训练的多个语言模型,包括:
21、确定不同类型的多个大语言模型,并将训练集输入至所述多个大语言模型中的每个大语言模型;所述训练集包括多个原始文本以及所述多个原始文本中每个语句的语句类型;所述每个语言模型在接收到所述训练集之后,将模型输出结果与训练集的结果进行比较,确定对应的损失值,重复调整训练参数直至所述损失值达到设定值;
22、等待直至所述每个大语言模型使用所述训练集完成训练,得到所述第一组已训练的多个语言模型。
23、在一种可能的实施方式中,所述基于所述每个语句对应的语句类型,对所述原始文本中包含的多个语句进行分类提取,包括:
24、基于所述每个语句对应的语句类型,确定每个语句类型对应的多个语句,保留所述每个语句类型对应的多个语句中相同语句中的一个语句;
25、根据所述每个语句类型对应的多个语句,将所述原始文本中的每个语句与对应的语句类型对应地保存至第一文件中。
26、在一种可能的实施方式中,所述基于所述每个语句对应的语句类型,对所述原始文本中包含的多个语句进行分类提取之后,所述方法还包括:
27、若接收到任一请求端发送的信息查看请求,则将分类提取后的多个语句发送至所述请求端。
28、在一种可能的实施方式中,所述根据所述每个语句的语句类型确定所述原始文本的文本类型,包括:
29、确定每个语句类型对应的语句数量,并根据所述语句数量中的最大值对应的语句类型确定所述原始文本的文本类型。
30、在一种可能的实施例中,所述基于所述分类提取文本的语义信息对所述分类提取文本进行概括,得到目标文本,包括:
31、将所述分类提取文本输入目标语言模型,得到目标文本;所述目标语言模型用于识别所述分类提取文本的重要信息,基于所述重要信息确定所述分类提取文本的语义信息,并将所述语义信息进行组合得到所述目标文本;所述重要信息包含所述分类提取文本中的描述主体以及与所述描述主体相关的部分信息。
32、第二方面,本技术提供一种文本处理装置,所述装置包括:
33、模型获取单元,用于获取第一组已训练的多个语言模型;其中,第一语言模型用于判定输入语句是否为第一类型语句;所述第一语言模型为所述多个语言模型中的任意一个;
34、类型确定单元,用于将原始文本分别输入所述多个语言模型,得到所述多个语言模型中每个语言模型输出的所述原始文本中的每个语句的语句类型;
35、根据所述每个语句的语句类型确定所述原始文本的文本类型;
36、分类提取单元,用于基于所述每个语句对应的语句类型,对所述原始文本中包含的多个语句进行分类提取,得到分类提取文本;
37、语义概括单元,用于基于所述分类提取文本的语义信息对所述分类提取文本进行概括,得到目标文本。
38、在一种可能的实施方式中,类型确定单元具体用于:
39、确定所述多个语言模型中,将第一语句分类为第二类型的语言模型的第一数量;所述第一语句为所述多个语句中的任意一个;所述第二类型为多个语句类型中的任意一个;
40、若所述第一数量大于或等于所述第二类型对应的数量阈值,则确定所述第一语句的类型为第二类型;
41、若所述第一数量小于所述第二类型对应的数量阈值,则将所述第一语句从所述第二类型中包含的语句中移除。
42、在一种可能的实施方式中,分类提取单元具体用于:
43、获取第二组已训练的多个语言模型;
44、将所述原始文本分别输入第二组的多个语言模型,得到所述多个语言模型中每个语言模型输出的所述原始文本中的每个语句的目标语句判断结果;所述目标语句判断结果用于表征对应的语句是否包含设定内容;
45、基于所述每个语句对应的语句类型和所述目标语句判断结果,对所述原始文本中包含的多个语句进行分类提取。
46、在一种可能的实施方式中,分类提取单元具体用于:
47、若针对所述第一语句的目标语句判断结果小于目标阈值,则从所述第一语句对应的语句类型中将所述第一语句进行剔除;
48、若所述原始文本中每个语句的目标语句判断结果均大于或等于所述目标阈值,则根据所述每个语句对应的语句类型,将所述原始文本中的每个语句与对应的语句类型对应地保存至第一文件中。
49、在一种可能的实施方式中,模型获取单元具体用于,确定不同类型的多个大语言模型,并将训练集输入至所述多个大语言模型中的每个大语言模型;所述训练集包括多个原始文本以及所述多个原始文本中每个语句的语句类型;所述每个语言模型在接收到所述训练集之后,将模型输出结果与训练集的结果进行比较,确定对应的损失值,重复调整训练参数直至所述损失值达到设定值;
50、等待直至所述每个大语言模型使用所述训练集完成训练,得到所述第一组已训练的多个语言模型。
51、在一种可能的实施方式中,分类提取单元具体用于:
52、基于所述每个语句对应的语句类型,确定每个语句类型对应的多个语句,保留所述每个语句类型对应的多个语句中相同语句中的一个语句;
53、根据所述每个语句类型对应的多个语句,将所述原始文本中的每个语句与对应的语句类型对应地保存至第一文件中。
54、第三方面,本技术提供一种电子设备,包括:
55、存储器,用于存储程序指令;
56、处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。
57、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行第一方面中任一项所述的方法。
58、第五方面,本技术提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。
59、本技术的有益效果如下:
60、本技术实施例提供一种文本处理方法、装置、设备及介质。在本技术实施例中,可以获取第一组已训练的多个语言模型,每个语言模型用于判断一种语句类型,将原始文本分别输入多个语言模型,可以得到每个语言模型输出的原始文本中的每个语句的语句类型,并基于每个语句对应的语句类型,对原始文本中包含的多个语句进行分类提取。通过准备多个预训练语言模型,每个预训练语言模型只需要判断语句是否属于一种类型即可,避免了使用单个模型容易出现类型缺失的情况,并且,将使用nlp进行训练的模型改为了使用训练好的大语言模型,可以精准识别每一个语句的类别,提高了分类的正确率。
本文地址:https://www.jishuxx.com/zhuanli/20241120/332502.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表