用于评估自然语言处理中的语句的预测权重的系统和方法与流程
- 国知局
- 2024-11-06 14:40:18
本公开涉及基于自然语言处理中的机器学习和文本分类的预测分析,并且更具体地涉及用于评估感兴趣文档中的语句的预测权重的计算机实施的系统和方法。
背景技术:
1、传统人工智能(ai)应用经常利用机器学习算法或机器学习模型,其生成结果,而不解释为什么已生成结果。随着ai应用领域的扩大和需要知道为什么传统ai产生某些结果的,可解释ai(xai)已经成为ai技术的领域,其为结果提供解释,以摆脱只提供无理由的结果的传统黑箱ai应用。当ai应用被应用于具有“大数据”(其是指处理分析、系统提取信息或以其他方式处理数据集的方式的领域,这些数据集太大或太复杂,传统数据处理应用软件无法处理)的应用领域(其中,对大数据的错误解读在解读大数据所用的时间和资源、后果的重要性或问责制方面会是代价高昂的)时,此类ai应用经常被用作执行应用任务的人类专家的推荐工具。因此,对解释ai应用的结果背后的原因的兴趣和需要正在增长。
技术实现思路
1、根据本公开的方面,一种计算机实施的方法,包括:由一个或多个处理器从文档存储库获得文档,所述文档包括多个语句;由所述一个或多个处理器通过从所述文档中排除预定义数量的语句来生成所述文档的多个变体;由所述一个或多个处理器通过使用经训练的预测模型分别基于所述文档和所述变体中的每个变体来做出预测,所述经训练的预测模型针对所述预测中的每个预测提供置信度评分,所述置信度评分指示基于输入的预测为正确的概率;由所述一个或多个处理器通过使用与基于所述文档和所述变体中的每个变体的所述预测相对的所述置信度评分来确定所述文档中的所有语句的语句的权重,所述语句的所述权重指示所述语句对基于所述文档的预测的所述置信度评分的平均贡献;并且由所述一个或多个处理器经由用户接口和视频输出设备呈现文档,所述文档具有基于所述文档中的所述语句的相应的权重确定的不同程度的视觉效果,所述不同程度的视觉效果是针对所述文档预先配置的。
2、在一个方面中,所述方法还包括:通过以下操作来准备所述经训练的预测模型:基于预测模型的性能来选择所述预测模型,在与所述文档存储库的应用任务兼容的应用任务中利用标记的数据集来训练所述预测模型,并且通过使用所述标记的数据集中尚未在所述训练中使用的测试数据集来验证所述预测模型的所述性能大于置信度阈值。
3、在一个方面中,基于标记的数据集中的验证数据集通过以下来调谐被表示为n的所述文档的所述变体的数量以及被表示为m的要从所述文档中排除从而做出所述变体中的每个变体的语句的预定义数量:使用相对于针对所有可用组合的n和m的组合的网格搜索方法,所述验证数据集尚未在训练所述经训练的预测模型中使用,从而改进针对所述文档中的所有语句的所述语句的所述权重的相应的准确性。
4、在一个方面中,所述方法还包括:在所述多个变体中选择不包括当前语句的每个变体;计算基于来自所述选择的每个变体的第一变体的预测的置信度评分与基于所述文档的所述预测的置信度评分之间的差异;迭代计算针对来自所述选择的每个变体的与所述文档的所述差异的步骤;将来自所述计算的相应的差异相加;将来自所述相加的结果除以来自所述做出的所述文档的所述变体的数量;并且将来自除法的结果分配为所述当前语句的权重。
5、在一个方面中,所述方法还包括:针对所述文档中的所有语句,迭代以下步骤:在所述多个变体中选择不包括当前语句的每个变体;计算基于来自所述选择的每个变体的预测的相应的置信度评分与基于所述文档的所述预测的所述置信度评分之间的相应的差异;将来自所述计算的所述相应的差异相加;将来自所述相加的结果除以来自所述做出的所述文档的所述变体的数量;并且将来自除法的结果分配为所述当前语句的权重。
6、在一个方面中,所述方法还包括:对所述文档中的所有语句同时执行以下步骤:在所述多个变体中选择不包括当前语句的每个变体;计算基于来自所述选择的每个变体的预测的相应的置信度评分与基于所述文档的所述预测的所述置信度评分之间的相应的差异;将来自所述计算的所述相应的差异相加;将来自所述相加的结果除以来自所述做出的所述文档的所述变体的数量;并且将来自除法的结果指定为所述当前语句的权重。
7、在一个方面中,所述方法还包括:基于所述应用任务为所述文档配置所述不同程度的视觉效果,所述不同程度包括文档中的所述语句的表示的两个或多个程度,所述视觉效果选自包括以下各项的组:所述语句的热图;以及打开或关闭所述语句,以根据所述文档中的所述语句中的每个语句的所述权重来相对于所述语句操纵字体大小、文本效果、字体颜色和背景颜色,以及它们的组合,从而以更具预测性的权重增强所述语句的视觉印象。
8、根据本公开的方面,所述系统包括:存储器、与所述存储器通信的一个或多个处理器以及程序指令,所述程序指令能够由所述一个或多个处理器经由所述存储器运行,所述程序指令被配置为:从文档存储库获得文档,所述文档包括多个语句;通过从文档中排除预定义数量的语句来生成所述文档的多个变体;通过使用经训练的预测模型分别基于所述文档和所述变体中的每个变体做出预测,所述经训练的预测模型针对所述预测中的每个预测提供置信度评分,所述置信度评分指示基于输入的预测为正确的概率;通过使用与基于所述文档和所述变体中的每个变体的所述预测相对的所述置信度评分来确定所述文档中的所有语句的语句的权重,所述语句的所述权重指示所述语句对基于所述文档的预测的所述置信度评分的平均贡献;并且经由用户接口和视频输出设备呈现文档,所述文档具有基于所述文档中的所述语句的相应的权重确定的不同程度的视觉效果,所述不同程度的视觉效果是针对所述文档预先配置的。
9、在一个方面中,所述系统还被配置为:通过以下操作来准备所述经训练的预测模型:基于预测模型的性能来选择所述预测模型,在与所述文档存储库的应用任务兼容的应用任务中利用标记的数据集来训练所述预测模型,并且通过使用所述标记的数据集中尚未用于所述训练的测试数据集来验证所述预测模型的所述性能大于置信度阈值。
10、在一个方面中,所述系统还被配置为:基于标记的数据集中的验证数据集通过以下来调谐被表示为n的所述文档的所述变体的数量以及被表示为m的要从所述文档中排除从而做出所述变体中的每个变体的语句的预定义数量:使用相对于针对所有可用组合的n和m的组合的网格搜索方法,所述验证数据集尚未在训练所述经训练的预测模型中使用,从而改进所述文档中的所有语句的所述语句的所述权重的相应的准确性。
11、在一个方面中,所述系统还被配置为:在所述多个变体中选择不包括当前语句的每个变体;计算基于先前已经选择的每个变体的第一变体的预测的置信度评分与基于所述文档的所述预测的所述置信度评分之间的差异;迭代所述指令以计算先前已经选择的变体与所述文档的所述差异;将先前已经计算的相应的差异相加;将来自将相应的差异相加的结果除以做出的所述文档的所述变体的数量;并且将相应的差异的总和除以所述文档的所述变体的数量的结果分配为所述当前语句的权重。
12、在一个方面中,所述系统还被配置为:基于所述应用任务来设置针对所述文档的所述不同程度的视觉效果的值,所述不同程度包括所述文档中的所述语句的表示的两个或多个程度,所述视觉效果选自包括以下各项的组:所述语句的热图;以及打开或关闭所述语句,以根据所述文档中的所述语句中的每个语句的所述权重来相对于所述语句操纵字体大小、文本效果、字体颜色和背景颜色,以及它们的组合,从而以更具预测性的权重增强所述语句的视觉印象。
13、根据本公开的方面,一种计算机程序产品包括:表示能够由一个或多个处理器经由存储器运行的程序指令的数据,所述程序指令被配置为:从文档存储库获得文档,所述文档包括多个语句;通过从所述文档中排除预定义数量的语句来生成所述文档的多个变体;通过使用经训练的预测模型分别基于所述文档和所述变体中的每个变体做出预测,所述经训练的预测模型针对所述预测中的每个预测提供置信度评分,所述置信度评分指示基于输入的预测为正确的概率;通过使用关于基于所述文档和所述变体中的每个变体的所述预测的所述置信度评分来确定所述文档中的所有语句的语句的权重,所述语句的所述权重指示所述语句对基于所述文档的预测的所述置信度评分的平均贡献;并且经由用户接口和视频输出设备呈现文档,所述文档具有基于所述文档中的所述语句的相应的权重确定的不同程度的视觉效果,所述不同程度的视觉效果是针对所述文档预先配置的。
14、在一个方面中,所述计算机程序产品还被配置为:在所述多个变体中选择不包括当前语句的每个变体;计算基于先前已经选择的每个变体的第一变体的预测的置信度评分与基于所述文档的所述预测的所述置信度评分之间的差异;迭代所述指令以计算先前已经选择的每个变体与所述文档的所述差异;将先前已经计算的相应的差异相加;将来自将相应的差异相加的结果除以做出的所述文档的所述变体的数量;并且将将相应的差异的总和除以所述文档的所述变体的数量的结果分配为所述当前语句的权重。
15、在一个方面中,所述计算机程序产品还被配置为:基于所述应用任务来设置所述文档的所述不同程度的视觉效果的值,所述不同程度包括所述文档中的所述语句的表示的两个或多个程度,所述视觉效果选自包括以下各项的组:所述语句的热图;以及打开或关闭所述语句,以根据所述文档中的所述语句中的每个语句的所述权重来关于所述语句操纵字体大小、文本效果、字体颜色和背景颜色,以及它们的组合,从而以更具预测性的权重增强所述语句的视觉印象。
16、本领域技术人员将意识到,本公开的上述实施例、实施方式和/或任选方面中的两个或多个可以以任何被认为有用的方式组合。本领域技术人员基于本说明书可以执行系统和/或任何计算机可读介质的修改和变化,其对应于对应的计算机实施的方法的描述的修改和变化。
本文地址:https://www.jishuxx.com/zhuanli/20241106/323470.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。