技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文本检测方法、终端设备及计算机程序产品与流程  >  正文

文本检测方法、终端设备及计算机程序产品与流程

  • 国知局
  • 2024-07-31 23:05:43

本申请涉及终端领域,尤其涉及一种文本检测方法、终端设备及计算机程序产品。

背景技术:

1、敏感词是指那些可能对某些人造成伤害或不适的词语,这些词语通常包括攻击性的、辱骂性的、诽谤性的或其他有害内容,不同的国家和地区可能会有不同的敏感词汇,因此敏感词的具体内容可能会有所差异。

2、

3、常用的敏感词检测算法主要包括kmp算法(the knuth-morris-prattalgorithm)、确定有穷自动机(deterministic finite automaton,dfa)算法等几种。这些算法,在敏感词匹配过程中需要多次循环比对,占用大量的服务器性能,造成执行时间过长和服务器运行负载过高的问题。

技术实现思路

1、本申请实施例提供一种文本检测方法、终端设备及计算机程序产品,以解决相关技术的算法造成执行时间过长和服务器运行负载过高的问题。

2、第一方面,本申请实施例提供了一种文本检测方法,包括:

3、将待检测文本转化成待检测文本树状森林结构;

4、依据ascii编码中的字符编码顺序,将所述待检测文本树状森林结构拼接成长文本,得到有序待检测文本;

5、依据所述ascii编码中的字符编码顺序,将敏感词库中的敏感词组装为所述敏感词的有序敏感词正则文本;

6、采用归并算法,将基于排序标准一致的所述有序待检测文本和所述有序敏感词正则文本进行正则匹配,以识别或检测出所述待检测文本中的敏感词。

7、第二方面,本申请实施例提供了一种文本检测装置,包括:

8、转化模块,用于将待检测文本转化成待检测文本树状森林结构;

9、拼接模块,用于依据ascii编码中的字符编码顺序,将所述待检测文本树状森林结构拼接成长文本,得到有序待检测文本;

10、组装模块,用于依据所述ascii编码中的字符编码顺序,将敏感词库中的敏感词组装为所述敏感词的有序敏感词正则文本;

11、检测模块,用于采用归并算法,将基于排序标准一致的所述有序待检测文本和所述有序敏感词正则文本进行正则匹配,以识别或检测出所述待检测文本中的敏感词。

12、第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。

13、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。

14、第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,所述程序指令被计算机执行时实现如第一方面所述的方法的步骤。

15、在本申请实施例中,首先将待检测文本转化成待检测文本树状森林结构,然后依据ascii编码中的字符编码顺序,将待检测文本树状森林结构拼接成长文本,得到有序待检测文本,依据ascii编码中的字符编码顺序,将敏感词库中的敏感词组装为敏感词的有序敏感词正则文本,最后采用归并算法,将基于排序标准一致的有序待检测文本和有序敏感词正则文本进行正则匹配,以识别或检测出待检测文本中的敏感词。本申请实施例中依据ascii编码中的字符编码顺序,将待测长文本的文本和敏感词的正则文本均构建成有序的,且二者的有序是一致性的,可以有效提高对敏感词的检验效率,同时通过利用有序的正则文本,对待测长文本进行有序的正则匹配,可以通过一次遍历匹配完成,在保证匹配精确度的情况下减少匹配次数,从而有效减轻匹配压力,缩短执行时长。

技术特征:

1.一种文本检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将待检测文本转化成待检测文本树状森林结构,包括:

3.根据权利要求2所述的方法,其特征在于,所述依据ascii编码中的字符编码顺序,将所述待检测文本树状森林结构拼接成长文本,得到有序待检测文本,包括:

4.根据权利要求1所述的方法,其特征在于,所述依据所述ascii编码中的字符编码顺序,将敏感词库中的敏感词组装为所述敏感词的有序敏感词正则文本,包括:

5.根据权利要求1所述的方法,其特征在于,在所述采用归并算法,将基于排序标准一致的所述有序待检测文本和所述有序敏感词正则文本进行正则匹配,以识别或检测出所述待检测文本中的敏感词之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述采用归并算法,将基于排序标准一致的所述有序待检测文本和所述有序敏感词正则文本进行正则匹配,以识别或检测出所述待检测文本中的敏感词,包括:

7.根据权利要求6所述的方法,其特征在于,所述利用排序标准一致的所述java正则匹配工具对所述java标准有序长字符串进行检测,以识别或检测出所述待检测文本中的敏感词,包括:

8.一种终端设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的方法的步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法的步骤。

10.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,所述程序指令被计算机执行时实现如权利要求1至7任一项所述的方法的步骤。

技术总结本申请公开了一种文本检测方法、终端设备及计算机程序产品,该文本检测方法包括:将待检测文本转化成待检测文本树状森林结构;依据ASCII编码中的字符编码顺序,将所述待检测文本树状森林结构拼接成长文本,得到有序待检测文本;依据所述ASCII编码中的字符编码顺序,将敏感词库中的敏感词组装为所述敏感词的有序敏感词正则文本;采用归并算法,将基于排序标准一致的所述有序待检测文本和所述有序敏感词正则文本进行正则匹配,以识别或检测出所述待检测文本中的敏感词。技术研发人员:吴长江,孙海涛,安宝宇,霍学洋,周鹏亮受保护的技术使用者:中移雄安信息通信科技有限公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/195924.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。