技术新讯 > 计算推算,计数设备的制造及其应用技术 > 敏感词词库的生成方法、装置、电子设备及存储介质与流程 > 正文

敏感词词库的生成方法、装置、电子设备及存储介质与流程

国知局
2024-08-22 15:11:18

本公开涉及自然语言处理，具体而言，涉及一种敏感词词库的生成方法、装置、设备存储介质以及程序产品。

背景技术：

1、随着互联网的发展，通过互联网传播非法信息或不文明信息等敏感内容变得更加容易，因此需要加强对互联网上传播的信息的检测，识别互联网上传播的信息中存在的一些敏感词。

2、对于敏感词识别，通常需要预先构建敏感词词库，在待审核文本中识别是否存在敏感词词库中预先配置的敏感词。这种敏感词识别方式依赖于敏感词词库中敏感词的广度以及精度，因此，如何提升敏感词词库的覆盖广度以及精度，是亟待解决的问题。

技术实现思路

1、本公开实施例至少提供一种敏感词词库的生成方法、装置、电子设备以及存储介质，用以提升敏感词词库的覆盖广度以及精度，进而有利于提升敏感词检测的准确定。

2、第一方面，本公开实施例提供了一种敏感词词库的生成方法，该方法包括：

3、获取原始敏感词，并对所述原始敏感词进行变形得到多个变形敏感词；

4、确定每个变形敏感词与所述原始敏感词之间的相似度；

5、根据各个变形敏感词与所述原始敏感词之间的相似度，从所述多个变形敏感词中确定候选变形敏感词；

6、确定各候选变形敏感词的敏感分值，根据所述敏感分值，从各候选变形敏感词中确定目标变形敏感词；

7、基于所述原始敏感词以及所述目标变形敏感词，生成敏感词词库；所述敏感词词库用于对待审核文本进行敏感词检测。

8、在一种可能的实施方式中，所述确定每个变形敏感词与所述原始敏感词之间的相似度，包括：

9、针对任一变形敏感词，确定针对所述变形敏感词的文本描述信息；所述文本描述信息用于指示判断所述变形敏感词与所述原始敏感词之间的相似度；所述文本描述信息包括辅助描述信息，所述辅助描述信息用于指示在确定所述相似度过程中的依附规则；

10、将所述原始敏感词、所述变形敏感词以及所述文本描述信息输入到预先训练的大语言模型，得到所述变形敏感词与所述原始敏感词之间的相似度。

11、在一种可能的实施方式中，所述对所述原始敏感词进行变形得到多个变形敏感词，包括：

12、针对所述原始敏感词中的每个原始文本，按照预设变形规则对其进行变形，得到变形文本；

13、按照所述原始敏感词中各个原始文本的排列顺序，将每个原始文本及其变形文本与其他各个原始文本及其变形文本进行组合，得到所述多个变形敏感词。

14、在一种可能的实施方式中，所述预设变形规则包括以下至少一种：

15、将与所述原始文本对应的拼音作为所述变形文本；将与所述原始文本对应的拼音首字母作为所述变形文本；将与所述原始文本对应的形近字作为所述变形文本；将与所述原始文本对应的拆字作为所述变形文本；将与所述原始文本对应的火星文作为所述变形文本。

16、在一种可能的实施方式中，所述根据各个变形敏感词与所述原始敏感词之间的相似度，从所述多个变形敏感词中确定候选变形敏感词，包括：

17、对各个相似度进行排序，并按照相似度从高到低的顺序选取预设数量的变形敏感词；

18、将选取的预设数量的变形敏感词中，对应相似度中大于预设阈值的变形敏感词，确定为所述候选变形敏感词。

19、在一种可能的实施方式中，所述确定各候选变形敏感词的敏感分值，包括：

20、根据所述候选变形敏感词在最近预设时间段内的出现频次信息，确定第一敏感分值；

21、以及，根据各个所述候选变形敏感词对应的历史交互数据，确定所述候选变形敏感词的第二敏感分值；

22、根据所述第一敏感分值和所述第二敏感分值，以及所述第一敏感分值和所述第二敏感分值分别对应的权重，从多个所述候选变形敏感词中确定所述目标变形敏感词。

23、在一种可能的实施方式中，所述历史交互数据通过以下方法确定：

24、在信息推送页面展示所述候选变形敏感词；

25、获取用户针对所述候选变形敏感词的评价信息和操作信息；

26、基于所述评价信息和操作信息确定所述历史交互数据。

27、在一种可能的实施方式中，所述方法还包括：

28、基于所述敏感词词库构建ac自动机，调用所述ac自动机对所述待审核文本进行检测，得到检测结果，所述检测结果用于指示所述待审核文本在所述敏感词词库中命中的目标敏感词。

29、第二方面，本公开实施例还提供一种敏感词词库的生成装置，包括：

30、敏感词变形模块，用于获取原始敏感词，并对所述原始敏感词进行变形得到多个变形敏感词；

31、相似度确定模块，用于确定每个变形敏感词与所述原始敏感词之间的相似度；

32、第一筛选模块，用于根据各个变形敏感词与所述原始敏感词之间的相似度，从所述多个变形敏感词中确定候选变形敏感词；

33、第二筛选模块，用于确定各候选变形敏感词的敏感分值，根据所述敏感分值，从各候选变形敏感词中确定目标变形敏感词；

34、词库生成模块，用于基于所述原始敏感词以及所述目标变形敏感词，生成敏感词词库；所述敏感词词库用于对待审核文本进行敏感词检测。

35、在一种可能的实施方式中，所述相似度确定模块具体用于：

36、针对任一变形敏感词，确定针对所述变形敏感词的文本描述信息；所述文本描述信息用于指示判断所述变形敏感词与所述原始敏感词之间的相似度；所述文本描述信息包括辅助描述信息，所述辅助描述信息用于指示在确定所述相似度过程中的依附规则；

37、将所述原始敏感词、所述变形敏感词以及所述文本描述信息输入到预先训练的大语言模型，得到所述变形敏感词与所述原始敏感词之间的相似度。

38、在一种可能的实施方式中，所述敏感词变形模块具体用于：

39、针对所述原始敏感词中的每个原始文本，按照预设变形规则对其进行变形，得到变形文本；

40、按照所述原始敏感词中各个原始文本的排列顺序，将每个原始文本及其变形文本与其他各个原始文本及其变形文本进行组合，得到所述多个变形敏感词。

41、在一种可能的实施方式中，所述预设变形规则包括以下至少一种：

42、将与所述原始文本对应的拼音作为所述变形文本；将与所述原始文本对应的拼音首字母作为所述变形文本；将与所述原始文本对应的形近字作为所述变形文本；将与所述原始文本对应的拆字作为所述变形文本；将与所述原始文本对应的火星文作为所述变形文本。

43、在一种可能的实施方式中，所述第一筛选模块具体用于：

44、对各个相似度进行排序，并按照相似度从高到低的顺序选取预设数量的变形敏感词；

45、将选取的预设数量的变形敏感词中，对应相似度中大于预设阈值的变形敏感词，确定为所述候选变形敏感词。

46、在一种可能的实施方式中，所述第二筛选模块具体用于：

47、根据所述候选变形敏感词在最近预设时间段内的出现频次信息，确定第一敏感分值；

48、以及，根据各个所述候选变形敏感词对应的历史交互数据，确定所述候选变形敏感词的第二敏感分值；

49、根据所述第一敏感分值和所述第二敏感分值，以及所述第一敏感分值和所述第二敏感分值分别对应的权重，从多个所述候选变形敏感词中确定所述目标变形敏感词。

50、在一种可能的实施方式中，所述第二筛选模块具体用于：

51、在信息推送页面展示所述候选变形敏感词；

52、获取用户针对所述候选变形敏感词的评价信息和操作信息；

53、基于所述评价信息和操作信息确定所述历史交互数据。

54、在一种可能的实施方式中，所述装置还包括敏感词检测模块，该敏感词检测模块用于：

55、基于所述敏感词词库构建ac自动机，调用所述ac自动机对所述待审核文本进行检测，得到检测结果，所述检测结果用于指示所述待审核文本在所述敏感词词库中命中的目标敏感词。

56、第三方面，本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面中任一可能的实施例所述的敏感词词库的生成方法的步骤。

57、第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面中任一可能的实施例所述的敏感词词库的生成方法的步骤。

58、第五方面，本公开实施例还提供一种计算机程序产品，计算机程序产品在被计算机调用时，使得计算机执行第一方面中任一可能的实施例所述的的敏感词词库的生成方法的步骤。

59、本公开实施例提供的敏感词词库的生成方法、装置、电子设备以及存储介质，针对获取到的原始敏感词，会对该原始敏感词进行变形得到多个变形敏感词，然后确定变形敏感词与原始敏感词的相似度，以从该多个变形敏感词中确定候选变形敏感词，接着根据各候选变形敏感词的敏感分值再从各候选变形敏感词中确定目标变形敏感词，最后基于原始敏感词以及挑选出来的目标变形敏感词生成敏感词词库，这样，由于生成的敏感词词库中不仅包括原始敏感词还包括与原始敏感词对应的变形敏感词，提升了敏感词词库的覆盖广度，即使待审核文本中存在变形处理后的敏感词，也会被检测出来，从而有利于提升敏感词的检测精度。此外，由于变形敏感词是基于相似度以及敏感分值两方面因素挑选出来的，还可以进一步提升变形敏感词的筛选精度，有利于进一步提升敏感词的检测精度。

60、为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。