技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于变体词识别的直播违规行为检测方法、装置及设备与流程 > 正文

基于变体词识别的直播违规行为检测方法、装置及设备与流程

国知局
2024-11-21 11:34:09

本发明涉及语言数据处理，尤其涉及一种基于变体词识别的直播违规行为检测方法、装置、设备及存储介质。

背景技术：

1、直播电商因其“高互动性”和“娱乐性”，逐渐成为备受消费者欢迎的购物模式，在拓展新消费人群、营造新消费场景、推动新品类消费、发展适应消费的新供给方式、降低交易成本等方面具有重要作用，对促进消费持续恢复具有重要意义。

2、由于直播电商行业起步较晚、发展迅速，市场监管部门对其监管力度相对较弱，滋生了一系列直播乱象，如虚假夸大宣传、价格欺诈、商品假冒伪劣、滥用极限词汇、主播言行失范、销售违禁产品等问题。面对这种现象，各大直播平台都采取了应对的违规行为检测措施，有效地减轻了直播电商的违规行为。

3、然而，如今某些直播间为了规避直播平台对于违禁词的审查，采取了一种新的语言策略：使用变体词，即将一些直播违禁词通过某种变换得到的一种在听觉上或视觉上与原词相似的不规范词汇，从而可以绕开绝大多数直播平台的自动检测机制。

技术实现思路

1、本发明提供一种基于变体词识别的直播违规行为检测方法、装置、设备及存储介质，解决了直播违规行为检测技术中针对变体词识别的实时性与精准度不足的问题。

2、为达到上述目的，本申请采用如下技术方案：

3、第一方面，提供一种基于变体词识别的直播违规行为检测方法，包括：

4、基于语音识别模型和光学字符识别模型，获取直播间的音频和视觉文字，并转化为文本数据；

5、提取所述文本数据，并进行多层级变体词识别；

6、基于识别到的变体词，获取所述变体词的原词，并将所述原词与预先构造的敏感词库进行匹配，判断所述原词是否存在于所述敏感词库中；

7、如果所述原词存在于所述敏感词库中，则调取所述变体词前后设定时长的视频数据，并保存为违规证据；

8、其中，所述多层级变体词识别，包括：基于正则匹配的变体词识别、基于统计语言模型的变体词识别和基于大语言模型的变体词识别。

9、在第一方面的第一种可能的实现方式中，所述变体词用于规避自动审查，包括：

10、结构变体词，包括改变原词的物理结构的同时保持其视觉或听觉上的相似性的变体词；

11、音形变体词，包括替换发音相似或书写形态相似的字的变体词；

12、语义变体词，包括结构不同但语义形似或能够代指的变体词；

13、所述基于正则匹配的变体词识别用于识别所述结构变体词；

14、所述基于统计语言模型的变体词识别用于识别所述音形变体词；

15、所述基于大语言模型的变体词识别用于识别所述语义变体词。

16、基于第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述进行多层级变体词识别，包括：

17、基于文本数据，通过预设的正则表达式识别结构变体词；

18、基于统计语言模型分析文本数据的语言特征，纠正拼写错误并识别音形变体词；

19、基于大模型对文本数据进行语义理解和上下文分析，识别语义变体词。

20、基于第一方面的任一种可能的实现方式，在第一方面的第三种可能的实现方式中，如果所述原词存在于所述敏感词库中，还进行如下步骤：

21、将识别到的变体词的原词与敏感词库对比，如果其原词存在于所述敏感词库，则将所述变体词存入变体词库。

22、基于第一方面的第一种可能的实现方式，在第一方面的第四种可能的实现方式中，多层级变体词识别配置有时间优先级分级过滤策略，即：

23、在直播视频内容实时流中，所述基于正则匹配的变体词识别的时间优先级大于所述基于统计语言模型的变体词识别的时间优先级，所述基于统计语言模型的变体词识别的时间优先级大于所述基于大语言模型的变体词识别的时间优先级。

24、基于第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述多层级变体词识别启动后，所述基于正则匹配的变体词识别进行反馈；

25、每经过设定的第一时段后，所述基于统计语言模型的变体词识别对前一所述第一时段的数据进行识别并反馈；

26、每经过设定的第二时段后，所述基于统计语言模型的变体词识别对前一所述第二时段的数据进行识别并反馈；

27、其中，所述第一时段的时长小于所述第二时段的时长。

28、第二方面，提供一种基于变体词识别的直播违规行为检测装置，包括：文本数据识别与转化模块，用于基于语音识别模型和光学字符识别模型，获取直播间的音频和视觉文字，并转化为文本数据；

29、多层级变体词识别模块，用于提取所述文本数据，并进行多层级变体词识别；

30、变体词与敏感词匹配模块，用于基于识别到的变体词，获取所述变体词的原词，并将所述原词与预先构造的敏感词库进行匹配，判断所述原词是否存在于所述敏感词库中；

31、固证模块，用于如果所述原词存在于所述敏感词库中，则调取所述变体词前后设定时长的视频数据，并保存为违规证据；

32、其中，所述多层级变体词识别，包括：基于正则匹配的变体词识别、基于统计语言模型的变体词识别和基于大语言模型的变体词识别。

33、在第二方面的第一种可能的实现方式中，所述变体词用于规避自动审查，包括：

34、结构变体词，包括改变原词的物理结构的同时保持其视觉或听觉上的相似性的变体词；

35、音形变体词，包括替换发音相似或书写形态相似的字的变体词；

36、语义变体词，包括结构不同但语义形似或能够代指的变体词；

37、所述基于正则匹配的变体词识别用于识别所述结构变体词；

38、所述基于统计语言模型的变体词识别用于识别所述音形变体词；

39、所述基于大语言模型的变体词识别用于识别所述语义变体词。

40、第三方面，提供一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述基于变体词识别的直播违规行为检测方法的步骤。

41、第四方面，提供一种可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如第一方面所述基于变体词识别的直播违规行为检测方法的步骤。

42、有益效果：

43、本申请采取不同的识别检测方法来应对不同类型的变体词，有针对性地解决直播中的变体词检测问题；同时，基于构建的多层级变体词识别系统，在不同时间粒度采用不同精细度的变体词识别方法，实现了实时性与准确性的平衡；通过高效、准确的检测方法及系统，本申请为规范直播带货市场秩序、保护消费者利益提供了技术保障，有效地防止不良信息和商品的传播。

技术特征：

1.基于变体词识别的直播违规行为检测方法，其特征在于，包括：

2.根据权利要求1所述的基于变体词识别的直播违规行为检测方法，其特征在于，

3.根据权利要求2所述的基于变体词识别的直播违规行为检测方法，其特征在于，

4.根据权利要求1-3任一项所述的基于变体词识别的直播违规行为检测方法，其特征在于，

5.根据权利要求2所述的基于变体词识别的直播违规行为检测方法，其特征在于，

6.根据权利要求5所述的基于变体词识别的直播违规行为检测方法，其特征在于，

7.一种基于变体词识别的直播违规行为检测装置，其特征在于，包括：

8.根据权利要求7所述的基于变体词识别的直播违规行为检测装置，其特征在于，

9.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述基于变体词识别的直播违规行为检测方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述基于变体词识别的直播违规行为检测方法的步骤。

技术总结本发明提出了一种基于变体词识别的直播违规行为检测方法，包括：基于语音识别模型和光学字符识别模型，获取直播间的音频和视觉文字，并转化为文本数据；提取文本数据，并进行多层级变体词识别，包括：基于正则匹配的变体词识别、基于统计语言模型的变体词识别和基于大语言模型的变体词识别；基于识别到的变体词，获取变体词的原词，并将原词与敏感词库进行匹配，判断原词是否存在；如果原词存在，则调取变体词前后设定时长的视频数据，并保存为违规证据。本申请采取不同的识别检测方法来应对不同类型的变体词，在不同时间粒度采用不同精细度的变体词识别方法，实现了直播违规行为检测技术中实时性与准确性的平衡。技术研发人员：刘晨羽,欧阳小叶,白然,谷晓鹏,吕东岳,周彦果,闫红艳,袁柳受保护的技术使用者：中国电子科技集团有限公司电子科学研究院技术研发日：技术公布日：2024/11/18