一种面向网络商品直播销售的实时监测系统的制作方法
- 国知局
- 2024-11-21 11:34:10
本发明涉及直播监测处理,尤其涉及一种面向网络商品直播销售的实时监测系统。
背景技术:
1、直播电商因其高度的互动性和娱乐性,成为了深受消费者喜爱的购物方式,并已深入到人们的生产生活中。直播模式的成功在于它能够提供即时反馈、增强购物体验,并通过娱乐化的方式吸引和留住观众。
2、由于直播电商行业起步时间不长但发展迅速,相关市场监管体系滞后于其发展速度,导致了一系列乱象的出现,包括但不限于虚假夸大宣传、价格欺诈、商品假冒伪劣、滥用极限词汇、主播言行失范、以及销售违禁产品等。直播电商平台拥有庞大的用户群体和高速的信息传播能力,这使得虚假信息和恶意链接有了快速扩散的渠道,进而威胁到用户的网络信息安全。直播乱象不仅侵害了消费者的合法权益,还破坏了市场的公平竞争秩序,影响直播电商行业的健康发展。
3、鉴于上述问题和现象,对直播乱象进行有效监督治理具有迫切的社会需求,然而,由于对于网络商品直播销售本身具有现场性和实时性的特点,以及部分直播有意规避监测手段进行违规行为,相关技术中的监测系统无法满足当前对直播监测的高效性、实时性、精准性和可靠性的需求。
技术实现思路
1、本发明提供一种面向网络商品直播销售的实时监测系统,解决了相关技术中的监测系统无法满足当前对直播监测的高效性、实时性、精准性和可靠性的需求的问题。
2、为达到上述目的,本技术采用如下技术方案:
3、提供一种面向网络商品直播销售的实时监测系统,包括:
4、数据获取模块、数据分析模块和演示系统模块;
5、所述数据获取模块用于获取直播视频数据;
6、所述数据分析模块包括asr模块、ocr模块、违规线索发现模块和商品类别分类模块;
7、所述asr模块用于识别所述直播视频数据的语音内容并转化为直播文本;所述ocr模块用于识别所述直播视频数据的画面内容并转化为直播文本;所述违规线索发现模块用于识别所述直播文本内容中是否含有违规线索;所述违规线索的类型包括敏感词类型、变体词类型、禁售限售商品类型和商品虚假信息类型,根据所述违规线索的类型配置识别模型处理;所述商品类别分类模块用于基于大语言模型,根据所述直播文本为每个直播视频段标记商品类别标签;
8、所述演示系统模块用于关联化的可视化展示,包括所述违规线索、数据库信息的数据表。
9、在第一种可能的实现方式中,所述数据获取模块包括用于直接获取所述直播视频数据的爬虫模块和用于间接获取所述直播视频数据的录屏模块;
10、所述爬虫模块循环读取数据库中的直播链接池,对于每一个读取到的直播链接,开启一个新的线程,并行下载直播视频内容;
11、所述录屏模块基于ffmpeg捕获屏幕图像的像素数据和音频数据,将所述像素数据和所述音频数据进行实时编码、合并,并封装到一个多媒体容器格式中形成多媒体文件;
12、下载的所述直播视频内容和所述所媒体文件存放至待分析视频缓冲区,并向所述数据库中待分析视频表中添加对应记录。
13、在第二种可能的实现方式中,所述违规线索发现模块,包括:
14、敏感词匹配模块,基于通用敏感词识别模型,将所述直播文本与敏感词库中的词汇进行匹配,如果某个敏感词存在于所述直播文本中,则标记对应的直播视频数据;
15、变体词识别模块,用于根据变体词类型进行多层级变体词识别;
16、所述变体词包括结构变体词、音形变体词、语义变体词;
17、所述的多层级变体词识别,包括:通过预设的正则表达式识别所述结构变体词;基于统计语言模型分析所述直播文本的语言特征,纠正拼写错误并识别所述音形变体词;基于大模型对所述直播文本进行语义理解和上下文分析,识别所述语义变体词;基于识别到的变体词,获取所述变体词的原词,并将所述原词与预先构造的敏感词库进行匹配,判断所述原词是否存在于所述敏感词库中;若存在,在标记对应的直播视频数据;
18、禁售限售商品识别模块,基于禁售限售商品识别模型,识别直播内容中是否存在禁售限售商品的销售行为,若存在,则标记对应的直播视频数据;
19、商品虚假信息识别模块,基于商品虚假信息识别模型,根据所述直播文本的商品描述与商品数据库记录的商品描述进行产品匹配分析,若存在矛盾,则标记对应的直播视频数据。
20、基于第二种可能的实现方式,在第三种可能的实现方式中,所述的多层级变体词识别,配置有时间优先级分级过滤策略,即:
21、在直播视频内容实时流中,所述基于正则匹配的变体词识别的时间优先级大于所述基于统计语言模型的变体词识别的时间优先级,所述基于统计语言模型的变体词识别的时间优先级大于所述基于大语言模型的变体词识别的时间优先级。
22、基于第三种可能的实现方式,在第四种可能的实现方式中,所述多层级变体词识别启动后,所述基于正则匹配的变体词识别进行反馈;
23、每经过设定的第一时段后,所述基于统计语言模型的变体词识别对前一所述第一时段的数据进行识别并反馈;
24、每经过设定的第二时段后,所述基于统计语言模型的变体词识别对前一所述第二时段的数据进行识别并反馈;
25、其中,所述第一时段的时长小于所述第二时段的时长。
26、基于上述任一种可能的实现方式,在第五种可能的实现方式中,在进行所述的多层级变体词识别后,将识别到的变体词的原词与敏感词库对比,如果其原词存在于敏感词库,则将所述变体词存入变体词库。
27、在第六种可能的实现方式中,所述商品类别分类模块将商品根据类型分为保健品、药品、化妆品、医疗器械;
28、所述商品类别分类模块通过实时的网络服务从大模型获取响应结果;
29、所述商品类别分类模块使用全局变量来暂时存储所述响应结果;在下一次分类请求前,清空所述全局变量。
30、基于第六种可能的实现方式,在第七种可能的实现方式中,演示系统模块,包括:
31、系统主页,用于统计信息的展示,包括以下至少之一:监测平台数量、直播间数量、监控主播数量、违规类型数量、线索视频数量、变体词数量、高频触发关键词词云、高频触发变体词词云;
32、实体直播池管理,用于查看直播池中的直播间信息,以及提供向所述直播池中加入新链接的交互;
33、自动直播巡检,提供用于配置随机直播的自动化监测的交互;
34、定制直播监测,提供用于配置选定直播的自动化监测的交互;
35、违规线索展示,将违规线索发现模块检测到违规线索的直播间信息及相应的违规线索进行关联显示;
36、数据库展示,包括与违规线索关联的证据视频表、禁售限售表、敏感词表、药械妆表、保健食品表和带有标注的匹配关系表。
37、基于第七种可能的实现方式,在第八种可能的实现方式中,所述的带有标注的匹配关系表,包括与商品信息匹配的敏感词匹配表、专项变体词匹配表及禁售限售匹配表。
38、基于第八种可能的实现方式,在第九种可能的实现方式中,所述敏感词匹配表,包括有四个属性,分别为‘id’、‘通用敏感词_id’、‘live_id’及‘是否合格’;其中,‘id’是敏感词匹配表的主键,‘通用敏感词id’和‘live_id’是敏感词匹配表的外键;‘是否合格’有两种取值,‘0’代表此视频不合格,‘1’代表此视频合格;
39、所述专项变体词匹配表,包括有四个属性,分别为‘id’、‘专项变体词_id’、‘live_id’及‘是否合格’;其中,‘id’是专项变体词匹配表的主建,‘专项变体词_id’和‘live_id’是专项变体词表的外键;‘是否合格’有两种取值,‘0’代表此视频不合格,‘1’代表此视频合格;
40、所述禁售限售匹配表,包括有四个属性,分别为‘id’、‘禁售限售_id’、‘live_id’及‘是否合格’;其中,‘id’是禁售限售匹配表的主建,‘禁售限售_id’和‘live_id’是专项变体词表的外键;‘是否合格’有两种取值,‘0’代表此视频不合格,‘1’代表此视频合格。
41、本技术结合了自动语音识别、图像文字识别和大语言模型等技术,能够全面监测直播电商中的语音、图像和文本信息,覆盖了直播中可能存在的各种违法违规行为。系统采用了多层级识别策略,从简单的正则表达式匹配到更复杂的统计语言模型和大语言模型匹配,按需调用更复杂的匹配机制,既保证了识别的准确性,又避免了不必要的计算资源浪费,提高了系统的整体效率。商品信息匹配,商品类别分类、提高了监测的针对性和专业性。系统能够实时监测直播内容,自动化地进行违规线索的发现和记录,减轻了人工监控的压力,提高了监管的时效性。系统展示板块提供了直观的界面,具备完善的数据库管理功能,为后续的数据分析和决策提供了坚实的基础,简化了监管流程,提高了监管效率;本系统兼顾高效性、实时性、精准性和可靠性,为直播行业带来了积极的变革。
本文地址:https://www.jishuxx.com/zhuanli/20241120/331811.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。