技术新讯 > 计算推算,计数设备的制造及其应用技术 > 实时社交聆听数据挖掘方法、装置及电子设备与流程  >  正文

实时社交聆听数据挖掘方法、装置及电子设备与流程

  • 国知局
  • 2024-09-14 14:41:20

本发明涉及数据处理,尤其涉及一种实时社交聆听数据挖掘方法、装置及电子设备。

背景技术:

1、实时社交聆听数据是指通过技术手段(如大数据分析和人工智能算法)持续不断地监测、收集和分析互联网上,尤其是在社交媒体平台上的用户产生的实时内容、对话、情绪和行为信息。这种数据收集方式专注于理解公众对品牌、产品、事件或任何特定主题的即时反馈和讨论,使得企业和组织能够迅速响应市场动态、识别信息趋势、了解消费者需求并优化信息推送策略。

2、实时社交聆听的数据覆盖广泛的社交媒体平台、博客、论坛、新闻网站等,数据收集和分析几乎与信息发布的瞬间同步,实时社交聆听不仅关乎数据的获取,更重要的是如何高效地将这些数据转化为有意义的预测数据,从而更好地与目标受众沟通,驱动产品和服务的创新。

3、现有技术在实时社交聆听数据挖掘的过程中,存在如下问题:

4、1.数据来源有限:许多系统仅能处理特定平台的数据,缺乏跨平台的数据整合能力。

5、2.实时性不足:由于数据量大,现有系统在处理和分析数据时往往存在延迟,难以实现实时监测。

6、3.情感分析精度不高:现有情感分析技术在处理复杂语义和多样化表达时效果欠佳,容易导致误判。

7、4.用户行为预测能力有限:许多系统缺乏对用户未来行为的预测能力,无法提供前瞻性的数据支持。

8、上述问题成为需要解决的技术问题。

技术实现思路

1、有鉴于此,本发明实施例提供一种实时社交聆听数据挖掘方法、装置及电子设备,至少部分解决现有技术中存在的问题。

2、第一方面,本发明实施例提供了一种实时社交聆听数据挖掘方法,包括:

3、设置用于数据挖掘的数据采集层、实时传输层和内存数据库处理层,所述数据采集层针对不同的社交媒体平台定制数据抓取策略,得到原始数据d1,所述实时传输层通过构建消息队列,将原始数据转换成实时队列格式;

4、在内存数据库处理层设置有缓存数据项总量为 c的第一缓存空间以及与所述原始数据对应的哈希表,缓存空间中每个缓存项的大小为 s,当前缓存中项的数量为 n,对于任意时刻 t,每个缓存项i有一个最后访问时间戳 ti(t),对于查询请求q,如果q在哈希表中存在,则更新 tq(t) = t,并将该项移到链表头部,当 n = c 且需要插入新项x时,找到链表尾部项y,移除 y,然后插入x至链表头部,同时更新n的值和相应的哈希表;

5、在内存数据库处理层中设置数据预处理函数,所述数据预处理函数对存储在第一缓存空间中的原始数据执行完文本清洗之后,对清洗后的数据执行文本向量化操作,得到向量化数据d2,所述向量化数据存储在内存数据库处理层中的第二缓存空间中;

6、通过在深度学习模型中设置自定义交叉过滤函数,对向量化数据d2中的数据段进行分类进行处理,得到向量化数据d2的分类特征数据d3,c为类别数,yc为不同类别的编码值,pc为模型预测不同类别的概率值;

7、在原始数据中提取与分类特征数据d3对应的时间序列特征k1、社交网络结构特征k2、用户偏移值特征k3以及交互评价特征k4,构建基于时间序列特征k1、社交网络结构特征k2、用户偏移值特征k3以及交互评价特征k4的目标函数f(k1,k2,k3,k4,γ),通过目标函数f对用户的行为数据进行预测,得到预测数据d4,γ为目标函数的优化参数;

8、构建预测函数),基于预测数据d4和预测参数产生预测输出 ,,g为激活函数,hj为第j个特征映射函数,m为预测参数的数量,将预测输出 通过可视化形式进行展示。

9、根据本公开实施例的一种具体实现方式,所述数据采集层针对不同的社交媒体平台定制数据抓取策略,得到原始数据d1,包括:

10、利用社交媒体平台提供的api实时获取特定关键词、用户提及、地理位置以及文本内容;

11、通过用户时间线api获取特定用户的推文历史记录;

12、利用趋势api获取全球或特定地区的热门话题。

13、根据本公开实施例的一种具体实现方式,所述实时传输层通过构建消息队列,将原始数据转换成实时队列格式,包括:

14、为原始数据d1设计统一的消息格式,每个消息中包含时间戳、来源平台标识和数据类型;

15、在数据进入消息队列之前,通过数据处理模块实时将原始数据d1转换成统一的消息格式;

16、当消息队列中的数据量超过预设值时,为消息队列中的消息设置副本。

17、根据本公开实施例的一种具体实现方式,所述在内存数据库处理层设置有缓存数据项总量为 c的第一缓存空间以及与所述原始数据对应的哈希表,包括:

18、将第一缓存空间的总容量设为c个数据项,每个数据项大小根据消息格式中包含的内容确定,使用双向链表来维护缓存数据项的访问顺序;

19、为每个数据项设置唯一的健值,健值指向双向链表中的对应节点;

20、根据的缓存数据项的数量,动态调整哈希表的大小。

21、根据本公开实施例的一种具体实现方式,所述数据预处理函数对存储在第一缓存空间中的原始数据执行完文本清洗之后,对清洗后的数据执行文本向量化操作,得到向量化数据d2,包括:

22、将清洗后的文本分割成单独的词语,收集所有的词语后,构建一个词汇表,每个词语在词汇表中都有一个唯一的索引;

23、为每个文本段落创建一个词频向量,向量的长度等于词汇表的大小,每个位置上的值表示对应词汇在文档中的出现频次;

24、通过计算每个词的词频tf和逆文档频率idf来赋予词语权重,使用预训练模型将每个词语映射到一个高维向量空间中,高纬向量用于捕捉词语的语义和上下文信息;

25、对于原始数据中包含的每个文档,取其包含所有词语向量的加权平均值来得到文档级别的向量表示,进而将原始的文本数据被转换为数值型的向量形式d2。

26、根据本公开实施例的一种具体实现方式,所述对向量化数据d2中的数据段进行分类进行处理,得到向量化数据d2的分类特征数据d3,包括:

27、构建深度学习模型,深度学习模型的全连接层包含的神经元数量等于类别数c,使用softmax激活函数来输出每个类别的概率pc;

28、利用定义的交叉熵损失函数j 计算当前预测与实际标签之间的损失,根据损失函数计算梯度,然后沿梯度的反方向调整模型参数;

29、将原始向量数据 d2 与模型预测的类别标签组合,形成分类特征数据d3,分类特征数据d3的每一行包含原始向量数据 d2中的向量特征以及该向量的预测类别。

30、根据本公开实施例的一种具体实现方式,所述通过目标函数f对用户的行为数据进行预测,得到预测数据d4,包括:

31、构建包含时间序列特征k1、社交网络结构特征k2、用户偏移值特征k3以及交互评价特征k4的特征矩阵x;

32、定义目标函数f:

33、

34、是目标函数的所有参数集合,包括lstm的权重、gnn的嵌入矩阵、fm的参数以及gbm中的决策树参数;是全局偏置项,lstm应用于时间序列特征 k1,捕捉时间上的依赖关系,gnn应用于社交网络结构特征k2,学习网络中的节点嵌入,fm用于捕获 k3和k4之间的二阶交叉效应,gbm是一个集成学习器,通过梯度提升方法提升预测性能,fm用于将模型输出转化为概率分布。

35、根据本公开实施例的一种具体实现方式,所述基于预测数据d4和预测参数产生预测输出,包括:

36、利用 d4 和对应的标签数据,通过反向传播和梯度下降算法学习参数;

37、通过学习到的参数和构建的模型函数fp,对新的数据实例进行预测,得到。

38、第二方面,本发明实施例提供了一种实时社交聆听数据挖掘装置,包括:

39、采集模块,设置用于数据挖掘的数据采集层、实时传输层和内存数据库处理层,所述数据采集层针对不同的社交媒体平台定制数据抓取策略,得到原始数据d1,所述实时传输层通过构建消息队列,将原始数据转换成实时队列格式;

40、设置模块,在内存数据库处理层设置有缓存数据项总量为 c的第一缓存空间以及与所述原始数据对应的哈希表,缓存空间中每个缓存项的大小为 s,当前缓存中项的数量为 n,对于任意时刻 t,每个缓存项i有一个最后访问时间戳 ti(t),对于查询请求q,如果q在哈希表中存在,则更新 tq(t) = t,并将该项移到链表头部,当 n = c 且需要插入新项x时,找到链表尾部项y,移除 y,然后插入x至链表头部,同时更新n的值和相应的哈希表;

41、向量模块,在内存数据库处理层中设置数据预处理函数,所述数据预处理函数对存储在第一缓存空间中的原始数据执行完文本清洗之后,对清洗后的数据执行文本向量化操作,得到向量化数据d2,所述向量化数据存储在内存数据库处理层中的第二缓存空间中;

42、分类模块,通过在深度学习模型中设置自定义交叉过滤函数,对向量化数据d2中的数据段进行分类进行处理,得到向量化数据d2的分类特征数据d3,c为类别数,yc为不同类别的编码值,pc为模型预测不同类别的概率值;

43、预测模块,在原始数据中提取与分类特征数据d3对应的时间序列特征k1、社交网络结构特征k2、用户偏移值特征k3以及交互评价特征k4,构建基于时间序列特征k1、社交网络结构特征k2、用户偏移值特征k3以及交互评价特征k4的目标函数f(k1,k2,k3,k4,γ),通过目标函数f对用户的行为数据进行预测,得到预测数据d4,γ为目标函数的优化参数;

44、输出模块,构建预测函数),基于预测数据d4和预测参数产生预测输出, ,g为激活函数,hj为第j个特征映射函数,m为预测参数的数量,将预测输出 通过可视化形式进行展示。

45、第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:

46、至少一个处理器;以及,

47、与该至少一个处理器通信连接的存储器;其中,

48、该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述任第一方面或第一方面的任一实现方式中的实时社交聆听数据挖掘方法。

49、第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的实时社交聆听数据挖掘方法。

50、第五方面,本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的实时社交聆听数据挖掘方法。

51、本发明实施例中的实时社交聆听数据挖掘方案,包括:设置用于数据挖掘的数据采集层、实时传输层和内存数据库处理层,所述数据采集层针对不同的社交媒体平台定制数据抓取策略,得到原始数据d1,所述实时传输层通过构建消息队列,将原始数据转换成实时队列格式;在内存数据库处理层设置有缓存数据项总量为 c的第一缓存空间以及与所述原始数据对应的哈希表,缓存空间中每个缓存项的大小为 s,当前缓存中项的数量为 n,对于任意时刻 t,每个缓存项i有一个最后访问时间戳 ti(t),对于查询请求q,如果q在哈希表中存在,则更新 tq(t) = t,并将该项移到链表头部,当 n = c 且需要插入新项x时,找到链表尾部项y,移除 y,然后插入x至链表头部,同时更新n的值和相应的哈希表;在内存数据库处理层中设置数据预处理函数,所述数据预处理函数对存储在第一缓存空间中的原始数据执行完文本清洗之后,对清洗后的数据执行文本向量化操作,得到向量化数据d2,所述向量化数据存储在内存数据库处理层中的第二缓存空间中;通过在深度学习模型中设置自定义交叉过滤函数,对向量化数据d2中的数据段进行分类进行处理,得到向量化数据d2的分类特征数据d3,c为类别数,yc为不同类别的编码值,pc为模型预测不同类别的概率值;在原始数据中提取与分类特征数据d3对应的时间序列特征k1、社交网络结构特征k2、用户偏移值特征k3以及交互评价特征k4,构建基于时间序列特征k1、社交网络结构特征k2、用户偏移值特征k3以及交互评价特征k4的目标函数f(k1,k2,k3,k4,γ),通过目标函数f对用户的行为数据进行预测,得到预测数据d4,γ为目标函数的优化参数;构建预测函数),基于预测数据d4和预测参数产生预测输出 ,,g为激活函数,hj为第j个特征映射函数,m为预测参数的数量,将预测输出 通过可视化形式进行展示。本发明通过引入多平台数据整合、实时数据处理、先进的情感分析算法和用户行为预测模型,本发明能够提供高效、准确的社交聆听服务。

本文地址:https://www.jishuxx.com/zhuanli/20240914/295529.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。