一种基于语义增强的热点言论检测方法、程序、设备及存储介质
- 国知局
- 2025-01-17 13:10:04
本发明属于社交网络领域,具体涉及一种基于语义增强的热点言论检测方法、程序、设备及存储介质。
背景技术:
1、在社交网络中,社交媒体对人类的改变是不可忽视的。通过社交媒体,人们可以方便地与朋友、家人、同事和陌生人进行沟通和交流。社交媒体也使得信息传播更加快速和广泛,带来了许多新的商业机会。然而,社交媒体也带来了一些热点影响,如沉迷于社交媒体导致的时间浪费、健康问题和隐私问题等。同时,社交媒体也可能会导致信息泛滥和信息质量下降,还可能被用于恶意目的,如热点言论、谣言等。因此,人们需要认真思考如何更好地利用社交媒体,同时注意其可能带来的风险和挑战。
2、热点言论的危害性在这些社交媒体带来的问题中尤为严重,自然语言具有语义复杂性,对于自然语言语义的理解还需要一定的推理能力和结合上下文语境的能力。举个例子来说,一句话可能有多种不同的解释,具有语义复杂性,比如“这件事情太棒了!”。这句话看起来是在表达积极情感,但是如果不知道具体的上下文,也有可能会导致理解上的偏差。例如,如果上下文是“这件事情太棒了!它让我们意识到我们的公司在数据保护方面存在严重漏洞”,那么这句话的语义就变得更为复杂,因为它包含了一个消极的信息。热点言论的语义复杂性在于,它们往往包含了多种情感和含义,而这些情感和含义常常依赖于上下文和文化背景。例如,一些表面上看起来无害的词语或表达方式,在特定的上下文中可能会被视为热点言论。
3、此外,热点言论的语义复杂性还表现在它们往往使用了各种隐喻、比喻和暗示等修辞手法,让其真正的意图难以直接表达出来。
4、这些言论往往带有强烈的情绪色彩和攻击性,在社交媒体上的传播速度很快,可以在短时间内影响大量人群。因此,对这些热点言论的检测和分类变得非常重要,以便能够及时识别和阻止这种言论的传播,维护社交媒体平台的安全和公正。
技术实现思路
1、本发明的目的在于提供一种基于语义增强的热点言论检测方法、程序、设备及存储介质。
2、本发明的目的通过如下技术方案来实现:
3、一种基于语义增强的热点言论检测方法,包括以下步骤:
4、步骤1、信息嵌入层,将热点言论词典中的热点信息嵌入到模型中;
5、首先需要根据已构建的热点言论词典,将热点信息融入到句子中;在句子中,热点言论通常表达对某一事件的关注,根据热点言论的热点性词汇对推文内容进行鉴别;有效地提高特征词的覆盖率和特征维度,从而提高模型的检测性能;通过信息嵌入层的处理,模型能够识别热点言论,并提供全面的分析结果,为打击热点言论提供支持。
6、步骤2、文本嵌入层,进行语言模型的预测任务;
7、模型会在序列中加入一些特殊的符号"[mask]",这些符号表示对应位置的单词需要被预测,即被模型替换为合适的单词;即在给定上下文的情况下预测缺失的单词,而"[mask]"符号表示了需要预测的单词位置;
8、步骤3、编码层,包括多个transformer模块,每个模块包括:多头注意力层、前馈神经网络子层和归一化层;
9、每个子层都有一个残差连接和一个层归一化步骤;在完成了文本的嵌入后,将表示向量送入多头注意力层中,输入被映射为三个向量:查询向量q、键向量k和数值向量v;这三个向量用于计算注意力得分,从而决定输入向量的权重,再根据权重对输入向量进行加权平均;
10、步骤4、输出层,输出层对句子中是否含有热点言论进行预测;
11、通过一个全连接层,将最后一层的所有隐藏状态进行线性变换并加上一个偏置项,然后通过一个激活函数得到最终的输出向量。
12、进一步地,所述步骤1具体包括以下步骤:
13、步骤1.1.需要根据已构建的热点言论词典,将热点信息融入到句子中;在句子中,热点言论通常表达对某一事件的关注;
14、步骤1.2.通过n-gram算法来判断句子中是否含有热点言论词汇,其中n的范围为1到3;
15、步骤1.3.通过n-gram方法判断出词语wi为热点言论词汇时,将含有的相应热点信息嵌入到句子中。
16、进一步地,所述步骤2具体包括以下步骤:
17、步骤2.1.对于输入的文本序列中的一部分,模型会在序列中加入一些特殊的符号"[mask]",这些符号表示对应位置的单词需要被预测,即被模型替换为合适的单词;
18、步骤2.2.使用token embedding将本研究中完成热点言论信息嵌入的句子中的每个单词映射到一个固定大小的向量表示;使用segment embedding将两个句子区分开来,模型知道哪些单词属于哪个句子;
19、步骤2.3.模型将所用的句子进行分词,并添加特殊的标记[cls]和[sep],表示句子的起始和结束;
20、步骤2.4.使用position embedding将每个单词的位置信息编码到嵌入向量中,模型根据单词在序列中的位置来识别序列中的模式。
21、进一步地,所述步骤3中根据权重对输入向量进行加权平均,公式如下:
22、
23、其中,q,k,v是相等的;句子中的每一个词都要和同一句子中其他词语计算注意力,学习单词之间的相关度;是缩放因子,其中dk是k向量的维度,它用来控制注意力分布的范围。
24、进一步地,所述步骤4中通过一个激活函数得到最终的输出向量,公式如下:
25、p(y|x)=σ(w·hi+b)
26、其中,hi表示模型最后一层的输出向量,w和b是权重矩阵和偏置向量,σ是sigmoid函数用于输出预测结果的概率。
27、进一步地,所述步骤1.3中为了更好地利用热点言论词汇中的信息,将热点类别附加到句子的嵌入上。
28、一种基于语义增强的热点言论检测系统,其特征在于:包括信息嵌入层装置、文本嵌入层装置、编码层装置和输出层装置;
29、所述信息嵌入层装置:主要任务是将热点言论词典中的热点信息嵌入到模型中;
30、文本嵌入层装置:使用bert模型,对文本进行深度学习和嵌入;在bert模型中,为了使得模型能够同时处理单句和双句输入,使用了一种叫做mask机制的技术;
31、编码层装置:包括transformer模块;每个模块包含:多头注意力层、前馈神经网络子层和归一化层;
32、输出层装置:对句子中是否含有热点言论进行预测,通过一个全连接层,它将最后一层的所有隐藏状态进行线性变换并加上一个偏置项,然后通过一个激活函数得到最终的输出向量。
33、一种计算机装置/设备/系统,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述一种基于语义增强的热点言论检测方法的步骤。
34、一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于:该计算机程序/指令被处理器执行时实现上述一种基于语义增强的热点言论检测方法的步骤。
35、一种计算机程序产品,包括计算机程序/指令,其特征在于:该计算机程序/指令被处理器执行时实现上述一种基于语义增强的热点言论检测方法的步骤。
36、本发明的有益效果在于:
37、本发明对热点言论的检测和分类,以便能够及时识别和阻止这种言论的传播,维护社交媒体平台的安全和公正。
本文地址:https://www.jishuxx.com/zhuanli/20250117/356354.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。