一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于模糊C均值聚类算法的多源异构数据融合方法及系统与流程

2022-04-14 04:29:23 来源:中国专利 TAG:

基于模糊c均值聚类算法的多源异构数据融合方法及系统
技术领域
1.本发明涉及数据处理技术领域,尤其涉及一种基于模糊c均值聚类算法的多源异构数据融合方法及系统。


背景技术:

2.随着计算机及数码电子产品的普及以及互联网的迅速发展,人们每天都可以接触到海量的多源异构数据,对多源异构数据进行融合,并基于融合后的数据进行应用,有利于实现科学决策以及更广大范围的应用。但由于多源异构数据的来源不同、结构不同、属性不同、模态不同以及用途不同,数据融合较为复杂。为了实现有价值应用的目标,需要一种超越语音、图像、视频以及影响等多模态的、能够支持多源异构数据融合的方法及系统。
3.目前,现有的多源异构数据融合常用的方法为基于数据特征的类型使用不同的核函数进行映射,融合过程主要通过构造并合并矩阵的方式完成。多核学习属于后期融合的一种,相比于前期特征融合在性能上会有大大的提升,但是多核学习算法由于需要计算各个核矩阵对应的核组合系数,需要多个核矩阵共同参加运算,如果样本的个数过多,那么核矩阵的维数也会非常大,无疑会占用很大的内存空间,其次多核学习非常耗费时间,尽管后续的一些改进算法能在耗费的时间上有所减少,但依然不能有效的降低时间复杂度,高耗的时间和空间复杂度是导致多核学习算法不能广泛应用的一个重要原因。因此,研究一种高效且适用于广泛应用的多源异构数据融合方法具有重要意义。


技术实现要素:

4.有鉴于此,本技术提出了一种基于模糊c均值聚类算法的多源异构数据融合方法及系统,解决了现有的多源异构数据融合方法因耗费时间长、空间复杂度高导致不能广泛应用的问题。
5.本发明的技术方案是这样实现的:
6.一方面,本发明提供了一种基于模糊c均值聚类算法的多源异构数据融合方法,所述方法包括:
7.s1,获取特定环境下的多源异构数据以及对应的任务信息;
8.s2,将获取到的多源异构数据均转化为可描述的文本数据,并从中提取特征分词,对特征分词进行归一化得到标准特征信息;
9.s3,根据获取到的多源异构数据以及对应的任务信息建立事件树,基于复相关系数算法计算标准特征信息与事件树的相关概率;
10.s4,基于相关概率采用模糊c均值聚类算法对标准特征信息进行特征融合,得到满足条件的融合结果。
11.在以上技术方案的基础上,优选的,步骤s1具体包括:
12.所述多源异构数据包括多个来源的数据集和多个模态的数据集,还包括文本数据集、语音数据集、图像数据集以及视频数据集。
13.在以上技术方案的基础上,优选的,步骤s2中,将获取到的多源异构数据均转化为可描述的文本数据,并从中提取特征分词具体包括:
14.获取语音数据集的音频帧,记录每一帧中发出的声音的实体对象生成声音特征,结合对应帧的音频内容生成语音的文本数据;
15.采用卷积神经网络提取图像数据集中的图像特征,并用文本的形式描述出来,得到图像的文本数据;
16.获取视频数据集中需要处理的图像帧,识别图像帧中各实体对象,并记录各实体对象的特征,得到图像特征,获取视频数据集中的音频信号以及需要处理的音频帧,记录每一帧中发出的声音的实体对象生成声音特征,结合音频内容、字幕内容以及图像特征得到音频的文本数据;
17.对文本数据集、语音的文本数据、图像的文本数据以及音频的文本数据进行行分词处理和去停用词处理,采用tf-idf特征提取方法提取特征分词。
18.在以上技术方案的基础上,优选的,步骤s2中,对特征分词进行归一化得到标准特征信息具体包括:
19.所述特征分词中有n条特征数据,表示为x={x1,x2,

,xn};
20.对特征分词中的每一条特征数据求标准差,其计算公式为:
[0021][0022]
其中,i=1,2,

,n,表示特征数据的均值,
[0023]
对特征分词中的每一条特征数据进行z-score归一化处理,其计算公式为
[0024][0025]
其中,xi为原始的特征数据,x
′i为归一化后的特征数据,即标准特征信息。
[0026]
在以上技术方案的基础上,优选的,步骤s3中,根据获取到的多源异构数据以及对应的任务信息建立事件树具体包括:
[0027]
将获取到的多源异构数据作为根节点,将标准特征信息作为子节点,对应的任务信息作为叶子节点建立事件树。
[0028]
在以上技术方案的基础上,优选的,步骤s3中,基于复相关系数算法计算标准特征信息与事件树的相关概率具体包括:
[0029]
所述复相关系数算法的计算公式为:
[0030][0031]
其中,r表示复相关系数,y表示对应的任务信息,表示对应的任务信息中子数据的均值,x
′i表示标准特征信息,代表回归系数,n表示事件树中叶子节点的数量。
[0032]
在以上技术方案的基础上,优选的,步骤s4具体包括:
[0033]
设置一个相关概率阈值,将大于及等于相关概率阈值的标准特征信息保留下来,采用模糊c均值聚类算法进行特征融合;将小于相关概率阈值的标准特征信息舍弃。
[0034]
在以上技术方案的基础上,优选的,采用模糊c均值聚类算法进行特征融合具体包括:
[0035]
s401,获取标准特征信息,表示为x

={x
′1,x
′2,

,x
′n},确定聚类数c,将标准特征信息分为c个组,初始化每组的聚类中心cj,确定加权指数m、终止误差ε以及最大迭代次数max;
[0036]
s402,初始化由隶属度函数确定的隶属度矩阵;
[0037]
s403,在每次迭代过程中,更新隶属度矩阵的隶属值和每组的聚类中心;
[0038]
s404,当两次迭代过程中的隶属度矩阵的隶属值变化小于终止误差ε或者达到最大迭代次数max时,算法终止,否则,重复步骤s403。
[0039]
在以上技术方案的基础上,优选的,步骤s403具体包括:
[0040]
第t次迭代过程中,隶属度矩阵的隶属值计算公式为:
[0041][0042]
其中,i=1,2,

,n,j=1,2,

,c,c
jt-1
为第t-1次迭代过程中每组的聚类中心,m为加权指数,x
′i为第i个标准特征信息;
[0043]
第t次迭代过程中,每组聚类中心的计算公式为:
[0044][0045]
其中,u
ijt
表示第t次迭代过程中的隶属度矩阵的隶属值。
[0046]
另一方面,本发明还提供了一种基于模糊c均值聚类算法的多源异构数据融合系统,其特征在于,所述系统包括:
[0047]
数据获取模块,获取特定环境下的多源异构数据以及对应的任务信息;
[0048]
特征提取模块,将获取到的多源异构数据均转化为可描述的文本数据,并从中提取特征分词,对特征分词进行归一化得到标准特征信息;
[0049]
相关概率计算模块,根据获取到的多源异构数据以及对应的任务信息建立事件树,基于复相关系数算法计算标准特征信息与事件树的相关概率;
[0050]
融合模块,基于相关概率采用模糊c均值聚类算法对标准特征信息进行特征融合,得到满足条件的融合结果。
[0051]
本发明的一种基于模糊c均值聚类算法的多源异构数据融合方法及系统,相对于现有技术,具有以下有益效果:
[0052]
(1)针对特定环境下的多源异构数据,先提取标准特征信息再采用模糊c均值聚类算法进行融合,实现了数据类型复杂且数据维数大情况下的多源异构数据的有效融合,提
高了多源异构数据融合方法在实际应用中的利用率。
[0053]
(2)通过建立事件树,采用复相关系数算法计算标准特征信息与事件树的相关概率,丢弃关联度小的标准特征信息,提高了多源异构数据融合过程中的计算速度以及精准度。
附图说明
[0054]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0055]
图1为本发明一种基于模糊c均值聚类算法的多源异构数据融合方法的流程示意图;
[0056]
图2为本发明一种基于模糊c均值聚类算法的多源异构数据融合方法中模糊c均值聚类算法的流程示意图。
具体实施方式
[0057]
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0058]
如图1所示,图1为本发明实施例提供的一种基于模糊c均值聚类算法的多源异构数据融合方法的流程示意图,该方法包括:
[0059]
s1,获取特定环境下的多源异构数据以及对应的任务信息。
[0060]
所述多源异构数据包括多个来源的数据集和多个模态的数据集,还包括文本数据集、语音数据集、图像数据集以及视频数据集。
[0061]
s2,将获取到的多源异构数据均转化为可描述的文本数据,并从中提取特征分词,对特征分词进行归一化得到标准特征信息。
[0062]
获取语音数据集的音频帧,记录每一帧中发出的声音的实体对象生成声音特征,结合对应帧的音频内容生成语音的文本数据。
[0063]
采用卷积神经网络提取图像数据集中的图像特征,并用文本的形式描述出来,得到图像的文本数据,卷积神经网络为现有技术,在此不再赘述。
[0064]
获取视频数据集中需要处理的图像帧,识别图像帧中各实体对象,并记录各实体对象的特征,得到图像特征,获取视频数据集中的音频信号以及需要处理的音频帧,记录每一帧中发出的声音的实体对象生成声音特征,结合音频内容、字幕内容以及图像特征得到音频的文本数据。
[0065]
对文本数据集、语音的文本数据、图像的文本数据以及音频的文本数据进行行分词处理和去停用词处理,采用tf-idf特征提取方法提取特征分词。
[0066]
tf-idf特征提取方法是目前使用频率最高的特征权重算法,其计算公式为:
[0067]
tf-idf=tf*idf
[0068]
tf表示目标分词在所述文本数据中出现的频率,idf表示目标分词的逆向文本频率。
[0069]
将各种不同模态的数据都转换成可描述的文本数据,在同一个空间中相互比较、交叉操作,统一了多源异构数据的衡量尺度,提高了整个多源异构数据融合方法过程的效率。
[0070]
对特征分词进行归一化得到标准特征信息具体包括:
[0071]
所述特征分词中有n条特征数据,表示为x={x1,x2,

,xn};
[0072]
对特征分词中的每一条特征数据求标准差,其计算公式为:
[0073][0074]
其中,i=1,2,

,n,表示特征数据的均值,
[0075]
对特征分词中的每一条特征数据进行z-score归一化处理,其计算公式为
[0076][0077]
其中,xi为原始的特征数据,x
′i为归一化后的特征数据,即标准特征信息。
[0078]
采用z-score归一化处理的方式,基于原始数据的均值和标准差进行数据的标准化,将原始数据按比例缩放为0至1之间的小数,降低了整个多源异构数据融合方法中的计算复杂度。
[0079]
s3,根据获取到的多源异构数据以及对应的任务信息建立事件树,基于复相关系数算法计算标准特征信息与事件树的相关概率。
[0080]
将获取到的多源异构数据作为根节点,将标准特征信息作为子节点,对应的任务信息作为叶子节点建立事件树。
[0081]
所述复相关系数算法的计算公式为:
[0082][0083]
其中,r表示复相关系数,y表示对应的任务信息,表示对应的任务信息中子数据的均值,x
′i表示标准特征信息,代表回归系数,n表示事件树中叶子节点的数量。
[0084]
应当理解的是,复相关系数的取值范围是[0,1],当相关系数为0时,x和y两变量无关系;当x的值增大或是减小时,y的值增大或是减小,两个变量为正相关,相关系数在0.00至1.00之间;当x的值增大或是减小时,y的值减小或是增大,两个变量为负相关,相关系数在-1.00与0.00之间。相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
[0085]
s4,基于相关概率采用模糊c均值聚类算法对标准特征信息进行特征融合,得到满足条件的融合结果。
[0086]
具体的,设置一个相关概率阈值,将大于及等于相关概率阈值的标准特征信息保留下来,采用模糊c均值聚类算法进行特征融合;将小于相关概率阈值的标准特征信息舍弃。
[0087]
需要理解的是,本实施例中,相关概率阈值为0.75,当标准特征信息的相关系数的绝对值大于或者等于0.75,则将该标准特征信息保存下来;当标准特征信息的相关系数的绝对值小于0.75时,则将该标准特征信息舍弃。
[0088]
通过事件树与复相关系数对多源异构数据的标准特征信息进一步的筛选,剔除了与对应的任务信息相关度低的标准特征信息,不仅增加了多源异构数据融合的精度,且缩减了计算过程中因数据过多导致的计算复杂度。
[0089]
如图2所示,图2为本发明实施例中采用模糊c均值聚类算法进行特征融合的流程示意图,其步骤包括:
[0090]
s401,获取标准特征信息,表示为x

={x
′1,x
′2,

,x
′n},确定聚类数c,将标准特征信息分为c个组,初始化每组的聚类中心cj,确定加权指数m、终止误差ε以及最大迭代次数max。
[0091]
需要理解的是,1≤m≤∞,ε是一个很小的常数,表示误差阈值。
[0092]
s402,初始化由隶属度函数确定的隶属度矩阵。
[0093]
需要理解的是,隶属度矩阵应当是n*c的矩阵,隶属度矩阵表示的是每个标准特征信息属于每个类的程度。
[0094]
s403,在每次迭代过程中,更新隶属度矩阵的隶属值和每组的聚类中心。
[0095]
第t次迭代过程中,隶属度矩阵的隶属值计算公式为:
[0096][0097]
其中,i=1,2,

,n,j=1,2,

,c,c
jt-1
为第t-1次迭代过程中每组的聚类中心,m为加权指数,x
′i为第i个标准特征信息;
[0098]
第t次迭代过程中,每组聚类中心的计算公式为:
[0099][0100]
其中,u
ijt
表示第t次迭代过程中的隶属度矩阵的隶属值。
[0101]
s404,当两次迭代过程中的隶属度矩阵的隶属值变化小于终止误差ε或者达到最大迭代次数max时,算法终止,否则,重复步骤s403。
[0102]
需要理解的是,终止条件的表达式为:
[0103][0104]
其中,t为迭代次数,表示第t 1次迭代过程中的隶属度矩阵的隶属值,u
ijt
表示第t次迭代过程中的隶属度矩阵的隶属值,当隶属值逐渐稳定时,即为全局最优的状态。
[0105]
先提取标准特征信息再采用模糊c均值聚类算法进行融合,实现了数据类型复杂且数据维数大情况下的多源异构数据的有效融合,提高了多源异构数据融合方法在实际应用中的利用率。
[0106]
此外,本发明实施例还提供了一种基于模糊c均值聚类算法的多源异构数据融合系统,该系统包括:数据获取模块、特征提取模块、相关概率计算模块以及融合模块。
[0107]
数据获取模块,获取特定环境下的多源异构数据以及对应的任务信息;
[0108]
特征提取模块,将获取到的多源异构数据均转化为可描述的文本数据,并从中提取特征分词,对特征分词进行归一化得到标准特征信息;
[0109]
相关概率计算模块,根据获取到的多源异构数据以及对应的任务信息建立事件树,基于复相关系数算法计算标准特征信息与事件树的相关概率;
[0110]
融合模块,基于相关概率采用模糊c均值聚类算法对标准特征信息进行特征融合,得到满足条件的融合结果。
[0111]
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献