一种基于在线局部敏感哈希算法的一人多号识别方法与流程
- 国知局
- 2024-11-21 12:13:13
本发明涉及移动通信大数据处理,更具体的说是涉及一种基于在线局部敏感哈希算法的一人多号识别方法。
背景技术:
1、随着移动通信技术的飞速发展与普及,市场上的竞争日益激烈,用户需求也日趋多样化。在这种环境下,一个用户拥有多个运营商的手机号码已成为普遍现象。这种“一人多号”的情况使得在不同的运营商网络中产生了大量重复的用户数据,包括但不限于通话记录、上网轨迹等。
2、当利用通信数据进行城市规划管理、社会网络分析等基于人口的统计分析时,这种“一人多号”的情况会导致数据分析不准确,影响决策的科学性和有效性,因此一人多号识别在移动通信大数据领域也是一个亟需解决的热点问题。
3、一人多号识别旨在解决多个通信运营商的数据采集活动中,由于同一个用户使用多个通信号码,即一人多机或一机多卡,导致同一用户的数据在不同网络中存在重复的问题。
4、随着数据规模的增大,一人多号识别算法的处理时间和计算复杂度也显著增加。为了应对大规模数据集,必须投入更多计算资源进行数据清洗、特征提取以及相似度计算等关键操作。
5、当采用轨迹相似度度量方法进行一人多号识别时,则需要对所有号码进行一对一的对比,当进行一人多号识别时,通常使用长期信息进行去重,每个移动通信设备平均每个月产生p个gps轨迹信号,那么对于每对用户相似度比较就需要p2次,假设某城市存在n个正在使用的移动通信设备,那么计算需要比较的次数为n2p2次,即便利用分布式系统,这种资源消耗亦难以负担。
6、因此,针对现有技术的不足,本发明提出了一种基于在线局部敏感哈希算法的一人多号识别方法。
技术实现思路
1、有鉴于此,本发明提供的基于在线局部敏感哈希算法的一人多号识别方法,旨在解决移动通信网络中,一人多机或一机多卡问题,通过寻找近邻集合,将大规模数据集上的一人多号识别问题化为在近邻集合中的一人多号识别问题。
2、为了实现上述目的,本发明采用如下技术方案:
3、一种基于在线局部敏感哈希算法的一人多号识别方法,包括:
4、获取各通信运营商中不同手机号码的轨迹路线;
5、对所述轨迹路线进行轨迹点个数对齐,得到对齐后的轨迹路线;
6、基于p-稳定分布,构造多个哈希函数,创建哈希桶;
7、将对齐后的轨迹路线通过多个哈希桶分别映射为指纹值,通过对多个指纹值取交得到近似近邻结果集。
8、作为优选,轨迹路线的获取步骤包括:
9、获取每个手机号码的轨迹信息和轨迹出现时间,按照轨迹出现时间,对轨迹信息进行排序,优选为升序;
10、作为优选,所述轨迹信息包括经度和纬度。
11、作为优选,去除轨迹点数量小于设定阈值的手机号码,以及轨迹点均为重复轨迹点的手机号码。
12、作为优选,对所述轨迹路线进行轨迹点个数对齐,步骤包括:
13、根据轨迹点的经度或纬度确定轨迹路线的单调序列,对单调序列进行分段线性插值,得到插值函数;
14、度量单调序列的长度以及轨迹路线总长度,结合对齐后轨迹点总个数确定单调序列内插值步长;
15、根据插值步长确定插值经度序列,并基于插值经度序列通过插值函数确定对应的插值纬度序列;或根据插值步长确定插值纬度序列,并基于插值纬度序列通过插值函数确定对应的插值经度序列;
16、计算插值经度序列和插值纬度序列的笛卡尔积,获得对齐后的轨迹路线。
17、作为优选,哈希函数的表达式为:
18、
19、式中,θb为近似服从标准正态分布的随机整数,c=232-1为足够大的正整数,d为轨迹路线的维度,key为哈希值,ha,b(v)为每个纬度的哈希值,且
20、
21、其中a是各分量服从p-稳定分布的随机向量,b是服从[0,r)上均匀分布的实数,r为一个正实数,对应哈希桶的宽度。
22、作为优选,将对齐后的轨迹路线映射为指纹值的步骤包括:
23、将对齐后的轨迹路线分别代入各哈希函数中,得到每个轨迹路线相对于各哈希函数的哈希值;
24、通过每个轨迹路线在每个哈希桶内的k个哈希值与k个近似服从正态分布的整数进行内积运算,得到轨迹路线在每个哈希桶下的指纹值。
25、作为优选,通过多个指纹值取交得到近似近邻结果集的步骤包括:
26、依据哈希桶中的指纹值将对齐后的轨迹路线进行分类聚合,得到多个轨迹集合;
27、根据指纹值依次对任意两个哈希桶中轨迹集合求交;
28、对求交后集合进行去重,得到近似近邻结果集。
29、作为优选,对多个哈希桶进行在线学习训练,步骤包括:
30、从对齐后的轨迹路线中,随机抽取t组样本;
31、根据样本相对于哈希桶的指纹值,划分得到多个样本集合;
32、确定每个样本集合中两两样本间距离,取平均值作为当前样本集合对应指纹值的查询精度;
33、计算不同指纹值的查询精度的平均值,作为当前哈希桶的查询精度;
34、根据哈希桶的查询精度确定最终用于近似近邻查询的哈希桶。
35、作为优选,根据哈希桶的查询精度确定最终用于近似近邻查询的哈希桶,步骤包括:
36、将哈希桶的查询精度进行升序排序,增加查询精度高的前l*个哈希桶的权值,并降低其余哈希桶的权值;
37、再次对哈希桶进行学习训练,直至达到满足训练条件,选取权值较高的多个哈希桶,用于近似近邻查询。
38、经由上述的技术方案可知,本发明公开提供了一种基于在线局部敏感哈希算法的一人多号识别方法,与现有技术相比,本发明通过利用局部敏感哈希算法的特性,能够在保证去重质量的同时,显著降低数据处理的复杂度和时间成本;通过在线处理框架,可以实时地对新产生的数据进行去重,以及在处理大规模数据集时,能够快速找到近似样本集合,从而通过简化样本量的方式显著提高一人多号识别的效率,从而更高效地应对大规模数据的挑战。
技术特征:1.一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,
2.根据权利要求1所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,轨迹路线的获取步骤包括:
3.根据权利要求2所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,所述轨迹信息包括经度和纬度。
4.根据权利要求2所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,去除轨迹点数量小于设定阈值的手机号码,以及轨迹点均为重复轨迹点的手机号码。
5.根据权利要求1所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,对所述轨迹路线进行轨迹点个数对齐,步骤包括:
6.根据权利要求1所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,哈希函数的表达式为:
7.根据权利要求1所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,将对齐后的轨迹路线映射为指纹值的步骤包括:
8.根据权利要求1所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,通过多个指纹值取交得到近似近邻结果集的步骤包括:
9.根据权利要求1所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,对多个哈希桶进行在线学习训练,步骤包括:
10.根据权利要求9所述的一种基于在线局部敏感哈希算法的一人多号识别方法,其特征在于,根据哈希桶的查询精度确定最终用于近似近邻查询的哈希桶,步骤包括:
技术总结本发明涉及一种基于在线局部敏感哈希算法的一人多号识别方法,通过获取各通信运营商中不同手机号码的轨迹路线;对所述轨迹路线进行轨迹点个数对齐;并基于p‑稳定分布,构造多个哈希函数,创建哈希桶;以及将对齐后的轨迹路线通过多个哈希桶分别映射为指纹值,通过对多个指纹值取交得到不同用户的近似近邻号码集合。本发明能够在保证去重质量的同时,显著降低数据处理的复杂度和时间成本;并且应对大规模数据集时,能够快速找到近似样本集合,从而通过简化样本量的方式显著提高一人多号识别的效率,以更高效地应对大规模数据的挑战。技术研发人员:张警键,蒋志鹏,刘玉来,张建宇,戴帅夫受保护的技术使用者:北京九栖科技有限责任公司技术研发日:技术公布日:2024/11/18本文地址:https://www.jishuxx.com/zhuanli/20241120/334908.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。