一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户常驻地址的预测方法、装置、电子设备及存储介质与流程

2021-11-29 14:07:00 来源:中国专利 TAG:


1.本技术实施例涉及互联网技术领域,特别是涉及一种用户常驻地址的预测方法、装置、电子设备及存储介质。


背景技术:

2.外卖业务在向场景化推荐方向发展,工作地、居住地等常驻地址是用户最主要的外卖场景,对用户常驻地址的精准刻画对外卖业务非常重要。
3.现有技术中,在预测用户常驻地址时,主要通过位置轨迹数据找出和用户关联的位置,然后基于用户在该位置的定位数据产出统计特征,将统计特征输入模型,通过模型判断该位置是否为常驻地址。
4.现有技术对常驻地址的挖掘方案主要基于单一平台的用户位置轨迹信息,由于单一平台积累的大部分用户位置轨迹数据非常稀疏,而且由于隐私保护无法引入其他平台的数据,导致常驻地址预测的准确性较低。


技术实现要素:

5.本技术实施例提供一种用户常驻地址的预测方法、装置、电子设备及存储介质,有助于在隐私保护要求下提高常驻地址预测的准确性,提升用户体验。
6.为了解决上述问题,第一方面,本技术实施例提供了一种用户常驻地址的预测方法,包括:
7.获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合;
8.采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合;
9.接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到;
10.确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台;
11.根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的;
12.通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
13.第二方面,本技术实施例提供了一种用户常驻地址的预测装置,包括:
14.数据获取模块,用于获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合;
15.标识加密模块,用于采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合;
16.标识集合接收模块,用于接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到;
17.交集确定模块,用于确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台;
18.底层处理模块,用于根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的;
19.常驻地址预测模块,用于通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
20.第三方面,本技术实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本技术实施例所述的用户常驻地址的预测方法。
21.第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本技术实施例公开的用户常驻地址的预测方法的步骤。
22.本技术实施例提供的用户常驻地址的预测方法、装置、电子设备及存储介质,通过获取到至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将用户标识和待预测位置确定为第一统计特征的第一特征标识,得到第一特征标识集合,采用不可逆加密算法对第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合,接收其他联合预测平台发送的第二加密特征标识集合,第二加密特征标识集合中的第二加密特征标识是采用相同的不可逆加密算法加密得到,确定第一加密特征标识集合与第二加密特征标识集合的交集,生成交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,并将第二加密特征标识和新的特征标识的第二对应关系发送至其他联合预测平台,根据新的特征标识和第一对应关系,通过第一底层子模型对对应的第一统计特征进行处理得到第一向量,同时其他联合预测平台对相同的新的特征标识对应的第二统计特征进行处理得到第二向量,当前预测平台
通过上层模型对第一向量和第二向量进行常驻地址的预测,得到交集中的用户标识和待预测位置对应的常驻地址预测结果,实现了当前预测平台和其他联合预测平台分别使用各自相同用户标识和待预测位置的数据进行联合预测,预测过程中不传输具体的特征数据,只需对采用不可逆加密算法加密后的特征标识进行比对确定交集,无法获知交集以外的数据的真实标识,满足了隐私保护要求,同时联合了多个预测平台的数据进行预测,可以弥补单一平台位置数据的不足,从而可以提高预测结果的准确性,提升用户体验。
附图说明
23.为了更清楚地说明本技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
24.图1是本技术实施例一的用户常驻地址的预测方法的流程图;
25.图2是本技术实施例中的待预测位置附近区域的经纬度编码的示意图;
26.图3是本技术实施例中的常驻地址的预测模型联合训练和联合预测的架构图;
27.图4是本技术实施例二的用户常驻地址的预测装置的结构示意图;
28.图5是本技术实施例三的电子设备的结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
30.实施例一
31.本实施例提供的一种用户常驻地址的预测方法,如图1所示,该方法包括:步骤110至步骤160。
32.步骤110,获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合。
33.本技术实施例提供的用户常驻地址的预测方法可以基于预设的触发时间触发执行,例如每隔一个月触发一次,或者每隔一周触发一次,或者,还可以基于其他的触发条件触发执行。在进行用户常驻地址的预测时,一般是对一定时间段内的所有用户的位置数据进行预测,以确定至少一个用户和位置数据的常驻地址预测结果。常驻地址可以包括居住地址和工作地址等。
34.在进行用户常驻地址的预测时,首先获取至少一个用户标识对应的待预测位置,一个用户标识可以对应多个待预测位置,每个待预测位置可以是一个区域,也可以是具体的地理位置。对于与每个用户标识对应的每个待预测位置,分别基于一定时间段内的位置数据确定对应的统计特征,作为第一统计特征,并将与第一统计特征对应的用户标识和待预测位置确定为该第一统计特征的第一特征标识,对于至少一个用户标识对应的待预测位
置,可以得到至少一个第一特征标识,从而得到至少一个第一特征标识组成的第一特征标识集合。
35.在本技术的一个实施例中,获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,包括:根据预设时间段内至少一个用户标识对应的位置数据,确定所述至少一个用户标识对应的待预测位置;根据所述至少一个用户标识对应的位置数据,对所述待预测位置对应的位置数据进行统计,得到与用户标识和待预测位置对应的第一统计特征。
36.其中,所述预设时间段是预先设置的用于确定统计特征的时间段,例如可以是过去半年内或者过去一个月内等。
37.用户终端每隔预设间隔上报一次位置数据,每上报一次位置数据可以称为一次打点,可以将所述预设时间段内一个用户标识对应的位置数据中属于同一个位置区域的位置数据进行统计,得到每个位置区域的位置数据出现频次,基于出现频次可以选取出现频次最高的预设数量的位置区域作为一个用户标识对应的待预测位置,对于至少一个用户标识中的每个用户标识分别进行这样的处理,得到至少一个用户标识对应的待预测位置。其中,所述待预测位置为用户常驻地址的候选位置。
38.对于每个用户标识对应的位置数据,分别对该用户标识对应的待预测位置进行特征的统计,例如可以分为工作日和非工作日分别进行统计,并在一天中可以分为多个时间段分别统计待预测位置出现的频次,将工作日中待预测位置在多个时间段出现的频次和非工作日中待预测位置在多个时间段出现的频次作为该用户标识在待预测位置下的第一统计特征。对于每个用户标识对应的每个待预测位置分别进行上述特征的统计,得到与至少一个用户标识和待预测位置对应的第一统计特征。
39.通过基于预设时间段内至少一个用户标识对应的位置数据来确定待预测位置,可以获取到较为准确的作为常驻地址的候选位置。
40.在本技术的一个实施例中,根据预设时间段内至少一个用户标识对应的位置数据,确定所述至少一个用户标识对应的待预测位置,包括:分别对所述至少一个用户标识对应的位置数据进行经纬度编码;确定每个用户标识对应的每个经纬度编码的出现频次,并将出现频次最高的预设数量的经纬度编码确定为用户标识对应的待预测位置,得到所述至少一个用户标识对应的待预测位置。
41.其中,所述经纬度编码可以采用geohash进行编码。geohash是一种地址编码方法,能够把二维的空间经纬度数据编码成一个字符串。
42.对于每个用户标识对应的位置数据分别进行经纬度编码,可以进行7位的geohash编码,采用7位的geohash编码一般可以精确到小区级别,如果想获得更加精确的编码数据,也可以采用8位的geohash编码,通过进行经纬度编码得到每个位置数据对应的经纬度编码。对于一个用户标识,统计该用户标识下的每个经纬度编码的出现频次,可以按照出现频次由高到低的顺序对经纬度编码进行排序,选取排序靠前的预设数量的经纬度编码,并使用选取的经纬度编码来标识该用户标识对应的待预测位置,即将出现频次最高的预设数量的经纬度编码确定为用户标识对应的待预测位置,在一个用户标识对应的经纬度编码的数量不足预设数量时,将所有的经纬度编码确定为该用户标识对应的待预测位置。对于每个用户标识分别进行待预测位置的确定,得到至少一个用户标识对应的待预测位置,每个用
户标识对应的待预测位置的数量最多为预设数量。其中,所述预设数量例如可以为10。
43.通过对位置数据进行经纬度编码来确定用户标识对应的待预测位置,可以获取到较为精确的用于预测常驻地址的候选位置。
44.在本技术的一个实施例中,根据所述至少一个用户标识对应的位置数据,对所述待预测位置对应的位置数据进行统计,得到与用户标识和待预测位置对应的第一统计特征,包括:根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据;将所述待预测位置和所述待预测位置的经纬度编码的相邻编码确定为所述待预测位置的附近区域;根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据;根据在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据和所述附近区域在工作日和非工作日多个时间段内的定位分布数据,确定与用户标识和待预测位置对应的第一统计特征。
45.其中,所述多个时间段是一天内的多个时间段,例如将每个小时作为一个时间段,一天内可以有24个时间段,或者将两个小时作为一个时间段,一天内可以有12个时间段。
46.在基于位置数据的经纬度编码确定用户标识对应的待预测位置后,对于一个用户标识对应的每个待预测位置,可以将该待预测位置和该待预测位置的经纬度编码的相邻编码确定为待预测位置的附近区域,如图2所示,中心位置为待预测位置的经纬度编码,周围相邻的8个经纬度编码和该待预测位置共同组成该待预测位置的附近区域。
47.对于一个用户标识对应的一个待预测位置,首先统计在所述预设时间段内的每一天分别按照多个时间段进行统计,如果在一天内的一个时间段内有该待预测位置对应的位置数据,则可以记为1,在一天内的一个时间段内没有该待预测位置对应的位置数据,则可以记为0,从而得到每一天的定位分布数据。这样记录是因为用户的位置数据是比较稀疏的,在一个时间段内用户的定位服务开启时可以获取到多个位置数据,如果用户的定位服务没有开启就无法获取到位置数据,所以在一个时间段内如果有多个待预测位置对应的位置数据只需记录1即可表明该时间段内用户在该待预测位置出现过。
48.在统计到预设时间段内每一天的定位分布数据后,可以将预设时间段内的每一天分为工作日和非工作日分布进行统计,即将预设时间段内属于工作日的每一天的定位分布数据按照多个时间段分别进行累加得到在工作日内多个时间段内的定位分布数据,并将预设时间段内属于非工作日的每一天的定位分别数据按照多个时间段分别进行累加得到在非工作日内多个时间段内的定位分布数据。例如,将一个小时作为一个时间段,一天内待预测位置的定位分布数据为24维的向量,对于一个用户标识对应的一个待预测位置按照工作日和非工作日可以得到48维的向量。
49.对于一个用户标识对应的一个待预测位置,还需要统计包括该待预测位置的附近区域在工作日和非工作日的定位分布数据,同样上述待预测位置的定位分布数据的统计方式进行统计。例如,将一个小时作为一个时间段时,一天内一个待预测位置对应的附近区域的定位分布数据为24维的向量,按照工作日和非工作日一个附近区域可以得到48维的向量。
50.对于一个用户标识对应的一个待预测位置,对待预测位置在工作日的定位分布数据和非工作日的定位分布数据、以及包括待预测位置的附近区域在工作日的定位分布数据
和非工作日的定位分布数据进行拼接,得到与用户标识和待预测位置对应的第一统计特征。例如,将一个小时作为一个时间段时,第一统计特征为96维的向量。
51.在确定与用户标识和待预测位置对应的第一统计特征时,同时对待预测位置的特征进行统计以及对附近区域的特征进行统计,以统计到更加准确的特征,可以弥补定位数据稀疏的缺陷。
52.在一种可选的实施方式中,根据在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据和所述附近区域在工作日和非工作日多个时间段内的定位分布数据,确定与用户标识和待预测位置对应的第一统计特征,包括:对在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的中心位置特征;对同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的附近位置特征;将所述中心位置特征和附近位置特征拼接为与用户标识和待预测位置对应的第一统计特征。
53.对于一个用户标识下的一个待预测位置,将工作日多个时间段内的定位分布数据进行归一化处理,得到在同一用户标识下所述待预测位置在工作日的中心位置特征,将非工作日多个时间段内的定位分布数据进行归一化处理,得到在同一用户标识下所述待预测位置在非工作日的中心位置特征;对于一个用户标识下的一个待预测位置,将该待预测位置的附近区域在工作日内多个时间段的定位分布数据进行归一化处理,得到在同一用户标识下所述待预测位置在工作日的附近位置特征,将该待预测位置的附近区域在非工作日内多个时间段的定位分布数据进行归一化处理,得到在同一用户标识下所述待预测位置在非工作日的附近位置特征;将中心位置特征和附近位置特征进行拼接,得到与用户标识和待预测位置对应的第一统计特征。其中,所述归一化处理可以采用min

max归一化方式,min=0,max=统计天数*24,统计天数对于工作日和非工作日是不同的,具体是各自对应的总天数。
54.通过对定位分布数据进行归一化处理,使得位置特征中的每个值均位于0和1之间,可以使得工作日和非工作日的特征具有可比性,便于后续的处理。
55.步骤120,采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合。
56.其中,所述不可逆加密算法可以为sha256、md5等算法。
57.采用不可逆加密算法对第一特征标识集合中的每一个第一特征标识分别进行加密,得到每一个第一特征标识对应的第一加密特征标识,所有的第一加密特征标识组成第一加密特征标识集合。采用不可逆加密算法可以保证在后续确定交集时无法获取到其他联合预测平台的第二特征标识,以符合隐私保护要求。
58.步骤130,接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到。
59.本技术实施例提供的用户常驻地址的预测方法由当前预测平台执行,在执行过程
中与其他联合预测平台进行联合预测。其他联合预测平台对于与用户标识对应的待预测位置的确定采用上述当前预测平台确定至少一个用户标识对应的待预测位置的方式进行确定,对于与用户标识和待预测位置对应的第二统计特征的获取方式与上述第一统计特征的获取方式相同,这里均不再赘述。
60.其他联合预测平台在获取到与用户标识和待预测位置对应的第二统计特征后,将对应的用户标识和待预测位置确定为该第二统计特征的第二特征标识,并采用与当前预测平台相同的不可逆加密算法对第二特征标识进行加密得到第二加密特征标识,多个第二加密特征标识组成第二加密特征标识集合,将第二加密特征标识集合发送至当前预测平台。当前预测平台接收其他联合预测平台发送的第二加密特征标识集合,并进行后续的数据对齐以获取交集。
61.步骤140,确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台。
62.将所述第一加密特征标识集合与第二加密特征标识集合进行匹配,匹配成功的数据为第一加密特征标识集合与第二加密特征标识集合共有的数据,即第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成交集中每一条数据对应的新的特征标识。表1是第一加密特征标识集合与所述第二加密特征标识集合的交集和对应的新的特征标识,如表1所示,表中每一行表示一条交集数据,new_id表示新的特征标识,encrypt表示采用不可逆加密算法进行加密,a表示当前预测平台,b表示其他联合预测平台。
63.表1特征标识映射关系
64.new_id当前预测平台其他联合预测平台1encrypt(ida_i1)encrypt(idb_j1)2encrypt(ida_i2)encrypt(idb_j2)3encrypt(ida_i3)encrypt(idb_j3)
………
65.在得到表1所示的特征表示映射关系后,可以将该特征标识映射关系拆分为第一加密特征标识和新的特征标识的第一对应关系,以及第二加密特征标识和新的特征标识的第二对应关系,当前预测平台保存第一对应关系,将第二对应关系发送至所述其他联合预测平台,其他联合预测平台可以基于第二对应关系获取对应的数据进行处理。
66.由于第一加密特征标识和第二加密特征标识均采用了不可逆加密算法进行加密,对于其他联合预测平台中非交集中的第二加密特征标识当前预测平台无法得到真实的第二特征标识,符合了隐私保护要求。
67.在本技术的一个实施例中,确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,包括:将所述第一加密特征标识集合与所述第二加密特征标识集合进行数据碰撞,得到所述第一加密特征标识集合与所述第二加密特征标识集合的交集。
68.在确定第一加密特征标识集合与所述第二加密特征标识集合的交集时,可以采用数据碰撞的方式来确定,这样可以快速地得到第一加密特征标识集合与所述第二加密特征标识集合的交集,提高处理效率。
69.步骤150,根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的。
70.进行用户常驻地址预测的预测模型可以包括当前预测平台的第一底层子模型、其他联合预测平台的第二底层子模型以及当前预测平台的上层模型,同当前预测平台与其他联合预测平台进行联合预测。
71.按照新的特征标识的顺序,分别对每一个新的特征标识对应的数据进行处理,即根据新的特征标识和第一对应关系,确定要处理的第一加密特征标识,进而根据第一加密特征标识得到第一特征标识,根据第一特征标识获取到对应的第一统计特征,将第一统计特征输入第一底层子模型,通过第一底层子模型对该第一统计特征进行处理,得到第一向量。与此同时,其他联合预测平台也根据相同的新的特征标识获取到对应的第二加密特征标识,并根据第二加密特征标识得到第二特征标识,进而根据第二特征标识获取到对应的第二统计特征,将第二统计特征输入第二底层子模型,通过第二底层子模型对第二统计特征进行处理,得到第二向量,将第二向量发送至当前预测平台,当前预测平台接收到其他联合预测平台发送的新的特征标识对应的第二向量。
72.步骤160,通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
73.对于一个新的特征标识得到第一向量和第二向量后,可以将该第一向量和第二向量输入上层模型,通过上层模型对第一向量和第二向量进行常驻地址的预测,得到新的特征标识对应的常驻地址预测结果,基于第一对应关系,可以得到该新的特征标识对应的第一加密特征标识,进而得到第一特征标识,由于第一特征标识包括用户标识和待预测位置,从而得到用户标识和待预测位置,这样就得到了与交集中的用户标识和待预测位置对应的常驻地址预测结果。对于交集中的每一个新的特征标识对应的数据均进行上述的预测处理,得到交集中每一个新的特征标识对应的常驻地址预测结果。其中,所述常驻地址预测结果可以是工作地、居住地或者非工作地非居住地。
74.本技术实施例提供的用户常驻地址的预测方法,通过获取到至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将用户标识和待预测位置确定为第一统计特征的第一特征标识,得到第一特征标识集合,采用不可逆加密算法对第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合,接收其他联合预测平台发送的第二加密特征标识集合,第二加密特征标识集合中的第二加密特征标识是采用相同的不可逆加密算法加密得到,确定第一加密特征标识集合与第二加密特征标识集合的交集,生成交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,并将第二加密特征标识和新的特征标识的第二对应关系发送至其他联合预测平台,根据新的特征标识和第一对应关系,通过第一底层子模型对对应的第一统计特征进行处理得到第一向量,同时其他联合预测平台对相同的新的特征标识对应的第二统计特征进行处理得到第二向量,当前预测平台通过上层模型对第一向量和第二向量进行常驻地址的预测,得到交集中的用户标识和待预测位置对应的常驻地址预测结果,实现了当前预测平台和其他联合预测平台分别使用各自相同用户标识和待预测位置的
数据进行联合预测,预测过程中不传输具体的特征数据,只需对采用不可逆加密算法加密后的特征标识进行比对确定交集,无法获知交集以外的数据的真实标识,满足了隐私保护要求,同时联合了多个预测平台的数据进行预测,可以弥补单一平台位置数据的不足,从而可以提高预测结果的准确性。
75.在上述技术方案的基础上,所述方法还包括:
76.获取第一样本数据集合,所述第一样本数据集合中的第一样本数据包括第一特征标识样本、第一统计特征样本和标注数据;
77.采用所述不可逆加密算法对第一样本数据集合中的第一特征标识样本进行加密,得到第一标识样本集合;
78.接收所述其他联合预测平台发送的第二标识样本集合,所述第二标识样本集合为所述其他联合预测平台采用所述不可逆加密算法对第二样本数据集合中第二特征标识样本进行加密得到;
79.确定所述第一标识样本集合与所述第二标识样本集合的交集,并生成该交集中每一条数据对应的新的标识样本,建立第一标识样本与新的标识样本的对应关系,作为第一对应关系样本,建立第二标识样本与新的标识样本的对应关系,作为第二对应关系样本,将第二对应关系样本发送至所述其他联合预测平台;
80.根据所述新的标识样本和所述第一对应关系样本,从所述第一样本数据集合中获取与所述新的标识样本对应的第一统计特征样本,并通过第一底层子模型对所述第一统计特征样本进行处理,得到第一向量样本,接收所述其他联合预测平台发送的所述新的标识样本对应的第二向量样本,所述第二向量样本是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征样本进行处理得到的;
81.通过上层模型对所述第一向量样本和第二向量样本进行常驻地址的预测,得到新的标识样本对应的常驻地址预测结果;
82.确定所述新的标识样本对应的常驻地址预测结果与标注数据的误差;
83.根据所述误差进行反向传播,更新所述第一底层子模型、第二底层子模型和上层模型的网络参数,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
84.对常驻地址的预测模型进行训练时,即对第一底层子模型、第二底层子模型和上层模型进行训练时,也是基于当前预测平台和其他联合预测平台进行联合训练,训练过程中只传输数据样本中加密后的样本标识,不传输具体的数据,从而满足隐私保护要求。
85.第一样本数据集合的获取方式和上述的第一统计特征的获取方式相同,这里不再赘述,数据表中从用户注册的居住地和工作地等常驻地址中提取,对于同时预测居住地和工作地的预测模型可以为三分类模型,从而对于居住地的中心位置所对应的经纬度编码可以标记为居住地位置,标注可以为1,对于工作地的中心位置所对应的经纬度编码可以标记为工作地位置,标注可以为2,其他位置多对应的经纬度编码可以标记为非居住地非工作地,标注可以为3。其他联合预测平台也采用相同的方式准备第二样本数据集合,第二样本数据集合中的每一条第二样本数据包括第二特征标识样本和第二统计特征样本,不包含标注数据。
86.在获取到第一样本数据集合后,采用不可逆加密算法对第一样本数据集合中的第一特征标识样本进行加密,得到加密后的第一特征标识样本,将加密后的第一特征标识样
本作为第一标识样本,从而得到第一标识样本集合。同时其他联合预测平台采用相同的不可逆加密算法对第二样本数据集合中的第二特征标识样本进行加密,得到第二标识样本集合,并将第二标识样本集合发送至当前预测平台。当前预测平台接收到其他联合预测平台发送的第二标识样本集合。
87.当前预测平台对第一标识样本集合和第二标识样本集合中的数据进行数据对齐,可以通过数据碰撞的方式确定第一标识样本集合和第二标识样本集合的交集,生成交集中每一条数据对应的新的标识样本,建立第一标识样本与新的标识样本的对应关系,将该对应关系作为第一对应关系样本,建立第二标识样本与新的标识样本的对应关系,将该对应关系作为第二对应关系样本,将第二对应关系样本发送至其他联合预测平台。后续基于数据对齐的结果进行联合训练。
88.当前预测平台根据新的标识样本和第一对应关系样本,每次可以选取预设数量的新的标识样本参与一个批次的训练,即将新的标识样本对应的第一统计特征样本输入第一底层子模型,得到第一向量样本;同时其他联合预测平台根据新的标识样本和第二对应关系样本选取相同新的标识样本的数据参与该批次的训练,将相同的新的标识样本对应的第二统计特征输入第二底层子模型,得到第二向量样本,并将第二向量样本发送至当前预测平台,当前预测平台接收到其他联合预测平台发送的第二向量样本。
89.当前预测平台通过上层模型对第一向量样本和第二向量样本进行常驻地址的预测,得到新的标识样本对应的常驻地址预测结果。确定新的标识样本对应的第一特征标识样本,获取第一特征标识样本对应的标注数据,确定常驻地址预测结果与标注数据的损失值,根据损失值进行反向传播,更新上层模型的网络参数,上层模型的网络参数更新完毕后,确定第一底层子模型的更新参数以及第二底层子模型的更新参数,将第二底层子模型的更新参数发送至其他联合预测平台,当前预测平台基于第一底层子模型的更新参数进行反向传播更新第一底层子模型的网络参数,其他联合预测平台基于第二底层子模型的更新参数进行反向传播更新第二底层子模型的网络参数,完成一个批次的训练,迭代执行上述的训练过程,直至满足训练结束条件,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
90.在训练过程中,其他联合预测平台将加密后得到的第二标识样本集合发送至当前预测平台,当前预测平台确定第一标识样本集合与第二标识样本集合的交集,由于两个标识样本集合均采用相同的不可逆加密算法进行加密得到,对于交集以外的标识样本无法获取到真实的标识样本,从而满足了隐私保护要求,同时在训练过程中,当前预测平台只需将当前预测平台中的第一统计特征样本输入当前预测平台中的第一底层子模型,其他联合预测平台将相同的新的标识样本对应的第二统计特征样本输入到其他联合预测平台中的第二底层子模型,两个预测平台之间相互不传输真实的统计特征,只需传输中间的计算结果,从而实现了在满足隐私保护要求下的联合训练。
91.图3是本技术实施例中的常驻地址的预测模型联合训练和联合预测的架构图,如图3所示,当前预测平台和其他联合预测平台分别处理各自的位置数据,得到各自的统计特征以及对应的特征标识,分别对各自的特征标识采用相同的不可逆加密算法进行加密,得到各自的加密特征标识集合,当前预测平台得到第一加密特征标识集合,其他联合预测平台得到第二加密特征标识集合,并将得到的第二加密特征标识集合发送至当前预测平台,
当前预测平台对两个加密特征标识集合进行数据对齐,得到两个集合的交集,生成新的特征标识,保存新的特征标识与第一加密特征标识的第一对应关系,并将新的特征标识与第二加密特征标识的第二对应关系发送至其他联合预测平台,数据预测阶段,当前预测平台和其他联合预测平台使用相同的新的特征标识对应的统计特征分别使用各自的底层子模型进行处理,当前预测平台得到第一向量,其他联合预测平台得到第二向量,其他联合预测平台将第二向量发送至当前预测平台,当前预测平台将第一向量和第二向量输入上层模型,通过上层模型进行常驻地址的预测,得到常驻地址预测结果。图3中的实线表示前向处理过程,虚线表示反向传播更新网络参数的过程。在训练过程中,基于预测结果与标注数据的损失值进行反向传播更新上层模型的参数,并确定第一底层子模型和第二底层子模型的更新参数,基于第一底层子模型的更新参数更新第一底层子模型的网络参数,并将第二底层子模型的更新参数发送至其他联合预测平台,其他联合预测平台基于第二底层子模型的更新参数对第二底层子模型的网络参数进行调整,迭代执行训练过程,直至满足训练结束条件,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
92.在数据传输过程中,只传输加密的特征标识和处理的中间结果,不传输真实的位置数据和特征数据,多个预测平台分别对各自的数据进行底层的处理,从而满足了隐私保护要求,而且可以联合多个预测平台的位置数据,弥补了单一平台位置数据的不足,可以提高常驻地址预测结果的准确性。
93.实施例二
94.本实施例提供的一种用户常驻地址的预测装置,如图4所示,所述用户常驻地址的预测装置400包括:
95.数据获取模块410,用于获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合;
96.标识加密模块420,用于采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合;
97.标识集合接收模块330,用于接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到;
98.交集确定模块440,用于确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台;
99.底层处理模块450,用于根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的;
100.常驻地址预测模块460,用于通过上层模型对所述第一向量和所述第二向量进行
常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
101.可选的,所述数据获取模块包括:
102.待预测位置确定单元,用于根据预设时间段内至少一个用户标识对应的位置数据,确定所述至少一个用户标识对应的待预测位置;
103.统计特征确定单元,用于根据所述至少一个用户标识对应的位置数据,对所述待预测位置对应的位置数据进行统计,得到与用户标识和待预测位置对应的第一统计特征。
104.可选的,所述待预测位置确定单元具体用于:
105.分别对所述至少一个用户标识对应的位置数据进行经纬度编码;
106.确定每个用户标识对应的每个经纬度编码的出现频次,并将出现频次最高的预设数量的经纬度编码确定为用户标识对应的待预测位置,得到所述至少一个用户标识对应的待预测位置。
107.可选的,所述统计特征确定单元包括:
108.第一定位分布统计子单元,用于根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据;
109.附近区域确定子单元,用于将所述待预测位置和所述待预测位置的经纬度编码的相邻编码确定为所述待预测位置的附近区域;
110.第二定位分布统计子单元,用于根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据;
111.统计特征确定子单元,用于根据在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据和所述附近区域在工作日和非工作日多个时间段内的定位分布数据,确定与用户标识和待预测位置对应的第一统计特征。
112.可选的,所述统计特征确定子单元具体用于:
113.对在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的中心位置特征;
114.对同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的附近位置特征;
115.将所述中心位置特征和附近位置特征拼接为与用户标识和待预测位置对应的第一统计特征。
116.可选的,所述交集确定模块包括:
117.交集确定单元,用于将所述第一加密特征标识集合与所述第二加密特征标识集合进行数据碰撞,得到所述第一加密特征标识集合与所述第二加密特征标识集合的交集。
118.可选的,所述装置还包括:
119.样本数据获取模块,用于获取第一样本数据集合,所述第一样本数据集合中的第一样本数据包括第一特征标识样本、第一统计特征样本和标注数据;
120.标识样本加密模块,用于采用所述不可逆加密算法对第一样本数据集合中的第一特征标识样本进行加密,得到第一标识样本集合;
121.标识样本接收模块,用于接收所述其他联合预测平台发送的第二标识样本集合,
所述第二标识样本集合为所述其他联合预测平台采用所述不可逆加密算法对第二样本数据集合中第二特征标识样本进行加密得到;
122.样本交集确定模块,用于确定所述第一标识样本集合与所述第二标识样本集合的交集,并生成该交集中每一条数据对应的新的标识样本,建立第一标识样本与新的标识样本的对应关系,作为第一对应关系样本,建立第二标识样本与新的标识样本的对应关系,作为第二对应关系样本,将第二对应关系样本发送至所述其他联合预测平台;
123.底层训练模块,用于根据所述新的标识样本和所述第一对应关系样本,从所述第一样本数据集合中获取与所述新的标识样本对应的第一统计特征样本,并通过第一底层子模型对所述第一统计特征样本进行处理,得到第一向量样本,接收所述其他联合预测平台发送的所述新的标识样本对应的第二向量样本,所述第二向量样本是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征样本进行处理得到的;
124.上传模型训练模块,用于通过上层模型对所述第一向量样本和第二向量样本进行常驻地址的预测,得到新的标识样本对应的常驻地址预测结果;
125.损失值确定模块,用于确定所述新的标识样本对应的常驻地址预测结果与标注数据的损失值;
126.网络参数调整模块,用于根据所述损失值进行反向传播,更新所述第一底层子模型、第二底层子模型和上层模型的网络参数,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
127.本技术实施例提供的用户常驻地址的预测装置,用于实现本技术实施例一中所述的用户常驻地址的预测方法的各步骤,装置的各模块的具体实施方式参见相应步骤,此处不再赘述。
128.本技术实施例提供的用户常驻地址的预测装置,通过获取到至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将用户标识和待预测位置确定为第一统计特征的第一特征标识,得到第一特征标识集合,采用不可逆加密算法对第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合,接收其他联合预测平台发送的第二加密特征标识集合,第二加密特征标识集合中的第二加密特征标识是采用相同的不可逆加密算法加密得到,确定第一加密特征标识集合与第二加密特征标识集合的交集,生成交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,并将第二加密特征标识和新的特征标识的第二对应关系发送至其他联合预测平台,根据新的特征标识和第一对应关系,通过第一底层子模型对对应的第一统计特征进行处理得到第一向量,同时其他联合预测平台对相同的新的特征标识对应的第二统计特征进行处理得到第二向量,当前预测平台通过上层模型对第一向量和第二向量进行常驻地址的预测,得到交集中的用户标识和待预测位置对应的常驻地址预测结果,实现了当前预测平台和其他联合预测平台分别使用各自相同用户标识和待预测位置的数据进行联合预测,预测过程中不传输具体的特征数据,只需对采用不可逆加密算法加密后的特征标识进行比对确定交集,无法获知交集以外的数据的真实标识,满足了隐私保护要求,同时联合了多个预测平台的数据进行预测,可以弥补单一平台位置数据的不足,从而可以提高预测结果的准确性。
129.实施例三
130.本技术实施例还提供了一种电子设备,如图5所示,该电子设备500可以包括一个或多个处理器510以及与处理器510连接的一个或多个存储器520。电子设备500还可以包括输入接口530和输出接口540,用于与另一装置或系统进行通信。被处理器510执行的程序代码可存储在存储器520中。
131.电子设备500中的处理器510调用存储在存储器520的程序代码,以执行上述实施例中的用户常驻地址的预测方法。
132.本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本技术实施例一所述的用户常驻地址的预测方法的步骤。
133.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
134.以上对本技术实施例提供的一种用户常驻地址的预测方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
135.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献