一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于生物特征数据匿名跟踪和/或分析个体的方法和系统与流程

2022-07-20 10:17:41 来源:中国专利 TAG:


1.本发明总体上涉及技术应用中的匿名性问题以及基于生物特征数据的数据收集和数据/群体统计的技术方面,并且更具体地涉及估计或测量群体流动的技术领域和/或用于基于生物特征数据来实现这种群体流动估计的方法和系统以及计算机程序。


背景技术:

2.立法和公众舆论日益推动向技术的匿名权移动。这与收集关于群体流动的数据以自动化或优化过程和社会性的需求相冲突。零售商希望收集有关其访客的统计数据以改善他们的运营。智能城市需要数据来优化生活质量和能源效率。公共交通系统需要收集有关出行图案的数据以减少出行时间并优化成本。
3.迫切需要既能为统计目的收集数据同时又能保持个人匿名性的技术。具体地,从一个时间点到另一个时间点跟踪人员流动是有问题的,因为在以后的时间重新识别个体通常被定义为对所述个体匿名权的侵犯。这意味着匿名跟踪群体的整个想法是略微违反直觉的,因为在个体层面上这通常几乎是不可能的。
4.当前用于跟踪人员的基于伪匿名化和唯一标识符的隐私增强方法显然无法满足这些需求,这意味着公司完全避免收集关于群体流动的数据。非常期望找到能够在不违反匿名性的情况下收集关于这种群体流动的数据的任何系统。具体地,剖析被广泛认为威胁到个体的基本权利和自由。在一些情况下,已经使用了对信息破坏非常小的加密,使得可以以足够高的概率(通常错误率为几万分之一的标识)重新识别个体,从而可以完全忽略任何错误标识。然而,这种假名化技术,无论其实际上是否可逆,都被认为与匿名化的立法解释或公众舆论不相容,因为重新识别行为的可能性本身就是个人数据的定义属性。


技术实现要素:

5.总的目的是提供一种用于在基于生物特征数据来计算群体统计数据时提供匿名性的系统。
6.具体目的是提供一种用于在基于生物特征数据来估计或测量个体在两个或更多个时空位置、与用户交互的计算机系统状态、和/或主体的健康状态和健康监测状态(统称或单独称为主体状态)之间的流动时保持匿名性的系统和方法。
7.另一个目的是提供一种用于基于生物特征数据来匿名跟踪和/或分析个体主体和/或对象(被称为个体)的转变和/或流动和/或移动的系统。
8.又一个目的是提供一种包括这种系统的监视系统。
9.又另一个目的是提供一种用于基于生物特征数据来实现对群体中在两个或更多个主体状态之间重合的个体量或数量进行估计的计算机实施的方法。
10.另一个目的是提供一种用于基于生物特征数据来生成个体主体和/或对象(被称为个体)在主体状态之间的流动或移动的度量的方法。
11.再另一个目的是提供一种被配置为执行这种计算机实施的方法的计算机程序和/
或计算机程序产品。
12.这些和其他目的通过如本文所定义的实施例得以满足。
13.根据第一方面,提供了一种系统,该系统包括:
[0014]-一个或多个处理器;
[0015]-匿名化模块,该匿名化模块被配置为通过该一个或多个处理器进行以下操作:对于包括个体的群体中的个体主体和/或对象的大量个体中的每一个,接收表示该个体的身份的标识信息,其中,表示该个体的身份的该标识信息包括和/或基于生物特征数据,并且基于一个或多个个体的标识信息来生成匿名标识符偏差度量;
[0016]-存储器,该存储器被配置为基于所生成的标识符偏差度量中的至少一个来存储至少一个匿名标识符偏差度量;
[0017]-估计器,该估计器被配置为通过该一个或多个处理器进行以下操作:从所述存储器和/或直接从所述匿名化模块接收多个匿名标识符偏差度量、个体的至少两个主体状态中的每一个的至少一个标识符偏差度量,并且基于接收到的匿名标识符偏差度量来生成与从一个主体状态通至另一个主体状态的个体相关的一个或多个群体流动度量。
[0018]
根据第二方面,提供了一种用于基于生物特征数据来匿名跟踪和/或分析个体主体和/或对象(被称为个体)在主体状态之间的流动或移动的系统。
[0019]
该系统被配置为使用表示该个体的身份的标识信息作为输入来确定多个个体的群体中的每个个体的匿名标识符,其中,表示该个体的身份的该标识信息包括和/或基于生物特征数据。每个匿名标识符与一组个体中的任何个体相对应,该组个体的身份信息以以下这样的概率产生相同的匿名标识符,即,使得没有个体生成匿名标识符的概率大于所有其他个体生成该标识符的概率之和。
[0020]
该系统进一步被配置为保持跟踪偏差度量,两个或更多个主体状态中的每一个有一个偏差度量,其中,每个偏差度量是基于与特定的对应主体状态相关联的这些对应个体相关联的匿名标识符来生成的。
[0021]
该系统还被配置为基于与这些主体状态相对应的这些偏差度量来确定表示从第一主体状态通至第二主体状态的个体数量的至少一个群体流动度量。
[0022]
根据第三方面,提供了一种包括根据第一方面或第二方面所述的系统的监视系统。
[0023]
根据第四方面,提供了一种用于基于生物特征数据来实现对群体中个体主体和/或对象(被称为个体)在两个或更多个主体状态之间移动和/或重合的量和/或流量的匿名估计的计算机实施的方法。该方法包括以下步骤:
[0024]-从两个或更多个个体接收标识数据,其中,每个个体的标识数据包括和/或基于生物特征数据;
[0025]-在线并且通过一个或多个处理器生成每个个体的匿名标识符;以及
[0026]-存储:每个个体的匿名标识符以及表示主体状态的数据;和/或这种匿名标识符的偏差度量。
[0027]
根据第五方面,提供了一种用于基于生物特征数据来生成个体主体和/或对象(被称为个体)在主体状态之间的流动或移动的度量的计算机实施的方法。该方法包括以下步骤:
[0028]-配置一个或多个处理器以接收根据基于生物统计学的标识符而生成的匿名标识符偏差度量,这些基于生物统计学的标识符来自个体对两个主体状态中的每一个的访问和/或个体在两个主体状态中的每一个中的出现,其中,每个标识符表示个体的身份并且包括和/或基于生物特征数据;
[0029]-使用所述一个或多个处理器,通过将这些主体状态之间的这些匿名标识符偏差度量进行比较来生成两个主体状态之间的群体流动度量;
[0030]-将所述群体流动度量存储到存储器中。
[0031]
根据第六方面,提供了一种包括指令的计算机程序,这些指令在由至少一个处理器执行时使该至少一个处理器执行根据第四方面和/或第五方面所述的计算机实施的方法。
[0032]
根据第七方面,提供了一种计算机程序产品,该计算机程序产品包括其上存储有这样的计算机程序的非暂态计算机可读介质。
[0033]
根据第八方面,提供了一种用于执行根据第四方面和/或第五方面所述的方法的系统。
[0034]
以这种方式,实际上可以提供匿名性,同时允许数据收集以及基于生物特征数据来计算个体的群体的统计数据。
[0035]
具体地,所提出的技术能够在基于生物特征数据来估计或测量个体在两个或更多个主体状态之间的流动的同时保持匿名性。
[0036]
具体地,所提出的发明在不需要存储个人数据的情况下允许基于用于统计目的的生物特征数据来链接在不同时间收集的数据点。
[0037]
一般而言,本发明提供了用于实现和/或保护与数据收集和基于生物特征数据的统计数据相关的匿名性的改进技术。
[0038]
当阅读本发明的实施例的以下描述时,将理解本发明提供的其他优点。
附图说明
[0039]
通过参考以下结合附图的描述,可以最好地理解本发明及其进一步的目的和优点,在附图中:
[0040]
图1a是展示了根据实施例的系统的示例的示意图。
[0041]
图1b是展示了用于实现对群体中个体主体和/或对象(被称为个体)在两个或更多个主体状态之间移动和/或重合的量和/或流量的匿名估计的计算机实施的方法的示例的示意性流程图。
[0042]
图1c是展示了用于实现对个体主体和/或对象的量和/或流量的匿名估计的计算机实施的方法的另一个扩展示例的示意性流程图。
[0043]
图1d是展示了用于生成个体主体和/或对象(被称为个体)在主体状态之间的流动或移动的度量的计算机实施的方法的示例的示意性流程图。
[0044]
图2是展示了将群体微聚集成组的示例的示意图。
[0045]
图3是展示了将群体微聚集成组的另一个示例的示意图,包括偏差度量的概念。
[0046]
图4是展示了每组个体可以如何与主体状态n的集合相关联的示意图,每个主体状态针对一个时间点集合。
[0047]
图5是展示了比如时空位置数据等主体状态和有用的标识生物特征信息(id)的示例的示意图。
[0048]
图6是展示了监视系统的示例的示意图。
[0049]
图7是展示了用于实现对群体中在两个或更多个时空位置之间重合的个体量或数量进行估计的计算机实施的方法的示例的示意性流程图。
[0050]
图8是展示了用于实现对群体中在两个或更多个时空位置之间重合的个体量或数量进行估计的计算机实施的方法的另一个示例的示意性流程图。
[0051]
图9是展示了一个或多个个体从位置a到位置b的移动或流动的示例的示意图。
[0052]
图10是展示了用户从比如ip位置等一个虚拟位置到另一个虚拟位置的移动或流动的示例的示意图。
[0053]
图11是展示了根据实施例的计算机实施方式的示例的示意图。
[0054]
图12是展示了用于生成个体主体和/或对象(被称为个体)在时空位置之间的流动或移动的度量的计算机实施的方法的示例的示意性流程图。
[0055]
图13是展示了可以如何通过在一个或多个时间添加噪声来使标识符偏差度量匿名以及这可以如何生成偏置补偿项的示例的示意图。
[0056]
图14是展示了噪声掩蔽匿名化的示例。
具体实施方式
[0057]
在所有附图中,相同的附图标记用于类似或对应的要素。
[0058]
为了更好地理解所提出的技术,从技术问题的简要分析开始可能是有用的。
[0059]
发明人的仔细分析已经揭示,可以通过存储部分身份(即,关于个人身份的本身不是个人数据的部分信息)来使个人数据匿名。进一步地,也许令人惊讶的是,即使在这种匿名数据是基于与群体流动和/或其分布不直接相关的因素的情况下,也可以构建能够使用这种匿名数据来衡量群体流动的系统。重要的是,如果所使用的因素与群体流动不相关和/或如果对其先验分布的任何估计都不可行,则所提出的发明也有效。因此,本发明可应用于使用几乎任何标识因素(即数据类型)的一般群体,而无需进一步了解基础分布。
[0060]
本发明提供了用于匿名估计群体流动的系统和方法。还提供了适用于实现这些目的的三种特定匿名化方法和系统。简而言之,哈希和噪声掩蔽这两种匿名化方法是基于在匿名化模块中对关于主体状态的每次访问的标识信息进行匿名化,而第三种方法是基于对所需存储数据(即标识符偏差度量)进行匿名化。这些方法也可以相互结合使用。
[0061]
本发明还提供了一种用于通过使用去相关哈希模块和/或去相关模块和/或去相关偏差度量来使用本发明而无需首先估计基础分布的方式。
[0062]
在下文中,将参考图1至图11的示例性示意图描述所提出的技术的非限制性示例。
[0063]
图1a是展示了根据实施例的系统的示例的示意图。在该特定示例中,系统10基本上包括一个或多个处理器11、匿名化模块12、估计器13、输入/输出模块14和具有一个或多个偏差度量16的存储器15。
[0064]
根据本发明的第一方面,提供了一种系统10,该系统包括:
[0065]-一个或多个处理器11、110;
[0066]-匿名化模块12,该匿名化模块被配置为通过一个或多个处理器11、110进行以下
操作:对于包括个体的群体中的个体主体和/或对象的大量个体中的每一个,接收表示个体的身份的标识信息,其中,表示个体的身份的标识信息包括和/或基于生物特征数据;并且基于一个或多个个体的标识信息来生成匿名标识符偏差度量;
[0067]-存储器15、120,该存储器被配置为基于所生成的标识符偏差度量中的至少一个来存储至少一个匿名标识符偏差度量;
[0068]-估计器13,该估计器被配置为通过该一个或多个处理器11、110进行以下操作:从所述存储器和/或直接从所述匿名化模块接收多个匿名标识符偏差度量、个体的至少两个主体状态中的每一个的至少一个标识符偏差度量;并且基于接收到的匿名标识符偏差度量来生成与个体从一个主体状态通至另一个主体状态相关的一个或多个群体流动度量。
[0069]
举例来说,每个标识符偏差度量是基于两个或更多个标识符密度估计和/或基于标识符密度估计生成的一个或多个值来生成的。
[0070]
例如,每个标识符偏差度量表示一个或多个个体的标识信息与群体中这种标识信息的预期分布相比的偏差。
[0071]
在特定示例中,匿名化模块的标识符偏差度量基于表示大量个体的组标识符。
[0072]
例如,标识符偏差度量可以基于访问计数器。
[0073]
举例来说,标识符偏差度量是使用哈希函数基于标识信息来生成的。
[0074]
例如,匿名化模块12可以被配置为通过使用局部敏感哈希(lsh)函数基于个体的生物特征信息来生成组标识符。
[0075]
作为示例,所述一个或多个群体流动度量包括从一个时空位置/地点通至另一个时空位置/地点的访客的数量和/或比率。
[0076]
例如,所述一个或多个群体流动度量中的至少一个是至少部分地基于两个或更多个访问计数器的计数器信息的线性变换来生成的。
[0077]
可选地,匿名化模块12和/或表示个体的身份的标识信息是随机的,并且其中,在生成线性变换时考虑标识信息和/或匿名化模块12的随机性。
[0078]
例如,当生成(多个)群体流动度量时,减去与来自两个独立生成的群体的预期相关性相对应的基线。
[0079]
举例来说,每个标识符偏差度量可以是使用标识符和噪声的组合来生成的,使得由于对主体状态的访问的足够的噪声水平不归因于特定标识符,因此对标识符偏差度量的贡献是呈现匿名的。
[0080]
作为示例,标识符偏差度量可以基于两个或更多个标识符密度估计。
[0081]
在特定示例中,匿名化模块被配置为基于存储在存储器中的(多个)匿名标识符偏差度量来生成至少一个标识符偏差度量;并且通过在一个或多个时刻向存储在存储器中的匿名标识符偏差度量添加足够的噪声来提供匿名性,使得来自任何单个标识符的总贡献无法确定。
[0082]
可选地,关于(多个)所生成的噪声样本的信息也被存储并用于降低群体流动度量的方差。
[0083]
举例来说,表示个体的身份的标识信息可以包括和/或基于以下生物特征数据的非限制性示例中的至少一个:虹膜图像、面部图像、特征向量、身体图像、指纹和/或步态。
[0084]
换句话说,标识信息可以被视为表示个体的身份的生物特征信息。
[0085]
举例来说,这些主体状态包括时空位置、与用户交互的计算机系统状态、和/或主体的健康状态和健康监测状态。
[0086]
举例来说,生物特征向量基于从包含生物特征信息的图像中提取可能表示生物特征数据的表示的神经网络。
[0087]
举例来说,除了生物特征数据之外,标识数据也可以包含、编码和/或表示附加标识数据,例如图像数据或基于图像数据的特征向量,该图像数据还包含服装和/或其他非生物特征数据以及例如面部。
[0088]
在稍后将进一步详细阐述的特定示例中,这些主体状态是时空位置和/或地点,并且
[0089]
匿名化模块12被配置为基于个体的标识信息来生成组标识符以有效地将群体微聚集成对应的组;
[0090]
存储器15、120被配置为存储来自与对应个体相关联的两个或更多个时空位置或地点中的每一个的两个或更多个组标识符中的每一个的访问计数器;并且
[0091]
估计器13被配置为从至少两个访问计数器接收计数器信息,并且生成与从一个时空位置通至另一个时空位置的个体相关的一个或多个群体流动度量。
[0092]
例如,匿名化模块可以被配置为通过使用哈希函数基于个体的标识信息来生成组标识符。
[0093]
举例来说,系统10、100包括输入模块14、140,该输入模块被配置为通过该一个或多个处理器11、110进行以下操作:对于大量个体中的每一个,接收表示时空位置的位置数据;并且将个体的时空位置与对应于与个体相关的组标识符的访问计数器进行匹配,并且每个组标识符的每个访问计数器也与特定时空位置相对应。
[0094]
根据第二方面,提供了一种用于基于生物特征数据来匿名跟踪和/或分析个体主体和/或对象(被称为个体)在主体状态之间的流动或移动的系统10、100。
[0095]
系统10、100被配置为使用表示个体的身份的标识信息作为输入来确定多个个体的群体中的每个个体的匿名标识符,其中,表示个体的身份的标识信息包括和/或基于生物特征数据。每个匿名标识符与一组个体中的任何个体相对应,该组个体的身份信息以以下这样的概率产生相同的匿名标识符,即,使得没有个体生成匿名标识符的概率大于所有其他个体生成该标识符的概率之和。
[0096]
系统10、100被配置为保持跟踪偏差度量,两个或更多个主体状态中的每一个有一个偏差度量,其中,每个偏差度量是基于与特定的对应主体状态相关联的这些对应个体相关联的匿名标识符来生成的。
[0097]
系统10、100还被配置为基于与这些主体状态相对应的这些偏差度量来确定表示从第一主体状态通至第二主体状态的个体数量的至少一个群体流动度量。
[0098]
举例来说,这些匿名标识符是组标识符和/或噪声掩蔽标识符。
[0099]
在特定的非限制性示例中,系统10、100被配置为使用表示个体的身份的信息作为输入、基于哈希函数来确定多个个体的群体中的每个个体的组标识符。
[0100]
每个组标识符与一组个体相对应,该组个体的身份信息产生相同的组标识符,从而有效地将群体微聚集成至少两个组。
[0101]
在该示例中,这些主体状态是时空位置或地点并且这些偏差度量与访问数据相对
应,并且系统10、100被配置为保持跟踪每组的访问数据,该访问数据表示属于组的个体对两个或更多个时空位置的访问次数。
[0102]
系统10、100进一步被配置为基于每个组标识符的访问数据来确定表示从第一时空位置通至第二时空位置的个体数量的至少一个群体流动度量。
[0103]
例如,系统10、100包括处理电路系统11、110和存储器15、120,其中,存储器包括指令,这些指令在由处理电路系统执行时使系统匿名跟踪和/或分析个体的流动或移动。
[0104]
举例来说,匿名化模块12可以被配置为通过使用哈希函数基于个体的标识信息来生成组标识符和/或噪声掩蔽标识符。
[0105]
图1b是展示了用于基于生物特征数据来实现对群体中个体主体和/或对象(被称为个体)在两个或更多个主体状态之间移动和/或重合的量和/或流量的匿名估计的计算机实施的方法的示例的示意性流程图。
[0106]
该方法包括以下步骤:
[0107]-从两个或更多个个体接收(s1)标识数据,其中,每个个体的标识数据包括和/或基于生物特征数据;
[0108]-在线并且通过一个或多个处理器生成(s2)每个个体的匿名标识符;以及
[0109]-存储(s3):每个个体的匿名标识符以及表示主体状态的数据;和/或这种匿名标识符的偏差度量。
[0110]
例如,匿名标识符可以是匿名标识符偏差度量或与群体流动实际上不相关的其他匿名标识符。
[0111]
举例来说,偏差度量可以是去相关的和/或标识数据以某种方式与群体流动相关,并且其中,匿名标识符是用去相关模块和/或去相关哈希模块来生成的。
[0112]
在特定示例中,匿名标识符是匿名偏差度量并且匿名偏差度量是基于存储的匿名标识符偏差度量来生成的,在一个或多个时刻已经向该存储的匿名标识符偏差度量添加了噪声。
[0113]
作为示例,匿名标识符可以通过向标识数据添加噪声来生成。
[0114]
举例来说,基于由方法使用的一个或多个生成的噪声样本来计算要被添加到群体流动估计的补偿项和/或用于生成这种群体流动估计的必要信息。
[0115]
例如,任何两个存储的匿名标识符或标识符偏差度量彼此不可链接,即不存在链接存储的数据中的状态的伪匿名标识符。
[0116]
在特定示例中,匿名标识符是组身份,并且每个个体的组身份与表示主体状态的数据一起存储;和/或每个主体状态和组身份的计数器。
[0117]
举例来说,主体状态可以是时空位置、与用户交互的计算机系统状态、和/或主体的健康状态和/或健康监测状态。
[0118]
可选地,表示每个个体的一个或多个动作或活动的活动数据也与对应的组身份和描述主体状态的数据一起存储。
[0119]
可选地,该方法可以进一步包括生成(s4)两个主体状态之间的群体流动度量的步骤,如图1c中示意性地指示的。
[0120]
图1d是展示了用于基于生物特征数据来生成个体主体和/或对象(被称为个体)在主体状态之间的流动或移动的度量的计算机实施的方法的示例的示意性流程图。
[0121]
该方法包括以下步骤:
[0122]-配置(s11)一个或多个处理器以接收根据基于生物统计学的标识符而生成的匿名标识符偏差度量,这些基于生物统计学的标识符来自个体对两个主体状态中的每一个的访问和/或个体在两个主体状态中的每一个中的出现,其中,每个标识符表示个体的身份并且包括和/或基于生物特征数据;
[0123]-使用所述一个或多个处理器,通过将这些主体状态之间的这些匿名标识符偏差度量进行比较来生成(s12)两个主体状态之间的群体流动度量;
[0124]-将所述群体流动度量存储(s13)到存储器中。
[0125]
举例来说,这些主体状态是时空位置、与用户交互的计算机系统状态、和/或主体的健康状态和/或健康监测状态。
[0126]
例如,这些匿名标识符偏差度量可以是组身份的计数器。
[0127]
通常,在一个主体状态中出现的单个访客不能在另一个主体状态中使用这些匿名标识符偏差度量高概率地被重新识别。例如,他/她无法通过伪匿名和/或通过数据库中的单个条目进行链接。
[0128]
举例来说,生成步骤s12不是基于已经包含在个体层面和/或微聚集层面上的位置之间的群体流动的某种度量的数据。
[0129]
例如,这些匿名标识符偏差度量与群体流动实际上不相关。
[0130]
可选地,群体流动估计是基于来自这些匿名标识符偏差度量的线性映射来生成的。
[0131]
举例来说,群体流动度量还可以基于关于用于使数据匿名的噪声样本的信息生成。
[0132]
作为示例,配置步骤s11包括配置一个或多个处理器以接收源自个体对两个主体状态中的每一个的访问的匿名且近似独立分布的组身份的计数器;并且生成步骤s12包括使用两个主体状态中的每一个的组身份计数器之间的线性相关性来生成两个主体状态之间的群体流动度量。
[0133]
举例来说,这些主体状态可以是时空位置,并且两个时空位置之间的群体流动度量可以使用两个主体状态中的每一个的组身份计数器之间的线性相关性来生成。
[0134]
可选地,每个主体状态的匿名标识符或标识符偏差度量可以基于两个或更多个标识符密度估计。
[0135]
图2是展示了将群体微聚集成组的示例的示意图。举例来说,可以通过使用合适的单向哈希将研究中的主体/对象的群体微聚集成组。简而言之,基本构思是对于大量个体中的每一个,使用表示个体的身份的标识信息(比如id#1、id#2、...id#y),并基于个体的标识信息来生成组标识符(组id#1、...、组id#x)以有效地将群体微聚集成对应的组(组#1、...、组#x)。
[0136]
图3是展示了将群体微聚集成组的另一个示例的示意图,包括访问计数器的概念。对于来自与对应个体相关联的两个或更多个时空位置或地点中的每一个的两个或更多个组标识符中的每一个,存在访问计数器16。换句话说,至少两个组(具有对应的组标识符)中的每一个都具有用于维护来自与所考虑的组的对应个体相关联的两个或更多个时空位置或地点中的每一个的访问计数的多(k、l、m)个访问计数器。
[0137]
估计器13(也被称为群体流动估计器)然后可以被配置为从至少两个访问计数器接收计数器信息,并且生成与从一个时空位置通至另一个时空位置的个体相关的一个或多个群体流动度量。
[0138]
图4是展示了每组个体可以如何与空间位置n的集合相关联的示意图,每个空间位置针对一个时间点集合。
[0139]
可选地,系统10包括输入模块14,该输入模块被配置为通过一个或多个处理器进行以下操作:对于大量个体中的每一个,接收表示时空位置的位置数据,并且将个体的时空位置与对应于与个体相关的组标识符的访问计数器16进行匹配。
[0140]
例如,每个组标识符的每个访问计数器16也与特定时空位置相对应。
[0141]
举例来说,一个或多个群体流动度量包括从一个时空位置通至另一个时空位置的访客的数量和/或比率。
[0142]
在特定示例中,所述一个或多个群体流动度量中的至少一个是至少部分地基于两个或更多个访问计数器的计数器信息的线性变换来生成的。
[0143]
例如,匿名化模块12和/或表示个体的身份的标识信息可以是随机的,并且在生成线性变换时可以考虑标识信息(标识符)和/或匿名化模块12的随机性。
[0144]
作为示例,线性变换可以至少部分地基于两个访问计数器之间的相关性并且从该相关性减去与来自两个独立生成的群体的预期相关性相对应的基线。
[0145]
图5是展示了比如时空位置数据等主体状态和有用的标识生物特征信息(id)的示例的示意图。
[0146]
举例来说,除了时间方面(即与时间相关)之外,时空位置数据可以与比如街道、商店、地铁站或任何其他合适的地理位置等物理位置和/或比如ip地址、域、帧等虚拟位置相关。
[0147]
表示个体的基于他/她的生物特征属性的身份的标识信息(也被称为标识符)的非限制性示例可以包括和/或基于以下各项中的至少一项:虹膜图像、面部图像、特征向量、身体图像、指纹和/或步态。
[0148]
这意味着上述信息项中的一个或多个和/或其组合。
[0149]
在特定示例中,匿名化模块被配置为基于随机表、伪随机表、加密哈希函数和/或与系统被设计用于研究的感兴趣方面实际上不相关的其他类似函数来操作。
[0150]
作为示例,哈希过程可能是非确定性的。
[0151]
举例来说,可能被认为是重要的是,至少两个个体的数据是针对每个唯一组标识符(当使用这种唯一组标识符时)收集或预期要收集的。换句话说,至少两个个体的数据是针对每个唯一哈希收集或预期要收集的。替代性地,如果标准稍弱一些,则可能重要的是,在可以合理预期访问主体状态的一些群体中预期存在至少两个个体,例如,正在收集数据的感兴趣的城市或国家中的个体。匿名性的标准应该是合理身份的范围,而不是合理标识符的范围。例如,可能的物理特性的数量通常大于国家或以其他方式定义的群体的实际物理特性的范围。
[0152]
更一般地,为了处理具有类似标准的基于噪声的匿名化情况,例如可能重要的是,正确标识个体的概率不应高于50%,对于概率可忽略不计的情况可能有可选的例外情况。例如可能另外重要的是,当给定了已知的主体状态和/或关于存在特定个人的这种主体状
态的合理可用信息时,标识个人的概率不高于50%。这种知识也可以是概率性的。这种概率可以由技术人员使用分析或蒙特卡罗(monte carlo)方法以直接的方式计算出。
[0153]
当使用噪声掩蔽标识符时,例如可能重要的是,没有噪声掩蔽的标识符值可以以比标识符值属于群体中任何其他人员的概率更高的概率链接到任何单个人员。因此,该噪声掩蔽标识符属于n个人员的群体中的n-1个剩余个体中的任何一个的概率在理想情况下应高于0.5。换句话说,标识个体的概率不应高于0.5并且在许多情况下要低得多,对于某个k=2或更高的k匿名化提供类似的保护。换句话说,该大量标识符中的每一个应该具有小于从每个其他标识符生成噪声掩蔽标识符的概率之和的生成给定噪声掩蔽标识符值的概率。如果噪声水平太低,则收集的数据允许创建简档并且由于数据收集不充分,该方法不再是匿名的。
[0154]
作为示例,对于四个不同的接收到的标识符,生成某个特定的噪声掩蔽标识符的概率可能是0.6、0.4、0.3和0.4,最大概率是正确地分配给特定个体的数据的0.6/1.7,并且因此实现大于0.5的匿名性。很多时候可以合理地假设先验概率在群体中是相同的。在其他情况下,例如,如果通过面部图像来标识人员并且先验地知道某些类型的面部更有可能出现在给定群体中,则需要考虑先验分布。在实践中,这通常是很难做出的估计。在这种情况下,期望改为使用去相关模块和/或具有这样的概率,即,具有充分分布以便为先验概率中的不确定性留下足够的余量的分布的概率。不管接收到的标识符如何,在所有可能的噪声掩蔽标识符值上完全均匀的分布是不切实际的,因为这将清楚地去除由用于生成噪声掩蔽标识符的特定标识符集合所引起的数据中的任何期望的预期偏差。换句话说,选择合适的噪声分布成为估计准确性与所提供的匿名性之间的平衡。然而,通常有多种选择可以提供高度的匿名性和合理的准确性。
[0155]
应当注意的是,匿名性的一个或多个标准不仅仅包括不能再以高概率重新创建原始标识符的事实,例如以防止可识别面部图像等的重新创建。对于一些加盐哈希、临时随机标识符和大范围其他类似的标识符(被称为伪匿名)来说,这种较弱的性质是正确的。相反,本发明通过使攻击者无法在个体层面上使用存储的标识符来链接两个或更多个数据点(同时仍然能够在聚集的统计层面上进行链接),还防止了例如将数据链接到简档中,从而以显著更严格的匿名化水平为目标。这也是由匿名性的现代科学和法律定义提供的现代且更严格的定义中常见的匿名化定义,比如一般数据保护法(general data protection regulation)和欧盟第29条wp意见05/2014关于匿名化技术的建议(具体标准为:

是否仍有可能链接与个体有关的记录?

)。相比之下,在个体层面上可链接的非匿名数据(例如,非匿名标识符)的任何可用性或可能性将使得以本发明所描述的方式实现目标变得不重要且无意义。
[0156]
例如,本文所描述的匿名化的一个特定效果可以是有效地防止或显著地阻碍第三方使用存储在系统中的数据对个体进行任何潜在的剖析。
[0157]
作为本发明的方法的替代方案,数据可以在收集之后被匿名,同时以各种方式保持群体流动度量,例如通过微聚集群体并存储每组的群体流动。然而,这种匿名化需要一个或多个非匿名数据收集步骤。因此,这种用于群体流动度量的系统和/或方法将不是匿名的,因为需要至少在访问对应主体状态的间隔期间从每个个体收集和存储个人数据。这个问题也很重要,足以在立法中得到明确承认,例如在

欧洲议会和理事会关于在电子通信中
尊重私人生活和保护个人数据并废除指导2002/58/ec(关于隐私和电子通信的条例)的规章的提案

的序言中指出:
[0158]

为了显示某个时间段内特定方向上的流量移动,需要标识符来链接个体在特定时间间隔内的位置。如果使用匿名数据,则该标识符将会丢失并且这种移动不能被显示。


[0159]
这些结论显然没有预见到本发明,并且清楚地表明了在维持适当匿名性的同时用传统方法实现所述目标的感知的不可能性。
[0160]
这种非匿名数据与本发明设想的数据收集不兼容,因为在其收集和存储中都缺乏匿名性,使得这种数据类型与匿名跟踪和/或分析个体主体的移动的目标不兼容。
[0161]
原始标识符可能分布不均匀。例如,群体中生物统计学相关表型的局部地理偏置就是这种情况。在这种情况下,所需均匀噪声水平可能高得惊人。用于保证匿名性的改进且适当的噪声水平可能需要变得依赖于标识符本身,例如,向更可能具有很少邻居的标识符添加更多噪声,但是这需要对标识符的基础分布进行估计。这种分布估计在实践中可能非常困难并且还可能遭受威胁匿名性的估计误差。
[0162]
对于这种情况,提出了旨在有效地去除匿名标识符中的任何相关的相关性的可选附加去相关模块。例如,该可选附加去相关模块在将噪声添加到匿名化模块中的所得去相关标识符之前使用加密哈希和/或类似的去相关函数。去相关模块的作用是去除分布中的任何图案和/或任何大规模图案,这将使标识符密度均匀,而匿名性是由匿名化模块中的噪声而不是去相关来提供的。与用于生成组标识符的哈希函数相反,去相关模块本身不需要提供匿名标识符。因此,去相关模块也可以是真正可逆的或可能是可逆的,比如允许数据链接和/或以某种概率重建原始标识符的可逆映射或加盐哈希。去相关方面的进一步描述以及去相关模块中的局部敏感哈希的可能用途遵循以下相关示例中提供的准则。
[0163]
在去相关模块的替代性示例实施例中,去相关函数改为应用于噪声。这意味着例如通过对表现良好的噪声源应用哈希函数来将比如高斯噪声等通常表现良好的噪声源变换为去相关噪声,即具有有效缺乏大规模连续图案的概率分布的去相关噪声。来自这种去相关模块的该去相关噪声然后可以用于同时使标识数据匿名并去相关,例如通过添加去相关噪声并且然后应用模rspan运算,其中,rspan是噪声源的图像范围。在设置噪声的数值分辨率和/或设计所使用的哈希方法时需要小心,使得噪声不是完全均匀分布的,因为需要非均匀分布来创建由本发明使用的必要的标识符相关偏差。
[0164]
作为去相关模块的替代方案,可以使用去相关偏差度量。例如,这可以是不显示可能与物理系统相关的大规模图案的任何偏差度量,例如通过基于比如随机初始化表等函数和/或作为有效随机标识符相关加权的函数和/或仅维持不太可能引起显著相关性的小规模图案的函数,比如模运算。在设计去相关偏差度量时的必要考虑与在设计去相关模块时的必要考虑非常相似并且对于技术人员来说是显而易见的。
[0165]
标识数据的去相关应该在偏差度量的上下文中解释。如果偏差度量可能受标识数据中的现有访问概率图案的影响,例如,影响特定标识符密度度量的标识符平均比群体中的其他标识符更有可能访问主体状态,则标识数据的访问频率可以被认为是(与偏差度量的形状)相关的。因此,可以通过改变偏差度量和/或匿名标识符来打破其相关性从而打破相关性,而每个主体状态和标识符的访问频率可以被认为是测量系统的给定值。例如,由于两个完全随机的函数和/或分布显著相关的概率很低,因此任何随机映射的选择都足以使
其以高概率去相关。
[0166]
简而言之,去相关有效性的理论原因与以下事实有关:源自物理世界的数据和/或用于建模这种物理世界的函数(例如工程中使用的最常见和命名的函数)形成所有可能函数的无穷小和特定子集并且具有相对高的相似概率并显示虚假相关性,尤其是对于大型图案。小规模的物理图案往往至少部分是混沌的并且实际上是随机的。关于这种性质的进一步细节可以在由发明人早期发表的作品中找到(例如

mind and matter:why it all makes sense[思想与物质:为什么这一切都有意义]

)。相比之下,从所有可能的函数/分布中有效地随机选择的函数/分布显示与物理起源的函数和/或其他随机选择的函数的这种相关性的概率要低得多,通常为零或可以忽略不计。雪崩效应在去相关方面给出了不同但类似的观点。例如,bent函数和/或满足严格雪崩标准的函数可能适合作为用于去相关目的的函数,而例如被认为表现特别良好的函数和/或具有低值导数的函数通常不太适合,因为其近似线性与大多数物理系统和模型在某种规模上固有的近似线性相关。加密哈希函数和比如随机表等随机映射都受益于这些性质,但是出于本发明的目的,许多其他函数也拥有和/或近似(例如lsh)相关性质。对于熟悉哈希、密码学和压缩理论的技术人员来说,合适的替代方案应该是显而易见的。
[0167]
注意,在一般意义上使用本文的添加噪声作为任何随机映射的应用不一定依赖于向标识符添加噪声项。例如,也可以使用乘性噪声。从信息论的角度来看,这仍然可以看作是对在数据中编码的信息添加了噪声,而不管这种编码的形式如何。
[0168]
特定哈希和/或噪声掩蔽标识符的选择在主体状态之间可能不同并且还可能取决于其他因素。例如,可以将某些标识符分配给哈希并且将其他标识符分配给基于噪声的掩蔽。噪声可能依赖于标识符和/或依赖于主体状态。
[0169]
在一些情况下,一些可访问的标识数据被认为是标识符并且其他潜在的标识数据被认为是攻击者未知的附加数据。例如,公共场所中的精确位置数据无法用于标识个人,除非攻击者可能具有带有同一时间戳的位置数据。如果这种数据可能对攻击者可用,则使任何附加数据与标识符一起附加地匿名可能是合适的。本发明可以以任何这种组合使用。例如,面部图像可以用作由本发明存储的标识符和匿名标识符。位置数据与匿名标识符一起存储,以便分析出行图案。然后可以单独使该附加位置数据匿名,例如通过将位置和时间量化为足够大的间隔以呈现为匿名的。在住宅区和比如零售场所等公共场所的分辨率可能不同。
[0170]
一般而言,所提出的发明可以应用于标识数据的任何足够的标识部分(即标识本身)并且可以通过单独的方法使附加标识数据匿名。然后可以通过由本发明处理的那些标识符来统计地链接这些主体状态,而可以以不允许这种统计链接的方式使剩余标识数据匿名。
[0171]
根据另一个方面,提供了一种用于匿名跟踪和/或分析个体主体和/或对象(被称为个体)的流动或移动的系统。
[0172]
在该非限制性示例中,系统被配置为使用表示个体的身份的信息作为输入、基于哈希函数来确定多个个体的群体中的每个个体的组标识符。每个组标识符与一组个体相对应,该组个体的身份信息产生相同的组标识符,从而有效地将群体微聚集成至少两个组。
[0173]
噪声掩蔽标识符通过添加具有这样的分布的随机噪声来执行相同的功能,即,使
得每个可能的噪声掩蔽标识符值可由大量标识符实现的分布。
[0174]
该系统进一步被配置为保持跟踪每组访问数据,该访问数据表示属于组的个体对两个或更多个时空位置的访问次数。更一般地,该系统被配置为保持跟踪两个或更多个主体状态的偏差度量。
[0175]
该系统还被配置为基于每个组标识符的访问数据来确定从第一时空位置通至第二时空位置的多个个体的至少一个群体流动度量(对于整个群体)。
[0176]
更一般地,该系统被配置为基于偏差度量来确定从第一主体状态通至第二主体状态的多个个体的至少一个群体流动度量(对于整个群体)。
[0177]
示例性参考图1a和/或图11,该系统可以包括处理电路系统11、110和存储器15、120,其中,存储器15、120包括指令,这些指令在由处理电路系统11、110执行时使该系统匿名跟踪和/或分析个体的流动或移动。
[0178]
根据又另一个方面,所提出的技术提供了一种包括如本文所描述的系统10的监视系统50,如图6中示意性地展示的。
[0179]
图7是展示了用于实现对群体中个体在两个或更多个时空位置之间移动和/或重合的量或数量和/或流量的估计的计算机实施的方法的特定的非限制性示例的示意性流程图。
[0180]
基本上,该方法包括以下步骤:
[0181]
s21:从两个或更多个个体接收标识生物特征数据(其中,标识生物特征数据包括和/或基于生物特征数据);
[0182]
s22:通过一个或多个处理器生成每个个体的与群体流动实际上不相关的组身份(和/或噪声掩蔽标识符);以及
[0183]
s23:存储:组身份(或者更一般地,每个主体状态的偏差度量)以及描述时空位置的数据;和/或每个时空位置和组身份的计数器。
[0184]
举例来说,可以通过应用哈希函数来生成组身份,该哈希函数有效地去除标识数据与位于一个或多个时空位置的趋势之间的任何预先存在的相关性。
[0185]
可选地,噪声掩蔽匿名化包括有效地去除标识符空间中的相关性的去相关步骤。
[0186]
例如,被测量的访问个体的群体可以是来自更大群体的未知样本,其中,该更大群体足够大,使得该更大群体中将被分配给每个组身份和/或噪声掩蔽标识符的个体的预期数量是两个或更多个。
[0187]
访问个体的群体可以例如被认为是来自该更大群体的代表性样本,该更大群体也可以通过从访问群体收集的数据隐式地和/或显式地测量。
[0188]
可选地,组身份的生成可以在每次应用时是部分随机的。
[0189]
举例来说,对于每个个体,标识数据可以包括至少部分地基于个体的生物特征属性的表示个体的身份的信息。这种生物特征信息的非限制性示例可以包括和/或基于以下各项中的至少一项:虹膜图像、面部图像、特征向量、身体图像、指纹和/或步态。
[0190]
图8是展示了用于实现对群体中在两个或更多个时空位置之间重合的个体量或数量进行估计的计算机实施的方法的另一个特定的非限制性示例的示意性流程图。
[0191]
在该特定实施例中,该方法进一步包括以下步骤:
[0192]
s24:使用两个时空位置中的每一个的组身份的计数器来生成两个时空位置之间
的群体流动度量。
[0193]
例如,群体流动的生成可以基于访问计数器的线性变换。
[0194]
可选地,线性变换可以包括描述第一位置中每个组身份的群体流动的向量与描述第二位置中每个组身份的群体流动的向量之间的相关性。
[0195]
作为示例,从与两个向量之间的预期相关性相对应的相关性减去基线。
[0196]
例如,群体中的个体数量可以是每个组身份两个或更多个。
[0197]
可选地,表示每个个体的一个或多个动作或活动的活动数据也可以与对应的组身份和描述时空位置的数据一起存储,使得不仅能够分析和理解时空方面,而且能够分析和理解个体的动作或活动。
[0198]
图9是展示了一个或多个个体从位置a到位置b的移动或流动的示例的示意图。例如,这可能涉及个体主体和/或对象从一个位置移动到另一个位置,并且例如通过相机或其他手段被识别,例如人员通过面部识别、指纹和/或虹膜扫描和/或其他生物特征信息被识别。
[0199]
图10是展示了用户从比如ip位置等一个虚拟位置到另一个虚拟位置的移动或流动的示例的示意图。这可以是个体用户从一个互联网域移动到另一个互联网域,比如从ip位置a移动到ip位置b,并且例如通过面部识别、指纹和/或虹膜扫描和/或其他生物特征信息被识别。
[0200]
举例来说,生物特征信息可以例如通过使用用于通过膝上型计算机、个人计算机、智能电话、平板计算机等提取指纹、面部数据和/或虹膜数据的广为接受的技术来获得。
[0201]
图12是展示了用于基于生物特征数据来生成个体主体和/或对象(被称为个体)在时空位置之间的流动或移动的度量的计算机实施的方法的示例的示意性流程图。
[0202]
基本上,该方法包括以下步骤:
[0203]
s31:配置一个或多个处理器以接收源自个体对两个时空位置中的每一个的访问的匿名且近似独立分布的组身份的计数器,其中,计数器基于生物特征数据;
[0204]
s32:使用所述一个或多个处理器,使用两个时空位置中的每一个的组身份的计数器之间的线性相关性来生成两个时空位置之间的群体流动度量;以及
[0205]
s33:将所述群体流动度量存储到存储器中。
[0206]
为了更好地理解,现在将参考一些基本关键特征然后是一些可选特征的非限制性示例来描述所提出的技术的各个方面。
[0207]
本发明接收能够以高概率唯一地标识个体和/或个体的个人项的一些标识生物特征数据。该标识生物特征数据可以可选地是连续数据,例如生物特征测量结果。该标识生物特征数据也可以是来自一个或多个来源的这种数据的任何组合和/或函数。
[0208]
在优选示例中,本发明包括匿名化模块,该匿名化模块包括(匿名)哈希模块和/或基于噪声的匿名化模块。
[0209]
示例-哈希模块
[0210]
本发明的一些方面涉及哈希模块。在我们看来,哈希模块是能够检索标识数据并生成一些关于个人身份的数据的系统,这些数据足以将个体标识到比整个群体小得多的某个组中,但是不足够小到唯一地标识个体。这有效地将群体划分为具有一个或多个个体的组,即,执行群体的自动在线微聚集。理想情况下,这些组应该(但不一定)独立于正在研究
的群体流动,以便简化测量。换句话说,试图以这种方式划分这些组,即,每个组的流动的期望应该近似相同。具体地,任何一对组的方差都应该近似独立分布。换句话说,希望能够在统计估计中将该组视为群体的有效随机子集。例如,这可以通过应用加密哈希或具有所谓雪崩效应的其他哈希来实现。如果不期望局部敏感性,则合适哈希的特定示例是比如sha-2等加密哈希的比特子集,该比特子集的大小适合表示与希望每组的个体数量相对应的期望组数量。在该示例中,可以使用恒定的比特集合进行填充以达到必要的消息长度。然而,该特定的哈希示例给计算要求带来了一些开销并且还可以设计更适用于该特定目的的哈希模块,因为本文中的应用不需要所有的加密要求。
[0211]
优选地,可能显著地偏置从系统产生的度量的任何相关性(无论是线性的还是另一种类型的)都应该被哈希模块有效地去除。作为示例,随机映射的充分近似(比如基于分组密码的系统、混沌系统或伪随机数生成)可以实现这一目标。在极简主义的极端情况下,如果认为不太可能创建相关身份,则简单的模运算可能就足够了。
[0212]
如果标识符不包含这种相关性,例如,如果这些标识符是随机分配的,则哈希不会受益于去相关,因为任何组分配即使没有该去相关也将是有效随机的。
[0213]
在本发明的一些方面,根据匿名性所需的条件,可以设置组的量,使得来自其数据已经被检索的群体的预期的两个或更多个人员或者来自某个更大群体的两个或更多个人员(该群体实际上是该更大群体的随机样本)预期被分配到每个组。本发明允许在这两种情况下进行高效的无偏置估计以及每组具有大量个体的更极端的匿名哈希方案。
[0214]
表示组身份的哈希密钥可以显式地存储(例如数据库中的数字)或者隐式地存储(例如通过每个哈希密钥具有单独的列表)。
[0215]
换句话说,哈希模块获取群体的一些标识数据并且还从整个群体例如有效地(即,对于本文中的目的而言足够好的近似值)生成随机采样的子组。如本文所描述的哈希模块具有以下几个潜在目的:确保/保证来自群体流动的数据的去相关性(即,使用可能与标识数据不同的、与群体流动实际上不相关的组身份)以及通过微聚集数据来使数据匿名,同时保持关于每个个体的身份的一些有限信息。在本发明的一些实施例中,如下文更详细描述的,哈希模块还可以通过使用局部敏感哈希来保持关于数据本身的有限信息。
[0216]
对于本发明的这些方面,每个组身份收集的统计数据有助于为包括多个这种组的(整个)被研究群体生成群体流动统计数据。本发明的目的本身不是测量组之间的差异,并且具体地如果去相关由于有效地去除了组成员之间的任何潜在相关性而有意地生成了相当无意义的群体细分的话。
[0217]
作为合适的哈希模块的示例,在优选实施例中,基于许多有意义变量中的一个或多个的连续范围(比如年收入、家庭位置、ip范围或身高)划分成组是不合适的标准,因为这可能导致每个组的不同预期群体流动图案,这将需要对要测量的总体群体流动进行估计。另一方面,可以使用例如来自加密哈希的有限数量的比特或从初始分组到足够小的范围内的任何这些(多个)标准的随机映射,以便将这种连续范围的小组的有效随机选择聚集到更大的组中。换句话说,将标识符划分为许多小的连续范围并将组定义为这种连续范围的一些有效随机选择,使得每个连续范围属于单个组。以这种方式,将群体划分为组的集合,这些组与整个群体的随机子集实际上不可区别,因为任何大规模图案都被有效地去除了。替代性地,可以在用户的计算机上保存cookie,该cookie是在一定范围内伪随机生成的数字,
该一定范围足够小以至于几个用户预期都可以得到相同的数字。替代性地,这些连续范围例如也可以用另外定义的连续n维范围来替换和/或非唯一地映射到对于本发明的目的具有类似效果的特定组,即创建合适的局部敏感哈希。
[0218]
随机组分配不会防止哈希方法的应用并且还可以添加有意义的额外匿名性。由于测量结果误差和/或其他因素,生物特征数据通常包含某个噪声水平,这些因素使基于该数据的任何后续组分配成为作为身份的函数的随机映射。也可以有意添加随机元素。例如,系统可以简单地掷骰子并在50%的时间内根据确定性映射将个体分配到组,并且在另外50%的时间内将个体分配到完全随机的组。只要该随机分配的分布是已知的和/或可以估计的,数据就仍然可以在系统中使用。进一步地,除了分组已经提供的匿名性之外,上述简单骰子策略将大致相当于k=2的k匿名性。
[0219]
示例-基于噪声的匿名化
[0220]
本发明的一些方面包括基于噪声的匿名化模块。基于噪声的匿名化模块基于标识数据来生成新的噪声掩蔽标识符。这种模块使用随机映射,其中,由于添加的噪声而不是通过限制存储的信息量,输出是不可逆的。换句话说,即使用于存储信号和噪声的信息总量假设大于该限制,信号也保持在标识限制以下。可以使用任何随机映射,使得将噪声掩蔽标识符链接到特定身份是不可能的。与哈希模块相比,噪声掩蔽匿名化模块产生具有足够信息内容以标识唯一个人的输出。然而,该信息的某一部分是由匿名者添加的纯噪声并且关于个人身份的实际信息低于在个体层面上以高概率链接数据点所需的阈值。尽管在大多数情况下哈希模块是优选的,但是噪声掩蔽标识符可能更自然地与各种噪声标识符相匹配并且在攻击者知道个人已被记录的一些情况下还可以防止特定去匿名化。
[0221]
噪声可以是在本发明的上下文中可以被认为是噪声的任何外部信息源并且不暗示真正的噪声源。例如,可以使用来自一些复杂过程、混沌系统、复杂系统、各种伪随机数、媒体源和其图案不可能可逆的类似源的时间戳或值。从匿名性的角度来看,重要的是该噪声无法轻易地重新创建和/或逆转并且本发明的统计目的另外要求该噪声可以由某种分布来描述并且不引入改变统计数据的显著的不希望的相关性。
[0222]
图13是展示了可以如何通过在一个或多个时间添加噪声来使标识符偏差度量匿名以及这可以如何生成偏置补偿项的示例的示意图。在该示例中,访问计数器分别用于主体状态a和b。这些群体计数器例如在数据收集开始之前被随机初始化。偏置补偿项是通过估计初始化中的虚假相关性导致的从a到b的群体流动来计算的,这些虚假相关性可以在将来从群体流动估计中去除,以便降低估计的方差。为了进一步掩蔽初始化,可以可选地将附加小噪声添加到补偿项中,代价是群体流动的方差稍微增加。
[0223]
图14是展示了噪声掩蔽匿名化的示例。它示出了给定某个标识符的噪声掩蔽标识符的概率密度函数。示出了两个不同标识符的概率密度函数,在该示例中,该概率密度函数近似正态分布在标识符周围。并非所有可能的输入值都与群体和/或存储器中的个体相对应。在来自不同标识符的概率密度函数重叠的情况下,生成该噪声掩蔽标识符的原始身份可能无法确定是已知的。使用特定噪声掩蔽标识符的重新识别变得不太可能,因为为该特定噪声掩蔽标识符提供了来自各种标识符的概率密度函数的更多重叠,例如通过在群体和/或存储器中具有更多标识符。
[0224]
示例-匿名标识符
[0225]
例如,匿名标识符在本文中被认为是组标识符和/或噪声掩蔽标识符。
[0226]
换句话说,本文中的标识符在一般意义上是任何类型的标识数据的特定样本并且不一定是更狭义的概念定义所表明的可枚举的。
[0227]
举例来说,被哈希模块分配到同一组的人员可以被视为哈希组。
[0228]
示例-偏差度量
[0229]
例如,本文中的数据偏差是指与来自生成的分布的期望相比,一些特定数据是如何分布的。偏差度量是描述收集的数据的偏差的一些信息。换句话说,本发明测量实际标识符分布如何不同于预期标识符分布,例如,在所有个体都同样可能访问两个主体状态时的分布。它通常被编码为一个或多个浮点或整数值。偏差度量的目的是稍后在主体状态之间进行比较,以便估计该偏差在两个主体状态之间有多少是共同的。对于技术人员来说,大量不同的偏差度量是显而易见的。实际上,在本发明中可以使用任何偏差度量,尽管一些偏差度量比其他偏差度量保持了更多的关于数据偏差度量的信息并且因此可能提供更好的偏差度量估计。
[0230]
注意,偏差度量并不一定意味着生成的分布是已知的,即已经收集了足够的关于生成的分布的期望的信息,以便从偏差度量计算偏差。然而,如果基础分布后来变得已知,则偏差度量就已经包含了估计数据偏差所必需的信息。也就是说,如果标识符是去相关的,例如使用去相关模块,则所得到的生成分布对于估计将是微不足道的。
[0231]
偏差度量的最基本示例是保持原始访问组身份或噪声掩蔽身份连同任何相关联的附加数据的列表,这提供了匿名性,但是在存储空间方面可能是低效的,因为它们包含冗余信息。但是,在一些情况下,保持这种原始匿名身份允许更好的可选后处理,例如去除离群值,以及为各种目的特别更改偏差度量的更大灵活性。
[0232]
另一个简单偏差度量的示例是访问计数器。这种访问计数器对在每个哈希组的每个主体状态下检测到的身份的数量进行计数。例如,该数量可以是表示在特定主体状态下分配给四个组身份中的每一个的访问身份的数量的具有数字5、10、8和7的向量。
[0233]
更一般地说,偏差度量可以例如由以下各项的卷积上的两个或更多个和和/或积分组成:从匿名标识符空间到标量值的某种映射;以及访问主体状态的匿名标识符的狄拉克(dirac)或克罗内克(kronecker)增量函数之和。换句话说,以两种不同的方式测量标识符分布。在匿名标识符是离散的特定情况下,例如枚举,并且相应映射是i=1:n的dirac增量d(i),这相当于访问计数器。换句话说,偏差度量是匿名访问计数器的概括。换句话说,偏差度量是从可能的匿名标识符集合的某个定义的子集检测到的匿名标识符的数量的两个或更多个计数,其中,计数可以由依赖于匿名标识符的任何函数来加权。换句话说:
[0234]
sum_if(x_i)
[0235]
其中,x_i是访问主体状态的匿名标识符,i是访问主体状态的所有匿名标识符的某个索引并且f(x)是从匿名标识符空间到(不一定是正的)标量值的某个映射。
[0236]
上述总和可以看作是访问子群体的密度估计。由于估计了实际访问标识符的分布,这是一个有限且已知群体而不是适当的未知分布,还使用本文中不太常见但更精确的术语

密度度量

来描述这种量。最简单的密度度量是与标识符之间的同量加权相对应的总访问计数,该总访问计数可以与另一个密度度量一起使用以得到非常简单的偏差度量。在优选实施例中,一百个或更多个密度度量将用作向量值偏差度量。
[0237]
替代性地,偏差度量可以由表示这种密度度量之间一个或多个差异的信息组成。例如,给定两个计数,可以简单地将这两个计数之间的差异存储为偏差度量。
[0238]
换句话说,偏差度量通常是向量值数据,该向量值数据由表示标识符与从某个更大群体中采样的所有标识符的预期分布相比的偏差的信息组成。
[0239]
该信息可以以任何方式编码。尽管该方法在理论上可以在两个密度度量之间只有单个差异的情况下有效,但是最通常优选的是依赖于期望的匿名性水平所允许的尽可能大量的密度度量,以便减小群体的方差。在哈希模块的优选实施例中,根据潜在访问身份的组有多大以及数据集的预期大小来使用10-1000000000个密度度量。从另一个角度来看,达到大致相当于k=5的k匿名化的平均匿名性水平几乎总是期望的并且在大多数情况下建议更严格的k=50或更高。
[0240]
该方法的效用的关键实现是,使用大量的密度度量和/或其他信息丰富的偏差度量,流动度量可以惊人地达到非常低的方差,同时仍然保持个体的匿名性。由于禁止的方差,极少量的密度度量对于所述目的是不切实际的,但是随着在偏差度量中编码的偏差信息(例如所使用的密度度量的数量)的增加,这种缺点消失了。
[0241]
例如,可以使用用于两个或更多个时空位置(也被称为空时位置)的访问计数器。这保持跟踪来自两个或更多个哈希组中的每一个的人员在某一时间(重复出现或唯一的)在某个时空位置(例如:某个网页、特定街道、某家商店等)被检测到的次数。
[0242]
如上文所提及的,比访问计数器更普遍的偏差度量是标识符密度度量的集合,在本文中也被称为密度度量。密度度量根据某种加权来指示数据中的标识符密度。例如,偏差度量可以是可能的标识符空间中的高斯核的集合。具体地,与每个核相关联的密度度量可以包括加权距离的总和,即从核的中心到每个匿名标识符的距离的高斯函数。来自不同高斯核的两个或更多个这种密度度量或者这种密度度量之间的一个或多个比较然后将表示偏差度量。标识符密度度量可以测量标识数据和/或匿名数据的标识符密度。
[0243]
这种密度度量可以在两个点之间相关,就像在本文中所描述的一些特定示例中使用的访问计数器一样,以便估计群体流动。即使密度度量不同也是如此,例如在点a和b中使用不同的密度度量。例如,可以用于访问计数器的相同方法,即,使用蒙特卡罗和/或分析估计根据符合访客的数量来建立最小和最大预期相关性。
[0244]
出于提供匿名性的目的,重要的是,该匿名化为匿名偏差度量有效地在线(或实时和/或接近实时)进行,即在获取标识符与生成和/或更新偏差度量之间持续存在但短暂的延迟。在优选实施例中,哈希在位于传感器系统中的通用计算机或立即接收该值的通用计算机内进行。该值在被处理之前不应该能够通过合理的努力从外部访问。在处理之后应立即删除标识符。然而,在优选实施例中,如果这种扩展类型的在线处理对于合理的技术要求是必要的,并且如果它也不被认为实质上削弱了所提供的主体的匿名性,则数据可以在不同的点被分批和/或以其他方式在某个小的时间间隔内被处理(例如在夜间分批传输)(如果需要的话)。相比之下,离线方法通常在整个数据收集完成之后应用。由于个人数据的存储,这种离线方法无法被认为是匿名的。
[0245]
主体状态和访问
[0246]
组身份、噪声掩蔽身份和其他偏差度量,例如访问计数器和/或与组身份和/或噪声掩蔽身份相关的任何数据可以可选地以任何方式修改,例如通过去除离群值、过滤特定
位置、过滤与已知个体重合的组身份或者通过执行任何数据的进一步微聚集。
[0247]
上述时空位置的空间方面也可以是ip地址、域名、帧的虚拟范围或者描述个人与电子设备状态的一部分之间的连接以及描述个人与电子设备交互的状态的类似方面。主体状态的更广泛定义也涵盖了这些方面。
[0248]
主体状态是对个人的时空位置、健康、行动、经济、行为、身体属性、服装、定位、由分类器分配的类别、直接环境和/或与计算机、网络服务和/或其他服务的交互的状态和/或对个人的其他有意义的描述。换句话说,主体状态是描述个人在他/她自身或在与其他实体的交互关系的某种类别。
[0249]
访问是标识符与主体状态的连接。例如,该访问可以是可标识个人在特定时间在特定区域正在被检测、ip地址正在填写web表单或主体正在接受疾病检测。
[0250]
时空位置是空间和/或时间上的任何范围,不一定是连续的。例如,可以是任何星期五早上某个地铁站的访问次数。计数可以是关于个体数量的任何信息。例如,该信息可以简单地保持布尔(boolean)值,该布尔值保持跟踪至少一个个体是否已经访问了时空位置。在另一个示例中,该布尔值可以保持跟踪与所有组的平均值相比,某个组中有多少附加个体被访问。该布尔值还可以保持跟踪更具体的位置数据,例如具体的地理坐标和时间戳,这些位置数据在稍后的某个时间点被聚集到更大的时空位置中。该特定数据然后被认为还隐式地保持跟踪对更大位置的访问。图4中展示了可能的访问计数器的一个示例。
[0251]
时空位置和时空地点在本文的上下文中通常可以被视为同义词并且可以包括任何定义的范围空间、时间和/或时空。
[0252]
主体状态也可以用模糊逻辑和类似的部分成员定义来定义。这通常将导致部分访问而不是整数值并且通常与本发明兼容。
[0253]
示例-匿名群体流动估计
[0254]
流动测量使用来自偏差度量的数据来测量个体从一个主体状态(a)到另一个主体状态(b)的流动。由于每个哈希组和/或密度度量表示大量个体,因此无法精确地知道某个组或群体中有多少人员存在于a中也存在于b中。相反,本发明利用高阶统计数据来生成噪声测量结果。
[0255]
流动的度量是对以某种方式访问主体状态a和b的人员数量的估计。例如,该度量可以是从状态a转变到状态b的人员数量和/或从a转变到b的人员数量的百分比。例如,该度量还可以是测量访问a、b和第三主体状态c的人员数量(其中,也访问c的人员然后可以被视为用于本发明目的的子群体)。在另一个示例中,该度量可以是访问a和b的人员数量,而不管首先访问哪个主体状态。有许多种类的这种度量可用。独立于主体状态之间的对应身份之间的任何相关性,访问a的人员数量与访问b的人员数量在本文中不被认为是群体流动估计,而是与两个位置相对应的两个群体估计。
[0256]
由于访问个体形成某个假设的更大群体中所有个体的子集的事实,访问主体状态的主体的身份与来自该更大群体中的所有个体的估计访问率相比存在偏差。如果同一个体正在访问状态a和b,则该偏差可以使用对应的偏差度量来测量。由于不一定知道a和b的访客的理论上的基础分布,因此这种度量是复杂的。例如,由于地理区域中的表型,a和b可能显示类似的数据偏差。这种相关性将很难或不可能从重合的访客中分离出来。
[0257]
一些类型的标识符被真实地和/或近似地、随机地且独立地分配给群体中的个体,
例如在随机数被选作伪匿名标识符时。由于除了位置之间的个体重合之外的原因,这种标识符将不会显示a与b之间的数据偏差。换句话说,假设的更大群体的估计分布是已知的。换句话说,然后对每个个体的身份进行有效地独立采样并且分配的分布是已知的。这意味着a和b中标识符的精确预期分布是已知的。由于期望是已知的,因此在不需要收集数据也不会产生偏置的情况下也可以估计与该期望的偏差。此外,标识符分配的独立性还意味着如上文所讨论的特定偏差度量等偏差度量(即线性依赖于每个检测到的身份的加权和与积分)将成为重合个体的数量的可解析导出的映射。
[0258]
例如,如果映射是线性的,则实际上线性依赖于偏差度量的任何标量值都可以用于构建流动估计。对于分别处于主体状态a和b的个体之间的某个最大相关性的特定情况以及对于处于两个主体状态的个体是不同个体的特定情况,例如使用蒙特卡罗方法或分析来估计该线性值也将是很简单的。由于标识符的独立性,使用这两个值之间的线性插值可以容易地构建流动估计。为简单起见,优选实施例使用两种相同类型的偏差度量之间的相关性。
[0259]
注意,群体流动度量根据其形式(例如,比如是否以访客百分比和/或总量表示等问题)可能取决于a和b中的个体的总数量或相对数量,在这种情况下,可能还需要为每个主体状态收集该群体流动度量。
[0260]
任何非线性情况在其设计中都需要更多的分析步法并且可能在计算上更昂贵,但在其他方面很简单并且在功能上是等效的。由于其简单性和效率,优选实施例是线性的。
[0261]
然而,许多类型的标识符甚至不是近似随机分配的,例如家庭地址地理位置数据。例如,这些标识符可以先验地与访问主体状态的频率相关。在这些情况下,本发明对于组标识符可以可选地使用去相关哈希模块,并且对于噪声掩蔽标识符可以可选地使用去相关模块,以便去除标识符分布中存在的任何不希望的相关性并且使标识符彼此近似独立地生成并在功能上相当于随机且独立的分配。一旦这已经完成,就可以在没有关于如上文所描述的初始分布的先验知识的情况下轻松地构建比如线性变换等流动度量。
[0262]
生成群体流动估计的具体示例和优选实施例可以在下文的各种示例中找到。
[0263]
在优选实施例中,通过估计、例如通过将访问计数器中所有组的总访问次数除以组数、每组的预期访问次数来建立基线。这种期望基线还可以包含偏置的模型,例如在直接或间接用于生成匿名标识符的传感器系统和/或类似系统的预期偏置可以根据比如位置、记录条件和记录时间等因素来计算的情况下。另外地,可以考虑群体行为模型来设计基线,例如:每个个体重复访问某个位置的趋势和/或由于某种原因未记录的访客的行为。通过减去该基线,优选实施例达到了每组数据的偏差。举例来说,数据偏差可以指与来自生成的分布的期望相比,一些特定数据是如何分布的。
[0264]
例如,a和b中每组的方差之间的相关性表示联合分布的偏差。发明人的仔细考虑揭示了个体数量的度量可以通过利用这样的事实来实现,即,个体从a到b的组身份和概率可以被有效地认为是独立且相同分布的,这可以通过哈希模块和/或去相关模块的设计来保证。例如,通过依赖于独立性属性的假设并且通过使用:哈希模块分布的随机方面的知识(可以包括任何传感器噪声、传输噪声和其他相关因素的模型),如果适用的话;以及描述每个个体的访问次数分布的行为模型等,可以创建联合分布的基线偏差(例如皮尔逊相关性系数等于0),如果从随机角度来看,访问a和b的两个群体是独立生成的,则可以预期该联合
分布。还可以使用类似的行为模型和/或哈希模块中的随机分布的知识,在两个群体由完全相同的个体组成的情况下估计联合分布的偏差(例如皮尔逊相关性系数等于1)。例如,可以基于传感器噪声模型来调整用于完全重合的群体的这种偏差,其中,传感器噪声模型可以取决于比如传感器噪声模型、位置、组身份、标识符噪声和/或哈希过程中的随机性的知识等其他因素。在具有同质组的简单示例中,与对100%准确的哈希模块的估计相比,包括对每个个体具有50%机会进行一致的组分配(用其他方式在所有组之间进行随机分配)的哈希模块可以使对同一偏差的群体估计加倍。
[0265]
然后可以通过例如基于通过比较偏差度量而测量的实际偏差在两个这种极端之间执行线性插值来生成个体数量的统计度量。注意,这些步骤仅是示例,但独立性假设将导致群体流动度量可表示为线性变换,如在本文所描述的某个方面中所指示的线性变换。技术人员可以从本文中的该示例和其他示例和描述得到各种特定实施例和用于设计这种特定实施例的方式。
[0266]
在某些情况下,标识符从一开始就已经是去相关的。例如,这可能是通过具有随机唯一标识符的生物特征模板分配的唯一标识符的情况,其中,唯一标识符是为每个生物特征模板生成的真正随机或近似随机数。
[0267]
在没有通过哈希模块的固有设计使去相关假设成为可能的情况下以及在通过去相关模块利用噪声掩蔽标识符的情况下,生成这种度量的复杂性在许多情况下是令人望而却步的。注意,这种简化不仅简化了实施例的精确设计过程,而且由于所需硬件架构中处理操作数量的减少和/或简化,还将导致更便宜、更快和/或更节能的方法和系统。
[0268]
该示例中的组不一定需要先验地具有相同的分布(例如具有相同的估计组大小)。对于不同的预期组大小,群体流动估计将直接影响每组计数器的估计值和(归一化)相关性。群体流动度量的方差的任何相关估计可能会变得更加复杂,例如,如果组差异很大,则相关性分布的任何高斯近似都可能无效。
[0269]
同样,密度度量和/或其他偏差度量可能以多种方式不同。
[0270]
例如,还可以定义更复杂的主体状态,以便计算精确的群体流动估计。比如组身份等标识符偏差度量例如可以与如上述主体状态(即具有

原始

主体状态)和访问顺序(即序数)一起存储,这然后允许计算从主体的每次特定访问之前和/或之后的原始主体状态到原始状态的群体流动。从本发明的角度来看,这可以被视为将许多单独的新主体状态(即每个序数和原始主体状态一个主体状态)聚集成更大的主体状态(即特定访问之前和之后的状态)以及将群体流动估计聚集成更大的群体流动(即在状态b中的特定访问x之前从所有主体状态进行的群体流动,对状态b中的所有记录的访问x求和)。这种更复杂的计算允许以较低方差计算从a到b的群体流动,但是更大数量的主体状态导致每个主体状态中的匿名身份数量较少,这可能会削弱本发明提供的匿名性。
[0271]
示例-局部敏感哈希
[0272]
匿名标识符中的相关性通常可以通过去相关来避免,但并不总是如此。通常无法避免的特殊情况是某些噪声连续标识符。例如,可以使用局部敏感哈希(lsh)来对生物特征数据的连续测量结果进行哈希,这允许包含传感器噪声的连续测量结果用于目的的微聚集。这种哈希函数可以近似地和/或有效地(但不是完全地)去相关。对特定lsh的任何选择都需要在其去相关性质与局部保持性质之间取得平衡。即使这种哈希在很大程度上使数据
去相关,它仍然可能在哈希分布中保留一些剩余的小偏置,这是由于生物特征测量结果与访问某个位置的先验趋势之间的任何相关性导致的(如果这种相关性完全存在于原始连续分布中)。下文将进一步阐述的基线中的项(

err

)然后可以用作对这种剩余相关性的补偿。注意,并不严格使用比如在这种设置中来自雪崩效应的去相关等去相关,而是假设由局部敏感性产生的小规模相关性对所得统计数据的影响很小(换句话说,相关性被有效地去除)。具体地,数据与访问某个位置的先验趋势之间的任何显著相关性很可能是大规模图案。基于lsh的哈希模块不限于连续数据,也可以用于其他数据,例如整数值。
[0273]
作为lsh的特定示例,可以通过将连续标识符值的空间分成30000个较小的区域来设计局部敏感哈希。然后可以使用加密哈希、随机表和/或其他方法来有效地将30个区域随机分配给1000个组标识符中的每一个。这意味着从个体接收的两个有效独立采样的噪声连续标识符有很大概率被分配到同一组。同时,由于每个组由特征空间的30个独立采样的区域组成,因此两个不同的组之间的差异可能可以忽略不计。如果区域比感兴趣的相关性图案小得多,则去相关通常是有效的。对于许多表现良好的连续分布,可以同时实现抗噪性(即群体流动估计的方差对比如标识符/传感器噪声等噪声的存在的稳健性)和组的有效去相关。由于个体可能仅由于标识数据中的噪声而被分配到不同的区域,因此在组身份分配中补偿对所得随机性的估计可能是有益的。
[0274]
作为上述关于lsh的概念的示例,身高超过120cm的人员比身高低于120cm的人员进入玩具店的可能性小得多,而身高为119.5-120cm的人员和身高为120.0-120.5cm的人员之间的对应先验差异可能是可以忽略不计的并且因此是近似不相关的。
[0275]
注意,去相关模块也可以使用如上文所描述的lsh,以便产生实际上不具有上文所描述的类型的相关性的局部保持标识值。与匿名模块相比,不同之处在于可能的去相关标识符值的数量足够大以从值唯一地标识个体。例如,去相关哈希的冲突概率可能很低。可能存在不能正确标识个人的某个所得概率,但不足以被认为是匿名的(即去相关模块是去相关的但不匿名)。然后随机性成为lsh的必要附加匿名化步骤,以便保护个人身份。
[0276]
可以注意到,对于大量样本和大量可能哈希,两个独立群体的相关性近似正态分布。如果期望的话,这使得呈现所生成的度量的置信度间隔也变得容易。
[0277]
示例-行为模型
[0278]
群体流动可以可选地通过行为模型进行修改,以便得到衍生统计数据,比如如果可以在每个位置重复访问,则可以得到唯一个体的流动。例如,这种行为模型可以估计每个个体的预期重访次数。这种行为模型也可以例如在估计最大化过程中迭代地与群体流动一起被估计,其中,群体流动和行为模型被重复更新以提高观察到的标识符分布的联合概率。
[0279]
示例实施方式
[0280]
在示例优选实施例中,示例系统中的服务器将哈希模块应用于接收到的标识符并存储1与1000之间的整数,由于雪崩效应,该整数实际上是随机的。假设a和b处的个体数量分别为10000并且假设个体每天仅向一个方向移动一次并且a和b处的对应群体之间没有其他相关性,则两个点的预期平均值为每组10000/1000=10个个体。可以将测得的每组个体数量分别编码在整数值向量n_a和n_b中。现在可以将单位长度相对方差向量v_a和v_b计算为v_a=(n_a-10)/norm(n_a-10)等(其中,函数norm(x)是向量的范数并且从向量中减去标量意味着从每个分量中去除标量值)。假设每个经过a的个体在一天内也经过b,则得到完美
的相关性,e[v_a*v_b]=1(其中,*是点积(如果在向量之间使用)并且e[]是期望)。相反,假设a和b中的群体总是由不同的个体组成,相反可以将基线估计为e[v_a*v_b]=0,这里使用由于使用哈希模块而变得可行的不相关假设。现在假设b处的个体数量c3由以下两组个体组成:来自a的c1(具有相对方差向量v_a1)和不来自a的c2(具有相对方差向量v_a2)。在这种情况下,预期相关性变为e[c3*v_b*v_a1]=e[(c1*v_a1 c2*va2)*v_a1]=c1。这意味着可以测量从a到b的预期个体数量为nab=v_b*v_a1*10000。假设在该示例中测量了v_b与v_a之间的标量积为0.45,则得到了来自a的4500个个体或b中个体的45%的测量结果。换句话说,使用严格匿名的微聚集数据得到了无偏置测量结果,该严格匿名的微聚集数据可以通过使用去相关哈希模块来实施为线性变换。在示例中由哈希模块生成的数据在不存储个人数据的情况下可以被认为是匿名的并且可以上传到任何数据库。本文中所描述的计算然后可以优选地通过使用lambda函数或用于执行线性变换所需的低成本计算的其他这种合适的计算选项在云服务器/数据库上执行。
[0281]
作为生成估计的一部分,可以以任何方式对计数器和/或相关性进行归一化或重新缩放。各种计算应该在一般意义上解释并且可以用操作和/或特定子例程的顺序中的大量可能变型中的任何一种来执行或近似,这些子例程隐式地有效地执行输入数据与输出数据之间的同一映射,如在本文中以其最狭义的意义提及的计算。这种变型对于技术人员来说是显而易见的和/或自动设计的,例如通过编译器和/或各种其他系统和方法。在哈希函数稍微不完善的情况下,可以通过假设e[v_a2*v_b]=err来部分补偿上述假设中的所得误差,其中,err是数据中可以估计的某个相关性,例如根据经验通过比较来自群体的两个不同的独立取样(即测量彼此之间没有相关性的两个点处的流量)。然后期望遵循以下等式:c1=e[(c1*v_a1 c2*va2)*v_b]-err。该err项可以例如用作基线或基线的一部分。
[0282]
注意,当a中的人员数量多于b中的人员数量时,这个简单的情况会稍微复杂一些。即使b中的所有人员都来自a,也会预期在组分布中的不太理想的对准。这个最大预期标量积可以很容易地从对a和b的总访问次数中估计出来。在这些情况下,用于得到估计的线性变换分别成为a和b中总访问次数的函数。
[0283]
如果使用噪声掩蔽标识符,则可以简单地将标识符空间划分为多个区域并计算每个区域的密度估计。可以对这些密度度量执行类似于上述访问计数器的计算。
[0284]
示例-匿名偏差度量
[0285]
使用任何偏差度量可能会出现的问题是,主体状态最初是通过访问弱填充的,并且如果标识符是已知的,则攻击者就可能将身份与大量数据点进行概率链接。
[0286]
例如,访问计数器可能具有对主体状态a进行单次访问的组,那么可以合理地假设个体是数据集中该组中唯一注册的个体,或者更具体地,可以合理地假设他/她是a中唯一的个体。
[0287]
替代性地,例如从给定位置(例如已知的家庭地址)中稀疏填充的数据中推断出组标识符可能是合理的。然后可以对照工作地址进行检查。在这种情况下,有可能推断出他/她确实以高概率出现在位置b处。可以通过仅存储位置a中的偏差度量并在线生成群体估计但不存储来自b的偏差度量来应对这种特定情况,即使用来自a的偏差度量在每次访问b时进行更新。然而,如果还需要计算从b到a的群体流动估计,则该方法将是无效的。
[0288]
针对这些弱填充状态的解决方案以及其自身的潜在匿名化解决方案是使用匿名
偏差度量。
[0289]
匿名偏差度量通过向存储的偏差度量添加一定程度的噪声来进行。例如,这可以在开始数据收集之前完成,也可以在收集期间的任何时刻完成。该噪声可能会使群体流动估计产生偏置。可以通过基于噪声的估计来计算所得偏置以补偿该偏置。更成问题的是,这也使群体流动估计的方差增加。
[0290]
可以设计可选的改进机制。在该机制中,还生成从所使用的特定噪声样本生成的偏置和/或适用于基于特定噪声样本生成这种偏置的其他信息。例如,可以生成每个组标识符的随机数的

虚拟

访问并准备将该随机数添加到访问计数器中。通过a和b中所有这种虚拟访问的虚假相关性估计的从a到b的总群体流动以及每个位置的总虚拟访问次数也被存储为偏置项。由于来自实际生成的虚拟访问的相关性在其生成的时刻是精确已知的,因此也可以通过偏置项精确地计算和去除该相关性。这种方法显著地减小了数据的方差,尽管由实际访问与虚拟访问之间的虚假相关性引起的一些交叉项可能仍然是方差的贡献者。代替直接存储偏置项,可以替代性地存储生成这种偏置项所需的任何信息。如果存储了太多关于噪声的信息,则数据可能会被去匿名化。然而,必要的偏置项是单个值,而噪声通常是向量值,因此在不需要存储关于噪声的足够信息来对数据进行去匿名化的情况下有许多可能的方式来存储足够的数据。
[0291]
在向量v_a和v_b中编码的访问计数器的特定说明性示例中,有:
[0292]
v_a=f a n_a
[0293]
v_b=f b n_b
[0294]
其中,a和b分别是对主体状态a和b唯一的访问,并且f是普通群体。n_a和n_b是噪声项。
[0295]
在该示例中,群体流动的各种度量与以下值相关:
[0296]
e[v_a

*v_b]=e[f

*f] 2e[(a b)

*f] 2e[a

*b]-2e[(a f)

*n_b] 2e[n_a

*(b f)]-n_a

*n_b

[0297]
其中,*是点积并且

是向量的转置。
[0298]
注意,如果噪声水平很大,则直接计算噪声项而不是估计噪声项可能会显著减小方差,并且因此具体地如果噪声的方差大于其他项的方差,例如如果访问计数器被稀疏填充的话。如果在数据之后添加噪声,则也可以精确计算比如a

*n_a等混合噪声/数据项,或者如果在数据收集期间的某个点添加噪声,则可以部分计算和部分估计这些混合噪声/数据项。
[0299]
作为最终的安全措施,可以将少量噪声添加到从虚拟访问生成的补偿偏置项中。通常非常小的随机数(比如0或1之间)足以掩蔽对偏差度量的任何个体贡献,即使在该个体贡献可以与偏差度量隔离的例外情况下也是如此。当使用大量主体状态时,针对偏置项的这种噪声可能会防止偏差度量噪声的重建。可选地,噪声足够高,以至于不能以高于0.5的概率推断出任何身份的精确访问次数。例如,如果噪声是基于每个组标识符的随机整数访问次数来生成的,则每个组标识符的任何这种特定访问次数的概率应该理想地为0.5或更小。
[0300]
实际的存储器存储限制通常会限制可以使用的噪声范围。然而,如果用于生成小值的概率较高并且添加较大噪声的概率越来越小,则这更多是理论上的问题。这缺乏任何
有效的最大值,除非概率可以忽略不计。例如,可以使用随噪声大小呈指数衰减的概率密度函数。这种噪声优选具有期望值0,以便避免随噪声的多次添加而达到高值。换句话说,
[0301]
p(x)=k1*exp(-k2 x)-k3
[0302]
对于一些常数k1、k2和k3并且x大于或等于0。
[0303]
在计算群体流动百分比和总访问次数时,可以使用存储的每个主体状态的虚拟访问次数来去除这种情况。
[0304]
上述添加一般意义上是基于偏差度量和噪声来生成新的偏差度量,但实际的添加是优选的,因为其易于隔离为用于以后进行精确校正的偏置项。
[0305]
通过添加噪声而呈现匿名的偏差度量可以被认为在不使用匿名化模块的情况下足以提供匿名性。即使在数据收集之前仅将噪声用作初始化一次也是如此。弱点是如果可以在两个时间点访问匿名数据,则可以轻松提取这些时刻之间任何特定个体的访问次数。
[0306]
另一个替代方案是在每次访问后添加这种噪声。因此所得方法或多或少相当于噪声掩蔽匿名化模块。注意,上文所描述的使用噪声的瞬时知识来生成群体流动估计中的精确校正偏置的方法也可以应用于噪声掩蔽匿名化模块和/或哈希模块。
[0307]
在比如存储精确的连续标识符等连续偏差度量的情况下,也可以使用该方法。偏差度量中的这种噪声可以例如基于对于个体访问来说不可区分的足够量的虚拟访问来生成。
[0308]
对于大多数应用而言,优选实施例是具有带有从特定噪声样本生成的存储的偏置校正项的初始匿名噪声偏差度量结合由哈希模块(例如组标识符计数器)生成的偏差度量的方法的组合。如果群体流动估计的准确性比匿名性更重要,则仅依赖于标识偏差度量的随机初始化可能更适合于减小方差。
[0309]
所有基于噪声的方法的缺点是,真正的噪声源可能很少并且可以反转许多伪随机噪声源,这将显著简化对匿名化的攻击。
[0310]
在机械层面上,这种测得的匿名偏差是由匿名化模块生成的,通常是部分由接收到的标识符并且部分由已经存储在存储器中的标识符偏差度量在线生成的。噪声可以由匿名化模块和/或向存储器添加噪声的单独机构来添加。如果噪声水平足够高,则部分地基于这种噪声标识符偏差度量生成的每个新的标识符偏差度量可以被呈现为匿名的。
[0311]
在下文中,将概述非穷尽数量的非限制性示例。
[0312]
示例-基于生物特征数据来匿名跟踪和/或分析访客在实体或在线零售环境中的流动。
[0313]
举例来说,提供了一种用于匿名跟踪和/或分析访客在实体或在线零售店的流动的系统以及对应的方法和计算机程序。
[0314]
该系统被配置为使用表示访客的身份的信息作为输入,基于哈希函数来确定多个访客的集合或群体中的每个零售店访客的组标识符,
[0315]
其中,每个组标识符与一组访客相对应,该组访客的身份信息产生相同的组标识符,从而有效地将访客的集合或群体微聚集成至少两个组。
[0316]
该系统被配置为保持跟踪每组的访问数据,该访问数据表示属于该组的访客对两个或更多个时空位置的访问次数,并且该系统还被配置为基于每个组标识符的访问数据来确定从第一时空位置通至第二时空位置的表示零售店访客数量的至少一个流动度量。
[0317]
还提供了一种用于实现对访客的集合或群体中的零售店访客在两个或更多个时空位置之间的流动或移动的度量的估计的方法、系统和对应的计算机程序。
[0318]
在示例中,该方法包括以下步骤:
[0319]-从两个或更多个零售店访客接收标识生物特征数据,其中,标识数据包括和/或基于生物特征数据;
[0320]-在线并且通过一个或多个处理器为每个访客生成与群体流动实际上不相关的组身份(例如,基于对应的标识生物特征数据);以及
[0321]-存储:每个访客的组身份以及描述时空位置的数据;和/或每个时空位置和组身份的计数器。
[0322]
更一般地,该方法包括以下步骤:
[0323]-从两个或更多个访客接收标识数据,其中,标识数据包括和/或基于生物特征数据;
[0324]-在线并且通过一个或多个处理器生成每个访客的匿名标识符;以及
[0325]-存储:每个访客的匿名标识符以及表示主体状态的数据;和/或这种匿名标识符的偏差度量。
[0326]
进一步地,提供了一种用于生成零售店访客在时空位置之间的流动或移动的度量的方法、系统和对应的计算机程序。
[0327]
在该示例中,该方法包括以下步骤:
[0328]-配置一个或多个处理器以接收源自零售店访客对两个时空位置中的每一个的访问的匿名且近似独立分布的组身份的计数器,该计数器基于生物特征数据;
[0329]-使用所述一个或多个处理器,使用两个时空位置中的每一个的组身份的计数器之间的线性相关性来生成两个时空位置之间的群体流动度量;
[0330]-将所述群体流动度量存储到存储器中。
[0331]
更一般地,该方法包括以下步骤:
[0332]-配置一个或多个处理器以接收根据基于生物统计学的标识符而生成的匿名标识符偏差度量,这些基于生物统计学的标识符来自访客对两个时空位置或主体状态中的每一个的访问和/或访客在两个时空位置或主体状态中的每一个中的出现,其中,每个标识符表示个体访客的身份并且包括和/或基于生物特征数据;
[0333]-使用所述一个或多个处理器,通过将这些时空位置或主体状态之间的这些匿名标识符偏差度量进行比较来生成两个时空位置或主体状态之间的群体流动度量;
[0334]-将所述群体流动度量存储到存储器中。
[0335]
如先前所描述的附加可选方面也可以结合到该技术解决方案中。
[0336]
类似的系统和/或方法也可以用于分析例如智能城市、公共事件、公共交通、来自安全监控、建筑物、机场等中的移动或流动的目的。例如,可以使用安全相机和/或专门安装的相机来研究人员的移动图案。这种相机例如还可以使用红外、立体视觉和其他类似技术来改进生物特征度量和/或更精确地定位个体。
[0337]
在另一个示例中,在零售环境中使用相机来检索包含面部图像数据的图像。使用面部检测器神经网络来标识任何面部位置。从图像中提取面部并且应用基于神经网络的哈希模块来创建1-1000整数范围内的每个面部的组标识符。将组标识符与匿名时间戳和位置
(例如,商店2中的区域3)一起存储。可选地,将比如活动等附加数据与位置一起存储,这不仅允许位置(和时间)的统计数据,还允许产生由客户采取的动作系列或其他类似事件和/或情况的统计数据。不同位置和/或时间的组计数器的归一化向量之间的相关性可以用于测量访客如何在商店之间或商店内移动、在各种时间跨度内有多少客户返回商店以及暴露于某些视觉消息如何影响购买倾向(例如,通过使用比如在收银机附近的相机上看到的代理来估计该购买倾向)。可选地,从数字营销活动的观众在线收集的面部图像(例如从社交媒体简档检索的图像)可以被转换成匿名组标识符并且与商店中的后续访问和/或动作相关联,以便匿名地测量数字营销活动的效率。
[0338]
注意,本文的生物特征数据是指在一般意义上理论上可以用于以高概率标识人员的数据,这是具体地不同于某些法律定义的定义,在这些法律定义中,图像数据等仅在实际上用于或旨在用于标识目的时才被认为是生物特征数据。例如,面部图像即使不旨在用于标识也在本文中被认为是生物特征数据。
[0339]
例如,类似的系统可以用于跟踪智能城市、机场、安全和/或公共交通环境中的人员。
[0340]
在另一个更复杂的示例中,按月使用可穿戴设备来自动收集关于血压的数据。血压被划分为可枚举的间隔并且使用移动应用程序来报告自我报告的饮食成分并将其分类为多个类别。血液水平和饮食的组合用作主体状态。当自我报告时,主体拍摄照片并且面部识别神经网络用于产生标识面部识别特征向量。使用由lsh组成的去相关模块对特征向量进行哈希,该lsh枚举大于群体大小的多个地点,以便以高概率产生重新识别的去相关哈希。然后使用匿名化模块使不同意使用个人数据的那些主体的标识符匿名。匿名化模块然后将从整数值的近似高斯分布中提取的整数添加到该枚举中,如果数大于最大群体,则应用模运算,即生成噪声掩蔽标识符的类型。选择高斯分布,使得每个原始整数的分布是重叠的并且使用噪声掩蔽标识符来进行标识是不可能的。噪声掩蔽标识符与主体状态以及对用于拍摄照片的相机类型和分辨率的描述一起存储。对每个噪声掩蔽标识符和主体状态的个体数量进行计数的向量用作偏差度量。然后使用在特征空间中均匀分布的随机生成的特征向量来估计两个状态之间的取决于状态是具有独立的群体还是重合的群体的最大和最小相关性,这些特征向量被供应到依赖于去相关模块、匿名化模块、同意状态的蒙特卡罗估计以及依赖于各种相机类型和分辨率的特征向量噪声的相机相关模型。换句话说,蒙特卡罗估计用于产生线性变换的参数,该线性变换在应用于实际标识符时生成群体流动估计。对于那些没有同意的主体,通过创建饮食和血压的每种组合中的主体如何在接下来的一个月中流向各种血压状态的模型,这些流动估计然后用于匿名地研究饮食对血压发展的影响,其中,饮食不用于区分这种第二状态中的状态。
[0341]
也可以将整个群体划分为感兴趣的子群体。例如,在应用哈希之前,可以将患者划分为子群体,例如男性/女性、年龄、地区等。出于本文中的目的,每个子群体然后被认为是正在研究的单独群体,即使同一哈希函数可能在几个子群体之间共享。该信息可以存储为单独的计数器,或者附加信息可以与组标识符一起显式地存储。
[0342]
在这些示例中的每一个中,同一个体的多次访问与来自不同个体的多次访问将根本不可区分。因此,如果期望唯一个体的精确数量,则作为示例,可以将行为模型与所生成的度量相结合。例如,可能会看到针对同一位置在一些不同时间之间的时间上的相关性并
测量每个访客的平均重复访问次数。例如,如在更一般的描述中所指示的,这种行为模型然后可以用于通过将总访问次数除以重复访问次数来补偿广告收入模型并且因此生成唯一访客数量的度量。许多其他类型的行为模型也可以使用本文所描述的一般方法来拟合到数据中并且复杂的行为模型可以由几个这种子模型的组合产生。
[0343]
用于得出唯一访客的行为模型的特定示例可以用于补偿更有可能在短时间间隔内的重复访问。在这些情况下,在某个时间间隔内来自同一组的访问可能被补偿或过滤。例如,根据这些访问作为两个单独身份的概率的某种近似,在5分钟内对同一位置的两次访问可能被认为是单次访问或某个分数(比如访问的0.01)。
[0344]
也可以将整个群体划分为子群体。例如,在应用哈希之前,可以将访客划分为子群体,例如男性/女性、年龄、地区等。每个子群体然后被认为是正在研究的单独群体,即使同一哈希函数可能在几个子群体之间共享。该信息可以存储为单独的计数器,或者附加信息可以与组身份一起显式地存储。
[0345]
上述这些示例并没有穷尽所有的可能性。
[0346]
示例-实施方式细节
[0347]
应当理解,上述方法和设备可以以各种方式组合和重新布置,并且这些方法可以由一个或多个适当编程或配置的数字信号处理器和其他已知电子电路(例如,互连以执行特定功能的离散逻辑门,或专用集成电路)执行。
[0348]
根据可以由例如可编程计算机系统的元件执行的动作序列来描述本发明的许多方面。
[0349]
上述步骤、功能、过程和/或框可以使用任何常规技术在硬件中实施,比如离散电路或集成电路技术,包括通用电子电路系统和专用电路系统两者。
[0350]
替代性地,上述步骤、功能、过程和/或框中的至少一些可以在软件中实施,以便由比如微处理器、数字信号处理器(dsp)等适当的计算机或处理设备和/或比如现场可编程门阵列(fpga)设备和可编程逻辑控制器(plc)设备等任何适当的可编程逻辑设备来执行。
[0351]
还应当理解,可以重新使用实施本发明的任何设备的一般处理能力。也可以重新使用现有的软件,例如通过对现有软件进行重新编程,或者通过添加新的软件组件。
[0352]
也可以提供基于硬件和软件的组合的解决方案。实际的硬件-软件分区可以由系统设计者基于包括处理速度、实施成本和其他要求的许多因素来决定。
[0353]
图11是展示了根据实施例的计算机实施方式100的示例的示意图。在该特定示例中,本文所描述的步骤、功能、过程、模块和/或块中的至少一些在计算机程序125、135中实施,该计算机程序被加载到存储器120中以供包括一个或多个处理器110的处理电路系统执行。(多个)处理器110和存储器120彼此互连以实现正常的软件执行。可选的输入/输出设备140也可以互连到(多个)处理器110和/或存储器120,以实现比如(多个)输入参数和/或得出的(多个)输出参数等相关数据的输入和/或输出。
[0354]
术语

处理器

应当在一般意义上解释为能够执行程序代码或计算机程序指令以便执行特定处理、确定或计算任务的任何系统或设备。
[0355]
包括一个或多个处理器110的处理电路系统因此被配置为在执行计算机程序125时执行比如本文所描述的那些明确定义的处理任务。
[0356]
具体地,所提出的技术提供了一种包括指令的计算机程序,这些指令在由至少一
个处理器执行时使该至少一个处理器执行本文所描述的计算机实施的方法。
[0357]
处理电路系统不必专用于仅执行上述步骤、功能、过程和/或框,而是还可以执行其他任务。
[0358]
此外,可以另外认为本发明完全体现在任何形式的计算机可读存储介质中,该计算机可读存储介质中存储有适当的指令集,以供指令执行系统、装置或设备(比如基于计算机的系统、包含处理器的系统或者可以从介质中获取指令并执行指令的其他系统)使用或与其结合使用。
[0359]
该软件可以被实现为计算机程序产品,其通常承载在例如cd、dvd、usb存储器、硬盘驱动器或者任何其他常规存储设备的非暂态计算机可读介质上。可以因此将软件加载到计算机或等效处理系统的操作存储器中,以便由处理器执行。计算机/处理器不必专用于仅执行上述步骤、功能、过程和/或框,而是还可以执行其他软件任务。
[0360]
当由一个或多个处理器执行时,本文提出的一个或多个流程图可以被视为一个或多个计算机流程图。对应的装置可以被定义为一组功能模块,其中,由处理器执行的每个步骤与功能模块相对应。在这种情况下,功能模块被实施为在处理器上运行的计算机程序。
[0361]
可以因此将驻留在存储器中的计算机程序组织为适当的功能模块,这些适当的功能模块被配置为在由处理器执行时执行本文所述的步骤和/或任务的至少一部分。
[0362]
替代性地,可以主要通过硬件模块或者替代性地通过硬件在相关模块之间进行适当的互连来实现(多个)模块。具体示例包括一个或多个适当配置的数字信号处理器和互连以执行特定功能的其他已知的电子电路(例如离散逻辑门)和/或如先前所提及的专用集成电路(asic)。可用硬件的其他示例包括输入/输出(i/o)电路系统和/或用于接收和/或发送信号的电路系统。软件与硬件的范围纯粹是实施方式选择。
[0363]
提供计算服务(硬件和/或软件)变得越来越普遍,其中,资源作为服务通过网络传递到远程位置。举例来说,这意味着可以将本文所述的功能分布或重新定位到一个或多个单独的物理节点或服务器。该功能可以被重新定位或分布到可以定位在单独的(多个)物理节点(即,所谓的云)中的一个或多个联合作用的物理和/或虚拟机。有时也将其称为云计算,这是用于使得普遍存在的按需网络能够访问比如网络、服务器、存储装置、应用程序以及常规或定制服务等可配置的计算资源池的模型。
[0364]
上述实施例应被理解为本发明的几个说明性实施例。本领域技术人员将理解,在不脱离本发明范围的情况下,可以对实施例进行各种修改、组合和改变。具体地,在技术上可能的情况下,可以将不同实施例中的不同部分解决方案以其他配置进行组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献