技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于多维度行为和改进谱聚类算法的城市功能区识别方法 > 正文

基于多维度行为和改进谱聚类算法的城市功能区识别方法

国知局
2024-07-31 23:15:48

本发明属于交通地理信息系统，更具体地说，涉及一种基于多维度行为和改进谱聚类算法的城市功能区识别方法。

背景技术：

1、不同功能的城市区域(也称为功能性土地利用)，可以满足人们对工作、学习、娱乐等社会活动的不同需求。城市区域的功能会随着人们广泛多样的行为而发生变化，造成区域的实际功能可能与最初的城市规划有所不同。城市功能区的划定对于理解城市的真实空间配置和识别人类行为与城市环境之间相互作用所产生的空间需求至关重要。

2、目前由于信息技术的进步，各类大数据已经应用于城市功能区的识别方向。如遥感数据、poi(point of interest,poi)数据、居民行为数据等。传统上，从遥感影像中提取的地表物理特征已被广泛用于识别城市功能区。遥感影像是分析城市区域的有效数据源，特别是在利用影像中地物的光谱、形状和纹理信息提取城市土地覆盖的研究中。然而，城市区域的功能受到人类行为的强烈影响，无法从遥感图像中充分提取人类行为。为了克服这一局限，相关工作利用人类行为数据(如poi、社交媒体数据和居民出行数据)来识别城市功能区。poi可以传递静态的设施信息，反映城市区域的社会经济特征，而这些是遥感影像数据无法直接获得的。现有技术中，一种通过结合poi数据和简化的place2vec模型来检测功能区的方法，poi数据可以反映产业和公共机构的空间分布，但不能直接描述产业的空间规模和区域的动态信息。人类活动数据(如居民出行数据)的发展，为城市功能区的识别提供了机会。各区域居民的日常行为可以很容易地被人类行为数据捕捉到，并用于指示城市区域的社会功能。几位研究人员从社交媒体或手机数据中提取区域内居民流量的时间分布特征，随后应用聚类算法来描绘不同类型的功能区。然而，对于一些复杂和异质的城市地区，这些经典方法并不能提供足够的准确性来识别它们。一些研究采用主题建模方法，完成从直接包含在数据中的显式低级特征到通过分析推导出包含更多潜在知识的高级语义特征的抽象。

3、单一数据源在为研究人员提供全面参考方面存在挑战，但利用多源数据识别城市功能区增强了语义信息，并利用了不同数据集固有的优势。poi数据常常与人类行为数据相结合来识别城市功能区。人类行为数据可以真实地反映人们如何利用不同的区域。研究者已经开始从出行数据中提取居民的流动模式来识别城市功能区。由于票价、出行时间和准点的不同，不同的交通方式服务于不同的人群。多源交通数据的组合可以从多个维度更全面地总结城市区域内人们的行为，反映城市内不同功能区的空间分布。同时，考虑到不同运输模式的不同覆盖范围，解决与某些模式相关的稀疏特征的挑战变得势在必行，因为这些稀疏特征不可避免地会降低聚类性能。为此，提出了一种测量不同交通分析区之间相似性的方法。接下来，利用合适的聚类算法获得城市功能区。

4、因此，亟需一种新的基于多维度行为和改进谱聚类算法的城市功能区识别方法。

技术实现思路

1、因此，本发明提出的基于多维度行为和改进谱聚类算法的城市功能区识别方法有助于提取城市区域内不同人群的行为特征(即活动和出行行为)。这些异构数据集的协同融合使相互补充的信息能够用于识别城市功能区，为现有功能区识别提供一种新的视角，并提高不同类别城市功能区的识别准确性。

2、为了解决上述技术问题至少之一，根据本发明的一方面，提供了一种基于多维度行为和改进谱聚类算法的城市功能区识别方法，具体步骤如下：

3、s1.osm数据收集和预处理，利用城市研究区域道路数据生成交通分析小区；

4、s2.多源数据预处理并与交通分析小区进行空间连接；网约车数据、地铁刷卡数据、poi数据进行预处理，并于交通分析小区进行空间连接，得到各交通分析小区中的数据分布；

5、s3.活动特征、出行特征、poi类别特征提取；从网约车数据、地铁刷卡数据、poi数据中挖掘居民多维度行为特征和poi类别特征，构建lda模型处理词汇；

6、s4.利用lda模型得到居民多维度行为特征和poi特征的主题概率分布；

7、s5.利用自定义相似度矩阵的谱聚类算法得到功能区分类；

8、s6.区域poi分布特征和居民多维度行为特征标定功能区类型；利用poi的频率分布，交通分析小区内的居民上下车出行特征、活动特征、区域之间的交互特征标定城市功能区类型；

9、s7.结合土地利用现状图和在线地图，评价功能区识别结果。

10、进一步的，s1具体为：对osm路网进行预处理；利用道路等级字段筛选一等、二等、三等级公路，作为后续划分交通小区的基础；利用缓冲区分析对道路进行膨胀处理，合并平行道路；再基于中心线提取方法，提取道路缓冲区中心线；并检查道路拓扑网络结构，消除断头路；再利用线转面要素工具将道路线要素转换为面要素，作为功能区的基本单元——交通分析小区。

11、进一步的，s2具体为：对网约车数据、地铁刷卡数据、poi数据进行预处理，并于交通分析小区进行空间连接，得到各交通分析小区中的数据分布；

12、多源数据包括地铁刷卡数据、网约车数据和poi数据；由于这些数据本身存在错误、缺失的数据行，所以需要在构建多维度特征之前消除这些错误数据；同时对这些数据进行坐标转换；利用空间连接工具将多源交通数据和poi数据匹配至对应的交通小区中。

13、进一步的，s3具体为：从网约车数据、地铁刷卡数据、poi数据中挖掘居民多维度行为特征和poi类别特征，构建lda模型处理词汇；

14、对于活动特征，将网约车数据的目的地信息与poi信息进行匹配，得到居民的活动类型；将目的地类型分为9类，分别是交通、休闲、饮食、娱乐、回家、工作、教育、社会服务和购物；从网约车数据中提取了一个新的行为特征维度，并将活动类型作为主题模型的单词；

15、对于出行特征，是从多源交通数据中提取的出发时间和上下车行为的组合；用两个标识符来表示出行行为，这两个标识符包括:旅行时间和上下车行为；

16、对于poi类别特征，poi重分类之后的类型被作为主题模型的单词；poi的类别之间存在数量上的差异，为了减少这种数量差异，根据其tf-idf值对每种poi类型的频率进行加权；下面的等式描述了tf-idf:

17、tf-idfc,d＝tfc,d×idfc,d (21)

18、

19、其中nc,d表示tazdth中类别为c的poi数量，tfc,d表示在tazdth内的类别为c的poi数量和tazdth内的poi总数的比值；idfc,d表示研究区域内的taz总数和区域范围内存在c类poi的taz的数量之比的对数值。

20、进一步的，s4具体为：以每个交通分析小区的多维度行为特征和poi类别特征作为原始输入，构建lda模型；为了利用lda模型提取taz的潜在特征，将活动特征、出行特征、poi类别特征作为lda模型中的单词来处理；然后将单词所在的每个taz视为一个文档，并使用lda模型推断每个taz的潜在特征，从而识别城市功能区。

21、进一步的，lda模型算法包括如下步骤：

22、s41.对于每个主题，该主题对应的主题-单词分布为：βk～dirichlet(η)；

23、s42.对于每个文档,即taz，d∈1,2…,d，其中d为taz的总数；

24、选择一个主题分布θd～dirichlet(α)，狄利克雷分布的公式如下：

25、

26、其中pj为第j个可能事件发生的概率，αj为第j个可能事件对应的分布的超参数；

27、对于文档d中的每个单词wdn，n∈1,2,…,n，其中n为单词的个数，选择主题zw～multinomial(θd)，zw∈1,2,…,k；多项式分布公式为：

28、

29、其中mj是第j个可能事件的发生次数，并且

30、那么对于k个主题，文档d中的第n个单词的概率计算公式如下：

31、

32、其中k是表示第k个主题，p(wdn|k)代表第k主题中单词wdn出现的概率，p(k|d)代表从文档d中取出一个主题k的概率。

33、进一步的，s5具体为：

34、定义交通分析小区之间的相似性度量方法，具体计算步骤如下：

35、s51.构造交通分析小区之间的相似矩阵w；利用全连通高斯相似性函数来定义taz之间的相似度；由于地铁刷卡数据的覆盖范围较为稀疏，所以采用自定义的相似性矩阵作为后续聚类算法的分析基础；自定义相似矩阵的计算公式如下：

36、

37、其中γ为高斯核函数的参数。xi,c,xi,m,xi,p,xi,a分别是使用lda模型从网约车数据、地铁智能卡数据、poi数据和网约车数据结合poi数据所提取的第i个taz的主题概率；

38、s52.通过计算拉普拉斯矩阵的前k个特征值和特征向量来构造特征向量空间；拉普拉斯矩阵与相似矩阵的关系式为

39、l＝ds-w (29)

40、其中w是由wi,i'所构成的对称相似性矩阵；ds为对角矩阵，其第i个对角元素是dsii＝wi1+wi2+…+wid，i∈d；

41、s53.归一化谱聚类的目标函数公式如下：

42、

43、其中g为d×kc维标准正交基向量，也就是其中kc是谱聚类算法的输入参数；

44、s54.特征向量通过经典聚类算法聚类；在上述步骤的向量降维之后，用于表示taz的特征向量矩阵通过k-means相对简单的聚类算法更有效地区分类别。

45、进一步的，s6具体为：

46、利用各类功能poi的频率密度以及居民多维度行为特征识别城市功能区土地利用性质；计算交通分析小区内各类功能poi的频率密度以及居民多维度行为特征识别城市功能区土地利用性质；计算方式如下：

47、计算各类功能区poi的频率密度；其表示各类城市功能区中各类poi的密度；计算公式如下：

48、

49、其中为第di类功能区内poi类型为c的归一化数量，为第di类功能区的标准化面积。

50、根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明的基于多维度行为和改进谱聚类算法的城市功能区识别方法中的步骤。

51、根据本发明的又一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明的基于多维度行为和改进谱聚类算法的城市功能区识别方法中的步骤。

52、与现有的技术相比较，本发明的上述方法的有益效果为：

53、在构建居民多维度行为特征时，将公共交通数据(地铁智能卡数据)和个人出行数据(网约车数据)结合起来，考虑不同交通方式下服务群体的变化。这种整合使我们能够提取出行特征，更好地了解居民的活动和出行行为。这些特征为人们的出行活动提供了有价值的洞察，从而增强了城市功能区识别的准确性。

54、在结合不同数据源的数据特征时，经典的聚类方法如k-means聚类在处理数据覆盖区域不同的特征方面存在一定难度。本发明开发了一个基于不同空间覆盖率的交通数据的城市功能区识别框架。自定义相似度计算方法计算具有不同维度特征(即从不同数据中提取的特征)的taz之间的相似度，并结合谱聚类算法获得最终的城市功能区类型。最终证明，地铁智能卡数据和网约车数据的融合在识别功能区方面具有更高的准确性，特别是在识别住宅区和工业区方面。