技术新讯 > 信号装置的制造及其应用技术 > 基于扩散模型与轻量化联邦学习的车辆轨迹生成方法、装置 > 正文

基于扩散模型与轻量化联邦学习的车辆轨迹生成方法、装置

国知局
2024-07-31 21:24:38

本技术属于轨迹生成和隐私保护领域，尤其涉及一种基于扩散模型与轻量化联邦学习的车辆轨迹生成方法、装置。

背景技术：

1、随着gps设备在智能交通系统中的广泛部署，很容易将车辆的轨迹数据记录下来。这种宝贵车辆的轨迹数据可以应用于智能交通系统中各类下游交通数据挖掘任务，例如轨迹预测，用户需求预测，出行时间估计等。但是这些先进的交通数据挖掘方案，特别是基于深度学习的解决方案，通常需要大规模的轨迹数据集才能获得较好的效果。然而，由于轨迹数据收集费时和劳动密集型的性质，以及近年来国际上隐私政策的颁布和公众对于个人隐私信息的关注，造成了公开可用的大规模轨迹数据集的稀缺。这无疑严重阻碍了交通数据挖掘应用的进展。

2、为了解决这一问题，用生成对抗网络，变分自动编码器,扩散模型等生成式模型来生成轨迹数据十分地有前途，它们学习轨迹数据的底层分布，并从这些底层分布中采样生成轨迹数据，以此扩展轨迹数据集的规模，从而提高轨迹数据挖掘任务的数据可用性。然而，这种集中式的生成方法仍然需要基于各类政府和组织实体收集的大量轨迹数据进行训练。在收集的过程中，用户的个人数据仍然会被泄露出去，从而造成严重的隐私泄露问题。同时由于各组织所收集的轨迹数据具有明显的地域性，这限制了模型对整个城市轨迹信息的全面表示，无法准确地捕捉城市轨迹的多样性和复杂性。

3、现有的，基于深度学习的轨迹数据生成方法仍然需要基于政府和组织实体收集的大量用户的轨迹数据进行集中式训练，在收集的过程中仍然会有隐私泄露的风险，因此无法绝对地保证用户的隐私安全。同时现有的轨迹生成方法只能生成所持有的轨迹数据集区域下的轨迹，无法生成包含整座城市区域信息的车辆轨迹，因此生成的轨迹的多样性有限。

4、现有的，基于深度学习的轨迹数据生成方法大多使用生成对抗网络(gan)进行模型训练，但gan在训练过程中容易出现模式崩溃的问题，同时无法很好地捕捉车辆轨迹的时空特征，因此无法生成高质量的轨迹数据。

5、现有的，仅仅利用联邦学习方法在车辆这一边缘设备上训练扩散模型时，需要在与车辆通信的过程中传递参数量庞大的扩散模型，从而造成昂贵的通信开销和能源消耗，影响扩散模型的训练效率。

6、因此，一种能够保证隐私安全的前提下，利用低能耗生成高质量轨迹数据的方法尤为亟需。

技术实现思路

1、本技术的目的在于提供一种基于扩散模型与轻量化联邦学习的车辆轨迹生成方法、装置，用以至少解决现有技术中的一个技术问题。

2、本技术的技术方案是：

3、一种基于扩散模型与轻量化联邦学习的车辆轨迹生成方法，包括：

4、通过参数服务器利用预设领域的公共数据集对现有的全局模型进行预训练，得到初始的全局生成模型；

5、在任一轮所述参数服务器与车辆通信的过程中，所述参数服务器从车辆的集合中任选至少2个车辆参与本轮的训练，并将全局模型参数发给选中的所述车辆；

6、每个被选中的车辆同时接收到新的全局模型参数后，利用车辆的本地数据集训练本地扩散模型，并得到本轮训练后的扩散模型参数；

7、车辆量化所述训练后的扩散模型参数，并发送给所述参数服务器，以不共享任何隐私数据，只共享加密参数；

8、所述参数服务器在获取所有车辆上传的量化的扩散模型参数后，聚合所有被选中车辆上传的模型参数，得到调整后的全局模型；

9、通过将所述全局模型发送至与所述参数服务器通信的所有车辆中，并进行重复训练，直至达到设定的通信轮数为止，得到最终的全局扩散模型；

10、利用所述最终的全局扩散模型生成车辆轨迹数据。

11、所述每个被选中的车辆同时接收到新的全局模型参数后，利用车辆的本地数据集训练本地扩散模型，并得到本轮训练后的扩散模型参数，包括：

12、将任一车辆对应的本地数据集dk划分为大小为b的批次；

13、从扩散步数序列中随机采样，从均值为0，方差为1的高斯分布中采样得到高斯噪声；

14、向所述车辆的本地数据中的原始轨迹中逐步地添加噪声，得到t时刻时的加噪后的轨迹，并估计前向扩散过程中添加的噪声；

15、通过损失函数，得到本轮训练后的扩散模型参数。

16、所述向所述车辆的本地数据中的原始轨迹中逐步地添加噪声，得到t时刻时的加噪后的轨迹，包括：

17、利用公式计算扩散步数为t时的加噪轨迹xt，这个过程旨在向原始轨迹中逐步地添加噪声，破坏原始轨迹的时空特征，从而得到t时刻的加噪后的轨迹；

18、其中，q为前向加噪过程中遵循的概率分布；t为扩散步数；xt为扩散步数为t时的加噪轨迹；x0为原始轨迹；αt＝1-βt，βt是预先定义好的超参数，且满足{β1＜β2＜…＜βt，βt∈(0，1)}；代表高斯分布；i为单位值；t为扩散步数的最大值。

19、所述估计前向扩散过程中添加的噪声，包括：

20、设定u-net架构，给定一个输入的轨迹其中m代表轨迹的经纬度，n代表轨迹的长度；

21、u-net架构中的每一个残差块为：

22、xl＝conv[σ(gn(xl-1))]，

23、xl＝xl+concat(temb，cemb)，

24、xl＝conv[σ(gn(xl))],

25、xl＝xl+xl-1，

26、其中，conv代表一维卷积操作；σ表示非线性函数；t表示扩散步数；c表示轨迹外部属性；gn表示组归一化操作；l表示第l个残差块；temb表示对扩散步数编码后的向量；cemb表示对轨迹外部属性编码后的向量；concat表示拼接操作；

27、将扩散步数t和轨迹外部属性c通过编码的方式加入到残差块当中：

28、temb＝fc(σ(fc(sintimeemb(t)))

29、cemb＝fc(c)，；

30、其中，fc代表全连接层，sintimeemb为步骤索引编码；

31、设置中间注意力层，如下：

32、

33、xl+1＝xl+attention(q,k，v)；

34、其中，q＝wq·xl，k＝wk·xl，v＝wv·xl；wq，wk，wv均为可学习的参数矩阵；t表示转置操作；d表示放缩因子；xl是第l块残差块的输出。

35、所述车辆量化所述训练后的扩散模型参数，并发送给所述参数服务器，包括：

36、利用随机量化函数q(·)将模型权重ωk量化为将扩散模型参数的数据类型从32位转化为q位，其公式如下：

37、

38、其中，sign(·)代表符号函数，s是缩放因子，[ya，ya+1]是量化区间，对于每个元素的绝对值都存在

39、给定量化位数q，ya的获取方法为：

40、

41、其中，分别是非零元素的最大值、最小值。

42、所述参数服务器在获取所有车辆上传的量化的扩散模型参数后，聚合所有被选中车辆上传的模型参数，包括：

43、所述参数服务器收到所有车辆上传的量化的扩散模型参数后，通过联邦平均算法聚合所有车辆上传的模型参数，聚合方式如下：

44、

45、其中，表示第k辆车在第i+1轮通信中上传的量化后的扩散模型参数；k表示参与训练的车辆的集合；wi+1表示第i+1轮通信后聚合得到的全局模型参数。

46、所述利用所述最终的全局扩散模型生成车辆轨迹数据，包括：

47、利用所述参数服务器随机产生任意数量的高斯噪声，并对这些高斯噪声逐步去噪得到车辆轨迹数据的步骤，包括：

48、将所述车辆轨迹数据的生成过程视作高斯噪声变成纯净轨迹的反向去噪过程，所述反向去噪过程表示如下：

49、

50、其中，pθ为反向去噪过程中遵循的概率分布；xt表示均值为0，方差为1的标准高斯噪声；x0表示最终生成的纯净轨迹。

51、所述将所述车辆轨迹数据的生成过程视作高斯噪声变成纯净轨迹的反向去噪过程，包括：

52、将所述车辆轨迹数据的生成过程(xt，xt-1，…，x0)视作高斯噪声xt变成纯净轨迹x0的反向去噪过程，其每一步表示为：

53、

54、其中，均值μθ(xt，t，c)和方差∑θ(xt，t，c)的获取方法如下：

55、

56、

57、其中，∈θ(xt，t，c)表示以xt，t，c为输入的去噪网络的输出；c为轨迹外部属性；xt为是扩散步数为t时的加噪轨迹。

58、一种车辆轨迹数据生成用电子装置，包括：

59、存储介质，用于存储计算机程序；

60、处理单元，与所述存储介质进行数据交换，用于在进行车辆轨迹数据生成时，通过所述处理单元执行所述计算机程序，进行如上所述的基于扩散模型与轻量化联邦学习的车辆轨迹生成方法的步骤。

61、一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序；

62、所述计算机程序在运行时，执行如上所述的基于扩散模型与轻量化联邦学习的车辆轨迹生成方法的步骤。

63、本技术的有益效果至少包括：

64、本技术所述的方法，使用了联邦学习方法进行车辆的轨迹生成，使得各个车辆能在不泄露本地轨迹数据的情况下协作训练一个全局的轨迹生成模型，该方法能够在生成高质量的轨迹数据的同时确保用户数据的隐私安全；同时，使用了扩散模型生成车辆的轨迹数据，扩散模型能够很好地捕捉车辆轨迹数据中的时空特征，从而能够生成符合车辆运动模式的高质量轨迹数据；而且，本技术使用了随机量化的方法在客户与参数服务器通信之前量化了扩散模型的参数，在显著减少通信开销的同时不影响模型的生成性能。