以联邦学习为核心的在线课程推荐方法和系统与流程

2021-11-10 04:36:00 来源：中国专利 TAG：

1.本发明涉及模型处理技术领域，尤其是一种以联邦学习为核心的在线课程推荐方法和系统。

背景技术：

2.慕课是指大规模开放在线课程，是一种通过开放教育资源，针对大众人群通过网络来学习的在线课程。相关技术中，在慕课使用过程中，本地设备需要向服务器上传用户信息，例如用户的个人身份信息、联系方式等，服务器在接收到用户信息后，根据用户信息进行课程的个性化推荐。这种慕课推荐方式，由于服务器和传输通道是属于共享的资源，因此，使得用户信息在传输过程中或者到达服务器，容易发生的数据泄密和隐私侵权事件。

技术实现要素：

3.本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种以联邦学习为核心的在线课程推荐方法和系统，能够有效降低发生数据泄密和隐私侵权事件的概率。
4.第一方面，本发明实施例提供了一种以联邦学习为核心的在线课程推荐方法，包括以下步骤：
5.本地设备根据本地存储的用户信息计算本地模型的梯度，将所述梯度发送到服务器；
6.服务器根据所述本地上传的梯度信息进行聚合操作，并将聚合操作的结果返回到本地设备；
7.本地设备根据接收到的聚合操作结合更新本地模型的参数，并将参数更新后的本地模型作为慕课推荐模型进行在线课程推荐。
8.本实施例提供的一种以联邦学习为核心的在线课程推荐方法，具有如下有益效果：
9.本实施例通过本地设备根据本地存储的用户信息计算本地模型的梯度，将所述梯度发送到服务器，然后服务器根据所述本地上传的梯度信息进行聚合操作，并将聚合操作的结果返回到本地设备，使根据接收到的聚合操作结合更新本地模型的参数，并将参数更新后的本地模型作为慕课推荐模型进行在线课程推荐，从而无需用户数据在本地设备和服务器之间传输，即能完成本地模型的训练过程，以降低发生数据泄密和隐私侵权事件的概率。
10.在一些实施例中在所述将所述梯度发送到服务器之前，本地设备对所述梯度进行加密处理；在所述将聚合操作的结果返回到本地设备之前，服务器对聚合操作的结果进行加密处理。
11.在一些实施例中，所述慕课推荐模型应用于联邦学习推荐框架，所述联邦学习推荐框架用于将所述用户历史课程记录保存于对应的本地设备。
12.在一些实施例中，所述联邦学习推荐框架包括本地设备处理端和服务器处理端；所述本地设备处理端内设有慕课推荐模型和强化学习模型；所述慕课推荐模型的数据处理步骤，包括：
13.获取用户历史课程信息；
14.对所述用户历史课程信息进行降维处理；
15.根据降维处理后的用户历史课程信息预测目标推荐课程。
16.在一些实施例中，所述根据降维处理后的用户历史课程信息预测目标推荐课程，包括：
17.根据降维处理后的用户历史课程信息预测得到多个推荐课程；
18.采用激活函数确定多个推荐课程的推荐概率；
19.根据所述推荐概率从多个推荐课程中确定目标推荐课程。
20.在一些实施例中，在执行所述根据降维处理后的用户历史课程信息预测目标推荐课程这一步骤后，还包括以下步骤：
21.确定所述目标推荐课程与用户历史课程信息的注意力相关系数。
22.在一些实施例中，所述强化学习模型的数据处理步骤包括：高阶任务处理步骤和低阶任务处理步骤；其中：
23.所述高阶任务处理步骤用于确定需要调整课程的目标用户；
24.所述低阶任务处理步骤用于确定所述目标用户对应调整的目标课程。
25.在一些实施例中，所述服务器处理端在控制服务器将所述初始化全局模型下发到本地设备之前，在所述初始化全局模型上应用局部隐私方式。
26.在一些实施例中，所述本地模型在训练过程的权重，采用如下计算公式：
[0027][0028]
所述全局模型在更新过程的权重，采用如下计算公式：
[0029][0030]
其中，w为本地模型的权重，w为全局模型的权重，l为本地模型函数，h表示当前训练轮次，i表示第i本地模型。
[0031]
第二方面，本发明实施例提供了一种以联邦学习为核心的在线课程推荐系统，包括：
[0032]
至少一个存储器，用于存储程序；
[0033]
至少一个处理器，用于加载所述程序以执行第一方面实施例提供的以联邦学习为核心的在线课程推荐方法。
[0034]
本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0035]
下面结合附图和实施例对本发明做进一步的说明，其中：
[0036]
图1为本发明实施例的一种以联邦学习为核心的在线课程推荐方法的流程图；
[0037]
图2为本发明实施例的联邦学习慕课推荐框架的结构示意图。
具体实施方式
[0038]
下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
[0039]
在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0040]
本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
[0041]
本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0042]
随着互联网的迅速发展，在线慕课教育引起教育与科技产业的关注，移动端慕课教育更是这样。在线慕课教育打破了获取知识的门槛，获得高等教育的机会不再局限于大学生。尽管慕课教育的出现降低了大众获取大量专业课程资源的机会，但在线慕课教育依然面临如何选择合适的学习资源的问题。合适的推荐系统可以通过找出用户的潜在感兴趣的课程解决这个问题。
[0043]
由于不同的用户有着不同的喜好，通过历史学习课程推荐下一个课程的个性化的慕课推荐系统可以提高用户体验。目前已有许多基于不同算法的课程推荐系统。传统的课程推荐方法是基于从课程内容中获取的课程推荐与从用户对课程的历史行为中获取的用户兴趣表征学习的匹配。随着训练基于注意力机制的深度神经网络成为了推荐算法的主流，分层强化学习加上注意力神经网络是当前课程推荐任务的识别算法。由于，在个人的历史浏览记录中存在大量的噪音记录，会干扰最终的推荐结果。这种推荐方式采取强化学习判断哪个课程对最终的目标有多大的贡献，即排除噪音课程。
[0044]
在实际的应用上，依然有着许多问题需要解决。首先，在实际应用上需要处理大量数据，一个有效的算法，需要大量从日志数据得到的特征数据，哪些未预处理的数据通常是杂乱的，异构的。此外，数据传输的通信成本是一个要考虑的问题，如果是千万级用户量的应用，需要传输的日志数据大的不可想象。最后，用户的数据是隐私敏感的，在传输过程中容易发生泄漏情况。
[0045]
基于上述问题，本发明实施例提供了一种以联邦学习为核心的在线课程推荐方法。其中，本实施例通过将全局模型发送到本地设备，作为本地设备的本地模型，然后本地设备根据本地存储的用户信息训练本地模型，本将训练得到的梯度信息上传到服务器，介质服务器根据接收到的梯度信息更新全局模型的参数，并将更新后得到我的参数发送到本地设备上，使本地设备更新本地模型的参数，并在本地模型的参数符合要求后，将参数更新后的本地模型作为慕课推荐模型，本实施例无需将用户信息上传到服务器，从而提高用户
信息的安全性。
[0046]
具体地，如图1所示，本实施例包括以下步骤：
[0047]
s11、本地设备根据本地存储的用户信息计算本地模型的梯度，将所述梯度发送到服务器；
[0048]
s12、服务器根据所述本地上传的梯度信息进行聚合操作，并将聚合操作的结果返回到本地设备；
[0049]
s13、本地设备根据接收到的聚合操作结合更新本地模型的参数，并将参数更新后的本地模型作为慕课推荐模型进行在线课程推荐。
[0050]
具体地，本实施例的慕课推荐模型应用于联邦学习推荐框架，即fedmoocsres，联邦学习推荐框架可以将用户历史课程记录保存在用户对应的本地设备，而不是把这些数据保存到服务器，从而提高用户数据的安全性。其中，如图2所示，联邦学习推荐框架包括本地设备处理端和服务器处理端，本地设备处理端用于控制对应的本地设备的工作状态，服务器处理端用于控制服务器的工作状态。具体地，本地设备处理端内设有慕课推荐模型和强化学习模型；慕课推荐模型的数据处理步骤，包括：
[0051]
获取用户历史课程信息；
[0052]
对用户历史课程信息进行降维处理；
[0053]
根据降维处理后的用户历史课程信息预测目标推荐课程。
[0054]
其中，步骤根据降维处理后的用户历史课程信息预测目标推荐课程，可通过以下方式实现：
[0055]
根据降维处理后的用户历史课程信息预测得到多个推荐课程；
[0056]
采用激活函数确定多个推荐课程的推荐概率；
[0057]
根据推荐概率从多个推荐课程中确定目标推荐课程。
[0058]
在一些实施例中，在执行根据降维处理后的用户历史课程信息预测目标推荐课程这一步骤后，还包括以下步骤：
[0059]
确定目标推荐课程与用户历史课程信息的注意力相关系数。具体地，本步骤可通过注意力机制函数计算目标推荐课程与用户历史课程信息的注意力相关系数。
[0060]
在一些实施例中，强化学习模型的数据处理步骤包括：高阶任务处理步骤和低阶任务处理步骤。其中，高阶任务处理步骤用于确定需要调整课程的目标用户；低阶任务处理步骤用于确定所述目标用户对应调整的目标课程。
[0061]
在一些实施例中，所述服务器处理端在控制服务器将所述初始化全局模型下发到本地设备之前，在初始化全局模型上应用局部隐私方式，以提高用户数据的安全想。
[0062]
在一些实施例中，本地模型在训练过程的权重，采用如下计算公式：
[0063][0064]
全局模型在更新过程的权重，采用如下计算公式：
[0065][0066]
其中，w为本地模型的权重，w为全局模型的权重，l为本地模型函数，h表示当前训练轮次，i表示第i本地模型。
[0067]
具体地，上述实施例在实际应用过程中，其具体如下：
[0068]
通过如图2所示的联邦学习慕课推荐框架来协同训练一个慕课推荐模型。慕课推荐框架包含了两个部分：本地设备处理端和服务器处理端。在训练开始时，服务器处理端控制服务器初始化全局模型的参数权重，然后本地设备处理端控制本地设备下载全局模型作为本地模型。本地设备利用其本地存储的用户数据通过计算梯度进行模型训练，其中，通过联邦学习每台移动设备上的模型将会被加密上传云端。最终所有模型都会被聚合到一个加密的全局模型上。每一轮的训练都会随机选择不同的参与者，即选择不同的本地设备参与训练，并上传所选择参与者的本地模型梯度到服务器。当服务器收集到足够多的更新参数后，全局模型将会基于这些梯度的均值更新其参数。更新后的参数将会发送给本地模型，然后再进行下一轮训练。当本地模型的参数满足预设要求后，将当前的本地模型作为目标推荐模型。为了更好的数据保护，慕课推荐框架应用多方差分隐私保护，以通过牺牲轻微的性能获取更好的用户数据保护。
[0069]
其中，在图2所示的联邦学习慕课推荐框架中对推荐模型进行处理时，联邦学习慕课推荐框架主要包括推荐部分和联邦设置部分。具体地，将训练的参与者称作客户端。客户端最重要的部分是推荐系统。在该框架中，推荐系统包括推荐部分和强化学习部分。用户行为数据是用原型模型存储在本地设备上的用户历史登记记录的日志文件。此外，网站、移动应用等慕课平台上的客户端不会收集用户的隐私，这可以让用户放心地使用。
[0070]
在推荐部分，首先构建用户的特征向量，通过预处理用户数据ε
u
。采用u＝u1,u2...,u
u
表示用户，采用c＝c1,c2...,c
m
表示课程中的课程。用户数据其中，属于课程c。推荐模型的目标时推荐第t
u
1个课程。然后将每一个历史课程转化为一个低维的向量对于用户u
i
，激活函数sigmod将推荐模型最后的结果转化为范围为(0,1)的概率。同时，采用注意力机制，代表当推荐c
i
时的注意力相关系数。这个注意力相关系数用历史课程和目标推荐课程p
i
表示，用户的嵌入向量q
u
的计算公式如下：
[0071][0072]
其中，f表示注意力层函数串联
[0073]
最后，损失函数表示如下：
[0074][0075]
γ表示损失函数，l2表示正则函数。
[0076]
然后本实施例通过采用了分层强化学习的方法，来解决推荐系统中噪音记录的问题。具体地，分层强化学习的方法中马克洛夫决策过程(mdp)分成两个，分别是高阶任务m
h
和低阶任务m1，分别有4项属性在一个mdp中，分别是状态集s，动作集a，转换模型t，奖励函数r。其中，马克洛夫决策过程为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。具体地，高阶任务m
h
决定了需要对哪个用户进行调整，相对的，低阶任务m1负责决定对该用户中哪一个课程需要调整。例如，这里有用户u的一系列课程记录ε
u
，如果智能体在高阶任务上决定了
需要对该用户进行调整，接着智能体执行低阶任务，查出他其中的哪一个课程需要被移除。当低阶任务执行完后，智能体将对下一个用户重复上述操作。如果智能体决定在高阶任务中不执行任何动作，低阶任务则不执行和整个任务到此结束。
[0077]
强化学习过程种具有多样性、复杂性、持续演化等特点，会受到资源、交互、反馈等多方影响，致使难以实现学习演化的过程表达。分层强化学习结合强化学习的特点，相比强化学习更为高效，特别是在学习的泛化和迁移方面。具体地，对于本实施例的强化学习环节，首先无论是高阶任务还是低阶任务，给定一个状态和一个动作，它都会以1的概率过渡到一个确定的状态。下面讨论状态、行动和奖励的细节：
[0078]
在状态属性中，低阶任务和高阶任务有不同的状态特征。对于低阶任务来说，定义他的状态特征以余弦相似度和元素智能乘积在和c
i
中计算。至于高阶任务，我们定义他的状态特征为s
h
,以余弦相似度和元素智能乘积在ε
u
和p
i
中计算。然后，我们定义高阶动作他这个值代表该用户的资料是否需要被修改，他取值为0，或者1。同样的，也有一个低阶动作a
l
去决定是否要对用户的进行修改。低阶任务中的奖励函数代表该执行结果是否合理。最后定义奖励函数去构造最后动作和他相关奖励的联系。
[0079]
最后，使期望报仇最大化的策略函数的最优参数，最优参数定义为：
[0080]
θ＝argmax
θ
∑
τ
p
θ
(τ；θ)r(τ)
[0081]
其中，θ包括θ
h
和θ
l
，策略函数的参数。τ表示取样行为和过度状态的序列。p
θ
(τ；θ)表示相应的取样概率，r(τ)表示取样序列τ的奖励函数。
[0082]
在联邦设置部分，联邦学习慕课推荐框架存在本地设备处理端和服务器处理端，本地设备处理端用于控制本地设备的工作状态，即客户端的工作状态，服务器处理端用于控制服务器的工作状态。
[0083]
客户端的作用包括了上传本地参数，下载全局模型。还包括着最重要的推荐系统部分，上面实施例已经讨论过，在此不在赘述。在每个客户端里的数据都有着相似的特征，同时是相同的背景与任务，称这为横向联邦学习。
[0084]
对于服务器而言，它是模型聚合的聚合器。假设服务器是一个诚实的第三方。在实际的联邦训练中，需要考虑异步迁移问题。应该有一种机制来控制每个训练轮次的参与者数量。此外，服务器作用是广播全局模型。服务器用于维护慕课推荐模型，并通过整合来自大量用户的模型参数对其进行更新。在每一轮中，服务器从用户客户端中随机抽取一部分，然后把需要的训练模型发送给客户端。
[0085]
现实世界中的恶意攻击者可能会刻意破坏训练模型或使用一些技巧从梯度中窃取原始数据。这种窃取方式通常是基于用户之前的记录进行攻击和利用数据分析通过伪装成正常的客户端发送请求，绕过第三方获取当前用户的模型，进而推断用户的敏感上下文信息。如何使得数据免于泄露这是联邦学习的一个难点。为了确定框架的安全性，本实施例将局部差分隐私技术应用到局部模型保护中。
[0086]
在本实施例中，联邦训练时采用联邦平均。联邦平均可以用于深度神经网络训练中遇到的非凸函数，包括两种算法，即梯度平均和参数平均。在本实施例的框架中，采用了参数平均。本地模型的权重计算公式如下：
[0087][0088]
全局模型在更新过程的权重，采用如下计算公式：
[0089][0090]
其中，w为本地模型的权重，w为全局模型的权重，l为本地模型函数，h表示当前训练轮次，i表示第i本地模型。
[0091]
为了模拟真实的情况，将上述实施例应用于具体实验，包括如下过程：
[0092]
把数据集划分为不同大小的部分。这样划分就可以模拟显示中非独立同分布的数据状态进行实验。选择mooccube去增强原有的学堂在线数据集。mooccube是一个多媒体数据集由yu等人为进行ai，nlp任务收集学堂在线的数据进行整合的。这份数据不仅包括有学生的行为还包括课程概念和教育概念，假设全部的82535名用户都是潜在的训练客户端。其中有458454条历史记录。
[0093]
对于本地模型的训练，选择一段时间内的用户记录当作训练集，剩下的记录作为测试集。在训练过程中，对于训练的每一个序列，把其中的最后一个课程当作目标课程。对于每一个正样本，构造四个负样本，并将随机抽样的四个课程中的一个替换为目标课程。在测试过程中，将测试集合中每一门课程作为目标课程，将训练集合中相同用户对应的课程作为历史课程。测试集中的每个正样本都与99个随机抽样的负样本配对。
[0094]
本实施例的实验从前k项的命中率(hr@k)和前k项的归一化贴现累积增益(ndcg@k)两方面进行评估。hr@k是一个基于召回的度量，度量top
‑
k中成功推荐的实例的百分比，ndcg@k是一个基于精度的度量，用于计算实例的预测值。进行上述实验后，得到如下实验结果：
[0095]
将每个全局轮次中活跃客户端的比例定义为20％。在现实世界中，几乎不可能所有客户端同时在线。即使在所有客户端都在线的情况下，由于通信成本和聚合器性能的限制，中央服务器也很难处理所有的更新信息。无论每个轮次培训多少客户端，如果总的轮次足够多，还是会达到模型的收敛。表1显示了所有比较方法的总体性能。表1中包括mlp多层感知神经元，fm矩阵分解。gru是一种能够接收指令序列的门循环单元模型。nais是一种基于注意力的方法。hrl则是一种利用nais进行层次强化的方法。从表1中可知，上述实施例的联邦框架是牺牲准确率来更好地保护隐私。除此之外，还对不同百分比的训练数据进行了另一个实验，如表2所示。
[0096]
表1
[0097]
methodhr@5hr@10ndcg@5ndcg@10mlp52.1666.2940.3944.41fm46.0161.0735.2540.15gru52.0768.6438.9246.3nais56.4569.0543.7347.82hrl64.5979.6845.7450.69redmoocsres56.8964.1240.5644.11
[0098]
表2
[0099][0100][0101]
从上述实验可知，本实施例的框架模型虽然还没有完全学习到全部的训练数据，但仍然得到了一个可以接受的结果。这种情况的问题可能如下。首先，对训练集进行非独立同分布的切割；其次，联邦平均对层次强化学习效果不明显。
[0102]
与分层强化学习hrl不同，本实施例的fedmoocsres是一个去中心化框架。每个客户端都可以轻松的参加我们的培训。如果有新的参与者，fedmoocsres可以尝试参加下一个新的训练轮次。在加入训练社群之前，应该由中央服务器进行验证。fedmoocsres提供了一种安全的模型训练方法。如果用户关心数据的使用，研究人员可以使用该用户的数据来训练模型。由于训练的门槛较低，潜在攻击是一个核心挑战。本实施例还设置两个步骤来解决这个问题：第一步是同态隐私差分加密，它可以通过加密模型参数来保护用户数据；第二步则是预先筛选参与训练的客户端，确保客户端是可信的第三方。
[0103]
本发明实施例提供了一种以联邦学习为核心的在线课程推荐系统，包括：
[0104]
至少一个存储器，用于存储程序；
[0105]
至少一个处理器，用于加载所述程序以执行图1所示的以联邦学习为核心的在线课程推荐方法。
[0106]
本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。
[0107]
本发明实施例提供了一种存储介质，其中存储有计算机可执行的程序，所述计算机可执行的程序被处理器执行时用于实现图1所示的以联邦学习为核心的在线课程推荐方法。
[0108]
本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。
[0109]
上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：工业化建筑进度管理方法、装置、电子设备和存储介质与流程

以联邦学习为核心的在线课程推荐方法和系统与流程

相关文献

最热文献