技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种中医大模型偏好对齐方法、设备及介质 > 正文

一种中医大模型偏好对齐方法、设备及介质

国知局
2024-07-12 10:25:14

本发明涉及自然语言处理，特别是涉及一种中医大模型偏好对齐方法、设备及介质。

背景技术：

1、随着中医现代化进程的推进和自然语言处理技术的快速发展，开发能够理解和应用中医知识的语言模型成为了研究热点。但中医理论体系独特，还包含大量的专业术语和哲学思想等知识，对于以数据驱动的中医大模型来说，准确理解和应用这些知识无疑是一项严峻挑战。因此，中医大模型的偏好对齐问题变得尤为关键。

2、偏好对齐的核心目标是使机器学习模型输出结果与人类偏好一致，对于中医大模型来说，这意味着模型在做中医问答任务时生成的结果应该符合中医理论和临床实践的标准。一些学者尝试采用监督学习的方法来实现这一点，他们通过大量中医标注数据来训练模型，使得模型能够学习到人类偏好的模式，但是这种方法需要使用大量标注数据，而标注数据的获取成本比较高，且这些数据中可能包含不准确的中医知识或者与中医实践不符的信息，导致模型在学习过程中可能吸收错误的偏好。此外，一些学者尝试采用基于规则的方法来给模型做偏好对齐，他们通过将医疗专家知识或规则编码到模型中，以确保模型输出符合特定的偏好，但这种方法难以捕捉到复制或模糊的偏好，而且可扩展性差、主观性强，无法满足不同用户的个性化需求。还有学者尝试使用强化学习来解决这个问题，他们通过将中医大模型与环境交互来获得反馈，进而调整模型的输出以符合医生的偏好，但这种偏好对齐方法往往缺乏有效的反馈机制，而且通过这种方法对齐后的模型在特定医生或特定场景下表现良好时，其泛化能力可能受到限制，这意味着模型可能难以在其他医生或不同中医场景下保持同样的性能。

技术实现思路

1、本发明的目的是提供一种中医大模型偏好对齐方法、设备及介质，以实现中医大模型的个性化偏好对齐，使最终优化后的中医大模型可以根据用户输入的问题序列生成符合中医理论和临床实践的标准的答案序列。

2、为实现上述目的，本发明提供了如下方案：

3、一种中医大模型偏好对齐方法，包括：

4、构建标准化语料库，并采用自监督学习策略和有监督学习策略在标准化语料库上训练第一预训练语言模型，得到初步对齐的中医大模型；

5、构建数据偏序对，并采用强化学习技术基于数据偏序对训练第二预训练语言模型，得到训练好的奖励模型；

6、根据初步对齐的中医大模型和训练好的奖励模型，进行基于强化学习的中医大模型偏好对齐，得到经过偏好对齐后的中医大模型；

7、根据经过偏好对齐后的中医大模型，进行基于神经网络的模型反馈优化，得到最终优化后的中医大模型；所述最终优化后的中医大模型用于根据用户输入的问题序列生成符合中医理论和临床实践的标准的答案序列。

8、可选地，构建标准化语料库，并采用自监督学习策略和有监督学习策略在标准化语料库上训练第一预训练语言模型，得到初步对齐的中医大模型，具体包括：

9、获取中医医疗知识数据，构建标准化语料库；所述标准化语料库中包括若干个序列，每个所述序列中包括若干个汉字；

10、定义第一损失函数；所述第一损失函数表示通过模型预测下一个汉字的负对数似然损失；

11、采用梯度下降算法最小化所述第一损失函数，更新所述第一预训练语言模型的可训练参数，得到预训练的中医大模型；

12、从所述标准化语料库中按照问答场景抽取问题序列和对应的答案序列并合并为组合序列；

13、定义第二损失函数；所述第二损失函数将最大化组合序列的概率问题转化为最小化问题；

14、采用梯度下降算法最小化所述第二损失函数，更新所述预训练的中医大模型的可训练参数，得到初步对齐的中医大模型。

15、可选地，构建数据偏序对，并采用强化学习技术基于数据偏序对训练第二预训练语言模型，得到训练好的奖励模型，具体包括：

16、从所述标准化语料库中按照问答场景抽取问题序列和对应的答案序列；

17、针对每个问题序列，采用若干个不同的医疗大模型分别生成不同的答案序列，并结合标准答案序列和抽取的对应的答案序列，按照匹配程度排序生成偏序对；

18、将第二预训练语言模型输出文本的嵌入层替换为输出标量的投影层，得到替换后的第二预训练语言模型；

19、采用所述替换后的第二预训练语言模型对每个问题序列的所有答案序列进行赋分，得到分数序列；

20、定义第三损失函数；所述第三损失函数用于使高质量答案序列与低质量答案序列的分数差异更大；

21、以最小化所述第三损失函数为目标，反向传播更新所述替换后的第二预训练语言模型的可训练参数，得到训练好的奖励模型。

22、可选地，根据初步对齐的中医大模型和训练好的奖励模型，进行基于强化学习的中医大模型偏好对齐，得到经过偏好对齐后的中医大模型，具体包括：

23、从所述标准化语料库中按照问答场景抽取问题序列，构成问题数据集；

24、基于有监督微调策略，采用所述初步对齐的中医大模型对所述问题数据集中的每个问题序列进行token采样，得到对应的响应序列；

25、将所述问题数据集中的每个问题序列与对应的响应序列拼接组合，得到拼接序列；

26、基于奖励优化偏好策略，根据所述拼接序列，采用所述训练好的奖励模型计算奖励得分，采用强化学习中的广义优势函数gae计算优势得分，组合并进行归一化和剪切处理，得到优化的奖励评分；

27、在所述奖励优化偏好策略与所述有监督微调策略之间引入kl散度的均方误差作为惩罚项，以控制所述奖励优化偏好策略与所述有监督微调策略的差异大小；

28、定义第一马尔科夫决策过程形成第一强化学习轨迹；所述第一马尔科夫决策过程的状态空间表示输入的问题序列，动作空间表示对应的响应序列，奖励函数表示奖励模型优化后的评分策略；所述第一强化学习轨迹包括在不同时间步上输入的问题序列、对应的响应序列和奖励评分；

29、根据所述优化后的奖励评分和所述惩罚项，计算所述第一强化学习轨迹的总回报；

30、以最大化总回报为目标训练所述初步对齐的中医大模型，得到经过偏好对齐后的中医大模型。

31、可选地，根据经过偏好对齐后的中医大模型，进行基于神经网络的模型反馈优化，得到最终优化后的中医大模型，具体包括：

32、构建模糊神经网络；所述模糊神经网络包括输入层、模糊层、推理层和输出层；所述输入层用于输入评估文本和评估指标的权重；所述评估文本包括输入的问题序列和对应的响应序列；所述模糊层用于对所述评估文本进行处理得到评估指标的隶属度函数；所述推理层用于划分模糊规则的等级，并根据评估指标的隶属度函数计算模糊规则的激发密度；所述输出层用于根据模糊规则的激发密度和评估指标的权重计算偏好对齐质量评估结果；

33、获取用户的反馈信息；所述反馈信息包括：输入的问题序列、对应的响应序列和反馈内容；

34、采用所述模糊神经网络对所述反馈信息中的输入的问题序列和对应的响应序列进行评估，得到偏好对齐质量评估结果并映射到对应的偏好对齐质量评价等级；所述偏好对齐质量评价等级包括：优秀、良好、中等、一般和差；

35、若所述偏好对齐质量评价等级为中等、一般或差，或者所述偏好对齐质量评价等级为优秀或良好，但输入的问题序列和对应的响应序列不符合中医理论和临床实践的标准，则采用卷积神经网络提取所述反馈信息的深度特征，得到深度特征表示序列；

36、采用稀疏自编码对所述反馈信息进行编码，得到权重矩阵；

37、采用宽度学习，将所述深度特征表示序列映射到若干个特征节点，得到反馈信息第一特征序列；

38、采用激活函数将所述反馈信息第一特征序列映射到若干个增强节点，得到反馈信息第二特征序列；

39、根据所述权重矩阵，将所述反馈信息第一特征序列与所述反馈信息第二特征序列进行融合，得到反馈信息融合特征矩阵；

40、定义第二马尔科夫决策过程形成第二强化学习轨迹；所述第二马尔科夫决策过程的状态空间表示用户的反馈信息，动作空间表示根据用户的反馈信息返回的相应的偏好，奖励函数表示结合反馈信息对评估文本做出偏好对齐质量评价获得的回报；所述第二强化学习轨迹包括在不同时间步上获取的反馈信息、相应的偏好和获得的回报；

41、根据所述反馈信息融合特征矩阵和所述偏好对齐质量评估结果，计算所述第二强化学习轨迹的平均期望累积折扣奖励；

42、以最大化平均期望累积折扣奖励为目标训练所述经过偏好对齐后的中医大模型，得到最终优化后的中医大模型。

43、可选地，所述第一预训练语言模型为qwen-14b模型；所述第二预训练语言模型为qwen-7b模型。

44、可选地，所述总回报的计算公式为：

45、

46、其中，r(xi,rpi)为总回报，r(xi,rpi)为优化后的奖励评分，η为kl散度系数，为惩罚项，为奖励优化偏好策略，πsft(rpi|xi)为有监督微调策略，xi为输入的问题序列，rpi为对应的响应序列。

47、可选地，所述平均期望累积折扣奖励的计算公式为：

48、

49、其中，jπ(τ')为平均期望累积折扣奖励，e[]为期望，t为时间步，γ't为第t个时间步上的折扣因子，r't为第t个时间步上结合反馈信息对评估文本做出偏好对齐质量评价获得的回报，s'为状态，s'0为初始状态。

50、一种计算机设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序以实现所述的中医大模型偏好对齐方法的步骤。

51、一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的中医大模型偏好对齐方法的步骤。

52、根据本发明提供的具体实施例，本发明公开了以下技术效果：

53、本发明提供的中医大模型偏好对齐方法，首先，整合中医数据构建标准化语料库，并应用自监督学习和有监督学习策略在语料库上训练模型，使模型初步对齐中医领域的任务；其次，采用强化学习技术通过监督学习结合偏好排序数据训练一个奖励模型，该奖励模型可根据中医大模型的输入和输出信息计算出奖励值，能够一定程度上评估出中医大模型与人类偏好的一致性；再次，采用基于强化学习的奖励模型优化策略训练对齐模型的输出偏好，使模型可以输出与人类偏好更为一致的回答；最后，通过模糊神经网络评估文本对齐质量，建立反馈循环优化流程，从而实现中医大模型的个性化偏好对齐。本发明能够实现中医大模型的个性化偏好对齐，以进一步提升模型响应的人性化程度和专业准确性，使最终优化后的中医大模型可以根据用户输入的问题序列生成符合中医理论和临床实践的标准的答案序列。