技术新讯 > 电子通信装置的制造及其应用技术 > 一种大语言模型的微调方法、直播处理方法、装置和设备与流程 > 正文

一种大语言模型的微调方法、直播处理方法、装置和设备与流程

国知局
2024-08-30 14:47:00

本公开涉及计算机领域，尤其涉及人工智能，涉及深度学习、自然语言处理等，可应用于基于人工智能的智能办公等场景。具体涉及一种大语言模型的微调方法、直播处理方法、装置和设备。

背景技术：

1、大语言模型(large language model,llm)是以大尺寸为特征的生成式语言大模型，具有大规模参数数量和训练数据，通过利用更多的参数和更大的数据进行训练，有效地提升了其在各种下游任务上的性能和样本效率。

2、如何将大语言模型应用到直播场景十分重要。

技术实现思路

1、本公开提供了一种大语言模型的微调方法、直播处理方法、装置和设备。

2、根据本公开的一方面，提供了一种用于直播处理的大语言模型的微调方法，包括：

3、根据直播间的第一样本事件集和预设的决策提示词生成决策提示语句；

4、将所述决策提示语句输入第一大语言模型，通过所述第一大语言模型确定第一决策类型，并通过所述第一大语言模型根据所述第一决策类型和所述第一样本事件集预测直播间的第一直播内容；

5、执行所述第一直播内容，并根据所述直播间在执行所述第一直播内容之后的用户行为数据确定所述第一直播内容的第一奖励值；

6、根据所述第一奖励值，对所述第一大语言模型进行微调得到经微调的第二大语言模型，用于确定直播间的目标直播内容。

7、根据本公开的一方面，提供了一种直播处理方法，包括：

8、根据直播间的目标事件集和预设的决策提示词生成决策提示语句；

9、将所述决策提示语句输入经微调的第二大语言模型，通过所述第二大语言模型对所述决策提示语句进行处理得到目标决策类型，并通过所述第二大语言模型根据所述目标决策类型和所述目标事件集确定直播间的目标直播内容；

10、其中，所述第二大语言模型采用本公开任意实施例提供的用于直播处理的大语言模型的微调方法得到。

11、根据本公开的一方面，提供了一种用于直播处理的大语言模型的微调装置，包括：

12、决策语句模块，用于根据直播间的第一样本事件集和预设的决策提示词生成决策提示语句；

13、直播内容模块，用于将所述决策提示语句输入第一大语言模型，通过所述第一大语言模型确定第一决策类型，并通过所述第一大语言模型根据所述第一决策类型和所述第一样本事件集预测直播间的第一直播内容；

14、奖励模块，用于执行所述第一直播内容，并根据所述直播间在执行所述第一直播内容之后的用户行为数据确定所述第一直播内容的第一奖励值；

15、模型微调模块，用于根据所述第一奖励值，对所述第一大语言模型进行微调得到经微调的第二大语言模型，用于确定直播间的目标直播内容。

16、根据本公开的一方面，提供了一种直播处理装置，包括：

17、决策语句模块，用于根据直播间的目标事件集和预设的决策提示词生成决策提示语句；

18、直播内容模块，用于将所述决策提示语句输入经微调的第二大语言模型，通过所述第二大语言模型对所述决策提示语句进行处理得到目标决策类型，并通过所述第二大语言模型根据所述目标决策类型和所述目标事件集确定直播间的目标直播内容；

19、其中，所述第二大语言模型采用本公开任意实施例提供的用于直播处理的大语言模型的微调方法得到。

20、根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

21、至少一个处理器；以及

22、与所述至少一个处理器通信连接的存储器；其中，

23、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所提供的方法。

24、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本公开任意实施例所提供的方法。

25、根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开任意实施例所提供的方法。

26、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种用于直播处理的大语言模型的微调方法，包括：

2.根据权利要求1所述的方法，其中，所述通过所述第一大语言模型根据所述第一决策类型和所述第一样本事件集预测直播间的第一直播内容，包括：

3.根据权利要求2所述的方法，其中，所述从各所述候选复合指令中选择预测复合指令，包括：

4.根据权利要求3所述的方法，所述价值预测模型通过如下方式确定：

5.根据权利要求2所述的方法，其中，所述执行所述第一直播内容，包括：

6.根据权利要求1所述的方法，其中，所述通过所述第一大语言模型根据所述第一决策类型和所述第一样本事件集预测直播间的第一直播内容，包括：

7.根据权利要求1所述的方法，所述通过所述第一大语言模型根据所述第一决策类型和所述第一样本事件集预测直播间的第一直播内容，包括：

8.根据权利要求1所述的方法，所述第一大语言模型通过如下方式确定：

9.根据权利要求1所述的方法，所述方法还包括：

10.一种直播处理方法，包括：

11.根据权利要求10所述的方法，其中，所述通过所述第二大语言模型根据所述目标决策类型和所述目标事件集确定直播间的目标直播内容，包括：

12.根据权利要求11所述的方法，其中，所述从各候选复合指令中选择目标复合指令，包括：

13.根据权利要求11所述的方法，所述方法还包括：

14.根据权利要求10所述的方法，其中，所述通过所述第二大语言模型根据所述目标决策类型和所述目标事件集确定直播间的目标直播内容，包括：

15.根据权利要求10所述的方法，所述通过所述第二大语言模型根据所述目标决策类型和所述目标事件集确定直播间的目标直播内容，包括：

16.一种用于直播处理的大语言模型的微调装置，包括：

17.根据权利要求16所述的装置，其中，所述直播内容模块包括工具调用子模块，所述工具调用子模块包括：

18.根据权利要求17所述的装置，其中，所述指令选择单元包括：

19.根据权利要求18所述的装置，所述装置还包括价值训练模块，具体用于：

20.根据权利要求17所述的装置，其中，所述奖励模块包括指令执行子模块，所述指令执行子模块包括：

21.根据权利要求16所述的装置，其中，所述直播内容模块包括互动子模块，所述互动子模块包括：

22.根据权利要求16所述的装置，所述直播内容模块包括剧本编辑子模块，所述剧本编辑子模块包括：

23.根据权利要求16所述的装置，所述装置还包括初始微调模块，所述初始微调模块包括：

24.根据权利要求16所述的装置，所述装置还包括事件处理模块，所述事件处理模块包括：

25.一种直播处理装置，包括：

26.根据权利要求25所述的装置，其中，所述直播内容模块包括工具调用子模块，所述工具调用子模块包括：

27.根据权利要求26所述的装置，其中，所述指令选择单元包括：

28.根据权利要求26所述的装置，所述装置还包括指令执行模块，所述指令执行模块包括：

29.根据权利要求25所述的装置，其中，所述直播内容模块包括互动子模块，所述互动子模块包括：

30.根据权利要求25所述的装置，所述直播内容模块包括剧本编辑子模块，所述剧本编辑子模块包括：

31.一种电子设备，包括：

32.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-15中任一所述的方法。

33.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-15中任一所述的方法。

技术总结本公开提供了一种大语言模型的微调方法、直播处理方法、装置和设备，涉及深度学习、自然语言处理等技术领域，可应用于直播场景。该微调方法包括：根据直播间的第一样本事件集和预设的决策提示词生成决策提示语句；将所述决策提示语句输入第一大语言模型，通过所述第一大语言模型确定第一决策类型，并通过所述第一大语言模型根据所述第一决策类型和所述第一样本事件集预测直播间的第一直播内容；执行所述第一直播内容，并根据所述直播间在执行所述第一直播内容之后的用户行为数据确定所述第一直播内容的第一奖励值；根据所述第一奖励值，对所述第一大语言模型进行微调得到经微调的第二大语言模型，用于确定直播间的目标直播内容。技术研发人员：常毅标受保护的技术使用者：北京百度网讯科技有限公司技术研发日：技术公布日：2024/8/27