技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种动态具身场景生成方法、装置、电子设备和存储介质 > 正文

一种动态具身场景生成方法、装置、电子设备和存储介质

国知局
2024-07-31 23:12:49

本公开属于具身智能领域，特别涉及一种基于语言大模型的动态具身场景生成方法、装置、电子设备和存储介质。

背景技术：

1、在具身智能的研究中，一种常用的研究手段是利用仿真环境进行智能算法的研发与神经网络模型的训练。其中，具身场景是仿真环境的重要组成部分。因此，如何以低廉的经济成本获取大量且高质量的具身场景是构建具身智能数据集中一个重要的问题。

2、近年来出于视觉语义导航、视觉语言导航等多项具身智能任务的需要，具身场景仿真数据集已经得到了较为广泛的研究。然而，现有的具身场景数据集仍然着眼于静态场景，不考虑由人类活动等因素导致的场景中的动态因素，因而其适用范围与应用价值仍然有限。

技术实现思路

1、本公开的目的是提出一种动态具身场景生成方法、装置、电子设备和存储介质，利用大语言模型的数据生成能力，在静态具身场景的基础上结合输入的角色设定信息，仿真人类活动对场景的影响，以生成动态具身场景。

2、为了实现上述目的，本公开采用如下技术方案：

3、本公开第一方面提供的一种动态具身场景生成方法，所述动态具身场景随时间而变化，将任一时刻的场景定义为一个包含有场景中的地点子集、容器子集、可移动物体子集和可移动物体的位置子集的集合；所述动态具身场景生成方法包括：

4、s1、利用人物设定信息构建人物设定库；

5、s2、利用大语言模型对所述人物设定库中的各人物，分别生成各自的人物活动日程及活动相关概率，以此构建人物数据库；所述人物活动日程是一个事件列表，每个事件被定义为一个包含事件起始时间、事件结束时间以及由自然语言形式描述的事件的活动内容的元组；所述活动相关概率包括所述人物活动日程中任一活动内容发生在所述地点子集内任一地点的概率、所述人物活动日程中任一活动内容发生在所述地点子集内任一地点时该任一活动内容使用或影响所述可移动物体子集内任一物体的概率以及所述人物活动日程中任一活动内容发生在所述地点子集内任一地点且该任一活动使用或影响所述可移动物体子集内任一物体后该任一物体被放置于所述容器子集内任一容器的概率；

6、s3、从静态具身场景数据集中选择一个静态具身场景并将其状态作为动态具身场景的起始状态；从所述人物数据库中根据所述活动相关概率采样人物行为，根据采样的人物行为对场景中可移动物体的影响计算动态具身场景在每一时刻的状态，从而得到动态具身场景。

7、在一些实施例中，所述人物设定信息包括人物的姓名、性别、年龄、性格、职业、生活习惯、近期计划和个人偏好共记8个字段，均以自然语言形式表示。

8、在一些实施例中，利用大语言模型生成所述人物活动日程，具体步骤包括：

9、针对所述人物设定库中的任一人物，利用大语言模型生成该任一人物在某一指定时间窗口的粗略活动计划，所述粗略活动计划的每项元素是一个包含活动起始时间、活动结束时间、活动内容和活动是否在目标空间进行的元组；

10、将所述粗略活动计划中不在目标空间进行的活动合并为“离开目标空间”活动，将其从所述粗略活动计划中剔除，得到日程活动列表；

11、根据所述日程活动列表，结合场景先验知识信息，利用大语言模型生成所述人物活动日程，将所述人物活动日程中的每个事件定义为一个元组e，表达式如下：

12、e＝(tstart,tend,a)，

13、其中，tstart表示事件的起始时间，tend表示事件的结束时间，a是由自然语言形式描述的事件的活动内容。

14、在一些实施例中，利用大语言模型生成活动相关概率时采用文本补全方法，具体步骤包括：

15、在提示词中提供任务描述和生成活动相关概率所需的背景信息；

16、利用大语言模型对提示词执行文本补全任务；

17、从大语言模型的文本输出中按固定格式解析所需要的活动相关概率。

18、在一些实施例中，对于所有在人物活动日程中出现的活动内容a，设利用大语言模型判断得到其发生在地点l的概率为p(l|a)，其中，l∈l，l为所述地点子集；

19、对于所有在人物活动日程中出现的活动内容a及可能发生的地点l'，设利用大语言模型判断得到其使用或影响物体o的概率为p(o|a,l')，其中，o∈o，l'∈l且p(l'|a)>0，o为所述可移动物体子集；

20、对于所有在人物活动日程中出现的活动内容a、可能发生的地点l'以及可能使用或影响的可移动物体o'，设利用大语言模型判断得到该活动a在使用或影响该物体o'后，该物体o'被放置在容器r上的概率为p(r|a,l',o')，其中，r∈r，o'∈o且p(o'|a,l')>0，r为所述容器子集。

21、在一些实施例中，所述静态具身场景数据集采用公开的静态具身场景数据集，包括procthor数据集。

22、在一些实施例中，步骤s3具体包括以下步骤：

23、s31、从静态具身场景数据集中选择一个静态具身场景并将其状态作为动态具身场景的起始状态s0；

24、s32、根据场景中的各类型地点数量确定场景中人物的数量，并从所述人物数据库中随机采样相应数量的人物；

25、s33、选取一个日期区间作为动态场景所涉及的时间区间，从所述人物数据库中抽取所生成的相应日期区间所对应的具体的人物活动日程；

26、s34、对场景中涉及到的每个人物的具体的人物活动日程中的每个事件，根据所述活动相关概率逐级采样其发生的地点，使用或影响到的可移动物体集合，以及每个被使用或影响到的可移动物体在事件结束后由于该事件影响而被移动到的新容器；

27、s35、根据人物活动日程及其中每个事件发生的地点、使用或影响到的可移动物体、以及每个被使用或影响到的可移动物体在事件结束后由于该事件影响而被移动到的新容器，计算动态具身场景中在每一时刻t的状态st，从而得到所述动态具身场景。

28、本公开第二方面提供的一种动态具身场景生成装置，所述动态具身场景随时间而变化，将任一时刻的场景定义为一个包含有场景中的地点子集、容器子集、可移动物体子集和可移动物体的位置子集的集合；所述动态具身场景生成装置包括：

29、人物设定库构建模块，用于利用人物设定信息构建人物设定库；

30、人物数据库构建模块，用于利用大语言模型对所述人物设定库中的各人物，分别生成各自的人物活动日程及活动相关概率，以此构建人物数据库；所述人物活动日程是一个事件列表，每个事件被定义为一个包含事件起始时间、事件结束时间以及由自然语言形式描述的事件的活动内容的元组；所述活动相关概率包括所述人物活动日程中任一活动内容发生在所述地点子集内任一地点的概率、所述人物活动日程中任一活动内容发生在所述地点子集内任一地点时该任一活动内容使用或影响所述可移动物体子集内任一物体的概率以及所述人物活动日程中任一活动内容发生在所述地点子集内任一地点且该任一活动使用或影响所述可移动物体子集内任一物体后该任一物体被放置于所述容器子集内任一容器的概率；

31、动态具身场景生成模块，用于从静态具身场景数据集中选择一个静态具身场景并将其状态作为动态具身场景的起始状态；从所述人物数据库中根据所述活动相关概率采样人物行为，根据采样的人物行为对场景中可移动物体的影响计算动态具身场景在每一时刻的状态，从而得到动态具身场景。

32、本公开第三方面提供的一种电子设备，包括：

33、至少一个处理器，以及，与所述至少一个处理器通信连接的存储器；

34、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行根据本公开第一方面任一实施例所述的动态具身场景生成方法。

35、本公开第四方面提供的一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行根据本公开第一方面任一实施例所述的动态具身场景生成方法。

36、本公开的特点及有益效果在于：

37、本公开通过层次化的数据生成方式，根据角色设定信息生成其行为仿真数据，以此构建人物设定库，再通过采样角色行为对场景中的物体所产生的影响，为静态具身场景提供由人类行为所产生的场景动态，进而生成动态具身场景。本公开利用了大语言模型具有文本补全功能并能够执行以自然语言定义的任务的优点，以较低的成本高效地进行包括活动相关概率的常识判断，以此生成符合常识的场景动态信息。本公开可用于具身智能领域，可以克服以往收集的具身场景不能提供动态变化的缺点，提供在人类行为影响下的动态具身场景，可以用于视觉语义导航、视觉语言导航等多个具身智能任务的训练，并可以进一步用于家政机器人的算法研发等诸多应用场景。