技术新讯 > 计算推算,计数设备的制造及其应用技术 > 融合大语言模型的智能任务型对话方法、系统、设备及程序产品与流程  >  正文

融合大语言模型的智能任务型对话方法、系统、设备及程序产品与流程

  • 国知局
  • 2024-09-05 14:51:07

本发明涉及人工智能,尤其涉及一种融合大语言模型的智能任务型对话方法及系统。

背景技术:

1、在自然语言处理领域,智能任务型对话系统一直扮演着关键角色,广泛应用于各类行业,协助人工客服高效处理各类事务。这类系统通常专注于完成特定场景下的任务,如机票预订、会议室预订、产品推广等,通过与用户的实时对话互动,既精准捕捉到完成任务所必需的具体信息,又凭借高精度的用户意图识别技术,在不同对话流程中灵活切换,进而反馈出恰如其分的回答策略。传统的任务导向对话框架,如rasa,通过构建场景故事、定义用户意图、标识关键实体、设计话术模板及预设执行动作等方式,构建了完善的任务处理结构,并利用标记数据训练意图识别和实体抽取模型,形成强大的自然语言理解(nlu)模块。然而,随着大语言模型技术如chatgpt的飞速发展,现有的智能任务型对话系统如rasa框架也面临着一些局限性和挑战。

2、首先,对于数据的依赖性较强,传统的任务型对话系统通常需要大量的标注数据来进行模型训练,以便模型能够理解和处理用户话术中的意图和实体。对于特定领域的任务型对话系统,需要通过数据收集和标注来为模型训练做准备。无论是训练两个模型分别用作意图分类和实体识别,还是训练一个joint模型同时完成意图分类和实体识别,都离不开大量的训练数据。意图分类和实体识别的模型通常只能处理训练数据中包含的内容,当场景需要进行拓展或者引入新的场景时,往往伴随着新的意图类型与新的实体引入,这时需要对于之前训练的模型进行重新训练或二次训练,也是比较耗时耗力的一个步骤。

3、其次,在话术生成方面,传统方法往往缺乏多样性。系统通常基于预设好的话术模板进行回复,尽管可以通过配置不同模板来增加回复的多样性,但整体而言,多样性仍然有限。用户在多次尝试时容易遇到重复的回复话术,降低了用户体验。

4、此外,对话的一致性和连贯性也存在不足。传统任务型对话框架中,系统的回复内容主要依赖于当前对话流程的位置。例如,在机票预订场景中,系统在询问完出发地和目的地后,通常会直接询问出发日期,而不考虑用户之前的对话内容和态度。这种机械式的回复虽然实现了多轮对话的交互,但整体对话的连贯性和流畅性相对较弱,影响了用户与系统的自然交流体验。

技术实现思路

1、针对上述问题,本发明提出了一种融合大语言模型的智能任务型对话方法及系统。该系统借鉴了传统任务型对话系统的设计理念,并结合了大语言模型的强大能力,实现了场景的快速适应和高效配置。通过动态加载特定场景的配置信息,该系统能够按照预设的流程逻辑高效地推进轮对话过程,极大地简化了数据标注和模型训练的步骤。

2、本发明提供一种融合大语言模型的智能任务型对话方法,具体包括:

3、获取与用户的对话;

4、针对用户的输入信息进行识别解析;

5、根据识别解析的结果同步更新对话状态追踪器的状态;

6、根据追踪器的智能引导至恰当的对话场景节点;

7、执行预先设定好的action以完成特定的任务;

8、基于当前对话节点情境和完整的对话历史数据,生成机器人的反馈话术。

9、优选的,为了适应不同的任务导向对话场景,该系统还需进行细致的场景配置工作,涵盖一系列关键要素:定制化的话术节点设计、实体信息采集节点设置、流程跳转逻辑规划,以及与任务相关的执行动作等。

10、本发明提供一种融合大语言模型的智能任务型对话系统,通过融合大语言模型与任务型对话模块来实现一种更灵活更智能的智能任务型对话系统,其主要由意图实体识别模块、状态追踪模块、动作执行模块、话术生成模块组成。

11、(1)任务型对话模块

12、针对不同的任务场景,需要进行相应的场景配置工作。配置过程通常包括以下几个关键部分:话术节点、信息采集节点、流程跳转逻辑、任务相关执行动作。

13、话术节点,即在不同的节点上配置适宜的话术回复策略;承载着引导与塑造交互流程的任务。对每个话术节点进行精细化配置,旨在确保其在特定情境下能够精准执行预设的对话生成策略,从而推动对话进程的流畅与目标导向。对于话术生成策略,关键在于配置其对应的prompt,一个有效的prompt能够清晰地传达意图,引导用户进入相关的对话流程,同时保持高度的自然度。在后续的nlg话术生成模块,将发挥至关重要的作用。

14、信息采集节点,根据具体的任务需求,向用户提出问题以收集相关的实体信息;要负责收集完成任务所需要的实体信息。对于每个实体信息,除了其名称外,还需要额外配置每个实体的实体类型、候选项以及样例,这些信息都将运用在nlu实体识别时的prompt构建。对于信息采集节点本身,当话术流程跳转到该节点时,该节点的对话策略为“根据已收集到的实体信息以及尚为空缺的实体信息,向用户发问,从而将所有所需实体补充完整”。

15、流程跳转逻辑,确保不同节点之间能够顺利连接和切换的关键。根据节点的类型不同,会设置相应的跳转逻辑。例如,在用户完成信息收集后,系统会对收集到的信息进行二次确认。在这个过程中,系统会根据用户的回答来判断其意图。如果用户表达的是“要修改”或“不修改”的意图,流程会按照这一意图进行跳转,将用户导向相应的节点。在信息收集阶段,流程跳转的决策还会基于当前信息的完整度。在配置这些跳转逻辑时,通常还会为每种意图逻辑编写简短的描述或介绍。其不仅有助于流程设计的清晰性,还会作为自然语言理解(nlu)意图识别时构建prompt的一部分,为大模型在执行特定任务时提供更全面的信息参考。

16、任务相关执行动作是在对话流程的特定位置触发的一系列操作。这些动作支持接入各类功能接口,如查询数据库、更新用户账户状态、发送通知邮件等,以满足不同任务场景的需求。在预定餐厅、购买商品、预约服务等实际应用中,动作执行发挥着关键作用,确保对话能够直接驱动业务操作的执行。通过在任务型对话的流程中嵌入执行动作,不仅丰富了对话的交互方式,还使得对话不再局限于单纯的信息交流,而是能够直接作用于业务流程的推进。随着业务需求的不断发展和变化,可以便捷地新增、修改或删除动作,对接新的接口服务,以适应不断演进的业务逻辑。这种灵活性使得任务型对话系统能够持续满足用户的多样化需求,提供更为高效、便捷的服务体验。

17、(2)nlu意图实体识别

18、nlu模块主要负责识别用户话术中的意图以及实体信息,本发明中该模块借助大语言模型的能力高效地完成意图识别与实体识别的任务:通过prompt的构建,给出合适的指令驱动大语言模型完成特定的任务。

19、在意图识别部分,系统根据当前对话所处的场景和对话进度,确定当前节点可能的子节点,获取链接当前节点与子节点之间的意图逻辑,作为当前候选意图集合。由于系统支持高度自由的对话,因此还会将“闲聊、重复、转人工”等意图纳入全局意图。每个意图都会配置相应的意图描述,以明确其含义。对于prompt的构建,可以参考如下的示例模板:“你是一个意图识别助手,需要返回最贴切的意图名称,当无法判断正确意图时,可返回闲聊意图。当前对话主题为xxx。所有候选意图名称与描述为:{需要预定:表示用户有预定会议室的想法或诉求,不需要预定:表示xxx,...}请对以下话术进行意图分类,要求仅返回意图名称即可,不要返回其他内容。当前话术:xxx。意图为:”这里对话主题为刚任务场景的简要描述,所有候选意图为当前候选意图与全局意图的合集。大语言模型能够根据prompt中的候选意图及描述,结合当前话术,返回最为贴切的意图名称,从而达到意图识别的目的。

20、在实体识别部分,系统主要根据当前已识别的实体槽位信息和用户当前的话术,判断是否需要更新或修改实体槽位信息,从而达到实体识别的目的。这部分的prompt构建与意图识别有所不同,模板可能如下:“你是一个多轮对话任务中的实体维护助手,请根据现有的实体信息,以及最新话术语句,对于实体信息进行更新维护,对于没有识别到的实体信息,保留其原有值。所有需要识别的实体信息如下:xxx。当前的实体信息slot_info:xxx,请识别以下话术语句中的实体信息,并对slot_info进行更新,并返回更新后的slot_info内容。话术:xxx。更新后的slot_info为:”大语言模型能够根据prompt中的当前实体信息,结合用户当前话术,返回更新后的实体信息。这样做的好处是能够将实体识别和实体更新进行紧密结合,在一些特殊的场景下用户可能会对之前描述的实体信息进行修改,该方法可以很好地对这种情况进行处理,对整个任务型对话中的实体槽位信息能够进行很好的维护。

21、(3)dst tracker状态追踪

22、状态追踪器是任务型对话框架中一个重要组成部分,该部分主要负责记录和更新用户在多轮对话中的对话状态,主要包括:记录和更新两个方面。

23、状态追踪器在任务型对话的流程中将对以下信息进行记录,包括:

24、场景信息:针对场景包括但不限于场景类型、场景描述、场景所包含的完整流程信息、场景特有的规则或约束条件等,确保对话系统能够在正确的语境下理解和响应用户的话术。

25、当前节点:在任务型对话中,对话流程通常会被建模为一个有向图,每个节点代表了对话的一个阶段或一个决策点。状态追踪器会实时记录当前对话进展到哪个节点,这有助于对话系统确定接下来应采取的对话行为以及可能的对话路径。

26、实体槽位信息:状态追踪器会持续记录当前对话中已识别到的实体槽位信息,以及未填充槽位的状态,这有助于在任务型对话的聊天过程中,协助系统针对未填充的槽位向用户进行提问,进而提升信息收集的效率和准确性。

27、对话历史信息:状态追踪器会保存该用户完整的对话历史记录,这有助于大模型在生成聊天话术时能够参考更完善的对话信息,结合了历史记录的对话内容生成将更加自然且一致性高。

28、状态追踪器也会在对话流进行的过程中,动态维护更新上述的这些内容。识别到特定的用户意图时,会根据当前流程位置进行合适的节点跳转,节点跳转后会动态更新当前节点的信息内容。对于实体槽位信息,在对话的过程中以及信息收集的特定节点,当模型识别到特定的实体信息时,会对当前状态追踪器中记录的实体信息进行动态更新。对于对话历史信息,则在与用户对话交互的过程中进行更新。

29、(4)action动作执行

30、动作执行模块的核心功能在于在任务型对话流程的特定环节触发并执行与当前任务紧密相关的操作,这些操作可能涉及查询数据库、调用外部接口等,旨在即时满足用户需求并推动对话流程的顺利进行。

31、动作执行模块具备强大的与外部系统通信的能力,这些系统包括但不限于数据库、api接口服务以及企业内部系统等。它能够通过预设好的动作交互机制,获取动作执行的结果,并将这些结果迅速反馈给对话系统。在某些场景下,这些执行结果还可能影响状态追踪器的状态信息,进而影响对话生成时的策略选择。

32、动作执行模块通过精准地触发和执行各类动作,实现了对话系统与外部资源的高效协同,极大地扩展了对话系统的功能范围。

33、(5)nlg话术生成

34、nlg模块主要负责对话系统中的话术生成,生成的话术将直接作为机器人回复话术展示给用户。本发明中该模块将借助大语言模型强大的文本生成能力来生成系统回复话术,通过prompt的构建,通过合理的指令驱动大模型生成最合适的回复内容。

35、在话术生成过程中,我们主要考虑两个关键部分。首先是当前对话节点的话术生成策略,这些策略在场景配置阶段就被预先定义和细化,明确了在特定节点下系统生成话术时应遵循的语言风格、话术目的、预知信息以及生成建议等。其次,用户的历史对话信息也是生成话术时的重要参考。当nlg模块接收到这两部分信息后,它将按照预先配置的策略指导大语言模型进行话术生成。确保生成的话术内容不仅遵循设定的对话逻辑和业务规则,还能保持对话的连贯性和一致性。

36、在构建大语言模型的输入指令prompt时,模板示例如下:

37、“你是一个xxx场景下的多轮对话回答生成助手,请参考当前对话dialogue以及当前的要求requirement,生成一段合适的最新bot话术。当最新的用户话术是问句时,请必须优先简短地回答他的问题,回答问题后再衔接一段话术来满足requirement要求。

38、当前对话内容dialogue:[xxx,xxx,xxx,xxx]

39、要求requirement:xxx。

40、请对bot最新回答进行生成:”

41、其中场景名称为该任务型对话的场景简要介绍,当前对话内容dialogue为完整的历史对话信息,而要求requirement为每个节点所配置的话术生成策略,例如在会议室预定场景中以问候节点为例,可以配置如下策略:“与用户友好打招呼,告知对方你是一个会议室预定助手,并询问对方是否有会议室预定需求。”通过上述prompt模板的配置,大模型能够优先针对用户的问题以及话术给出最合适的回应,再将对话内容拉回任务主题,如此生成的回复话术在保持专业性与一致性的同时也可以对于任务型对话的流程进行推进,能够显著提升对话系统的交互质量和效率。

42、基于上述提出的融合大语言模型的智能任务型对话方法,为了更好地实现本发明,进一步地提出一种电子设备,包括存储器和处理器;所述存储器上存储有计算机程序;当所述计算机程序在所述处理器上执行时,实现上述的融合大语言模型的智能任务型对话方法。

43、基于上述提出的融合大语言模型的智能任务型对话方法,为了更好地实现本发明,进一步地提出本发明提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现融合大语言模型的智能任务型对话方法的步骤。

44、有益效果

45、首本发明采用大语言模型予以替代性解决方案,无需依赖特定的训练数据集准备及耗时的模型训练过程,而是借助于指令提示词(prompt),即可引导模型生成所需答案。此类大语言模型在经历大规模数据的预训练之后,一方面沉淀了深厚的自然语言知识底蕴,另一方面也展现出卓越的人类指令执行力。大语言模型的推理机制呈现出zero-shot特性,无须额外模型训练及大量专项训练数据的情况,只需在构造prompt时明确指定任务类别及相关参数,并辅以一两个典型示例作为参照,模型即能针对新任务作出响应。该方法显著降低了模型训练所需的数据规模和人力投入成本,而且对于未来可能出现的新意图类别或实体类型,只需更新prompt设定,就能实现快速适应和迭代优化,极大提升了系统的灵活性与效率。

46、除此之外,对于对话系统的智能回复模块,将借助大语言模型强大的语言对话能力,通过prompt配置,让大语言模型一方面可以在各个场景节点生成合适的话术内容。大语言模型对生成的话术可以赋予很强的随机性,在保持话术原有含义不变的前提下可以生成丰富多样的话术。另一方面大语言模型拥有很强的长文本处理能力,在大模型生成话术的时候,会同时将过去几轮的历史对话记录也作为prompt的一部分传给大模型。如此设计确保了生成的回答能够与先前的对话上下文紧密衔接,形成连贯且逻辑一致的对话流。这种方式极大增强了对话的真实性和用户体验,使智能回复不再局限于预设的模板,能够灵活应对复杂的场景和用户问题的变化。

本文地址:https://www.jishuxx.com/zhuanli/20240905/288462.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。