技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种信息处理的方法、装置、设备和计算机可读存储介质与流程  >  正文

一种信息处理的方法、装置、设备和计算机可读存储介质与流程

  • 国知局
  • 2024-06-21 10:42:07

本技术涉及车载对话,具体涉及一信息处理的方法、装置、设备和计算机可读存储介质。

背景技术:

1、在车载任务型对话场景中,通过对车上用户的语音指令(包括人与人、人与机器的对话)进行语义理解,获得对应的语义理解结果,并根据语义理解结果响应用户的语音指令,从而达到满足用户的车机使用体验的目的。在实际中,为了提升用户的车机使用体验,对语音指令对应语义的正确、快速理解尤为重要。

2、相关技术中,通常利用小模型,如变换器的双向编码器表示模型(bidirectionalencoder representations from transformers,bert)或大模型如生成式预训练变换器模型(generative pre-trained transformer,gpt)对用户语音或可识别文本进行语义理解,小模型可以对简单语义快速理解,但是泛化能力差,对长尾的、复杂的、挑战型的对话理解能力差;大模型的泛化能力强,对各种类型对话的语义理解的准确性高,但是推理速度慢。

技术实现思路

1、本技术提供一种信息处理的方法、装置、设备和计算机可读存储介质,该信息处理的方法能够快速理解简单文本信息的语义,减少文本信息语义的错误理解,提升车载对话系统认知理解能力。

2、本技术的技术方案是这样实现的:

3、本技术实施例提供一种信息处理的方法,包括:识别接收的语音指令的第一文本信息;利用训练好的第一ai模型对所述第一文本信息进行语义理解,得到第一理解结果;以及利用训练好的第二ai模型对所述第一文本信息进行语义理解,得到第二理解结果;所述第一ai模型与所述第二ai模型不同;所述第一理解结果和第二理解结果均包括所述第一文本信息所表示的语义;所述第一ai模型的训练数据类型多于所述第二ai模型的训练数据类型;所述第一ai模型的至少一个结构参数的值大于所述第二ai模型的相应结构参数的值;至少基于所述第一理解结果和所述第二理解结果,响应所述语音指令。

4、可以理解的是,在本技术实施例提供的信息处理的方法中,识别接收的语音指令对应的第一文本信息;通过训练好的第一ai模型和训练好的第二ai模型分别对第一文本信息进行语义理解,得到对应的第一理解结果和第二理解结果;至少基于第一理解结果和第二理解结果,响应语音指令。如此,由于第一ai模型的训练数据类型多于第二ai模型的训练数据类型,而第一ai模型的至少一个结构参数的值大于第二ai模型的相应结构参数的值,因此,通过利用训练好的第一ai模型和训练好的第二ai模型同时对第一文本信息进行语义理解,获得两种理解结果,并结合至少两种理解结果对语音指令进行响应,实现了至少两种ai模型的语义理解优势的结合,从而能够快速理解简单文本信息的语义,减少文本信息语义理解的错误,提升车载对话系统认知理解能力。

5、在一些实施例中,所述第一理解结果包括表征所述第二理解结果正确性的子结果,所述子结果为所述第一文本信息对应的第一问题类型;所述第一问题类型包括表征所述第二理解结果错误的第一特定类型和表征所述第二理解结果正确第二特定类型。

6、可以理解的是,由于第一理解结果包括表征第二理解结果正确性的子结果,子结果包括第一问题类型,第一问题类型包括第一特定类型和第二特定类型,因此可以根据第一特定类型和第二特定类型对第二理解结果的正确性进行快速预判,而不是直接基于第二理解结果对语音指令进行响应,或者仅基于第一理解结果对语音指令进行响应,提升了语义理解准确性的同时,加快了语音指令响应速度。

7、在一些实施例中,所述至少基于所述第一理解结果和所述第二理解结果,响应所述语音指令,包括:若在所述第一问题类型为第一特定类型的情况下并且已基于所述第二理解结果生成第一执行指令,输出第一提示信息;其中,所述第一执行指令用于控制相应对象的工作状态,所述第一提示信息用于提示所述第一执行指令的执行结果是基于错误理解所述语音指令的语义而生成的。

8、可以理解的是,若第一文本信息的第一问题类型为第一特定类型,则表示预判第一理解结果错误,此时若确定已经基于第二理解结果生成了第一执行指令,则可以输出第一提示信息,该第一提示信息可以提示语音指令的发出者第二理解结果错误,且基于第二理解结果生成的第一指令的执行结果是因为错误理解语音指令而导致的,实现向语音指令的发出者认错的目的,提升语音指令的发出者的车机体验。

9、在一些实施例中,所述至少基于所述第一理解结果和所述第二理解结果,响应所述语音指令,还包括:若所述第一问题类型为所述第一特定类型且未基于所述第二理解结果生成所述第一执行指令,禁止所述第一执行指令的生成,并输出第二提示信息;所述第二提示信息用于提示用户语音指令正在解析中。

10、可以理解的是,若第一文本信息的第一问题类型为第一特定类型,则表示预判第二理解结果错误,在预判第二理解结果错误但是并未基于第二理解结果生成第一执行指令的情况下,通过禁止生成第一执行指令,可以防止基于错误的第二理解结果响应语音指令,通过输出第二提示信息可以提示用户当前正在解析语音指令,提升用户的车机使用体验。

11、在一些实施例中,所述子结果还包括所述第一文本信息的结构化自然语言理解结果,所述信息处理的方法还包括:若确定检测到所述结构化自然语言理解结果,基于所述结构化自然语言理解结果生成第二执行指令。

12、可以理解的是,在预判第二理解结果错误之后,若检测到第一文本信息的结构化自然语言理解结果,通过基于该结构化自然语言理解结果生成第二执行指令,可以提高对语音指令理解的正确性。

13、在一些实施例中,所述信息处理方法还包括:获取基于所述第二执行指令的执行结果得到的第一文本反馈信息;基于所述第一文本反馈信息,输出语义理解纠正信息和/或第一语音反馈信息。

14、可以理解的是,通过将基于第一文本反馈信息得到的第一语音反馈信息,以及语义理解纠正信息输出,使得语音指令的发出者可以获得语音指令正确的反馈结果,并明确第一语音反馈信息是在对错误的语义理解结果纠正后获得的,提升用户的车机使用体验。

15、在一些实施例中,所述至少基于所述第一理解结果和所述第二理解结果,响应所述语音指令,包括:若所述第一问题类型为所述第二特定类型,基于所述第二理解结果响应所述语音指令。

16、可以理解的是,若所述第一问题类型为第二特定类型,则说明基于第一问题类型预判第二理解结果正确,在此情况下直接基于第二理解结果响应语音指令,可以提高语音指令的响应速度。

17、在一些实施例中,所述基于所述第二理解结果响应所述语音指令,包括:获取基于第三执行指令的执行结果得到的第二文本反馈信息,所述第三执行指令的执行结果是基于所述第二理解结果生成的;基于所述第二文本反馈信息,输出第二语音反馈信息。

18、可以理解的是,通过获取基于第三执行指令的执行结果得到的第二文本反馈信息,并基于第二文本反馈信息输出第二语音反馈信息,可以使得语音指令的发出者可以获知语音指令的反馈结果,即第三执行指令的执行结果。

19、在一些实施例中,所述子结果还包括所述第一文本信息的结构化自然语言理解结果,所述信息处理方法还包括:若所述第一问题类型为所述第二特定类型,中断所述第一ai模型确定所述结构化自然语言理解结果的处理进程。

20、可以理解的是,在预判第二理解结果正确的情况下,通过中断第一ai模型确定结构化自然语言理解结果的处理进程,可以结束第一ai模型的流式推理过程,从而减少运行内存的占用,加快响应语音指令的响应速度。

21、在一些实施例中,所述信息处理方法还包括:将所述第一文本信息和所述第一理解结果作为一个条目存储至预设存储区域。

22、可以理解的是,通过将第一文本信息和第一理解结果作为一个条目存储至预设存储区域,可以使得后续在获得语音指令的第一文本信息后,直接基于第一文本信息对应的第一理解结果响应语音指令,提高语音指令的响应速度。

23、在一些实施例中,所述至少基于所述第一理解结果和所述第二理解结果,响应所述语音指令,包括:基于所述第一理解结果、所述第二理解结果和第三理解结果响应于所述语音指令;所述第三理解结果是通过训练好的第三ai模型对所述第一文本信息进行语义理解得到的;所述第三ai模型和所述第一ai模型、所述第二ai模型均不同。

24、可以理解的是,通过利用训练好的第一ai模型的第一理解结果、训练好的第二ai模型的第二理解结果和训练好的第三ai模型的第三理解结果,对语音指令进行响应,增加了对语音指令响应方式的多重决策,实现了结合多种ai模型的语义理解优势,从而减少文本信息语义理解的错误,提升车载对话系统认知理解能力。

25、在一些实施例中,所述第三ai模型的训练数据类型多于所述第二ai模型的训练数据类型。

26、可以理解的是,由于第三ai模型的训练数据类型比第二ai模型的训练数据类型多,使得训练好的第三ai模型的泛化能力强于训练好的第二ai模型的泛化能力,因此第三ai模型对新的、复杂的文本信息进行语义理解的适应能力较好,使得基于第三ai模型对第一文本信息进行理解可以提升语义理解的正确性。

27、在一些实施例中,所述第一理解结果包括所述第一文本信息对应的第一问题类型;所述第三理解结果包括所述第一文本信息对应的第二问题类型;所述基于所述第一理解结果、所述第二理解结果和第三理解结果响应于所述语音指令,包括:若所述第一问题类型和所述第二问题类型中的至少一个为第一特定类型,基于所述第一理解结果和所述第三理解结果响应所述语音指令。

28、可以理解的是,若第一文本信息的第一问题类型/第二问题类型为第一特定类型,则表示预判第二理解结果错误,在第一理解结果和第三理解结果中的至少一个预判第二理解结果错误的情况下,便基于第一理解结果和第三理解结果进行响应,从而可以避免基于错误的语义理解结果响应语音指令。

29、在一些实施例中,所述第一问题类型和所述第二问题类型包括所述第一文本信息对应的场景;所述基于所述第一理解结果和所述第三理解结果响应所述语音指令,包括:若所述第一文本信息对应的场景为第一预设场景,根据获得所述第一理解结果和所述第三理解结果的先后顺序,确定所述第一文本信息的目标理解结果,所述目标理解结果为第一理解结果或第三理解结果;或,若所述第一文本信息对应的场景为第二预设场景,根据所述第一ai模型训练数据的类型和所述第二ai模型的训练数据的类型的大小关系,确定所述第一文本信息的目标理解结果;基于所述目标理解结果响应于所述语音指令。

30、可以理解的是,通过根据第一文本信息对应的预设场景,可以确定用户期望的反馈时长,在第一文本信息对应的场景为第一预设场景的情况下,用户期望的反馈时延较短,根据获得第一理解结果和第四理解结果的先后顺序,根据先获得理解结果响应语音指令,可以满足用户对时延较短的场景反馈需求;在第一文本信息对应的场景为第二预设场景的情况下,用户期望的反馈时延较长,基于训练数据类型多的ai模型的理解结果响应语音指令,可以提高车载对话系统的认知能力。

31、在一些实施例中,所述基于所述目标理解结果响应于所述语音指令,包括:基于所述目标理解结果生成第四执行指令;获取基于所述第四执行指令的执行结果得到的第三文本反馈信息;基于所述第三文本反馈信息得到第三语音反馈信息。

32、可以理解的是,通过基于第一理解结果或第四理解结果生成第四执行指令,并基于第四执行指令的执行结果得到文本反馈信息,以使得语音指令的发出者可以获知语音指令的反馈结果,即第四执行指令的执行结果。

33、在一些实施例中,所述基于所述第一理解结果、所述第二理解结果和第四理解结果第三理解结果响应于所述语音指令,还包括:若所述第一问题类型和所述第二问题类型中的至少一个为第一特定类型,且已基于所述第二理解结果生成第五执行指令,输出第三提示信息;所述第三提示信息用于提示所述第五执行指令的执行结果是基于错误理解所述语音指令的语义而生成的。

34、可以理解的是,在预判第二理解结果错误的情况下,如果已经基于第二理解结果生成了第五执行指令表示第二理解结果已经下发,在此情况下,可以通过输出第三提示信息可以达到向用户认错的目的。

35、在一些实施例中,所述基于所述第一理解结果、所述第二理解结果和第四理解结果第三理解结果响应于所述语音指令,还包括:若所述第一问题类型和所述第二问题类型中的至少一个为第一特定类型,且若未基于所述第二理解结果生成第五执行指令,禁止所述第五执行指令的生成,并输出第四提示信息;所述第四提示信息用于提示用户语音指令正在解析中。

36、可以理解的是,在预判第二理解结果错误的情况下,如果并未基于第二理解结果生成第五执行指令,通过禁止第五执行指令的生成可以防止错误的第二理解结果下发,通过输出第四提示信息可以争取获得第一理解结果并基于第一理解结果响应的时间,从而提高用户的车机体验。在一些实施例中,所述基于所述第一理解结果、所述第二理解结果和第三理解结果响应于所述语音指令,还包括:若所述第一问题类型和所述第二问题类型均为第二特定类型,基于所述第二理解结果响应所述语音指令。

37、可以理解的是,若第一问题类型和第二问题类型均为第二特定类型,表示预判第二理解结果错误,在第一理解结果和第三理解结果均预判第二理解结果正确的情况下,则确定第二理解结果正确,直接基于第二理解结果响应语音指令,可以提高语音指令的响应速度。

38、在一些实施例中,所述基于所述第二理解结果响应所述语音指令,包括:获取基于第六执行指令的执行结果得到的第四文本反馈信息,所述第六执行指令是基于所述第二理解结果生成的;基于所述第四文本反馈信息,输出第四语音反馈信息。

39、可以理解的是,通过基于第二理解结果生成第六执行指令,并基于第六执行指令的执行结果得到第四文本反馈信息,并基于第四文本反馈信息输出第四语音反馈指令,可以使得语音指令的发出者可以获得基于第二理解结果获得的第六执行指令的执行结果。

40、在一些实施例中,所述子结果还包括所述第一文本信息对应的结构化自然语言理解结果;所述利用训练好的第一ai模型对所述第一文本信息进行语义理解,得到第一理解结果,包括:将所述第一文本信息输入至训练好的所述第一ai模型,若基于所述训练好的第一ai模型的第一输出信息检测到第一分段标识,根据所述第一分段标识从所述第一输出信息中提取所述第一文本信息对应的第一问题类型;可以理解的是,通过第一分段标识可以获取第一ai模型的第一段流式输出结果,即第一文本信息的第一问题类型,便可以快速地根据第一问题类型对第二理解结果的正确性进行预判,在预判第二理解结果不正确时,基于第一理解结果响应语音指令,从而提升语音指令的响应速度。

41、在一些实施例中,若基于所述训练好的第一ai模型的第二输出信息检测到第二分段标识,根据所述第二分段标识从所述第二输出信息中提取所述第一文本信息的结构化自然语言理解结果。

42、可以理解的是,通过第二分段标识信息,可以获取第一ai模型的第二段流式输出结果,季第一文本信息的结构化自然语言理解结果,基于结构化自然语言理解结果便可以生成执行指令,以对语音指令进行响应。

43、在一些实施例中,若根据所述第一分段标识从所述第一输出信息中未提取到所述第一文本信息对应的第一问题类型,输出语义理解请求信息;所述语义理解请求信息用于请求所述语音指令的发出者说出所述第一文本信息正确的语义理解语音信息;获取针对所述语义理解请求信息反馈的所述第一文本信息的语义理解语音信息;基于所述语义理解语音信息,生成所述第一文本信息的第四理解结果;将所述第一文本信息和所述第四理解结果作为一个条目存储至预设存储区域。

44、可以理解的是,若从所述第一输出信息中未提取到所述第一文本信息对应的问题类型,则说明第一ai模型无法确定出第一文本信息的问题类型,此情况下通过输出语义理解请求信息,可以通过语音指令的发出者反馈的语义理解语音信息,确定正确的第四理解结果,并将第一文本信息和第四理解结果对应存储在预设存储区域中,使得后续若再接收发到相同的语音指令时,可以直接基于预设存储区域中的第四理解结果进行快速响应。

45、在一些实施例中,所述信息处理的方法还包括:若确定所述第一文本信息和预设存储区域中存储的参考文本信息相同,从所述预设存储区域中获取所述参考文本信息对应的参考语义理解结果;基于所述参考语义理解结果响应所述语音指令。

46、可以理解的是,在确定第一文本信息和预设存储区域中的参考文本信息相同的情况下,可以直接基于预设存储区域中的参考文本信息对应的参考语义理解结果,响应语音指令,而不需要通过第一ai模型或第二ai模型对第一文本信息进行语义理解,从而提升语音指令的响应速度。

47、在一些实施例中,所述利用训练好的第一ai模型对所述第一文本信息进行语义理解,得到第一理解结果,包括:获取所述第一文本信息的历史文本信息;将所述第一文本信息和所述历史文本信息输入至所述训练好的第一ai模型,得到所述第一理解结果。

48、可以理解的是,通过将第一文本信息和第一文本信息的历史文本信息,输入至训练好的第一ai模型,可以使得第一ai模型在对第一文本信息进行语义理解时,可以结合第一文本信息的历史信息,从而提升对第一ai模型对第一文本信息语义理解的正确性。

49、在一些实施例中,所述利用训练好的第二ai模型对所述第一文本信息进行语义理解,得到第二理解结果,包括:将所述第一文本信息和所述历史文本信息输入至所述训练好的第二ai模型,得到所述第二理解结果。

50、可以理解的是,通过将第一文本信息和第一文本信息的历史文本信息输入至训练好的第二ai模型,使得第二ai模型在对第一文本信息进行语义理解时,可以结合第一文本信息的历史文本信息,从而提升第二ai模型对第一文本信息语义理解的正确性。

51、在一些实施例中,所述第一ai模型的训练数据类型包括所述第二ai模型的训练数据类型以及不同于所述第二ai模型的训练数据类型的其他数据类型。

52、可以理解的是,由于第一ai模型的训练数据类型包括第二ai模型的训练数据,以及不同于第二ai模型的训练数据的其他数据类型,使得第一ai模型的训练数据的类型多于第二ai模型的训练数据的类型,因此第一ai模型的泛化能力强于第二ai模型的泛化能力,基于第一ai模型对复杂语音指令进行语义理解,便可以得到正确性高的第一理解结果,基于该第一理解结果响应复杂语音指令,而并不采用第二ai模型对复杂语音指令进行语义理解后得到的第二理解结果响应该复杂语音指令,从而达到提升车载对话系统能力的目的。

53、在一些实施例中,所述第一ai模型包括第一神经网络模型,所述第二ai模型包括第二神经网络模型;其中,所述第一神经网络模型包括第一编码器和解码器,所述第二神经网络模型包括第二编码器。

54、可以理解的是,由于第一神经网络模型包括编码器和解码器,而第二神经网络不包括解码器,使得第一神经网络模型对第一文本信息进行语义理解后可以直接获得结构化的自然语言理解结果,基于第二神经网络模型对第一文本信息进行语义理解后可以获得第一文本信息的领域(domain)分类、意图(intent)分类和语义槽(slot)信息。

55、在一些实施例中,所述第一神经网络模型的网络层总数大于所述第二神经网络模型的网络层总数。

56、可以理解的是,由于第一神经网络模型的网络层总数比第二神经网络模型的网络层总数多,因此,第二神经网络模型的网络结构比第一神经网络模型的结构简单,因此在利用第二神经网络模型对第一文本信息进行语义理解时,可以快速地获得第二理解结果。在一些实施例中,所述第一ai模型的训练过程,包括:获取目标训练数据集,所述目标训练数据集包括多个合规的目标训练数据和各个目标训练数据的标注信息;利用超参数为参考参数的第一ai模型对所述多个合规的目标训练数据进行语义理解,得到多个参考理解结果;基于所述多个参考理解结果和所述各个目标训练数据的标注信息,对所述第一ai模型的参考参数进行反向传播训练,直至满足收敛条件,得到所述训练好的第一ai模型。

57、可以理解的是,由于目标训练数据集中包括多个合规的目标训练数据,使得基于多个合规的目标训练数据对第一ai模型的参考参数进行训练,可以提升第一ai模型的合规性,保证训练后获得的训练好的第一ai模型具有合规能力。

58、在一些实施例中,所述获取目标训练数据集,包括:获取所述第二ai模型的第一训练数据集,所述第一训练数据集包括多个第一训练数据;将所述多个第一训练数据分别进行转换处理,得到包括多个第二训练数据的第二训练数据集;利用所述第二训练数据集对所述第一ai模型的预设参数进行训练,得到所述第一ai模型的参考参数;获取测试数据集,所述第二训练数据集和所述测试数据集不同,所述测试数据集包括多个测试数据;利用超参数为参考参数的所述第一ai模型对所述多个测试数据进行语义理解,得到多个第五理解结果,并利用所述训练好的第二ai模型对所述多个测试数据进行语义理解,得到多个第六理解结果;基于所述多个第五理解结果和所述多个第六理解结果,确定所述目标训练数据集。

59、可以理解的是,通过对第二ai模型的第一训练数据集中的第一训练数据进行转换处理,可以获得适应于第一ai模型输入的第二训练数据集,以对第一ai模型的预设参数进行训练,从而获得第一ai模型的参考参数;利用不同于第二训练数据集的测试数据集对超参数为参考参数的第一ai模型进行测试获得的第五理解结果,以及利用不同于第二训练数据集的测试数据集对训练好的第二ai模型进行测试获得的第六理解结果,可以确定出用于对第一ai模型进行训练的目标训练数据集,保证目标训练数据集的丰富度,从而提升训练好的第一ai模型的泛化能力。

60、在一些实施例中,所述基于所述多个第五理解结果和所述多个第六理解结果,确定所述目标训练数据集,包括:若第i个测试数据对应的第五理解结果和所述第i个测试数据对应的第六理解结果不同,将所述第i个测试数据确定为第一类训练数据;其中,i大于0且小于或等于所述测试数据的总数;若第i个测试数据对应的第五理解结果和所述第i个测试数据对应的第六理解结果相同,将所述第i个测试数据确定为第二类训练数据;基于至少一个所述第一类训练数据、各个第一类训练数据对应的第五理解结果、至少一个所述第二类训练数据和各个第二类训练数据对应的第五理解结果/第六理解结果,构建所述目标训练数据集。

61、可以理解的是,通过在确定第五理解结果和第六理解结果不同时获得的第一类训练数据、第一类训练数据对应的第五理解结果,以及在确定第五理解结果和第六理解结果相同时获得的第二类训练数据、第二类训练数据对应的第五理解结果或第六理解结果,可以获得第一ai模型的目标训练数据,增加了目标训练数据的数量,从而使得后续在基于目标训练数据对第一ai模型进行训练后,获得泛化能力强于第二ai模型的第一ai模型,基于第一ai模型的理解结果可以纠正第二ai模型的理解结果。

62、本技术实施例提供一种信息处理的装置,包括:识别模块,用于识别接收的语音指令的第一文本信息;第一语义理解模块,用于利用训练好的第一ai模型对所述第一文本信息进行语义理解,得到第一理解结果;以及利用训练好的第二ai模型对所述第一文本信息进行语义理解,得到第二理解结果;所述第一ai模型不同于所述第二ai模型;所述第一理解结果和第二理解结果均包括所述第一文本信息所表示的语义;第一语音指令响应模块,用于至少基于所述第一理解结果和所述第二理解结果,响应所述语音指令。

63、本技术实施例提供一种信息处理的设备,包括:存储器,用于存储可执行信息处理的指令;处理器,用于执行所述存储器中存储的可执行信息处理的指令时,实现本技术实施例中提供的方法。

64、本技术实施例提供一种计算机可读存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令配置为执行上述信息处理的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21326.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。