技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音意图确定方法、装置、设备及存储介质与流程 > 正文

语音意图确定方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:29:37

本发明涉及数据处理，具体涉及一种语音意图确定方法、装置、设备及存储介质。

背景技术：

1、随着智能驾驶技术的不断发展，用户对于智能驾驶、车载系统等汽车领域的语音交互系统的要求也不断提高。在语音交互系统中，自然语言处理(natural languageprocessing,nlp)技术的应用越来越重要。特别是，基于用户语音内容进行文本分类是nlp领域的一项关键任务，用于将文本归类到预定义的类别中。目前，nlp主要是使用基于来自变换器的双向编码器表征量(bidirectional encoder representations fromtransformers，bert)模型的文本分类方法，bert模型是一种预训练的深度学习模型，通过在大规模文本数据上进行无监督训练，学习丰富的上下文信息，从而能够更好地理解文本语境。

2、但是，在上述方法中，基于bert模型的文本分类方法虽然在许多nlp任务中表现出色，但在智能驾驶等领域存在一些局限性，并且现有的基于用户语音内容进行文本分类方法通常只关注于文本本身，而忽略了用户与车辆对话的上下文和车辆状态数据，不能准确识别用户意图，导致在特定情境下，对识别到的用户语音内容的分类结果不够精准和全面，影响了智能驾驶系统的交互性能和用户体验。从而，在车辆语音交互系统中，识别用户语音内容的意图的效果较差、准确度较低。

技术实现思路

1、本发明的目的在于提供一种语音意图确定方法、装置、设备及存储介质，以解决在车辆语音交互系统中，识别用户语音内容的意图的效果较差、准确度较低的技术问题。本技术的技术方案如下：

2、根据本技术涉及的第一方面，提供一种语音意图确定方法，方法包括：在接收到用户输入的目标语音内容的情况下，获取目标车辆的车机状态参数和多条历史对话文本数据，多条历史对话文本数据为用户与车机之间的对话数据；从多条历史对话文本数据中抽取样本数据，并基于样本数据对预设模型进行训练得到目标模型，目标模型用于分析语音内容对应的意图；基于目标车辆的车机状态参数、目标历史对话文本数据和目标语音内容，从预设的多个识别策略中确定目标策略，目标历史对话文本数据为多条历史对话文本数据中的最后一条历史对话文本数据，多个识别策略包括：基于车机状态参数确定目标语音内容对应的意图、基于历史对话文本数据确定目标语音内容对应的意图、基于车机状态参数和历史对话文本数据确定目标语音内容对应的意图；基于目标策略、目标车辆的车机状态参数和目标历史对话文本数据，生成目标上下文信息，目标上下文信息用于指示最后一条历史对话文本数据的意图及车机功能响应结果；基于目标模型和目标上下文信息确定目标语音内容对应的目标意图。

3、根据上述技术手段，本技术是当用户与车机之间进行对话时，接收用户输入的目标语音内容，并获取目标车辆的车机状态参数和多条历史对话文本数据。然后，从多条历史对话文本数据抽取样本数据对预设模型进行训练，得到目标模型，并根据车机状态参数、最后一条历史对话文本数据和目标语音内容，确定目标策略，从而获取目标上下文信息，再利用目标模型和目标上下文信息确定目标语音内容对应的目标意图。通过上述方法，基于获取的目标车辆的车机状态参数和多条历史对话文本数据，训练得到目标模型，以及从预设的多个识别策略中确定目标策略，从而实现在用户与车机之间对话时，对目标语音内容的意图识别，为后续文本分类提供依据，从而在车辆语音交互系统中，提高确定用户语音内容的意图的效果和准确度。

4、在一种可能的实施方式中，方法还包括：确定多条历史对话文本数据中的每条历史对话文本数据对应的上下文信息，上下文信息用于指示历史对话文本数据的意图及车机功能响应结果；基于多条历史对话文本数据中的每条历史对话文本数据对应的上下文信息，确定多个意图，并确定多个意图中的每个意图对应的占比。

5、根据上述技术手段，本技术可以通过确定多条历史对话文本数据的上下文信息，得到多个意图，以及多个意图中每个意图对应的占比情况，从而可以根据在历史对话文本中的多个意图，对预设模型进行训练，得到目标模型，进而利用目标模型，得到目标语音内容的意图。

6、在一种可能的实施方式中，从多条历史对话文本数据中抽取样本数据，包括：基于多个意图中的每个意图对应的占比从多条历史对话文本数据中抽取样本数据。

7、根据上述技术手段，本技术可以通过得到的多个意图中每个意图对应的占比情况，从多条历史对话文本数据中按比例抽取样本数据，保证每个意图都可以被预设模型进行训练，保证得到的目标模型的准确性。

8、在一种可能的实施方式中，确定多条历史对话文本数据中的每条历史对话文本数据对应的上下文信息，包括：对多条历史对话文本数据进行数据处理，得到处理后的多条历史对话文本数据，数据处理包括以下至少一项：分词处理、去除停用词处理、词干化处理；对处理后的多条历史对话文本数据进行数据分析处理，确定每条历史对话文本数据对应的上下文信息。

9、根据上述技术手段，本技术可以通过多条历史对话文本数据进行数据处理，减少历史对话文本中的噪音，保证文本的使用效率，再对数据进行分析处理，从而得到需要的上下文信息，保证后续多个意图的识别。

10、根据本技术提供的第二方面，提供一种语音意图确定装置，语音意图确定装置包括获取模块、处理模块；获取模块，用于在接收到用户输入的目标语音内容的情况下，获取目标车辆的车机状态参数和多条历史对话文本数据，多条历史对话文本数据为用户与车机之间的对话数据；处理模块，用于从多条历史对话文本数据中抽取样本数据，并基于样本数据对预设模型进行训练得到目标模型，目标模型用于分析语音内容对应的意图；处理模块，还用于基于目标车辆的车机状态参数、目标历史对话文本数据和目标语音内容，从预设的多个识别策略中确定目标策略，目标历史对话文本数据为多条历史对话文本数据中的最后一条历史对话文本数据，多个识别策略包括：基于车机状态参数确定目标语音内容对应的意图、基于历史对话文本数据确定目标语音内容对应的意图、基于车机状态参数和历史对话文本数据确定目标语音内容对应的意图；处理模块，还用于基于目标策略、目标车辆的车机状态参数和目标历史对话文本数据，生成目标上下文信息，目标上下文信息用于指示最后一条历史对话文本数据的意图及车机功能响应结果；处理模块，还用于基于目标模型和目标上下文信息确定目标语音内容对应的目标意图。

11、在一种可能的实施方式中，处理模块，还用于确定多条历史对话文本数据中的每条历史对话文本数据对应的上下文信息，上下文信息用于指示历史对话文本数据的意图及车机功能响应结果；处理模块，还用于基于多条历史对话文本数据中的每条历史对话文本数据对应的上下文信息，确定多个意图，并确定多个意图中的每个意图对应的占比。

12、在一种可能的实施方式中，处理模块，具体用于基于多个意图中的每个意图对应的占比从多条历史对话文本数据中抽取样本数据。

13、在一种可能的实施方式中，处理模块，具体用于对多条历史对话文本数据进行数据处理，得到处理后的多条历史对话文本数据，数据处理包括以下至少一项：分词处理、去除停用词处理、词干化处理；处理模块，具体用于对处理后的多条历史对话文本数据进行数据分析处理，确定每条历史对话文本数据对应的上下文信息。

14、根据本技术提供的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述第一方面及其任一种可能的实施方式的方法。

15、根据本技术提供的第四方面，提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面中及其任一种可能的实施方式的方法。

16、根据本技术提供的第五方面，提供一种车辆，包括：语音意图确定装置，用于实现上述第一方面及其任一种可能的实施方式的方法。

17、根据本技术提供的第六方面，提供一种计算机程序产品，计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述第一方面及其任一种可能的实施方式的方法。

18、由此，本技术的上述技术特征具有以下有益效果：

19、(1)当用户与车机之间进行对话时，接收用户输入的目标语音内容，并获取目标车辆的车机状态参数和多条历史对话文本数据。然后，从多条历史对话文本数据抽取样本数据对预设模型进行训练，得到目标模型，并根据车机状态参数、最后一条历史对话文本数据和目标语音内容，确定目标策略，从而获取目标上下文信息，再利用目标模型和目标上下文信息确定目标语音内容对应的目标意图。通过上述方法，基于获取的目标车辆的车机状态参数和多条历史对话文本数据，训练得到目标模型，以及从预设的多个识别策略中确定目标策略，从而实现在用户与车机之间对话时，对目标语音内容的意图识别，为后续文本分类提供依据，从而在车辆语音交互系统中，提高确定用户语音内容的意图的效果和准确度。

20、(2)可以通过确定多条历史对话文本数据的上下文信息，得到多个意图，以及多个意图中每个意图对应的占比情况，从而可以根据在历史对话文本中的多个意图，对预设模型进行训练，得到目标模型，进而利用目标模型，得到目标语音内容的意图。

21、(3)可以通过得到的多个意图中每个意图对应的占比情况，从多条历史对话文本数据中按比例抽取样本数据，保证每个意图都可以被预设模型进行训练，保证得到的目标模型的准确性。

22、(4)可以通过多条历史对话文本数据进行数据处理，减少历史对话文本中的噪音，保证文本的使用效率，再对数据进行分析处理，从而得到需要的上下文信息，保证后续多个意图的识别。

23、需要说明的是，第二方面至第六方面中的任一种实现方式所带来的技术效果可参见第一方面中对应实现方式所带来的技术效果，此处不再赘述。

24、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。