技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法、装置、计算机设备及可读存储介质与流程 > 正文

语音交互方法、装置、计算机设备及可读存储介质与流程

国知局
2024-06-21 11:51:22

本发明涉及语音识别，尤其涉及一种语音交互方法、装置、计算机设备及可读存储介质。

背景技术：

1、随着科学技术的飞速发展，基于语音识别技术的语音交互相关服务已经被广泛地应用在人们的日常生活和工作中。由于地域差异和文化多样性，语音交互服务需要满足使用不同方言的用户的需求，准确的方言语音识别对于提高语音交互服务的水平至关重要。

2、相关技术中，提出了多方言语音识别方法，可以实现对多种方言的语音识别。然而，相关技术中针对方言语音的识别准确率较低，导致语音交互的准确性有待提高。

技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提出一种语音交互方法、装置、计算机设备及可读存储介质，通过对待识别语音以及对应的目标方言细分类别进行识别，提高对方言的识别准确率，从而提高语音交互的准确性。

2、为达到上述目的，本发明第一方面实施方式提出了一种语音交互方法，所述方法包括：获取用户标识对应的待识别方言种类和待识别语音；其中，所述待识别方言种类划分有多个方言细分类别，所述方言细分类别具有与所述方言细分类别的方言特点对应的文本转换规则；在语音识别模型库中确定所述待识别方言种类对应的目标语音识别模型；其中，所述语音识别模型库包括不同方言种类对应的方言语音识别模型；利用所述目标语音识别模型对所述待识别语音进行识别，得到方言语音文本，以及在所述多个方言细分类别中确定所述方言语音文本对应的目标方言细分类别；基于所述方言语音文本以及所述目标方言细分类别对应的文本转换规则确定所述待识别语音对应的用户指令；根据所述用户指令执行相应的操作，得到操作响应结果。

3、根据本发明的一个实施方式，所述获取用户标识对应的待识别方言种类，包括以下任一种：响应于对方言种类的选择操作，确定所述待识别方言种类；根据用户注册地区在方言种类集合中确定所述待识别方言种类；基于所述用户标识对应的网络通信物理地址在所述方言种类集合中确定所述待识别方言种类。

4、根据本发明的一个实施方式，所述语音交互方法还包括：若没有接收到对方言种类的选择操作，且没有获取到所述用户注册地区和所述网络通信物理地址，利用预设的标准语言种类在所述语音识别模型库中确定对应的标准语音识别模型，以利用所述标准语音识别模型对所述待识别语音进行识别。

5、根据本发明的一个实施方式，所述利用所述目标语音识别模型对所述待识别语音进行识别，得到方言语音文本，包括：利用所述目标语音识别模型对所述待识别语音进行识别，得到任一方言细分类别对应的类别语音识别内容和置信度数据；根据所述多个方言细分类别分别对应的置信度数据，在所述多个方言细分类别分别对应的类别语音识别内容中确定目标识别内容，作为所述方言语音文本。

6、根据本发明的一个实施方式，所述文本转换规则包括所述目标方言细分类别的词汇与标准语言种类的词汇之间的映射关系，以及所述目标方言细分类别对应的语法结构中的至少一个；所述基于所述方言语音文本以及所述目标方言细分类别对应的文本转换规则确定所述待识别语音对应的用户指令，包括：根据所述映射关系以及所述语法结构中的至少一个，将所述方言语音文本转换为标准语言文本；对所述标准语言文本进行解析，得到所述用户指令。

7、根据本发明的一个实施方式，所述根据所述用户指令执行相应的操作，得到操作响应结果，包括：对所述用户指令中的关键词进行解析，得到关键词解析结果；根据所述关键词解析结果与预设程序组件之间的匹配结果执行相应的操作，得到所述操作响应结果。

8、根据本发明的一个实施方式，所述根据所述关键词解析结果与预设程序组件之间的匹配结果执行相应的操作，包括：若所述匹配结果表明所述关键词解析结果存在匹配的预设程序组件，调用所述匹配的预设程序组件执行相应的操作；或者，若所述匹配结果表明所述关键词解析结果不存在所述匹配的预设程序组件，调用大语言模型执行相应的操作。

9、根据本发明的一个实施方式，所述语音交互方法还包括：根据所述操作响应结果生成所述目标方言细分类别对应的方言响应语音。

10、根据本发明的一个实施方式，所述根据所述操作响应结果生成所述目标方言细分类别对应的方言响应语音，包括：基于所述目标方言细分类别对应的方言语种特征对所述操作响应结果进行转换，得到所述方言响应语音；其中，所述方言语种特征包括声学特征、韵律规则、语法规则中的至少一个。

11、为达到上述目的，本发明第二方面实施方式提出了一种语音交互装置，所述装置包括：方言种类获取模块，用于获取用户标识对应的待识别方言种类和待识别语音；其中，所述待识别方言种类划分有多个方言细分类别，所述方言细分类别具有与所述方言细分类别的方言特点对应的文本转换规则；识别模型确定模块，用于在语音识别模型库中确定所述待识别方言种类对应的目标语音识别模型；其中，所述语音识别模型库包括不同方言种类对应的方言语音识别模型；语音识别模块，用于利用所述目标语音识别模型对所述待识别语音进行识别，得到方言语音文本，以及在所述多个方言细分类别中确定所述方言语音文本对应的目标方言细分类别；用户指令获取模块，用于基于所述方言语音文本以及所述目标方言细分类别对应的文本转换规则确定所述待识别语音对应的用户指令；用户指令执行模块，用于根据所述用户指令执行相应的操作，得到操作响应结果。

12、为达到上述目的，本发明第三方面实施方式提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述任一项实施方式所述的语音交互方法的步骤。

13、为达到上述目的，本发明第四方面实施方式提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述任一项实施方式所述的语音交互方法的步骤。

14、根据本发明提供的多个实施方式，针对同一方言种类，通过方言语音识别模型对待识别语音以及对应的目标方言细分类别进行识别，并利用目标方言细分类别对应的文本转换规则辅助理解识别后的方言语音文本中包含的用户的真实意图，可以有效提高对同一方言种类的不同方言细分类别的识别率，从而可以提高语音交互的准确性。对于识别出的方言语音文本，通过结合对应的方言细分类别的文本转换规则，能够更准确地将方言语音文本转换为标准化的文本，以提高对用户指令和需求的理解的准确性，从而提高对用户指令和需求的响应能力，提高语音交互服务水平。

15、本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种语音交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用户标识对应的待识别方言种类，包括以下任一种：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述目标语音识别模型对所述待识别语音进行识别，得到方言语音文本，包括：

5.根据权利要求1所述的方法，其特征在于，所述文本转换规则包括所述目标方言细分类别的词汇与标准语言种类的词汇之间的映射关系，以及所述目标方言细分类别对应的语法结构中的至少一个；所述基于所述方言语音文本以及所述目标方言细分类别对应的文本转换规则确定所述待识别语音对应的用户指令，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述用户指令执行相应的操作，得到操作响应结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述关键词解析结果与预设程序组件之间的匹配结果执行相应的操作，包括：

8.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述操作响应结果生成所述目标方言细分类别对应的方言响应语音，包括：

10.一种语音交互装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法的步骤。

技术总结本发明公开了一种语音交互方法、装置、计算机设备及可读存储介质，该方法包括：获取用户标识对应的待识别方言种类和待识别语音；在语音识别模型库中确定待识别方言种类对应的目标语音识别模型；利用目标语音识别模型对待识别语音进行识别，得到方言语音文本，以及在多个方言细分类别中确定方言语音文本对应的目标方言细分类别；基于方言语音文本以及目标方言细分类别对应的文本转换规则确定待识别语音对应的用户指令；根据用户指令执行相应的操作，得到操作响应结果。由此通过方言语音识别模型对待识别语音以及对应的目标方言细分类别进行识别，有效提高对方言的识别准确率，从而提高语音交互的准确性。技术研发人员：郭继硕,温金雄受保护的技术使用者：协鑫电港云科技（海南）有限公司技术研发日：技术公布日：2024/5/12