技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于语音数据的交互控制方法、装置、设备及存储介质与流程 > 正文

基于语音数据的交互控制方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:48:55

本申请涉及人工智能技术，尤其涉及一种基于语音数据的交互控制方法、装置、设备及存储介质。

背景技术：

1、人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。语音技术(speech technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

2、相关技术通过声音的物理频谱特征识别控制指令的关键词，从而确定声音对应的控制指令，并使终端设备执行控制指令实现终端设备的交互控制。这种方式依赖于离线语音关键词识别，关键词的匹配率不高，进而影响了语音交互控制的准确性。

3、相关技术，针对提升语音数据对终端设备的交互控制的准确性暂无较好的技术方案。

技术实现思路

1、本申请实施例提供一种基于语音数据的交互控制方法、装置、电子设备及计算机可读存储介质、计算机程序产品，能够提升通过语音数据对终端设备进行交互控制的准确性。

2、本申请实施例的技术方案是这样实现的：

3、本申请实施例提供一种基于语音数据的交互控制方法，包括：

4、获取用于作为训练样本的文本数据，其中，所述文本数据包括多个控制指令文本；

5、对所述文本数据进行语义结构化处理，得到每个所述控制指令的语义结构数据；

6、获取每个所述控制指令对应的权重值；

7、基于每个所述控制指令的权重值对每个所述控制指令的语义结构数据进行标注处理，得到带权语义数据；

8、基于所述带权语义数据训练所述语义理解模型，其中，训练后的所述语义理解模型用于将所述语音数据转换为文本数据，并识别文本数据对应的控制指令。

9、本申请实施例提供一种基于语音数据的交互控制方法，所述方法包括：

10、在人机交互界面中显示虚拟场景；

11、获取语音数据；

12、基于所述语音数据调用语义理解模型进行语义识别处理，确定所述语音数据对应的控制指令，其中，所述语义理解模型是通过本申请实施例的基于语音数据的交互控制方法训练得到的；

13、执行所述控制指令。

14、本申请实施例提供一种基于语音数据的交互控制装置，包括：

15、样本获取模块，配置为获取用于作为训练样本的文本数据，其中，所述文本数据包括多个控制指令文本；

16、样本处理模块，配置为对所述文本数据进行语义结构化处理，得到每个所述控制指令的语义结构数据；

17、样本处理模块，配置为获取每个所述控制指令对应的权重值；

18、样本处理模块，配置为基于每个所述控制指令的权重值对每个所述控制指令的语义结构数据进行标注处理，得到带权语义数据；

19、模型训练模块，配置为基于所述带权语义数据训练所述语义理解模型，其中，训练后的所述语义理解模型用于将所述语音数据转换为文本数据，并识别文本数据对应的控制指令。

20、本申请实施例提供一种基于语音数据的交互控制装置，所述装置包括：

21、显示模块，配置为在人机交互界面中显示虚拟场景；

22、语音获取模块，配置为获取语音数据；

23、识别模块，配置为基于所述语音数据调用语义理解模型进行语义识别处理，确定所述语音数据对应的控制指令，其中，所述语义理解模型是通过本申请实施例的基于语音数据的交互控制方法训练得到的；

24、所述显示模块，还配置为执行所述控制指令。

25、本申请实施例提供一种电子设备，包括：

26、存储器，用于存储计算机可执行指令；

27、处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的基于语音数据的交互控制方法。

28、本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于语音数据的交互控制方法。

29、本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现本申请实施例提供的基于语音数据的交互控制方法。

30、本申请实施例具有以下有益效果：

31、通过将控制指令的文本转换为语义结构数据，对语义结构标注权重值，基于标注了权重值的语言结构数据生成带权语义数据。通过将文本数据结构化，提升了训练样本的标注的准确性，提升了训练语义理解模型的准确性，进而提升交互控制过程中语义理解模型识别语义以及控制指令的准确性，节约了交互控制过程中所需的计算资源。

技术特征：

1.一种基于语音数据的交互控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行语义结构化处理，得到每个所述控制指令的语义结构数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取每个所述控制指令对应的权重值，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于每个所述控制指令的权重值对每个所述控制指令的语义结构数据进行标注处理，得到带权语义数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述语义模板所包括的词汇属性标签关联的多个实体词进行组合处理，得到新的多段新语义结构数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述语义模板中的非实体词分别与每个所述词汇序列进行组合，得到新的多段新语义结构数据之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述语义理解模型包括语音识别模型以及领域分类模型；

8.根据权利要求7所述的方法，其特征在于，所述基于归一化的所述带权语义数据训练所述语音识别模型，以及基于归一化的所述带权语义数据训练所述领域分类模型，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于所述带权语义数据训练所述语义理解模型，包括：

10.根据权利要求1所述的方法，其特征在于，所述基于所述带权语义数据训练所述语义理解模型之后，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述存储以下数据之间的对应关系之后，所述方法还包括：

12.一种基于语音数据的交互控制方法，其特征在于，所述方法包括：

13.一种基于语音数据的交互控制装置，其特征在于，所述装置包括：

14.一种基于语音数据的交互控制装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，所述电子设备包括：

16.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时，实现权利要求1至12任一项所述的基于语音数据的交互控制方法。

17.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时，实现权利要求1至12任一项所述的基于语音数据的交互控制方法。

技术总结本申请提供了一种基于语音数据的交互控制方法、装置、设备及存储介质；方法包括：获取用于作为训练样本的文本数据，其中，文本数据包括多个控制指令文本；对文本数据进行语义结构化处理，得到每个控制指令的语义结构数据；获取每个控制指令对应的权重值；基于每个控制指令的权重值对每个控制指令的语义结构数据进行标注处理，得到带权语义数据；基于带权语义数据训练语义理解模型，其中，训练后的语义理解模型用于将语音数据转换为文本数据，并识别文本数据对应的控制指令。通过本申请，能够提升通过语音数据对终端设备进行交互控制的准确性。技术研发人员：汪洋受保护的技术使用者：腾讯科技（深圳）有限公司技术研发日：技术公布日：2024/5/6