技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于5G的虚拟人物语音互动控制方法和系统与流程 > 正文

基于5G的虚拟人物语音互动控制方法和系统与流程

国知局
2024-06-21 11:54:32

本发明涉及vr互动显示的领域，尤其涉及基于5g的虚拟人物语音互动控制方法和系统。

背景技术：

1、vr头戴设备能够为用户提供的虚拟显示场景，用户能够在虚拟显示场景中观看到沉浸式逼真化的三维图像。为了进一步提高用户的虚拟沉浸观感，vr头戴设备还能够与用户进行语音互动，通过语音识别技术能够与用户进行准确实时的语音交流互动，改善用户的vr影像观看体验。但是现有的vr头戴设备在语音互动过程中使用的应答语音都是合成语音，导致语音互动过程较为生硬，无法为用户提供熟悉舒适的语音交互场景。此外，用户通过vr头戴设备进行语音互动过程中，无法与vr头戴设备的虚拟显示场景中的虚拟人物进行良好的匹配，容易发生虚拟人物的视觉状态与其语音状态不匹配的情况，影响语音互动的沉浸感和真实感。

技术实现思路

1、本发明的目的在于提供基于5g的虚拟人物语音互动控制方法和系统，其分析vr头戴设备的佩戴者发出的初始语音数据，得到有效语音属性信息，以此构建vr头戴设备与云端平台的5g通信通道，保证来自佩戴者的语音信号能够快速无损地传输至云端平台进行识别分析；基于佩戴者在vr头戴设备处于虚拟显示场景下发出的实时语音数据，在虚拟显示场景生成相应的虚拟人物，保证虚拟人物与虚拟显示场景的协调性；还基于实时语音数据的语义识别结果，生成应答语义信息，并结合虚拟显示场景的视觉属性信息，生成应答语音信息，保证虚拟人物与应答语音的匹配性；还调整虚拟人物对应答语音信息的执行语音状态，为佩戴者提供具有良好沉浸感和真实感的语音互动。

2、本发明是通过以下技术方案实现：

3、基于5g的虚拟人物语音互动控制方法，包括：

4、对vr头戴设备的佩戴者发出的初始语音数据进行分析，得到相应的有效语音属性信息；基于所述有效语音属性信息，构建所述vr头戴设备与云端平台的5g通信通道；

5、获取所述佩戴者在所述vr头戴设备处于相应虚拟显示场景下发出的实时语音数据，基于所述实时语音数据，在所述虚拟显示场景生成相应的虚拟人物；再基于对所述实时语音数据的语义识别结果，生成相应的应答语义信息；

6、基于所述应答语义信息和所述虚拟人物在所述虚拟显示场景的视觉属性信息，生成相应的应答语音信息；再基于所述佩戴者在所述vr头戴设备的历史语音互动记录，调整所述虚拟人物对所述应答语音信息的执行语音状态。

7、可选地，对vr头戴设备的佩戴者发出的初始语音数据进行分析，得到相应的有效语音属性信息；基于所述有效语音属性信息，构建所述vr头戴设备与云端平台的5g通信通道，包括：

8、对vr头戴设备的佩戴者进行说话语音数据采集，得到若干说话语音样本数据；对每个说话语音样本数据进行分析，得到每个说话语音样本数据包含的佩戴者语音成分和背景噪声成分；基于所有说话语音样本数据各自包含的佩戴者语音成分和背景噪声成分，得到所述vr头戴设备在当前所处环境条件下对所述佩戴者发出的语音数据形成的语音信号对应的信噪比属性信息，以此作为所述有效语音属性信息；

9、基于所述信噪比属性信息，确定对来自所述vr头戴设备进行无损语音信号传输所需的通信通道带宽属性信息和延迟属性信息；再基于所述通信通道带宽属性信息和延迟属性信息，构建所述vr头戴设备与云端平台的5g通信通道。

10、可选地，当完成所述说话语音数据的采集后，将所述说话语音数据传输到相应分析端进行分析，其中将所述说话语音数据传输到分析端包括：

11、步骤s1，利用下面公式(1)，根据采集得到的说话语音数据和所述vr头戴设备的设备编号，确定所述说话语音数据的压缩参数，

12、n＝max[len(y16)-len(d16)+1,0] (1)

13、在上述公式(1)中，n表示所述说话语音数据的压缩参数；y16表示所述vr头戴设备的设备编号的16进制形式；d16表示所述说话语音数据的16进制形式；len()表示求取括号内数据的数据总位数；max[,]表示求取括号内逗号左右两边数值中的最大值；

14、步骤s2，利用下面公式(2)，根据所述压缩参数，对所述说话语音数据进行压缩，

15、d16＝d16-(y16>>n) (2)

16、在上述公式(2)中，d16表示压缩后的说话语音数据的16进制形式；>>n表示右移n位；

17、将压缩后的说话语音数据和所述压缩参数转化为16进制数据后传输到分析端；

18、步骤s3，利用下面公式(3)，根据所述vr头戴设备的设备编号和转化为16进制数据的压缩参数，对完成传输的压缩后的说话语音数据进行解压，

19、d'16＝d16+[y16>>(n16)10] (3)

20、在上述公式(3)中，d'16表示解压后的说话语音数据的16进制形式数据；n16表示转化为16进制数据的压缩参数；()10表示将括号内的数值转换为10进制数；>>(n16)10表示右移(n16)10位。

21、可选地，获取所述佩戴者在所述vr头戴设备处于相应虚拟显示场景下发出的实时语音数据，基于所述实时语音数据，在所述虚拟显示场景生成相应的虚拟人物；再基于对所述实时语音数据的语义识别结果，生成相应的应答语义信息，包括：

22、当所述vr头戴设备进入相应虚拟显示场景的工作模式后，基于所述佩戴者的语音特征信息，从所述vr头戴设备接收到的声音数据中提取所述佩戴者发出的实时语音数据；对所述实时语音数据进行语义识别处理，判断所述实时语音数据是否包含预设语音指令；若包含，则在所述虚拟显示场景生成相应的虚拟人物；

23、对所述实时语音数据的语义识别结果进行学习处理，确定所述语义识别结果包含的语义关键词，再基于所述语义关键词，生成相应的应答语义信息。

24、可选地，基于所述应答语义信息和所述虚拟人物在所述虚拟显示场景的视觉属性信息，生成相应的应答语音信息；再基于所述佩戴者在所述vr头戴设备的历史语音互动记录，调整所述虚拟人物对所述应答语音信息的执行语音状态，包括：

25、基于所述应答语义信息，生成初始应答语音信息；基于所述虚拟人物在所述虚拟显示场景的视觉外形特征信息，对所述初始应答语音信息进行关于匹配的应答声音特征转换处理，生成相应的应答语音信息；

26、对所述佩戴者在所述vr头戴设备的历史语音互动记录进行分析，得到与所述佩戴者匹配的应答语音语速和声量信息；再基于所述应答语音语速和声量信息，调整所述虚拟人物执行所述应答语音信息形成的应答语音信号对应的语速和声量。

27、基于5g的虚拟人物语音互动控制系统，包括：

28、有效语音属性识别模块，用于对vr头戴设备的佩戴者发出的初始语音数据进行分析，得到相应的有效语音属性信息；

29、5g通信通道构建模块，用于基于所述有效语音属性信息，构建所述vr头戴设备与云端平台的5g通信通道；

30、实时语音数据处理模块，用于获取所述佩戴者在所述vr头戴设备处于相应虚拟显示场景下发出的实时语音数据，基于所述实时语音数据，在所述虚拟显示场景生成相应的虚拟人物；

31、应答语义信息生成模块，用于基于对所述实时语音数据的语义识别结果，生成相应的应答语义信息；

32、应答语音信息生成模块，用于基于所述应答语义信息和所述虚拟人物在所述虚拟显示场景的视觉属性信息，生成相应的应答语音信息；

33、应答语音执行调整模块，用于基于所述佩戴者在所述vr头戴设备的历史语音互动记录，调整所述虚拟人物对所述应答语音信息的执行语音状态。

34、可选地，所述有效语音属性识别模块用于对vr头戴设备的佩戴者发出的初始语音数据进行分析，得到相应的有效语音属性信息，包括：

35、对vr头戴设备的佩戴者进行说话语音数据采集，得到若干说话语音样本数据；对每个说话语音样本数据进行分析，得到每个说话语音样本数据包含的佩戴者语音成分和背景噪声成分；基于所有说话语音样本数据各自包含的佩戴者语音成分和背景噪声成分，得到所述vr头戴设备在当前所处环境条件下对所述佩戴者发出的语音数据形成的语音信号对应的信噪比属性信息，以此作为所述有效语音属性信息；

36、所述5g通信通道构建模块用于基于所述有效语音属性信息，构建所述vr头戴设备与云端平台的5g通信通道，包括：

37、基于所述信噪比属性信息，确定对来自所述vr头戴设备进行无损语音信号传输所需的通信通道带宽属性信息和延迟属性信息；再基于所述通信通道带宽属性信息和延迟属性信息，构建所述vr头戴设备与云端平台的5g通信通道。

38、可选地，所述实时语音数据处理模块用于获取所述佩戴者在所述vr头戴设备处于相应虚拟显示场景下发出的实时语音数据，基于所述实时语音数据，在所述虚拟显示场景生成相应的虚拟人物，包括：

39、当所述vr头戴设备进入相应虚拟显示场景的工作模式后，基于所述佩戴者的语音特征信息，从所述vr头戴设备接收到的声音数据中提取所述佩戴者发出的实时语音数据；对所述实时语音数据进行语义识别处理，判断所述实时语音数据是否包含预设语音指令；若包含，则在所述虚拟显示场景生成相应的虚拟人物；

40、所述应答语义信息生成模块用于基于对所述实时语音数据的语义识别结果，生成相应的应答语义信息，包括：

41、对所述实时语音数据的语义识别结果进行学习处理，确定所述语义识别结果包含的语义关键词，再基于所述语义关键词，生成相应的应答语义信息。

42、可选地，所述应答语音信息生成模块用于基于所述应答语义信息和所述虚拟人物在所述虚拟显示场景的视觉属性信息，生成相应的应答语音信息，包括：

43、基于所述应答语义信息，生成初始应答语音信息；基于所述虚拟人物在所述虚拟显示场景的视觉外形特征信息，对所述初始应答语音信息进行关于匹配的应答声音特征转换处理，生成相应的应答语音信息；

44、所述应答语音执行调整模块用于基于所述佩戴者在所述vr头戴设备的历史语音互动记录，调整所述虚拟人物对所述应答语音信息的执行语音状态，包括：

45、对所述佩戴者在所述vr头戴设备的历史语音互动记录进行分析，得到与所述佩戴者匹配的应答语音语速和声量信息；再基于所述应答语音语速和声量信息，调整所述虚拟人物执行所述应答语音信息形成的应答语音信号对应的语速和声量。

46、与现有技术相比，本发明具有如下有益效果：

47、本技术提供的基于5g的虚拟人物语音互动控制方法和系统分析vr头戴设备的佩戴者发出的初始语音数据，得到有效语音属性信息，以此构建vr头戴设备与云端平台的5g通信通道，保证来自佩戴者的语音信号能够快速无损地传输至云端平台进行识别分析；基于佩戴者在vr头戴设备处于虚拟显示场景下发出的实时语音数据，在虚拟显示场景生成相应的虚拟人物，保证虚拟人物与虚拟显示场景的协调性；还基于实时语音数据的语义识别结果，生成应答语义信息，并结合虚拟显示场景的视觉属性信息，生成应答语音信息，保证虚拟人物与应答语音的匹配性；还调整虚拟人物对应答语音信息的执行语音状态，为佩戴者提供具有良好沉浸感和真实感的语音互动。