技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于深度学习的智能语音识别交互方法和系统与流程 > 正文

基于深度学习的智能语音识别交互方法和系统与流程

国知局
2024-06-21 11:28:18

本发明涉及语音识别的领域，尤其涉及基于深度学习的智能语音识别交互方法和系统。

背景技术：

1、语音识别已经广泛应用于智能手机等移动终端，用户与移动终端进行语音交互能够实现对移动终端的控制。目前的语音识别都是局限在用户与移动终端之间一对一的交互，在实际工作中移动终端会在不同位置场合进行变化，用户无法通过移动终端对不同位置场合的设备进行语音控制，降低语音控制在不同位置场合的适用性和切换便捷性。

技术实现思路

1、本发明的目的在于提供基于深度学习的智能语音识别交互方法和系统，其通过移动终端对外发送连接请求，并分析场景终端返回的应答消息，将移动终端与场景终端连接，并构建两者的通信通道，实现移动终端与场景终端的专用语音通信；再对来自用户的语音信号进行预处理后，基于语音属性信息，发送至场景终端，以此对语音信号进行还原和深度学习识别，得到语音语义信息，便于通过场景终端根据语音语义信息，向下属连接的设备发送工作触发指令，从而在不同场合下对应的设备进行直接高效的控制，提高对移动终端在不同场合下的语音识别控制可靠性。

2、本发明是通过以下技术方案实现：

3、基于深度学习的智能语音识别交互方法，包括：

4、通过用户所持移动终端对外广播发送连接请求，并对所述移动终端接收来自场景终端的关于所述连接请求的应答消息进行分析处理，判断所述移动终端是否允许与所述场景终端连接；当所述移动终端与所述场景终端连接后，构建所述移动终端与所述场景终端之间的通信通道；

5、对所述移动终端接收的来自所述用户的语音信号进行预处理后，基于所述语音信号的语音属性信息，通过所述通信通道将所述语音信号发送至所述场景终端；对所述场景终端接收到的语音信号依次进行还原处理和深度学习识别处理，得到语音语义信息；

6、基于所述语音语义信息，向所述场景终端下属连接的设备发送工作触发指令，指示所述设备进入相应的工作模式；并基于所述设备的实时工作状态，向所述移动终端返回设备工作通知消息。

7、可选地，通过用户所持移动终端对外广播发送连接请求，并对所述移动终端接收来自场景终端的关于所述连接请求的应答消息进行分析处理，判断所述移动终端是否允许与所述场景终端连接；当所述移动终端与所述场景终端连接后，构建所述移动终端与所述场景终端之间的通信通道，包括：

8、获取所述用户的运动状态信息，对所述运动状态信息进行分析，判断所述用户在运动过程中是否发生所在场景变换事件；若所述用户未发生所在场景变换事件，则指示所述移动终端以初始信号发送频率对外广播发送连接请求；若所述用户发生所在场景变换事件，则指示所述移动终端以大于所述初始信号发送频率的信号发送频率对外广播发送连接请求；

9、从所述移动终端接收来自场景终端的关于所述连接请求的应答消息中提取所述场景终端的终端身份信息，若所述终端身份信息存在于预设身份信息名单，则判断所述移动终端允许与所述场景终端连接；否则，判断所述移动终端不允许与所述场景终端连接；

10、当所述移动终端与所述场景终端连接后，基于所述移动终端和所述场景终端各自的网关地址，构建所述移动终端与所述场景终端之间的通信通道。

11、可选地，对所述移动终端接收的来自所述用户的语音信号进行预处理后，基于所述语音信号的语音属性信息，通过所述通信通道将所述语音信号发送至所述场景终端；对所述场景终端接收到的语音信号依次进行还原处理和深度学习识别处理，得到语音语义信息，包括：

12、对所述移动终端接收的来自所述用户的语音信号进行环境背景噪声过滤预处理后，基于所述语音信号的语音持续时间信息，将所述语音信号分割为若干语音子信号，再通过所述通信通道将所有语音子信号依次发送至所述场景终端；

13、对所述场景终端接收到的所有语音子信号依次进行拼接还原处理和深度学习识别处理，得到所述语音信号对应的语音语义信息。

14、可选地，基于所述语音语义信息，向所述场景终端下属连接的设备发送工作触发指令，指示所述设备进入相应的工作模式；并基于所述设备的实时工作状态，向所述移动终端返回设备工作通知消息，包括：

15、从所述语音语义信息提取相应的语义关键词，将所述语义关键词与所述场景终端下属连接的所有设备的触发指令表格进行对比，确定当前期望发送工作触发指令的设备地址信息，以此向相应设备发送工作触发指令，指示所述设备进入相应的工作模式；

16、获取所述设备处于所述工作模式的持续时间，若所述持续时间大于或等于预设时间阈值，则向所述移动终端返回设备正常工作通知消息；否则，向所述移动终端返回设备未正常工作通知消息。

17、基于深度学习的智能语音识别交互系统，包括：

18、移动终端连接处理模块，用于通过用户所持移动终端对外广播发送连接请求，并对所述移动终端接收来自场景终端的关于所述连接请求的应答消息进行分析处理，判断所述移动终端是否允许与所述场景终端连接；

19、通信通道构建模块，用于当所述移动终端与所述场景终端连接后，构建所述移动终端与所述场景终端之间的通信通道；

20、语音信号预处理与发送模块，用于对所述移动终端接收的来自所述用户的语音信号进行预处理后，基于所述语音信号的语音属性信息，通过所述通信通道将所述语音信号发送至所述场景终端；

21、语音信号识别处理模块，用于对所述场景终端接收到的语音信号依次进行还原处理和深度学习识别处理，得到语音语义信息；

22、触发指令发送模块，用于基于所述语音语义信息，向所述场景终端下属连接的设备发送工作触发指令，指示所述设备进入相应的工作模式；

23、通知消息返回模块，用于基于所述设备的实时工作状态，向所述移动终端返回设备工作通知消息。

24、可选地，所述移动终端连接处理模块用于通过用户所持移动终端对外广播发送连接请求，并对所述移动终端接收来自场景终端的关于所述连接请求的应答消息进行分析处理，判断所述移动终端是否允许与所述场景终端连接，包括：

25、获取所述用户的运动状态信息，对所述运动状态信息进行分析，判断所述用户在运动过程中是否发生所在场景变换事件；若所述用户未发生所在场景变换事件，则指示所述移动终端以初始信号发送频率对外广播发送连接请求；若所述用户发生所在场景变换事件，则指示所述移动终端以大于所述初始信号发送频率的信号发送频率对外广播发送连接请求；

26、从所述移动终端接收来自场景终端的关于所述连接请求的应答消息中提取所述场景终端的终端身份信息，若所述终端身份信息存在于预设身份信息名单，则判断所述移动终端允许与所述场景终端连接；否则，判断所述移动终端不允许与所述场景终端连接；

27、所述通信通道构建模块用于当所述移动终端与所述场景终端连接后，构建所述移动终端与所述场景终端之间的通信通道，包括：

28、当所述移动终端与所述场景终端连接后，基于所述移动终端和所述场景终端各自的网关地址，构建所述移动终端与所述场景终端之间的通信通道。

29、可选地，所述语音信号预处理与发送模块用于对所述移动终端接收的来自所述用户的语音信号进行预处理后，基于所述语音信号的语音属性信息，通过所述通信通道将所述语音信号发送至所述场景终端，包括：

30、对所述移动终端接收的来自所述用户的语音信号进行环境背景噪声过滤预处理后，基于所述语音信号的语音持续时间信息，将所述语音信号分割为若干语音子信号，再通过所述通信通道将所有语音子信号依次发送至所述场景终端；

31、所述语音信号识别处理模块用于对所述场景终端接收到的语音信号依次进行还原处理和深度学习识别处理，得到语音语义信息，包括：

32、对所述场景终端接收到的所有语音子信号依次进行拼接还原处理和深度学习识别处理，得到所述语音信号对应的语音语义信息。

33、可选地，所述触发指令发送模块用于基于所述语音语义信息，向所述场景终端下属连接的设备发送工作触发指令，指示所述设备进入相应的工作模式，包括：

34、从所述语音语义信息提取相应的语义关键词，将所述语义关键词与所述场景终端下属连接的所有设备的触发指令表格进行对比，确定当前期望发送工作触发指令的设备地址信息，以此向相应设备发送工作触发指令，指示所述设备进入相应的工作模式；

35、所述通知消息返回模块用于基于所述设备的实时工作状态，向所述移动终端返回设备工作通知消息，包括：

36、获取所述设备处于所述工作模式的持续时间，若所述持续时间大于或等于预设时间阈值，则向所述移动终端返回设备正常工作通知消息；否则，向所述移动终端返回设备未正常工作通知消息。

37、与现有技术相比，本发明具有如下有益效果：

38、本技术提供的基于深度学习的智能语音识别交互方法和系统通过移动终端对外发送连接请求，并分析场景终端返回的应答消息，将移动终端与场景终端连接，并构建两者的通信通道，实现移动终端与场景终端的专用语音通信；再对来自用户的语音信号进行预处理后，基于语音属性信息，发送至场景终端，以此对语音信号进行还原和深度学习识别，得到语音语义信息，便于通过场景终端根据语音语义信息，向下属连接的设备发送工作触发指令，从而在不同场合下对应的设备进行直接高效的控制，提高对移动终端在不同场合下的语音识别控制可靠性。