技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种应用于城市大脑的语音交互方法及系统与流程 > 正文

一种应用于城市大脑的语音交互方法及系统与流程

国知局
2024-06-21 11:57:56

本发明涉及语音交互，特别涉及一种应用于城市大脑的语音交互方法及系统。

背景技术：

1、城市大脑是一种拟人的说法，我们之所以称城市为“人”，主要是基于城市的生命体理论。城市是人类社会发展过程中在一定区域形成的、以非农业人口为主体的经济、政治、社会、文化、生态要素高度聚集的复杂巨系统。这个系统表现出了显著的生命体征，如新陈代谢、应激反应、自适应机制、生长变异。在人类智慧和机器智能的共同参与下，在物联网、大数据、人工智能、边缘计算、5g、云机器人和数字孪生等前沿技术的支撑下，数字神经元网络和云反射弧将是城市大脑建设的重点。城市大脑的作用是提高城市的运行效率，解决城市运行中面临的复杂问题，更好地满足市民的不同需求。

2、语音交互技术是指通过音频数据作为输入和输出媒介，实现人与计算机之间的交互，从而实现信息的传递和任务的执行。它利用语音识别、语音合成和自然语言处理等技术，使计算机能够理解和生成自然语言，进而与人进行对话。其主要应用在智能助理、智能家居、智能交通、医疗保健等领域。现有的语音交互结构复杂，且在嘈杂的环境中，需要清晰的识别出人声，包括将人声和环境声进行分离，将人声和人声进行分离。嘈杂环境使得人声的提取变得非常困难，尤其是针对远场语音交互，语音识别的精确率低。

技术实现思路

1、本发明提供一种应用于城市大脑的语音交互方法及系统，用以解决在嘈杂的环境中由于周围环境的干扰系统无法精确并快速的捕捉到用户的需求，进而做出错误的回应的情况。

2、一方面，本发明提供一种应用于城市大脑的语音交互方法，包括以下步骤：

3、拾取当前环境下的音频数据，并利用音频嘈杂度测算模型对音频数据进行检测；

4、当从音频数据中检测到唤醒词时，根据当前周围环境的嘈杂度判断是否需要对音频数据进行降噪处理，若需要，则对音频数据进行降噪处理；

5、通过语音交互模型对无需降噪/经过降噪处理后的音频数据进行语音识别，得到待处理信息；

6、通过应答数据库为待处理信息匹配最佳回应信息，并将最佳回应信息转化为语音信号并向用户播放。

7、进一步地，所述音频数据进行降噪处理的步骤具体包括：

8、通过滤波器过滤掉音频数据中的背景噪声，得到人声信号；

9、识别人声信号的声源的位置，得到多个发声位置信息；

10、根据包含唤醒词的人声信号的声纹识别结果，确定交互用户；

11、根据发声位置信息对交互用户所对应的音频信号进行增强，并对其他发声用户的音频信号进行减弱。

12、进一步地，所述确定当前周围环境的嘈杂度的具体步骤包括：

13、对包含有唤醒词的人声信号的声纹进行识别，识别完成后得到交互用户的音频信号，即目标音频信号；根据目标音频信号和音频数据得到干扰信号；计算干扰信号在音频数据中的占比，得到当前周围环境的嘈杂度。

14、进一步地，所述音频数据是通过立体空间麦克风阵列进行持续拾取的，其中，所述发声位置信息是利用信号参数估计算法获取的音频数据的入射角信息计算得到。

15、进一步地，所述应答数据库根据不同地区的语言区别被划分为多个第一语言子库，方法还包括步骤：

16、当从音频数据中检测到唤醒词时，从音频数据中提取声学特征；

17、将所述声学特征输入训练完成的方言类别识别模型中，得到方言类别；

18、根据当前方言类别为其匹配相对应的第一语言子库，其中，每种第二语言子库内设置有与当前方言类别相适配的回复信息，以得到最佳回应信息。

19、进一步地，方言类别识别模型构建步骤具体包括：

20、获取原始声音数据集和方言标签，其中，所述原始声音数据集包括标准普通话与多种方言声音数据；

21、从所述原始声音数据集的声音数据中提取声学特征；

22、将原始声音数据集以及相对应的标签输入基于卷积神经网络的方言类别识别模型进行训练。

23、进一步地，还包括步骤：将待更新应答数据库的回应列表与新的回应列表进行对比，当两者具有差异时，根据新的回应列表对待更新应答数据库进行更新操作。

24、进一步地，所述应答数据库包括多个第二语言子库，所述通过应答数据库为待处理信息匹配最佳回应信息的步骤具体包括：

25、从当前音频数据提取声音特征，并根据特征确定当前用户所属的年龄区间，其中，所述声音特征包括语言特征、音色特征、音调特征和语速特征；

26、根据年龄区间为其匹配相对应的第二语言子库，其中，每种第二语言子库内设置有与当前年龄区间相适配的回复信息，以得到最佳回应信息；其中，

27、第一语言字库包含第二语言子库。

28、进一步地，所述通过应答数据库为待处理信息匹配最佳回应信息还包括：

29、从最佳回应信息内提取情绪词，并根据情绪词确定最佳回应信息的情感标签；

30、利用情感标签和文字长度对最佳回应信息进行调整，以对播报时的音调、语速、音量和语气进行控制；

31、将调节后最佳回应信息转化为语音信号向用户播放。

32、另一方面，本发明还提供一种应用于城市大脑的语音交互系统，包括信号采集模块、检测模块、确定模块、语音识别模块、应答模块，其中：

33、所述信号采集模块用于拾取当前环境下的音频数据；

34、所述检测模块用于利用音频嘈杂度测算模型对音频数据进行检测，检测当前音频数据中是否具有唤醒词；

35、所述确定模块用于当从音频数据中检测到唤醒词时，根据当前周围环境的嘈杂度判断是否需要对音频数据进行降噪处理，若需要，则对音频数据进行降噪处理；

36、所述语音识别模块用于通过语音交互模型对无需降噪/经过降噪处理后的音频数据进行语音识别，得到待处理信息；

37、所述应答模块用于通过应答数据库为待处理信息匹配最佳回应信息，并将最佳回应信息转化为语音信号并向用户播放。

38、本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的申请文件中特别指出的结构来实现和获得。

39、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

技术特征：

1.一种应用于城市大脑的语音交互方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种应用于城市大脑的语音交互方法，其特征在于，所述音频数据进行降噪处理的步骤具体包括：

3.如权利要求2所述的一种应用于城市大脑的语音交互方法，其特征在于，所述确定当前周围环境的嘈杂度的步骤包括：

4.如权利要求3所述的一种应用于城市大脑的语音交互方法，其特征在于，所述音频数据是通过立体空间麦克风阵列进行持续拾取的，其中，发声位置信息是利用信号参数估计算法获取的音频数据的入射角信息计算得到。

5.如权利要求1所述的一种应用于城市大脑的语音交互方法，其特征在于，所述应答数据库根据不同地区的语言区别被划分为多个第一语言子库，包括：

6.如权利要求5所述的一种应用于城市大脑的语音交互方法，其特征在于，所述方言类别识别模型构建步骤包括：

7.如权利要求1所述的一种应用于城市大脑的语音交互方法，其特征在于，所述应答数据库还包括：

8.如权利要求1所述的一种应用于城市大脑的语音交互方法，其特征在于，应答数据库包括多个第二语言子库，通过应答数据库为待处理信息匹配最佳回应信息的步骤具体包括：

9.如权利要求8所述的一种应用于城市大脑的语音交互方法，其特征在于，所述通过应答数据库为待处理信息匹配最佳回应信息还包括：

10.一种应用于城市大脑的语音交互系统，其特征在于，包括信号采集模块、检测模块、确定模块、语音识别模块、应答模块，其中：

技术总结本发明涉及语音交互领域，具体提供了一种应用于城市大脑的语音交互方法及系统，包括以下步骤：拾取当前环境下的音频数据，并利用音频嘈杂度测算模型对音频数据进行检测；当从音频数据中检测到唤醒词时，根据当前周围环境的嘈杂度判断是否需要对音频数据进行降噪处理，若需要，则对音频数据进行降噪处理；通过语音交互模型对无需降噪/经过降噪处理后的音频数据进行语音识别，得到待处理信息；通过应答数据库为待处理信息匹配最佳回应信息，并将最佳回应信息转化为语音信号并向用户播放。本申请用于精确并快速的捕捉到用户的需求，进而做出相应的回应。技术研发人员：闫鹏飞受保护的技术使用者：山东爱特云翔信息技术有限公司技术研发日：技术公布日：2024/6/11