技术新讯 > 乐器声学设备的制造及制作,分析技术 > 车载多人实时智能语音交互系统的制作方法 > 正文

车载多人实时智能语音交互系统的制作方法

国知局
2024-06-21 11:42:38

本发明涉及车载智能语音，尤其涉及一种车载多人实时智能语音交互系统。

背景技术：

1、车载语音识别是车载智能语音的重要组成部分，它利用语音识别技术，将用户的语音指令转化为文字，再通过自然语言处理技术理解用户的意图，从而实现对车辆的控制和查询等功能。车载语音识别技术具有高效、方便、安全等特点，为用户提供了更加智能、便捷的驾驶体验。

2、但是传统的单麦克风语音识别系统在车载场景中存在一些局限性，容易受到周围环境噪声的干扰，难以实现远距离的语音识别，导致智能车机可能错误地识别目标用户的指令，从而降低了用户的体验。

技术实现思路

1、本发明的目的在于提供一种车载多人实时智能语音交互系统，旨在解决现有传统的单麦克风语音识别系统在车载场景中存在一些局限性，容易受到周围环境噪声的干扰，难以实现远距离的语音识别，导致智能车机可能错误地识别目标用户的指令，从而降低了用户的体验的技术问题。

2、为实现上述目的，本发明采用的一种车载多人实时智能语音交互系统，包括声音采集模块、多通道语音增强模块、语音识别模块、自然语音处理模块和语音合成模块，所述多通道语音增强模块与所述声音采集模块连接，所述语音识别模块与所述多通道语音增强模块连接，所述自然语音处理模块与所述语音识别模块连接，所述语音合成模块与所述自然语音处理模块连接；

3、所述声音采集模块用于对声源进行采集，得到多通道音频数据；

4、所述多通道语音增强模块用于将采集的多通道音频数据进行多通道自注意力语音增强，提取降低多通道导致的定位延迟与混响特性，基于多通道输入背景影响关联性，减少场景噪声；

5、所述语音识别模块用于通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类；

6、所述自然语音处理模块用于进行实时语音识别将说话人音频进行语音转文字；

7、所述语音合成模块用于将转换后的实时转换文字按目标说话人声源进行人机交互处理，并通过语音合成技术进行回复。

8、其中，所述多通道语音增强模块通过每个通道的语音信号进行短时逐帧分析，针对每个短时语音框，计算其能量值，具体计算公式为：

9、ep(t)＝log(∑n＝0n-1|x(n+tt)|2)；

10、其中，ep(t)表示第p个通道在t时刻的短时能量，x(n)是语音信号的采样值，t是帧长，n是每个语音框内的采样点个数。

11、其中，所述多通道语音增强模块获得完整多通道语音讯号的短时能量曲线后，需要设定一个能量差阈值th，设定两个连续短时能量帧间的差值为：

12、δep(t)＝|ep(t)-ep(t-1)|；

13、将δep(t)与阈值th进行比较，若δep(t)>th，则认为t时刻存在语音活动。

14、其中，所述语音识别模块包括特征提取单元、嵌入层、encoder单元、decoder单元和预测头，所述特征提取单元与所述多通道语音增强模块连接，所述嵌入层与所述特征提取单元连接，所述encoder单元与所述嵌入层连接，所述decoder单元与所述encoder单元连接，所述预测头与所述decoder单元连接；

15、所述特征提取单元用于对每个说话人语音片段进行时频特征提取；

16、所述嵌入层用于features序列作为网络输入通过学习，投影到低维空间，后续建模奠定基础；

17、所述encoder单元用于提取全局语义特征；

18、所述decoder单元用于将全局语义特征转化为实际的语音输出；

19、所述预测头用于预测序列。

20、其中，所述encoder模块的数量为多个，且每个所述encoder模块内有两种注意力操作，包括交叉注意力和自注意力。

21、其中，所述声音采集模块包括多个分布式麦克风，利用多个分布式麦克风对声源进行采集。

22、本发明的一种车载多人实时智能语音交互系统，使用车载语音时，通过所述声音采集模块对声源进行采集，得到多通道音频数据，所述多通道语音增强模块从输入的多通道音频数据进行多通道自注意力语音增强，提取降低多通道导致的定位延迟与混响特性，基于多通道输入背景影响关联性，减少场景噪声，随后所述语音识别模块通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类，利用所述自然语音处理模块进行实时语音识别将说话人音频进行语音转文字，最后所述语音合成模块将转换后的实时转换文字按目标说话人声源进行人机交互处理，并通过语音合成技术进行回复，通过上述方式，实现了能够提高语音的识别率，减少噪声干扰，更准确的远距离语音识别，提升了用户的体验。

技术特征：

1.一种车载多人实时智能语音交互系统，其特征在于，

2.如权利要求1所述的车载多人实时智能语音交互系统，其特征在于，

3.如权利要求2所述的车载多人实时智能语音交互系统，其特征在于，

4.如权利要求1所述的车载多人实时智能语音交互系统，其特征在于，

5.如权利要求4所述的车载多人实时智能语音交互系统，其特征在于，

6.如权利要求1所述的车载多人实时智能语音交互系统，其特征在于，

技术总结本发明涉及车载智能语音技术领域，具体涉及一种车载多人实时智能语音交互系统；包括声音采集模块、多通道语音增强模块、语音识别模块、自然语音处理模块和语音合成模块，使用车载语音时，通过声音采集模块对声源进行采集，多通道语音增强模块将采集的声源进行多通道自注意力语音增强，随后语音识别模块通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类，利用自然语音处理模块进行实时语音识别将说话人音频进行语音转文字，最后语音合成模块将转换后的实时转换文字按目标说话人声源进行人机交互处理，实现了能够提高语音的识别率，减少噪声干扰，更准确的远距离语音识别，提升了用户的体验。技术研发人员：段艺博,丁卓受保护的技术使用者：南京龙垣信息科技有限公司技术研发日：技术公布日：2024/4/17