技术新讯 > 乐器声学设备的制造及制作,分析技术 > 车载交互系统语音性别识别方法、系统、设备及介质与流程 > 正文

车载交互系统语音性别识别方法、系统、设备及介质与流程

国知局
2024-06-21 11:52:14

本发明一般涉及车载语音识别，具体涉及车载交互系统语音性别识别方法、系统、设备及介质。

背景技术：

1、随着汽车电子技术的飞速发展以及人们对汽车功能多样化、便捷化、人性化的需求逐步升温，车载信息娱乐和信息通讯系统正逐渐成为汽车厂商追捧的热点。目前对语音特征进行识别，主要用于用户画像分析，聊天应用，娱乐场景等场景，这些场景的技术特色在于支持对不同口音进行识别和即时识别。在车载领域，运用语音信号分析技术对说话人性别进行预测的场景还比较少，可以用于打造车载亮点功能，提升市场竞争力，通过给用户打上性别标签，便于对用户进行分类及后续的内容推荐和用户匹配，提升用户交互。

2、传统的车载语音性别识别模型容易受到车内外环境噪声的影响，例如，发动机噪声、风噪声、道路噪声等。因此，我们提出一种车载交互系统语音性别识别方法、系统、设备及介质用以解决上述问题。

技术实现思路

1、鉴于现有技术中的上述缺陷或不足，期望提供一种提升语音性别识别准确性，增强模型的泛化能力，提升用户的交互体验的车载交互系统语音性别识别方法、系统、设备及介质。

2、第一方面，本发明提供一种车载交互系统语音性别识别方法，包括以下步骤：

3、获取初始语音数据，并根据所述初始语音数据生成车内语音数据；

4、对所述车内语音数据预处理，得到语音频率特征矩阵；

5、将所述语音频率特征矩阵输入到深度特征提取模型，得到识别结果；所述识别结果为男性或者女性。

6、根据本发明提供的技术方案，根据以下步骤得到所述深度特征提取模型：

7、获取训练数据集和验证数据集；所述训练数据集包括：多个带有性别标签的特征数据；所述验证数据集包括：多个无性别标签的特征数据；

8、将所述训练数据集和所述验证数据集输入至第一特征提取模型，训练得到第二特征提取模型；

9、获取测试数据集，并将所述测试数据集输入至所述第二特征提取模型，得到测试结果；

10、若测试结果符合预设要求，则停止训练，并将当前的第二特征提取模型作为最终的深度特征提取模型。

11、根据本发明提供的技术方案，根据以下步骤获取训练数据集：

12、获取语音样本，并根据所述语音样本，生成第一语音集合；所述第一语音集合包括多个第一语音序列；所述语音样本包括多段语音数据；

13、对所述第一语音集合中的语音序列预加重，得到第二语音集合；所述第二语音集合包括：多个第二语音序列；

14、根据窗函数和预设帧移，将所述第二语音集合中的第二语音序列划分为多帧语音；

15、对每帧语音进行处理，得到初始频率特征矩阵；所述初始频率特征矩阵包括多帧语音和每帧语音对应的频率特征；

16、利用初始特征提取模型对所述初始频率特征矩阵进行多次卷积处理，得到第一频率特征矩阵；同时，根据所述初始频率特征矩阵，计算注意力权重；

17、根据所述初始频率特征矩阵、所述第一频率特征矩阵以及所述注意力权重，计算得到训练数据集。

18、根据本发明提供的技术方案，对所述车内语音数据预处理，得到语音频率特征矩阵，具体包括以下步骤：

19、遍历所述车内语音数据，将所述序列长度小于预设长度的语音序列填充至预设长度，并标记为第一序列；同时，将所述序列长度大于或者等于预设长度的语音序列标记为第二序列；

20、根据所述第一序列和所述第二序列，生成第一语音序列集合；所述第一语音序列集合包括：多个语音序列和对应的序列长度；

21、对所述第一语音序列集合中的语音序列进行处理，得到第二语音序列集合；并，提取所述第二语音序列集合中的频率特征，得到语音频率特征矩阵。

22、根据本发明提供的技术方案，对所述第一语音序列集合中的语音序列进行处理，得到第二语音序列集合，具体包括以下步骤：

23、对所述第一语音序列集合中的语音序列预加重，并根据窗函数和预设帧移，将预加重后的第一语音序列集合划分为多帧语音，得到第二语音序列集合；所述第二语音序列集合包括：多帧语音。

24、根据本发明提供的技术方案，所述初始语音数据包括：多个语音序列和对应的语音频谱；

25、根据所述初始语音数据生成车内语音数据，具体包括以下步骤：

26、剔除所述初始语音数据中语音频谱大于或者等于噪声阈值的语音序列，并基于所述初始语音数据中剩余语音序列生成车内语音数据。

27、根据本发明提供的技术方案，获取初始语音数据之前，还包括以下步骤：

28、在预设时长内，采集车内声音能量；

29、若所述车内声音能量小于预设阈值，则识别车内人像并获取人像面部特征；

30、根据所述人像面部特征确定人员性别。

31、第二方面，本发明提供一种车载交互系统语音性别识别系统，能够实现上述的车载交互系统语音性别识别方法，所述系统包括：

32、数据采集模块，配置用于获取初始语音数据，并根据所述初始语音数据生成车内语音数据；

33、数据处理模块，配置用于对所述车内语音数据预处理，得到语音频率特征矩阵；

34、数据处理模块，还配置用于将所述语音频率特征矩阵输入到深度特征提取模型，得到识别结果；所述识别结果为男性或者女性。

35、第三方面，本发明提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的一种车载交互系统语音性别识别方法的步骤。

36、第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述的一种车载交互系统语音性别识别方法的步骤。

37、综上所述，本发明公开一种车载交互系统语音性别识别方法的具体流程。本发明通过获取初始语音数据，并根据初始语音数据生成车内语音数据，对车内语音数据进行预处理，得到语音频率特征矩阵，再将语音频率特征矩阵输入到深度特征提取模型中，得到识别结果。

38、相较于传统的车载交互系统语言性别识别方式，本发明对前期获取的初始语音数据处理，剔除数据中掺杂的噪声，生成车内语音数据，再将车内语音数据输出到深度特征提取模型中，得到识别结果，通过前期的除噪声操作，避免数据中的噪声影响最终的识别结果准确性，保障用户交互体验。

技术特征：

1.一种车载交互系统语音性别识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种车载交互系统语音性别识别方法，其特征在于，根据以下步骤得到所述深度特征提取模型：

3.根据权利要求2所述的一种车载交互系统语音性别识别方法，其特征在于，根据以下步骤获取训练数据集：

4.根据权利要求1所述的一种车载交互系统语音性别识别方法，其特征在于，对所述车内语音数据预处理，得到语音频率特征矩阵，具体包括以下步骤：

5.根据权利要求4所述的一种车载交互系统语音性别识别方法，其特征在于，对所述第一语音序列集合中的语音序列进行处理，得到第二语音序列集合，具体包括以下步骤：

6.根据权利要求1所述的一种车载交互系统语音性别识别方法，其特征在于，所述初始语音数据包括：多个语音序列和对应的语音频谱；

7.根据权利要求1所述的一种车载交互系统语音性别识别方法，其特征在于，获取初始语音数据之前，还包括以下步骤：

8.一种车载交互系统语音性别识别系统，能够实现权利要求1至7任一项所述的车载交互系统语音性别识别方法，其特征在于，所述系统包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的一种车载交互系统语音性别识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的一种车载交互系统语音性别识别方法的步骤。

技术总结本发明公开车载交互系统语音性别识别方法、系统、设备及介质，涉及车载语音识别技术领域，该方法包括以下步骤：获取初始语音数据，并根据初始语音数据生成车内语音数据；对车内语音数据预处理，得到语音频率特征矩阵；将语音频率特征矩阵输入到本发明优化后的深度特征提取模型，得到识别结果；识别结果为男性或者女性。相较于传统的车载交互系统语言性别识别方式，本发明对前期获取的初始语音数据处理，剔除数据中掺杂的噪声，生成车内语音数据，再将车内语音数据输出至本发明优化后的深度特征提取模型中，得到识别结果，通过前期的除噪声操作，避免数据中的噪声影响最终的识别结果准确性，保障用户交互体验。技术研发人员：林守彪,刘楚雄受保护的技术使用者：重庆赛力斯凤凰智创科技有限公司技术研发日：技术公布日：2024/5/16