技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种特定人语音识别系统及方法与流程 > 正文

一种特定人语音识别系统及方法与流程

国知局
2024-06-21 11:49:08

本发明涉及语音识别，更具体的说是涉及一种特定人语音识别系统及方法。

背景技术：

1、语音识别是将语音识别为对应的文本。语音识别作为智能对话的耳朵，普遍被应用于智能客服、虚拟人、智能音箱等领域。但目前语音识别技术在嘈杂环境或多人说话场景识别效果仍差强人意，针对多人说话场景的识别，通常使用语音识别出文本之后，再通过nlp中的文本分析将识别后的文本分成多个不同的说话人文本。但是该方法存在以下两个问题：

2、a.nlp分类后的文本不能和说话人相对应，即不能确定哪一句是目标说话人说的内容，丢失了说话人的信息；

3、b.在多人同时说话时，语音识别结果会有混叠，这时nlp区分效果会很差。

4、因此，如何提高多人说话场景下的语音识别效果是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本发明提供了一种特定人语音识别系统及方法，结合语音识别和声纹识别，解决了在实际应用中多人说话场景下语音识别效果差的问题。

2、为了实现上述目的，本发明采用如下技术方案：

3、一种特定人语音识别系统，包括：

4、语音采集模块，采集目标说话人语音和待识别语音；

5、声纹识别模块，对目标说话人语音和待识别语音提取声纹特征；

6、语音筛选模块，通过设定的滑动窗口对待识别语音进行切分，获得若干语音段，筛选出与目标说话人语音的声纹特征相似的语音段并进行合并处理，获得有效语音；

7、语音识别模块，对有效语音进行语音识别，获得识别内容。

8、优选的，语音采集模块采集的目标说话人语音的时长大于或等于10s。

9、优选的，声纹识别模块通过声纹识别模型提取声纹特征。

10、优选的，语音筛选模块，将待识别语音根据预设的滑动窗口和滑动步长进行切分，将时长小于滑动窗口的语音时长的切分后语音段采用静音补齐。滑动窗口大于滑动步长。

11、优选的，语音筛选模块，利用声纹识别模块的声纹识别模型提取所有语音段的声纹特征，并与目标说话人语音的声纹特征进行相似度计算，如果相似度大于设定阈值，则将对应的语音段筛选出来进行去重后合并，获得有效语音。

12、优选的，语音识别模块采用语音识别模型对有效语音进行识别，获得识别内容。

13、优选的，采集语料并采用tdnn模型来训练声纹识别模型，语料包括说话人语音、说话人标签和语音对应文本；将说话人语音转化为梅尔频谱，转化后的梅尔频谱和说话人标签输入tdnn模型进行训练，获得声纹识别模型。声纹识别模型还可以选用ftdnn,resnet等模型。采用tdnn来训练声纹识别模型，相对其他模型tdnn在准确率和速度上有一定的优势。

14、优选的，采集语料并采用paraformer模型来训练语音识别模型，语料包括说话人语音、说话人标签和语音对应文本；将说话人语音转化为梅尔频谱，利用转化后的梅尔频谱和对应的文本输入paraformer模型进行训练，获得语音识别模型。语音识别模型还可以选用conformer，u2++等模型。采用的paraformer模型在当前时间点paraformer不论是推理速度还是准确率在当前都是最优的。

15、一种特定人语音识别方法，包括以下步骤：

16、步骤1：采集目标说话人语音，并提取声纹特征；

17、步骤2：采集待识别语音，根据设定的滑动窗口对待识别语音进行切分，获得若干语音段，并提取声纹特征；根据声纹特征筛选与目标说话人语音相似的语音段并进行合并处理，获得有效语音；

18、步骤3：对有效语音进行语音识别，获得识别内容。

19、经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种特定人语音识别系统及方法，通过提前录入指定说话人的语音，结合语音识别和声纹识别，使用固定窗口和可变的窗口移动大小，实现可配置不同粒度的目标说话人语音的筛选，实现只针对指定说话人的语音进行识别，并且该方法可以应用于任意语种的语音识别，包括但不限于普通话识别，英语识别，方言识别等等，有效提高了多人说话场景下的语音识别效果，而使用固定的窗口大小，可以使用batch(批处理)进行声纹的提取，整个流程效率较高。

技术特征：

1.一种特定人语音识别系统，其特征在于，包括：

2.根据权利要求1所述的一种特定人语音识别系统，其特征在于，语音采集模块采集的目标说话人语音的时长大于或等于10s。

3.根据权利要求1所述的一种特定人语音识别系统，其特征在于，声纹识别模块通过声纹识别模型提取声纹特征。

4.根据权利要求1所述的一种特定人语音识别系统，其特征在于，语音筛选模块，将待识别语音根据预设的滑动窗口和滑动步长进行切分，将时长小于滑动窗口的切分后语音段采用静音补齐。

5.根据权利要求3所述的一种特定人语音识别系统，其特征在于，语音筛选模块，利用声纹识别模块的声纹识别模型提取所有语音段的声纹特征，并与目标说话人语音的声纹特征进行相似度计算，如果相似度大于设定阈值，则将对应的语音段筛选出来进行去重后合并，获得有效语音。

6.根据权利要求1所述的一种特定人语音识别系统，其特征在于，语音识别模块采用语音识别模型对有效语音进行识别，获得识别内容。

7.根据权利要求3所述的一种特定人语音识别系统，其特征在于，采集语料并采用tdnn模型来训练声纹识别模型，语料包括说话人语音、说话人标签和语音对应文本；将说话人语音转化为梅尔频谱，转化后的梅尔频谱和说话人标签输入tdnn模型进行训练，获得声纹识别模型。

8.根据权利要求7所述的一种特定人语音识别系统，其特征在于，采集语料并采用paraformer模型来训练语音识别模型，语料包括说话人语音、说话人标签和语音对应文本；将说话人语音转化为梅尔频谱，利用转化后的梅尔频谱和语音对应文本输入paraformer模型进行训练，获得语音识别模型。

9.一种特定人语音识别方法，其特征在于，应用于权利要求1-8任一项所述的一种特定人语音识别系统，包括以下步骤：

技术总结本发明公开了一种特定人语音识别系统及方法，涉及语音识别技术领域，包括：语音采集模块，采集目标说话人语音和待识别语音；声纹识别模块，对目标说话人语音和待识别语音提取声纹特征；语音筛选模块，通过设定的滑动窗口对待识别语音进行切分，获得若干语音段，筛选出与目标说话人语音的声纹特征相似的语音段并进行合并处理，获得合并语音；语音识别模块，对合并语音进行语音识别，获得识别内容。本发明解决了在实际应用中多人说话场景下语音识别效果差的问题。技术研发人员：詹杰,苏江受保护的技术使用者：暗物质（北京）智能科技有限公司技术研发日：技术公布日：2024/5/6