技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于上下文关联的说话人识别方法与流程 > 正文

一种基于上下文关联的说话人识别方法与流程

国知局
2024-06-21 11:26:57

本发明涉及语音识别领域，更具体的说是涉及一种基于上下文关联的说话人识别方法。

背景技术：

1、在多人对话的视频内容理解中，需要还原不同说话人的讲话内容。但是存在多人对话中因为情绪变化导致音调变化、不同的人物也存在音色接近等情况。

2、目前，说话人识别主要包括两个模块，即说话人分割和角色识别。这项技术在会议录音笔记、视频内容理解等领域有重要的应用。说话人分割是指在采集的语音信号流中，分辨出不同说话人的说话时长并标注。角色识别是指为多人对话中的各语音片段标注出说话人。现有技术对语音进行角色识别时，使用音频特征或音频转写后的语义特征进行角色识别，角色识别准确性较低。

3、现有的说话人识别算法仅从声音相似度进行了判断，无法从语义角度进行修正。导致说话人识别会出现1.同一个句话被标记为不同的说话人。2.不同的说话人的内容被标记为同一说话人。

技术实现思路

1、有鉴于此，本发明提供了一种基于上下文关联的说话人识别方法。

2、为了实现上述目的，本发明采用如下技术方案：

3、一种基于上下文关联的说话人识别方法，包括以下步骤：

4、切割音频文件中的说话音频片段；

5、针对每段音频片段对人声部分提取，获得音色特征数据和对应的说话内容；

6、按照音频片段中每个音频的时间长短进行降序排列得到待处理的音频段；

7、根据音色特征数据和对应的说话内容对每个音频段确定出说话人，完成说话人标记。

8、可选的，切割音频文件中的说话音频片段，具体为：使用语音数据训练神经网络模型，其中将音频的信号转换为频谱图，使用一种称为mel频率倒谱系数mfcc的特征提取方法，将音频数据转换为一系列特征向量；按照固定时间长度的向量，使用神经网络模型进行预测，得到声音对应的文字或切割标记；按照切割标记对一段声音信号进行切割，最后得到音频的片段所属的时间区间。

9、可选的，切割音频文件中的说话音频片段还包括判断上下文，具体为：通过预训练语言模型，将同一句话拆分成多个片段，包括上一片段和下一片段，利用下一个片段识别任务对预训练语言模型微调，判断连续两个片段中的语句是不是同一句话中的连续片段。

10、可选的，判断上一片段和下一片段之间的关系，具体包括以下步骤：

11、音频片段a和b，计算出a和b是同一个说话人的概率p(a,b)；

12、首先计算出音频a和b分别的音频特征向量m(a)和m(b)

13、再根据音频获得a和b的文本内容t(a)和t(b)，计算得出t(a)和t(b)是否为上下文同一句话的概率p_ctx(a,b)；

14、根据a和b所处的音频列表的位置，计算出这两句话的距离d(a,b)；

15、p(a,b)＝cos(m(a),m(b))*a+p_ctx(a,b)/d(a,b)。

16、经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于上下文关联的说话人识别方法，具有以下有益效果：

17、1、易于实现，依赖的技术较为成熟，比如音频切割使用whisper开源框架，在音频的切割上准确率98％以上；音色特征提取使用梅尔频谱等

18、2、效果可控。整体优于目前市面上单模态的说话人识别方案。自然语言处理的上下文部分，算法效果可控，可以针对不同的行业来使用数据源进行训练，提高上下文预测准确率。

技术特征：

1.一种基于上下文关联的说话人识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于上下文关联的说话人识别方法，其特征在于，切割音频文件中的说话音频片段，具体为：使用语音数据训练神经网络模型，其中将音频的信号转换为频谱图，使用一种称为mel频率倒谱系数mfcc的特征提取方法，将音频数据转换为一系列特征向量；按照固定时间长度的向量，使用神经网络模型进行预测，得到声音对应的文字或切割标记；按照切割标记对一段声音信号进行切割，最后得到音频的片段所属的时间区间。

3.根据权利要求1所述的一种基于上下文关联的说话人识别方法，其特征在于，切割音频文件中的说话音频片段还包括判断上下文，具体为：通过预训练语言模型，将同一句话拆分成多个片段，包括上一片段和下一片段，利用下一个片段识别任务对预训练语言模型微调，判断连续两个片段中的语句是不是同一句话中的连续片段。

4.根据权利要求3所述的一种基于上下文关联的说话人识别方法，其特征在于，判断上一片段和下一片段之间的关系，具体包括以下步骤：

技术总结本发明公开了一种基于上下文关联的说话人识别方法，涉及语音识别领域。本发明包括以下步骤：切割音频文件中的说话音频片段；针对每段音频片段对人声部分提取，获得音色特征数据和对应的说话内容；按照音频片段中每个音频的时间长短进行降序排列得到待处理的音频段；根据音色特征数据和对应的说话内容对每个音频段确定出说话人，完成说话人标记。本发明效果可控。整体优于目前市面上单模态的说话人识别方案。自然语言处理的上下文部分，算法效果可控，可以针对不同的行业来使用数据源进行训练，提高上下文预测准确率。技术研发人员：杨东晨,史光明,苗炎炎受保护的技术使用者：上海德莫微聚网络科技有限公司技术研发日：技术公布日：2024/2/8