技术新讯 > 乐器声学设备的制造及制作,分析技术 > 说话人日志记录方法、装置、存储介质和电子设备与流程  >  正文

说话人日志记录方法、装置、存储介质和电子设备与流程

  • 国知局
  • 2024-06-21 11:31:38

本技术涉及语音分析,具体而言,涉及一种说话人日志记录方法、装置、存储介质和电子设备。

背景技术:

1、说话人日志系统的目标是估计真实音频记录中每个说话者的时间边界,而准确的日志记录结果对于会议摘要、电话交谈的轮流分析等应用至关重要。目前,日志记录技术可分为两种方法,分别为基于聚类的方法和端到端的神经网络方法。

2、基于聚类的日志系统主要依赖于嵌入提取器和聚类算法。一般来说,该方法需要首先需要训练网络,以从音频流中获取说话者嵌入信息;接着在测试阶段将记录分割成短的同源块,并为每个块计算说话者嵌入信息,通常会假设“每个块中只有一个说话者活动”;最后将说话者嵌入信息聚类成多个中心,从而获得时间间隔和对应的说话者标签。但由于上述假设“每个块中只有一个说话者活动”,因此,基于聚类的日志系统难以处理重叠的语音,且无法直接优化目标函数(即说话者日志错误),同时,由于聚类是以无监督的方式执行的,这使得采用该方法进行说话人日志记录时需要依次执行预测和聚类两个阶段。

3、针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种说话人日志记录方法、装置、存储介质和电子设备,以至少解决相关技术对说话人的对话语音进行端到端的日志记录时,需进行预测说话人标签和聚类两个阶段的技术问题。

2、根据本技术实施例的一个方面,提供了一种说话人日志记录方法,包括:获取目标音频数据,其中,目标音频数据中包括多个说话人的对话语音;按照时间顺序将目标音频数据划分为多个目标音频帧,并提取每个目标音频帧内的目标声学特征,其中,每个目标音频帧对应一个目标时间段,且每个目标音频帧内包括至少一个说话人的对话语音;利用预训练的说话人标签预测模型对多个目标音频帧内的目标声学特征进行依次处理,得到目标音频帧对应的目标说话人标签,其中,说话人标签预测模型通过绝对说话人损失函数和相对说话人损失函数训练所得,且绝对说话人损失函数用于比较预测说话人标签与实际说话人标签之间的差异,相对说话人损失函数用于比较划分第一音频数据所得的第一时间段与第一音频数据的差异;基于目标说话人标签确定将与目标说话人标签对应的目标音频帧存储至目标说话人日志。

3、可选地,说话人标签预测模型的训练过程包括:构建待训练的预测模型;获取多组样本数据集,其中,每组样本数据集中包括:第一音频数据内多个第一时间段的第一声学特征,以及每个第一声学特征对应的第一说话人标签,第一说话人标签中包括:绝对说话人标签和相对说话人标签;将多组样本数据集依次输入预测模型进行迭代训练,得到说话人标签预测模型。

4、可选地,获取多组样本数据集,包括:从音频数据库中获取多个第一音频数据,其中,每个第一音频数据中包括多个说话人的对话语音样本;对于每个第一音频数据,按照时间顺序将第一音频数据划分为多个第一时间段,提取第一时间段内的第一声学特征,并确定每个第一时间段的第一声学特征对应的第一说话人标签;将每个第一音频数据内的各个第一时间段的第一声学特征以及对应的第一说话人标签作为正样本数据集,并将各个第一音频数据集内的每个第一时间段的第一声学特征以及与第一声学特征不对应的第一说话人标签作为负样本数据集;基于正样本数据集和负样本数据集组成多组样本数据集。

5、可选地,在将多组样本数据集依次输入预测模型进行迭代训练之前,该方法还包括:将多组样本数据集输入至预处理网络内进行预处理操作,其中,预处理网络由卷积层、下采样层和编码层构成,且编码层由多头自注意力机制构成的第一子层和由前馈神经网络构成的第二子层组成。

6、可选地,将多组样本数据集依次输入预测模型进行迭代训练,得到说话人标签预测模型,包括:将预处理后的多组样本数据集划分为训练集和验证集;基于训练集对预测模型进行迭代训练,调整预测模型的模型参数,其中,模型参数至少包括权重值和偏置值;基于验证集对说话人标签预测模型进行验证,并依据验证结果调整说话人标签预测模型的超参数,其中,超参数至少包括迭代次数和学习率。

7、可选地,基于训练集对预测模型进行迭代训练,调整预测模型的模型参数,包括:对于训练集内的每组第一样本数据,将第一样本数据中的第一时间段的第一声学特征输入至预测模型中,得到预测模型输出的第一预测说话人标签;基于第一样本数据中的绝对说话人标签和第一预测说话人标签构建绝对说话人损失函数,并基于第一样本数据中的相对说话人标签和第一预测说话人标签构建相对说话人损失函数;基于绝对说话人损失函数和相对说话人损失函数调整预测模型的模型参数。

8、可选地,基于验证集对说话人标签预测模型进行验证,并依据验证结果调整说话人标签预测模型的超参数,包括:对于训练集内的每组第二样本数据,将第二样本数据中的第一时间段的第一声学特征输入至说话人标签预测模型,得到第二预测说话人标签;基于第二样本数据中的相对说话人标签和第二预测说话人标签对相对说话人损失函数进行调整,以调整说话人标签预测模型的超参数。

9、根据本技术实施例的另一方面,还提供了一种说话人日志记录装置,包括:获取模块,用于获取目标音频数据,其中,目标音频数据中包括多个说话人的对话语音;提取模块,用于按照时间顺序将目标音频数据划分为多个目标音频帧,并提取每个目标音频帧内的目标声学特征,其中,每个目标音频帧对应一个目标时间段,且每个目标音频帧内包括至少一个说话人的对话语音;预测模块,用于利用预训练的说话人标签预测模型对多个目标音频帧内的目标声学特征进行依次处理,得到目标音频帧对应的目标说话人标签,其中,说话人标签预测模型通过绝对说话人损失函数和相对说话人损失函数训练所得,且绝对说话人损失函数用于比较预测说话人标签与实际说话人标签之间的差异,相对说话人损失函数用于比较划分第一音频数据所得的第一时间段与第一音频数据的差异;记录模块,用于基于目标说话人标签确定将与目标说话人标签对应的目标音频帧存储至目标说话人日志。

10、根据本技术实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,非易失性存储介质所在设备通过运行该程序执行上述的说话人日志记录方法。

11、根据本技术实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的说话人日志记录方法。

12、在本技术实施例中,获取目标音频数据,其中,目标音频数据中包括多个说话人的对话语音;按照时间顺序将目标音频数据划分为多个目标音频帧,并提取每个目标音频帧内的目标声学特征,其中,每个目标音频帧对应一个目标时间段,且每个目标音频帧内包括至少一个说话人的对话语音;利用预训练的说话人标签预测模型对多个目标音频帧的目标声学特征进行依次处理,得到目标音频帧对应的目标说话人标签,其中,说话人标签预测模型通过绝对说话人损失函数。和相对说话人损失函数训练所得,且绝对说话人损失函数用于比较预测说话人标签与实际说话人标签之间的差异,相对说话人损失函数用于比较划分第一音频数据所得的第一时间段与第一音频数据的差异;基于目标说话人标签确定将与目标说话人标签对应的目标音频帧存储至目标说话人日志。

13、在上述技术方案中,说话人标签预测模型通过由绝对说话人损失函数和相对说话人损失函数组合的全局损失函数训练所得的,使得该模型在训练阶段考虑全局说话人身份信息,同时保持一阶段的模型,进而解决了相关技术对说话人的对话语音进行端到端的日志记录时,需进行预测说话人标签和聚类两个阶段的技术问题。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22056.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。