技术新讯 > 乐器声学设备的制造及制作,分析技术 > 利用约束谱聚类的基于说话者转换的在线说话者日志化的制作方法 > 正文

利用约束谱聚类的基于说话者转换的在线说话者日志化的制作方法

国知局
2024-06-21 11:50:10

本公开涉及利用约束谱聚类的基于说话者转换(speaker turn)的在线说话者日志化(diarization)。

背景技术：

1、说话者日志化是根据说话者身份将输入音频流分区成同质分段的过程。在具有多个说话者的环境中，说话者日志化回答了“谁在什么时候讲话”的问题并且具有各种应用，包括多媒体信息检索、说话者转换分析、音频处理和谈话语音的自动转录等。例如，说话者日志化涉及通过标识出输入音频流的第一分段可归因于第一人类说话者(而不特别标识第一人类说话者是谁)、输入音频流的第二分段可归因于不同的第二人类说话者(而不特别标识第二人类说话者是谁)、输入音频流的第三分段可归因于第一人类说话者等来注解在谈话中的说话者转换的任务。

技术实现思路

1、本公开的一个方面提供了一种计算机实现的方法，当计算机实现的方法在数据处理硬件上运行时，使数据处理硬件执行用于基于说话者转换的在线说话者日志化的操作。操作包括接收与由多个说话者讲出的话语相对应的输入音频信号。操作还包括使用语音识别模型来处理输入音频信号以联合地生成话语的转录和说话者转换标记(token)的序列作为来自语音识别模型的输出。每个说话者转换标记指示在转录中检测到的、在相邻词项的相应对之间的相应说话者转换的位置。操作还包括基于说话者标记的序列将输入音频信号分割成多个说话者分段。对于多个说话者分段中的每个说话者分段，操作包括从说话者分段中提取对应说话者判别嵌入。操作还包括对从多个说话者分段中提取的说话者判别嵌入来执行谱聚类以将多个说话者分段聚类成k个类。对于k个类中的每个相应类，操作包括向聚类成相应类的每个说话者分段指派相应说话者标签，该相应说话者标签不同于被指派给聚类成k个类中的每个其他类的说话者分段的相应说话者标签。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，操作进一步包括基于被指派给每个说话者分段的说话者标签来注解话语的转录。在一些示例中，说话者转换标记序列中的每个说话者转换标记具有对应时间戳。在这些示例中，基于说话者转换标记序列将输入音频信号分割成多个说话者分段包括：将输入音频信号分割成各自由说话者转换标记序列中的相邻说话者转换标记的相应对的对应时间戳界定的初始说话者分段。在一些实施方式中，对于相应持续时间超过分段持续时间阈值的每个初始说话者分段，操作进一步将初始说话者分段分割成相应持续时间小于或等于分段持续时间阈值的两个或更多个缩减持续时间的说话者分段。这里，从输入音频信号分割的多个说话者分段包括：相应持续时间小于或等于分段持续时间阈值的初始说话者分段以及从初始说话者分段中的相应持续时间超过分段持续时间阈值的任何初始说话者分段进一步分割的缩减持续时间的说话者分段。

3、在一些实施方式中，从说话者分段中提取对应说话者判别嵌入包括：接收说话者分段作为对说话者编码器模型的输入以及生成对应说话者判别嵌入作为来自说话者编码器模型的输出。在这些实施方式中，说话者编码器模型包括被配置成从每个说话者分段中提取对应说话者判别嵌入的基于长短期记忆的(基于lstm的)说话者编码器模型。在一些示例中，操作进一步包括：针对被生成作为来自语音识别模型的输出的说话者转换标记序列中的每个说话者转换标记来预测在转录中检测到的相应说话者转换的置信度；以及基于针对说话者转换标记预测的置信度来确定成对约束。这里，对说话者判别嵌入执行的谱聚类受到成对约束的约束。

4、在一些实施方式中，语音识别模型包括流式的基于transducer的语音识别模型，该流式的基于transducer的语音识别模型包括：音频编码器，该音频编码器被配置成接收声学帧序列作为输入；并且在多个时间步中的每个时间步处，生成声学帧序列中的对应声学帧的更高阶特征表示；标签编码器，该标签编码器被配置成接收由最终softmax层输出的非空白符号序列作为输入；并且在多个时间步中的每个时间步处，生成稠密表示；以及联合网络，该联合网络被配置成接收由音频编码器在多个时间步中的每个时间步处生成的更高阶特征表示和由标签编码器在多个时间步中的每个时间步处生成的稠密表示作为输入；并且在多个时间步中的每个时间步处，生成在对应时间步处的可能的语音识别假设上的概率分布。这里，音频编码器可以包括具有多个transformer层的神经网络。在一些示例中，标签编码器包括二元语法(bigram)嵌入查找解码器模型。

5、语音识别模型可以在这样的训练样本上被训练：该训练样本各自包括由两个或更多个不同说话者讲出的训练话语并且与训练话语的对应真实值转录配对。这里，每个真实值转录被注入有指示在真实值转录中出现说话者转换的位置的真实值说话者转换标记。可选地，每个训练样本的对应真实值转录可以未被注解有任何时间戳信息。

6、本公开的另一方面提供了一种系统，系统包括数据处理硬件；以及存储器硬件，该存储器硬件存储指令，当指令在数据处理硬件上运行时，使数据处理硬件执行操作。操作包括接收与由多个说话者讲出的话语相对应的输入音频信号。操作还包括使用语音识别模型来处理输入音频信号以联合地生成话语的转录和说话者转换标记的序列作为来自语音识别模型的输出。每个说话者转换标记指示在转录中检测到的、在相邻词项的相应对之间的相应说话者转换的位置。操作还包括基于说话者标记的序列将输入音频信号分割成多个说话者分段。对于多个说话者分段中的每个说话者分段，操作包括从说话者分段中提取对应说话者判别嵌入。操作还包括对从多个说话者分段中提取的说话者判别嵌入来执行谱聚类以将多个说话者分段聚类成k个类。对于k个类中的每个相应类，操作包括向聚类成相应类的每个说话者分段指派相应说话者标签，该相应说话者标签不同于被指派给聚类成k个类中的每个其他类的说话者分段的相应说话者标签。

7、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，操作进一步包括基于被指派给每个说话者分段的说话者标签来注解话语的转录。在一些示例中，说话者转换标记序列中的每个说话者转换标记具有对应时间戳。在这些示例中，基于说话者转换标记序列将输入音频信号分割成多个说话者分段包括：将输入音频信号分割成各自由说话者转换标记序列中的相邻说话者转换标记的相应对的对应时间戳界定的初始说话者分段。在一些实施方式中，对于相应持续时间超过分段持续时间阈值的每个初始说话者分段，操作进一步将初始说话者分段分割成相应持续时间小于或等于分段持续时间阈值的两个或更多个缩减持续时间的说话者分段。这里，从输入音频信号分割的多个说话者分段包括相应持续时间小于或等于分段持续时间阈值的初始说话者分段以及从初始说话者分段中的相应持续时间超过分段持续时间阈值的任何初始说话者分段进一步分割的缩减持续时间的说话者分段。

8、在一些实施方式中，从说话者分段中提取对应说话者判别嵌入包括接收说话者分段作为对说话者编码器模型的输入；以及生成对应说话者判别嵌入作为来自说话者编码器模型的输出。在这些实施方式中，说话者编码器模型包括被配置成从每个说话者分段中提取对应说话者判别嵌入的基于长短期记忆的(基于lstm的)说话者编码器模型。在一些示例中，操作进一步包括：针对被生成作为来自语音识别模型的输出的说话者转换标记序列中的每个说话者转换标记来预测在转录中检测到的相应说话者转换的置信度；以及基于针对说话者转换标记预测的置信度来确定成对的约束。这里，对说话者判别嵌入执行的谱聚类受到成对约束的约束。

9、在一些实施方式中，语音识别模型包括流式的基于transducer的语音识别模型，该流式的基于transducer的语音识别模型包括：音频编码器，该音频编码器被配置成接收声学帧的序列作为输入；并且在多个时间步中的每个时间步处，生成声学帧序列中的对应声学帧的更高阶特征表示；标签编码器，该标签编码器被配置成接收由最终softmax层输出的非空白符号序列作为输入；并且在多个时间步中的每个时间步处，生成稠密表示；以及联合网络，该联合网络被配置成接收由音频编码器在多个时间步中的每个时间步处生成的更高阶特征表示和由标签编码器在多个时间步中的每个时间步处生成的稠密表示作为输入；并且在多个时间步中的每个时间步处，生成在对应时间步处的可能的语音识别假设上的概率分布。这里，音频编码器可以包括具有多个transformer层的神经网络。在一些示例中，标签编码器包括二元语法嵌入查找解码器模型。

10、语音识别模型可以在这样的训练样本上被训练：该训练样本各自包括由两个或更多个不同说话者讲出的训练话语并且与训练话语的对应真实值转录配对。这里，每个真实值转录被注入有指示在真实值转录中出现说话者转换的位置的真实值说话者转换标记。可选地，每个训练样本的对应真实值转录可以未被注解有任何时间戳信息。

11、在附图和以下描述中阐述本公开的一个或多个实施方式的细节。根据说明书和附图，并且根据权利要求书，其他方面、特征和优点将是清楚的。