技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音聚类方法、设备及计算机可读介质与流程 > 正文

语音聚类方法、设备及计算机可读介质与流程

国知局
2024-06-21 11:46:13

本技术涉及语音处理，尤其涉及一种语音聚类方法、设备及计算机可读介质。

背景技术：

1、语音处理技术是信息处理领域的一个重要分支，随着科技的发展，语音处理技术的应用越来越广泛。在语音处理技术中，语音聚类是指将不同的语音数据，按照一定的规则将表达相似主题或内容的语音聚合为相同的类别，从而实现语音的分类。目前，已有的语音聚类方案的效果不佳，难以做到将各种不同的语音数据准确地进行聚类。

技术实现思路

1、本技术的一个目的是提供一种语音聚类方法、设备及计算机可读介质，用以解决现有方案中聚类准确性不足的问题。

2、为实现上述目的，本技术实施例提供了一种语音聚类方法，所述方法包括：

3、对语音数据进行特征抽取，获取第一特征信息，基于注意力机制将第一特征信息与第二特征信息进行特征融合，并根据特征融合所获得的融合特征信息，生成关于所述语音数据的描述文本，其中，所述第二特征信息由用于生成描述文本的第一提示文本经过特征抽取后获得；

4、将每个描述文本分别与用于生成标签的第二提示文本进行拼接，对拼接结果进行特征抽取，获得第三特征信息，基于注意力机制对所述第三特征信息进行特征强化，并根据特征强化后的第三特征信息，生成关于每个语音数据的标签；

5、将各个标签与用于生成聚类簇的第三提示文本进行拼接，对拼接结果进行特征抽取，获得第四特征信息，基于注意力机制对所述第四特征信息进行特征强化，并根据特征强化后的第四特征信息，生成关于所述语音数据的聚类簇；

6、将每个描述文本分别与所述聚类簇、用于匹配描述文本和聚类簇的第四提示文本进行拼接，对拼接结果进行特征抽取，获得第五特征信息，基于注意力机制对所述第五特征信息进行特征强化，并根据特征强化后的第五特征信息，确定每个描述文本与聚类簇之间的匹配关系；

7、根据每个描述文本与聚类簇之间的匹配关系，将所述描述文本对应的语音数据与聚类簇进行关联，确定所述语音数据所属的聚类簇。

8、进一步地，在对语音数据进行特征抽取，获取第一特征信息之前，还包括：

9、基于预设采样率对语音数据进行采样，获取预设长度的语音数据。

10、进一步地，对语音数据进行特征抽取，获取第一特征信息，包括：

11、利用一维卷积对语音数据进行特征抽取，得到第一长度的第一特征矩阵；

12、将预先学习获得的、第二长度的第二特征矩阵与所述第一特征矩阵进行拼接，获得第三长度的第一拼接矩阵，其中，拼接时第一特征矩阵在前、第二特征矩阵在后；

13、基于注意力机制对所述第一拼接矩阵进行多次特征强化，获得第二特征矩阵；

14、从所述第二特征矩阵抽取后n组矩阵元素，作为第二长度的第三特征矩阵，n为第二长度的数值；

15、将第三特征矩阵通过多层感知机模型进行编码，获取第一特征信息。

16、进一步地，基于注意力机制对所述第一拼接矩阵进行多次特征强化，获得第二特征矩阵，包括：

17、基于注意力机制对所述第一拼接矩阵进行特征强化，获得强化后的第一特征矩阵，并将所述强化后的第一特征矩阵与本次强化前的第一特征矩阵进行元素相加，获得新的第一特征矩阵，重复执行k次；

18、对基于注意力机制对执行k次后获得的第一特征矩阵进行m次特征强化，获得第二特征矩阵。

19、进一步地，基于注意力机制将第一特征信息与第二特征信息进行特征融合，包括：

20、分别对第一特征信息与第二特征信息进行矩阵转置操作，获得第一转置特征信息与第二转置特征信息；

21、将所述第一转置特征信息分别与v参数矩阵和k参数矩阵相乘，获得v特征矩阵和k特征矩阵，将所述第二转置特征信息经过多层感知机模型进行编码后与q参数矩阵相乘，得到q特征矩阵；

22、将所述q特征矩阵与k特征矩阵相乘，并将得到的关系矩阵中的元素映射至预设区间后，与v特征矩阵相乘获取中间结果矩阵；

23、将所述中间结果矩阵与预先学习获得的参数相乘后，与第二转置特征信息进行元素相加，得到第一融合特征矩阵；

24、将所述第一融合特征矩阵进行过前馈神经网络模型处理，获得第二融合特征矩阵，并将所述第二融合特征矩阵与预先学习获得的参数相乘后，再与第二融合特征矩阵进行元素相加，得到第三融合矩阵；

25、对所述第三融合矩阵进行矩阵转置操作，并将转置操作的结果经过多层感知机模型进行编码，获得融合特征信息。

26、进一步地，特征强化的次数为多次。

27、进一步地，根据特征强化后的第四特征信息，生成关于所述语音数据的聚类簇之后，还包括：

28、对名称重复的聚类簇进行去重处理。

29、进一步地，进行特征强化的具体处理过程包括：

30、将所述输入的特征信息分别与第一q参数矩阵、第二q参数矩阵、第一k参数矩阵、第二k参数矩阵相乘、第一v参数矩阵、第二v参数矩阵，得到第一q特征矩阵和第二q特征矩阵、第一k特征矩阵、第二k特征矩阵、第一v特征矩阵、第二v特征矩阵；

31、将第一q特征矩阵和第一k特征矩阵进行转置操作后相乘，得到第一关系矩阵，将第二q特征矩阵和第二k特征矩阵进行转置操作后相乘，得到第二关系矩阵；

32、使用预设的第一遮盖矩阵和第二遮盖矩阵分别对所述第一关系矩阵和第二关系矩阵的元素进行遮盖处理，以使所述第一关系矩阵和第二关系矩阵中被遮盖的部分的元素设置为负无穷小，其余部分的元素保持不变，其中，所述第一遮盖矩阵的遮盖部分与第二遮盖矩阵中的遮盖部分偏移一个矩阵元素；

33、对遮盖处理后的第一关系矩阵的元素映射至预设区间后，与第一v特征矩阵相乘得到第一中间结果矩阵，对遮盖处理后的第二关系矩阵的元素映射至预设区间后，与第二v特征矩阵相乘得到第二中间结果矩阵；

34、对第一中间结果矩阵和第二中间结果矩阵中的后t//2组矩阵元素进行维度偏移处理，获得第一偏移输出矩阵和第二偏移输出矩阵，其中，第偶数组的矩阵元素向下偏移、第奇数组的矩阵元素向上偏移，偏移导致的元素空缺使用预先学习到的参数值补充；

35、将第一偏移输出矩阵和第二偏移输出矩阵分别经过不同的前馈神经网络模型处理，将处理后的结果进行元素相加后，再经过多层感知机模型进行编码，获得特征强化后的特征信息。

36、本技术的一些实施例还提供了一种语音聚类设备，其中，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行前述的语音聚类方法。

37、本技术的另一些实施例还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令可被处理器执行以实现所述的语音聚类方法。

38、相较于现有技术，本技术实施例提供的一种语音聚类方案中，首先将语音数据进行特征抽取后，利用注意力机制与用于表示文本特征的第二特征信息进行特征融合，进而生成关于所述语音数据的描述文本，然后与第二提示文本进行拼接，抽取特征后利用注意力机制进行特征强化，并生成关于每个语音数据的标签，再将标签与第三提示文本进行拼接，抽取特征后利用注意力机制进行特征强化，并生成关于语音数据的聚类簇，在获得聚类簇后将语音数据与聚类簇进行关联，从而确定各个语音数据所属的聚类簇，实现语音聚类。该方案提供了一种全新的处理流程，并利用注意力机制对特征进行多维度的融合以及强化，使得特征信息能够更加准确地反映出语音数据的内在特点，从而能够有效提升聚类的准确性，获得更好的聚类结果。