技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频转化方法、装置及相关设备与流程 > 正文

音频转化方法、装置及相关设备与流程

国知局
2024-06-21 11:54:31

本发明涉及计算机，尤其涉及一种音频转化方法、装置及相关设备。

背景技术：

1、目前的会议转录系统可以通过语音识别技术，将演讲内容转化为文本形式。但由于语音识别技术受多种因素的影响，比如，多个说话者，说话者的口音、语速、背景噪音等，导致语音识别出的文本的准确率较低。

2、因此，现有的会议转录系统存在语音识别结果的准确率低的问题。

技术实现思路

1、本发明实施例提供一种音频转化方法、装置、计算机设备和存储介质，以提高语音识别结果的转化后的准确率。

2、为了解决上述技术问题，本申请实施例提供一种音频转化方法，包括：

3、获取待转化的音频片段；

4、基于训练好的说话者嵌入模型，确定所述音频片段的嵌入表示；

5、对所述音频片段的嵌入表示进行聚类，得到至少一个说话者，并确定所述说话者的提示信息；

6、若获取到待转化的新的音频片段且基于新的所述音频片段得到新的说话者，则确定所述新的说话者的提示信息；

7、将各所述音频片段转化为对应的文本内容，并基于所述文本内容以及所述提示信息，确定所述文本内容对应的说话者。

8、为了解决上述技术问题，本申请实施例还提供一种音频转化装置，包括：

9、音频片段获取模块，用于获取待转化的音频片段；

10、嵌入表示获取模块，用于基于训练好的说话者嵌入模型，确定所述音频片段的嵌入表示；

11、提示信息第一确定模块，用于对所述音频片段的嵌入表示进行聚类，得到至少一个说话者，并确定所述说话者的提示信息；

12、提示信息第二确定模块，用于若获取到待转化的新的音频片段且基于新的所述音频片段得到新的说话者，则确定所述新的说话者的提示信息；

13、转化模块，用于将各所述音频片段转化为对应的文本内容，并基于所述文本内容以及所述提示信息，确定所述文本内容对应的说话者。

14、为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述音频转化方法的步骤。

15、为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述音频转化方法的步骤。

16、本发明实施例提供的音频转化方法、装置、计算机设备及存储介质，通过获取待转化的音频片段；基于训练好的说话者嵌入模型，确定所述音频片段的嵌入表示；对所述音频片段的嵌入表示进行聚类，得到至少一个说话者，并确定所述说话者的提示信息；若获取到待转化的新的音频片段且基于新的所述音频片段得到新的说话者，则确定所述新的说话者的提示信息；将各所述音频片段转化为对应的文本内容，并基于所述文本内容以及所述提示信息，确定所述文本内容对应的说话者。通过上述过程，实现了在多说话者的应用场景下，快速响应并生成说话者的提示信息，从而提高语音识别结果的转化后的准确率。

技术特征：

1.一种音频转化方法，其特征在于，所述音频转化方法包括：

2.如权利要求1所述的音频转化方法，其特征在于，所述说话者嵌入模型包括特征提取子模型和深度学习子模型，所述基于训练好的说话者嵌入模型，确定所述音频片段的嵌入表示，包括：

3.如权利要求1所述的音频转化方法，其特征在于，在所述基于训练好的说话者嵌入模型，确定所述音频片段的嵌入表示之前，所述方法，还包括：

4.如权利要求1所述的音频转化方法，其特征在于，所述对所述音频片段的嵌入表示进行聚类，得到至少一个说话者，并确定所述说话者的提示信息，包括：

5.如权利要求4所述的音频转化方法，其特征在于，所述确定每一所述音频子片段对应的说话者，包括：针对每一所述音频子片段，计算所述音频子片段的嵌入表示与每一说话者的嵌入表示的相似度，根据相似度结果确定所述音频子片段对应的说话者。

6.如权利要求1所述的音频转化方法，其特征在于，所述获取待转化的音频片段，包括：

7.如权利要求1所述的音频转化方法，其特征在于，所述将各所述音频片段转化为对应的文本内容之前，还包括：

8.一种音频转化装置，其特征在于，所述音频转化装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的音频转化方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的音频转化方法。

技术总结本发明涉及计算机技术领域，公开了一种音频转化方法、装置及相关设备，所述方法包括：获取待转化的音频片段；基于训练好的说话者嵌入模型，确定所述音频片段的嵌入表示；对所述音频片段的嵌入表示进行聚类，得到至少一个说话者，并确定所述说话者的提示信息；若获取到待转化的新的音频片段且基于新的所述音频片段得到新的说话者，则确定所述新的说话者的提示信息；将各所述音频片段转化为对应的文本内容，并基于所述文本内容以及所述提示信息，确定所述文本内容对应的说话者，采用本发明提高语音识别结果的转化后的准确率。技术研发人员：林余楚受保护的技术使用者：深译信息科技（珠海）有限公司技术研发日：技术公布日：2024/5/29