技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频识别方法、装置、设备以及存储介质与流程 > 正文

音频识别方法、装置、设备以及存储介质与流程

国知局
2024-06-21 11:26:45

本公开涉及音频检测分析，尤其涉及音频识别方法、装置、设备以及存储介质。

背景技术：

1、随着会议音频文件识别的需求越来越重要，能够准确的识别说话人和说话内容，有效完成会议音频的记录，成为了现今社会中迫切需要解决的问题。而在会议音频识别中，需要识别出说话人、说话时间段以及说话内容，通常需要对输入音频进行有效切分，传统的方法使用的静音检测模型，把音频切分的特别零散，对说话人识别造成困难，导致后续的语音识别也失去了上下文的关联，形成说话人与说话内容的累积识别错误。还有的方法是通过提取待切分音频中各帧的声学特征，进行语义边界序列标注，基于各帧的语义边界结果，对音频进行切分，但是也存在对音频的帧级别标注困难的问题，导致训练的模型存在偏差以及边界识别困难等的问题。也有的方法是对待切分音频进行静音段删除，以减少静音段对最终语音分离的影响，并使用端点检测，实现对同一语音段中不同说话人的语音段分离，避免了同一音频段中包含多个说话人的语音等，但也存在端点检测不准确等问题。

2、所以，亟需一种能够更加准确的识别说话人和说话内容的音频识别方法。

技术实现思路

1、本公开提供了一种音频识别方法、装置、设备以及存储介质。

2、根据本公开的第一方面，提供了一种音频识别方法。该方法包括：

3、获取待识别音频；将所述待识别音频输入静音检测模型，输出多个音频段；

4、根据所述音频段，基于连续帧的窗口检测算法，确定静音段；

5、根据所述静音段提取音频段voc1和音频段voc2，输入声纹特征提取模型，输出所述音频段voc1的声纹特征fea1，以及所述音频段voc2的声纹特征fea2；

6、根据余弦相似度compute_cosine_socre计算所述声纹特征fea1和所述声纹特征fea2的sim1_2值；

7、响应于所述sim1_2值大于预设sim_threshold值，根据所述声纹特征fea1与预设的声纹数据库，确定说话人信息；以及将所述音频段voc1和所述音频段voc2输入语音内容识别模型，输出说话内容。

8、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述将所述待识别音频输入静音检测模型，输出多个音频段，包括：

9、使用vad模型对所述待识别音频进行静音端点检测，以及静音标识；

10、根据端点检测结果对所述待识别音频进行边界标识，得到多个音频段。

11、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述音频段为连续帧的音频片段；

12、所述根据所述音频段，基于连续帧的窗口检测算法，确定静音段，包括：

13、基于连续帧的窗口检测算法，将所述音频段中标识为静音的音频段进行帧数量统计，并基于连续帧的数量确定静音段。

14、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述静音段提取音频段voc1和音频段voc2，包括：提取所述静音段的前一段音频段为音频段voc1，以及提取所述静音段的后一段音频段为音频段voc2。

15、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述预设的声纹数据库包括多个说话人信息及其对应的声纹特征；

16、所述根据所述声纹特征fea1与预设的声纹数据库，确定说话人信息，包括：

17、根据余弦相似度compute_cosine_socre计算所述声纹特征fea1和所述声纹数据库中各声纹特征的sim1_2值；

18、如果最大的sim1_2值大于所述sim_threshold值，则将最大的sim1_2值对应的声纹特征对应的说话人信息，作为所述声纹特征fea1对应的说话人信息。

19、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

20、响应于所述sim1_2值小于等于所述sim_threshold值，根据所述声纹特征fea1与预设的声纹数据库，确定对应的说话人信息；以及将所述音频段voc1输入语音内容识别模型，输出对应的说话内容；

21、对所述音频段voc2继续进行音频识别处理，直至全部音频段识别完毕，输出对应的说话人信息和说话内容。

22、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述音频段包括时间戳信息；

23、所述方法还包括：

24、根据所述时间戳信息，对输出的说话人信息和说话内容生成对应的开始时间和结束时间。

25、根据本公开的第二方面，提供了一种音频识别装置。该装置包括：

26、音频获取及识别模块，用于获取待识别音频；将所述待识别音频输入静音检测模型，输出多个音频段；

27、静音确定模块，用于根据所述音频段，基于连续帧的窗口检测算法，确定静音段；

28、声纹提取模块，用于根据所述静音段提取音频段voc1和音频段voc2，输入声纹特征提取模型，输出所述音频段voc1的声纹特征fea1，以及所述音频段voc2的声纹特征fea2；

29、声纹计算模块，用于根据余弦相似度compute_cosine_socre计算所述声纹特征fea1和所述声纹特征fea2的sim1_2值；

30、内容识别模块，用于响应于所述sim1_2值大于预设sim_threshold值，根据所述声纹特征fea1与预设的声纹数据库，确定说话人信息；以及将所述音频段voc1和所述音频段voc2输入语音内容识别模型，输出说话内容。

31、根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

32、根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面所述的方法。

33、本公开的实施例提供的音频识别方法、装置、设备以及存储介质，对于给定输入的待识别音频，采用静音检测模型与声纹特征提取模型，进行融合判断音频的切分，同一个人的音频不会由于静音而切分，形成的融合切分会使得音频切分更加准确，对切分后的音频进行声纹识别和语音内容识别，可以得到更加准确的说话人识别与说话内容识别，有效完成待识别音频的记录生成。

34、应当理解，技术实现要素：部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

技术特征：

1.一种音频识别方法，其特征在于，包括：

2.根据权利要求l所述的方法，其特征在于，所述将所述待识别音频输入静音检测模型，输出多个音频段，包括：

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，所述根据所述静音段提取音频段voc1和音频段voc2，包括：提取所述静音段的前一段音频段为音频段voc1，以及提取所述静音段的后一段音频段为音频段voc2。

5.根据权利要求1所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，

8.一种音频识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一权利要求所述的方法。

技术总结本公开的实施例提供了音频识别方法、装置、设备以及存储介质，应用于音频检测分析技术领域。所述方法包括将获取的待识别音频输入静音检测模型，输出多个音频段；根据音频段，基于连续帧的窗口检测算法，确定静音段；根据静音段提取音频段voc1和音频段voc2，输入声纹特征提取模型，输出音频段Voc1的声纹特征fea1，以及音频段voc2的声纹特征fea2；根据余弦相似度compute_cosine_socre计算声纹特征fea1和声纹特征fea2的sim1_2值；响应于sim1_2值大于预设sim_threshold值，根据声纹特征fea1与预设的声纹数据库，确定说话人信息；以及将音频段Voc1和音频段voc2输入语音内容识别模型，输出说话内容。以此方式，可得到更准确的说话人识别与说话内容识别，有效完成待识别音频的记录生成。技术研发人员：沈来信,邵岭,郑小林受保护的技术使用者：特斯联通用技术公司技术研发日：技术公布日：2024/2/8