技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、计算机设备和存储介质与流程 > 正文

音频处理方法、装置、计算机设备和存储介质与流程

国知局
2024-06-21 11:37:03

本申请涉及计算机，特别是涉及一种音频处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、音频日志化技术是一种将音频数据转化为可存储、可分析、可搜索和可检索的文本形式的过程。这项技术在各种应用中具有广泛的用途，包括语音助手、会议记录、电话录音转录等。

2、但是，如果音频中涉及到多个人的发言，将音频转换为文本后，是无法对不同人的发言进行区分的，导致无法清楚的知道音频原始所表达的内容。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够清楚的知道音频所表达的内容的音频方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种音频处理方法，其特征在于，所述方法包括：

3、获取待处理音频，将所述待处理音频划分为多个音频片段，提取各音频片段的声学特征；

4、基于各音频片段的声学特征，为各音频片段标记说话人标签；

5、基于为各音频片段所标记的说话人标签，针对每个说话人标签确定与当前说话人标签对应的音频片段；基于与所述当前说话人标签对应的音频片段，确定与所述当前说话人标签对应的音频划分时间戳；基于所述音频划分时间戳，从所述待处理音频中确定与所述当前说话人标签对应的待转换音频片段；对所述待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息。

6、在其中一个实施例中，所述对所述待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息之后，所述方法还包括：

7、基于当前说话人标签对应的音频划分时间戳，确定所述当前说话人标签对应的文本信息的时间戳；

8、基于各说话人标签、各说话人标签对应的文本信息、以及各说话人标签对应的文本信息的时间戳，生成多人谈话日志。

9、在其中一个实施例中，所述基于各音频片段的声学特征，为各音频片段标记说话人标签的步骤通过多标签分类模型实现，所述多标签分类模型的训练过程，包括：

10、获取多个音频片段样本，各音频片段样本标记有标准说话人标签；

11、提取各音频片段样本的声学特征；

12、将所述各音频片段样本的声学特征输入初始多标签分类模型，基于所述初始多标签分类模型判断各音频片段样本的声学特征所满足的声学特征条件；

13、基于音频片段样本的声学特征所满足的声学特征条件，为各音频片段样本标记与所述声学特征条件对应的说话人标签；

14、基于所述音频片段样本标记的说话人标签以及标准说话人标签，对所述初始标签分类模型进行调整，直至所述初始标签分类模型标记的音频片段样本的说话人标签以及标准说话人标签的误差在预设误差范围内，得到所述多标签分类模型。

15、在其中一个实施例中，所述对所述待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息包括：

16、将所述待转换音频片段输入语音识别模型，依次经过所述语音识别模型中的编码器模块、对齐器模块以及解码器模块处理，得到处理结果；

17、基于所述处理结果，得到所述与当前说话人标签对应的文本信息。

18、在其中一个实施例中，所述基于为各音频片段所标记的说话人标签，针对每个说话人标签确定与当前说话人标签对应的音频片段，包括：

19、从所述多个音频片段中确定说话人标签的数量为两个或两个以上的多标签音频片段；

20、针对每个说话人标签，若所述多标签音频片段的两个或两个以上的说话人标签中存在说话人标签与所述当前说话人标签相匹配，则将所述多标签音频片段作为与所述当前说话人标签对应的音频片段。

21、在其中一个实施例中，所述对所述待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息，包括：

22、对所述待转换音频片段中各音频片段的说话人标签进行统计，得到说话人标签为一个的单标签音频片段和说话人标签为两个或两个以上的所述多标签音频片段，所述单标签音频片段和所述多标签音频片段为相邻音频片段；

23、将所述单标签音频片段和多标签音频片段分别转换为文本信息；

24、基于所述单标签音频片段对应的文本信息，通过上下文语义分析方法对所述多标签音频片段对应的文本信息进行筛选，得到所述多标签音频片段的筛选文本信息；

25、基于所述单标签音频片段对应的文本信息和所述多标签音频片段的筛选文本信息，确定与所述当前说话人标签对应的文本信息。

26、第二方面，本申请还提供了一种音频处理装置，所述装置包括：

27、获取模块，用于获取待处理音频，将所述待处理音频划分为多个音频片段，提取各音频片段的声学特征；

28、标记模块，用于基于各音频片段的声学特征，为各音频片段标记说话人标签；

29、文本转换模块，用于基于为各音频片段所标记的说话人标签，针对每个说话人标签确定与当前说话人标签对应的音频片段；基于与所述当前说话人标签对应的音频片段，确定与所述当前说话人标签对应的音频划分时间戳；基于所述音频划分时间戳，从所述待处理音频中确定与所述当前说话人标签对应的待转换音频片段；对所述待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息。

30、第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各实施例方法的步骤。

31、第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各实施例方法的步骤。

32、第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各实施例方法的步骤。

33、上述音频处理方法、装置、计算机设备、存储介质和计算机程序产品，获取待处理音频，可以将待处理音频划分为多个音频片段，并提取各音频片段的声学特征，然后基于各音频片段的声学特征，为各音频片段标记说话人标签，这样可以基于为各音频片段所标记的说话人标签，针对每个说话人标签确定与当前说话人标签对应的音频片段，从而基于与当前说话人标签对应的音频片段，确定与当前说话人标签对应的音频划分时间戳；基于音频划分时间戳，可以从待处理音频中确定与当前说话人标签对应的待转换音频片段，即本申请可以知道每段待转换音频片段的说话人，从而对待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息后，可以清楚的知道每段文本信息的说话人，相对于现有方案，能更加清楚的知道待处理音频所表达的内容。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于各音频片段的声学特征，为各音频片段标记说话人标签的步骤通过多标签分类模型实现，所述多标签分类模型的训练过程，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息包括：

5.根据权利要求1所述的方法，其特征在于，所述基于为各音频片段所标记的说话人标签，针对每个说话人标签确定与当前说话人标签对应的音频片段，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述待转换音频片段进行文本转换，得到与当前说话人标签对应的文本信息，包括：

7.一种音频处理装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

技术总结本申请涉及一种音频处理方法、装置、计算机设备、存储介质和计算机程序产品，涉及计算机技术领域。可用于金融科技领域或其他相关领域。方法包括：获取待处理音频，将待处理音频划分为多个音频片段，提取各音频片段的声学特征；基于各音频片段的声学特征，为各音频片段标记说话人标签；基于为各音频片段所标记的说话人标签，针对每个说话人标签确定与当前说话人标签对应的音频片段；基于与当前说话人标签对应的音频片段，确定与当前说话人标签对应的音频划分时间戳；基于音频划分时间戳，从待处理音频中确定与当前说话人标签对应的待转换音频片段；对待转换音频片段进行文本转换。采用本方法能够清楚的知道音频所表达的内容。技术研发人员：马宇辰受保护的技术使用者：中国工商银行股份有限公司技术研发日：技术公布日：2024/3/17