音频处理方法以及装置与流程
- 国知局
- 2024-06-21 11:32:46
本发明实施例涉及音频处理,尤其涉及一种音频处理方法以及装置。
背景技术:
1、通常,用户之间的会话多会通过视频会议或者其他能够通讯的软件来进行多人会话。
2、在基于相应的软件进行会话时,主要会存在会议持续时间长,可选的,6~12小时,需要占用极大的存储空间。音频谈话的过程中信噪比环境比较复杂,音频素材会存在白噪声、设备电流声、电话响铃声等各种干扰背景音。当背景噪音强度过高,可能导致人声在转化为文字的过程中被忽视。
3、进一步的,普通的音频存储不会对音频进行加工处理,为后续根据关键内容检索音频、对谈话内容快速定位增加了难度。
技术实现思路
1、本发明提供一种音频处理方法以及装置,以实现将音频进行人声区分,并对人声音频帧进行内容标注,以提高后续任务处理高效性的效果。
2、第一方面,本发明实施例提供了一种音频处理方法,该方法包括:
3、确定与待处理音频相对应的至少一个音频片段,并确定所述至少一个音频片段中每个音频帧所对应的特征向量;其中,所述音频片段中包括至少两个音频帧;
4、对于各音频片段,将当前音频片段中所有音频帧的特征向量输入至预先训练得到的目标分类器中,以确定所述当前音频片段的分类结果,其中,所述分类结果为1×n阶向量,向量中的分类元素值用于表征音频帧所对应的是人声帧或非人声帧的概率,所述目标分类器中损失函数包括至少两个自适应因子;
5、对于各音频片段,基于当前音频片段的分类结果,确定所述当前音频频段中为人声的位置信息集合;其中,所述位置信息集合中包括至少一个时序,所述时序中的第一个元素用于表示起始帧,第二个元素用于表征结束帧;
6、基于各音频片段所对应的位置信息集合,确定所述至少一个时序的二级标签,以基于所述二级标签确定所述待处理音频中的目标内容。
7、进一步的,所述确定与待处理音频相对应的至少一个音频片段,并确定所述至少一个音频片段中每个音频帧所对应的特征向量,包括:
8、获取待处理音频;
9、依据预设划分时长将所述待处理音频划分为至少一个音频片段;
10、对于各音频片段,提取当前音频片段中每个音频帧的语音特征参数,得到每个音频帧的特征向量。
11、进一步的,所述目标分类器是基于长短时记忆网络的音频分类器,所述方法还包括:
12、获取多个历史音频,并将所述历史音频划分为至少一个音频样本片段;其中,所述音频样本片段的时间长度与所述至少一个音频片段的时间长度相同;
13、对于各音频样本片段,将当前音频样本片段输入至待训练分类器中,得到预测结果,其中,所述预测结果为1×n阶向量,向量中的分类元素值用于表征音频帧所对应的是人声帧或非人声帧的标识,n的数值与所述当前音频样本片段中的音频帧数量相同;
14、基于所述预测结果、所述当前音频样本片段的真实结果以及所述损失函数,确定损失值;
15、将所述损失值对所述待训练分类器中的模型参数进行修正,得到所述目标分类器。
16、进一步的,所述目标分类器中的损失函数为:
17、
18、
19、
20、
21、其中,和γt为自适应因子,表示预测结果,yt表示真实结果,|i|表示音频样本片段中标识为第一标识的音频帧数量,sgn为信号函数。
22、进一步的,所述将当前音频片段中所有音频帧的特征向量输入至预先训练得到的目标分类器中,以确定所述当前音频片段的分类结果,包括:
23、将所述当前音频片段中所有音频帧的特征向量输入至所述目标分类器中,以确定所述音频帧的目标特征向量;
24、基于softmax函数对所述目标特征向量进行处理,确定每个音频帧的结果标识;
25、基于所述当前音频片段中每个音频帧的结果标识,确定所述分类结果的目标向量。
26、进一步的,所述基于当前音频片段的分类结果,确定所述当前音频频段中为人声的位置信息集合,包括:
27、依据预设滑窗的窗长和滑动步长对所述分类结果进行处理,确定所述位置信息集合中的时序。
28、进一步的,所述依据预设滑窗的窗长和滑动步长对所述分类结果进行处理,确定所述位置信息集合中的时序,包括:
29、依据所述预设滑窗的窗长,确定所述分类结果中为人声帧的帧数;
30、若所述帧数大于预设帧数阈值,则确定所述预设滑窗内的起始帧和结束帧,并标记所述起始帧和所述结束帧的序列号,得到所述时序;
31、依据所述滑动步长移动所述预设滑窗,确定下一滑窗内的时序;直至所述滑窗全覆盖所述分类结果中的所有分类结果。
32、进一步的,所述基于各音频片段所对应的位置信息集合,确定所述至少一个时序的二级标签,以基于所述二级标签确定所述待处理音频中的目标内容,包括:
33、对于各所述位置信息集合,将所述当前位置信息集合中的每个时序所对应的至少一个音频帧输入至文本分类模型中,得到每个所述时序的二级标签;
34、其中,所述二级标签与所述文本分类模型在训练阶段所对应的预测分类结果相对应。
35、进一步的,所述二级标签包括第一标签和第二标签,所述第一标签对应于流程标签,所述第二标签对应于业务标签。
36、第二方面,本发明实施例还提供了一种音频处理装置,该装置包括:
37、特征向量确定模块,用于确定与待处理音频相对应的至少一个音频片段,并确定所述至少一个音频片段中每个音频帧所对应的特征向量;其中,所述音频片段中包括至少两个音频帧;
38、分类结果确定模块,用于对于各音频片段,将当前音频片段中所有音频帧的特征向量输入至预先训练得到的目标分类器中,以确定所述当前音频片段的分类结果,其中,所述分类结果为1×n阶向量,向量中的分类元素值用于表征音频帧所对应的是人声帧或非人声帧的概率,所述目标分类器中损失函数包括至少两个自适应因子;
39、信息集合确定模块,用于对于各音频片段,基于当前音频片段的分类结果,确定所述当前音频频段中为人声的位置信息集合;其中,所述位置信息集合中包括至少一个时序,所述时序中的第一个元素用于表示起始帧,第二个元素用于表征结束帧;
40、内容确定模块,用于基于各音频片段所对应的位置信息集合,确定所述至少一个时序的二级标签,以基于所述二级标签确定所述待处理音频中的目标内容。
41、第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
42、一个或多个处理器;
43、存储装置,用于存储一个或多个程序,
44、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例任一所述的音频处理方法。
45、第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的音频处理方法。
46、本发明实施例所提供的技术方案,通过确定与待处理音频相对应的至少一个音频片段,并确定至少一个音频片段中每个音频帧所对应的特征向量,对于各音频片段,将当前音频片段中所有音频帧的特征向量输入至预先训练得到的目标分类器中,以确定当前音频片段的分类结果,其中,分类结果为1×n阶向量,向量中的分类元素值用于表征音频帧所对应的是人声帧或非人声帧的概率,目标分类器中损失函数包括至少两个自适应因子;对于各音频片段,基于当前音频片段的分类结果,确定当前音频频段中为人声的位置信息集合;其中,位置信息集合中包括至少一个时序,时序中的第一个元素用于表示起始帧,第二个元素用于表征结束帧;基于各音频片段所对应的位置信息集合,确定至少一个时序的二级标签,以基于二级标签确定待处理音频中的目标内容,解决了现有技术中音频会议内容较多,同时还伴随着背景干扰音,需要用户从很长的音频中确定出相应的内容,存在难度较高以及不便的问题,实现了智能对音频处理,提高音频处理效率的技术效果。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22141.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。