一种远场语音识别方法、系统、装置及存储介质与流程
- 国知局
- 2024-06-21 11:31:02
本技术涉及远场语音识别,特别是涉及一种远场语音识别方法、系统、装置及存储介质。
背景技术:
1、远场语音识别,即远距离语音识别,随着人工智能技术的发展,远场语音识别已经成为了人机交互重要实现方式,利用远场语音识别能够实现远距离的设备控制,为人们的生活提供更多的便利,如智能家居、车载场景和会议场景等。
2、在近场语音识别中,用户说话时距离语音信号采集装置很近,采集到的语音信号的信噪比较高,使得近场语音识别能够达到较高的识别率;而在远场语音识别中,用户说话时距离语音信号采集装置较远,由于回声、室内混响、多信号源以及非平稳噪声等干扰因素的影响,采集到的语音信号的信噪比较低,使得远场语音识别率远远低于近场语音识别率,而现有的语音识别系统中的声学模型通常是由近场语音数据训练生成,由于识别数据和训练数据的不匹配,导致利用近场语音数据训练出来的模型进行远场语音识别的准确率非常低。
技术实现思路
1、有鉴于此,本技术提供了一种远场语音识别方法、系统、装置及存储介质,本技术提供的远场语音识别方法、系统、装置及存储介质,能够有效地提高远场语音识别模型对远场语音识别的准确率。
2、本技术提供一种远场语音识别方法,包括:
3、获取源域近场语音数据集和目标域远场语音数据集;
4、对所述源域近场语音数据集和所述目标域远场语音数据集进行预处理,得到近场语音频域特征集和远场语音频域特征集;
5、根据所述近场语音频域特征集,对预设初始对抗域适应网络中的初始编码器和初始解码器进行预训练,得到预训练后的编码器和预训练后的解码器;
6、根据所述近场语音频域特征集和所述远场语音频域特征集,对所述预训练后的编码器、所述预训练后的解码器和初始域判别器进行训练,得到训练后的编码器和训练后的解码器;
7、根据所述训练后的编码器和所述训练后的解码器,构建声学模型;
8、根据所述声学模型、构建好的词典和训练好的语言模型,构建远场语音识别模型;
9、将待识别远场语音输入所述远场语音识别模型,得到所述待识别远场语音的识别结果。
10、可选地,所述对所述源域近场语音数据集和所述目标域远场语音数据集进行预处理,得到近场语音频域特征集和远场语音频域特征集,包括:
11、在所述源域近场语音数据集内的每个源域近场语音数据上增加文本标注、音节标注和类别标注,得到标注后的源域近场语音数据集;
12、在所述目标域远场语音数据集内的每个目标域远场语音数据上增加类别标注,得到标注后的目标域远场语音数据集;
13、对所述标注后的源域近场语音数据集和所述标注后的目标域远场语音数据集进行数据增强处理,得到增强后的源域近场语音数据集和增强后的目标域远场语音数据集;
14、对所述增强后的源域近场语音数据集和所述增强后的目标域远场语音数据集进行特征提取,得到近场语音频域特征集和远场语音频域特征集。
15、可选地,所述根据所述近场语音频域特征集,对预设初始对抗域适应网络中的初始编码器和初始解码器进行预训练,得到预训练后的编码器和预训练后的解码器,包括:
16、利用所述初始编码器对所述近场语音频域特征集进行特征编码,得到编码后的第一向量;
17、将所述第一向量输入至所述初始解码器,得到解码后的第一音节序列;
18、根据每个所述源域近场语音数据的音节标注、所述第一音节序列和第一损失函数,得到第一损失梯度;
19、根据所述第一损失梯度调整所述初始编码器和所述初始解码器的参数,直至参数调整后的编码器和解码器收敛,得到预训练后的编码器和预训练后的解码器。
20、可选地,所述根据所述近场语音频域特征集和所述远场语音频域特征集,对所述预训练后的编码器、所述预训练后的解码器和初始域判别器进行训练,得到训练后的编码器和训练后的解码器,包括:
21、利用所述预训练后的编码器对所述近场语音频域特征集进行特征编码,得到编码后的第二向量;
22、将所述第二向量分别输入至所述预训练后解码器和所述初始域判别器,得到解码后的第二音节序列和判别后的第一域类型集;
23、根据每个所述源域近场语音数据的音节标注、所述第二音节序列和所述第一损失函数,得到第二损失梯度;
24、根据每个所述源域近场语音数据的类别标注、所述第一域类型集和第二损失函数,得到第三损失梯度;
25、利用所述预训练后的编码器对所述远场语音频域特征集进行特征编码,得到编码后的第三向量;
26、将所述第三向量输入至所述初始域判别器,得到判别后的第二域类型集;
27、根据每个所述目标域远场语音数据的类别标注、所述第二域类型集和所述第二损失函数,得到第四损失梯度;
28、根据所述第二损失梯度、所述第三损失梯度和所述第四损失梯度,调整所述预训练后的编码器、所述预训练后的解码器和所述初始域判别器的参数,直至参数调整后的编码器、解码器和域判别器收敛,得到训练后的编码器和训练后的解码器。
29、可选地,所述训练好的语言模型是通过以下方法训练得到的:
30、获取文本数据集;
31、根据所述文本数据集和预设拼音数据库,得到与所述文本数据库对应的第三音节序列;
32、根据所述文本数据集和所述第三音节序列,对预设初始语音模型进行训练,得到训练好的语言模型。
33、可选地,所述构建好的词典是根据所述文本数据集和所述第三音节序列构建得到的。
34、本技术还提供一种远场语音识别系统,包括:
35、获取模块,用于获取源域近场语音数据集和目标域远场语音数据集;
36、预处理模块,用于对所述源域近场语音数据集和所述目标域远场语音数据集进行预处理,得到近场语音频域特征集和远场语音频域特征集;
37、第一模型建立模块,用于根据所述近场语音频域特征集,对预设初始对抗域适应网络中的初始编码器和初始解码器进行预训练,得到预训练后的编码器和预训练后的解码器;
38、第二模型建立模块,用于根据所述近场语音频域特征集和所述远场语音频域特征集,对所述预训练后的编码器、所述预训练后的解码器和初始域判别器进行训练,得到训练后的编码器和训练后的解码器;
39、第一构建模块,用于根据所述训练后的编码器和所述训练后的解码器,构建声学模型;
40、第二构建模块,用于根据所述声学模型、构建好的词典和训练好的语言模型,构建远场语音识别模型;
41、识别模块,用于将待识别远场语音输入所述远场语音识别模型,得到所述待识别远场语音的识别结果。
42、可选地,所述预处理模块在执行对所述源域近场语音数据集和所述目标域远场语音数据集进行预处理,得到近场语音频域特征集和远场语音频域特征集时,具体用于:
43、在所述源域近场语音数据集内的每个源域近场语音数据上增加文本标注、音节标注和类别标注,得到标注后的源域近场语音数据集;
44、在所述目标域远场语音数据集内的每个目标域远场语音数据上增加类别标注,得到标注后的目标域远场语音数据集;
45、对所述标注后的源域近场语音数据集和所述标注后的目标域远场语音数据集进行数据增强处理,得到增强后的源域近场语音数据集和增强后的目标域远场语音数据集;
46、对所述增强后的源域近场语音数据集和所述增强后的目标域远场语音数据集进行特征提取,得到近场语音频域特征集和远场语音频域特征集。
47、可选地,第一模型建立模块在执行根据所述近场语音频域特征集,对预设初始对抗域适应网络中的初始编码器和初始解码器进行预训练,得到预训练后的编码器和预训练后的解码器时,具体用于:
48、利用所述初始编码器对所述近场语音频域特征集进行特征编码,得到编码后的第一向量;
49、将所述第一向量输入至所述初始解码器,得到解码后的第一音节序列;
50、根据每个所述源域近场语音数据的音节标注、所述解码后的第一音节序列和第一损失函数,得到第一损失梯度;
51、根据所述第一损失梯度调整所述初始编码器和所述初始解码器的参数,直至参数调整后的编码器和解码器收敛,得到预训练后的编码器和预训练后的解码器。
52、可选地,第二模型建立模块在执行根据所述近场语音频域特征集和所述远场语音频域特征集,对所述预训练后的编码器、所述预训练后的解码器和初始域判别器进行训练,得到训练后的编码器和训练后的解码器时,具体用于:
53、利用所述预训练后的编码器对所述近场语音频域特征集进行特征编码,得到编码后的第二向量;
54、将所述第二向量分别输入至所述预训练后解码器和所述初始域判别器,得到解码后的第二音节序列和判别后的第一域类型集;
55、根据每个所述源域近场语音数据的音节标注、所述第二音节序列和所述第一损失函数,得到第二损失梯度;
56、根据每个所述源域近场语音数据的类别标注、所述第一域类型集和第二损失函数,得到第三损失梯度;
57、利用所述预训练后的编码器对所述远场语音频域特征集进行特征编码,得到编码后的第三向量;
58、将所述第三向量输入至所述初始域判别器,得到判别后的第二域类型集;
59、根据每个所述目标域远场语音数据的类别标注、所述第二域类型集和所述第二损失函数,得到第四损失梯度;
60、根据所述第二损失梯度、所述第三损失梯度和所述第四损失梯度,调整所述预训练后的编码器、所述预训练后的解码器和所述初始域判别器的参数,直至参数调整后的编码器、解码器和域判别器收敛,得到训练后的编码器和训练后的解码器。
61、本技术还提供一种远场语音识别装置,包括:处理器、存储器和通信总线;
62、所述通信总线,用于实现所述处理器和所述存储器之间的连接通信;
63、所述处理器用于执行所述存储器中存储的远场语音识别处理程序,以实现上述任一项所述远场语音识别方法的步骤。
64、本技术还提供一种可读存储介质,所述可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现上述任一项所述远场语音识别方法的步骤。
65、与现有技术相比,本技术提供的一种远场语音识别方法、系统、装置及存储介质,通过获取源域近场语音数据集和目标域远场语音数据集,再对源域近场语音数据集和目标域远场语音数据集进行预处理,得到近场语音频域特征集和远场语音频域特征集,再根据近场语音频域特征集,对预设初始对抗域适应网络中的初始编码器和初始解码器进行预训练,得到预训练后的编码器和预训练后的解码器,再根据近场语音频域特征集和远场语音频域特征集,对预训练后的编码器、预训练后的解码器和初始域判别器进行训练,得到训练后的编码器和训练后的解码器,再根据训练后的编码器和训练后的解码器,构建声学模型,进而根据声学模型、构建好的词典和训练好的语言模型,构建远场语音识别模型,最后将待识别远场语音输入远场语音识别模型,得到待识别远场语音的识别结果,本技术中,通过近场语音频域特征集,先预训练预设初始对抗域适应网络中的初始编码器和初始解码器,得到预训练后的编码器和预训练后的解码器,再使用近场语音频域特征集和远场语音频域特征集,对预训练后的编码器、预训练后的解码器和初始域判别器进行训练,得到训练后的编码器和训练后的解码器,根据训练后的编码器和训练后的解码器构建得到声学模型,使得在模型预训练和训练的过程中基于近场语音数据的基础上结合了远场语音数据,且使得声学模型能够消除源域近场语音数据和目标域远场语音数据之间的特征分布差异,将具备不同特征分布的源域近场语音数据和目标域远场语音数据映射到同一个特征空间,能够实现声学模型的域适应,进而使得由声学模型、词典和语言模型构建的远场语音识别模型具备远场语音识别的能力,从而能够有效地提高远场语音识别模型对远场语音识别的准确率。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21993.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。