基于小样本数据的方言语音识别系统及方法与流程
- 国知局
- 2024-06-21 10:38:24
本发明属于语音识别,特别涉及一种基于小样本数据的方言语音识别系统及方法。
背景技术:
1、方言语音识别技术是语音处理技术的重要领域,近年来随着人工智能和深度学习技术的发展,取得了显著的进步。方言语音识别技术是指能够识别和理解不同方言的语音识别技术。早期的方言语音识别技术主要依赖于语音识别算法和大量的方言语音数据。但由于方言的多样性和复杂性,这种方法的效果并不理想。
2、考虑到方言语音数据的有限性,中国专利申请202210635871.5公开了一种小样本语种的语音识别方法、装置、电子设备及存储介质,该方法可以包括:根据获取的小样本语种对应的待识别语音信息,分割为多个帧信息;提取所述多个帧信息中每个帧信息分别对应的语音特征向量;在所述语音特征向量中,确定语音最终特征向量;基于所述目标特征向量,利用预设的编码器-解码器模型确定所述小样本语种对应的目标语音信息。该方法用以解决现有技术中由于一些待识别语音具有一定的局限性,易导致该电子设备无法准确对上述这些待识别语音进行准确识别的缺陷,实现准确识别小样本语种对应的语音信息。
3、近年来,随着深度学习技术的发展,方言语音识别技术也取得了显著的进步。例如,基于深度学习的方言语音识别模型可以通过学习大量的方言语音数据,自动学习到方言的语音特征和语言规则,从而实现更准确的方言语音识别。
4、方言语音识别的不足主要体现在以下几个方面:首先,方言的种类繁多,且每种方言的发音规则、语法结构都有所不同,这给语音识别带来了很大的困难;其次,由于方言使用人口相对较少,可用于训练的语音数据量有限,这使得方言语音识别模型的训练效果往往不尽如人意;最后,方言的发音习惯和语音特征与普通话有很大的差异,这使得现有的基于普通话的语音识别技术在处理方言时效果较差。因此我们需要大量的方言语音数据去训练方言语音识别模型,但是数据的收集周期、成本往往是很高的。
技术实现思路
1、本发明的目标主要是解决现有技术中方言样本数据不足的问题,为此,本发明通过音色转换技术生成大量的方言语音数据,来优化方言语音识别模型。
2、本发明提供一种基于小样本数据的方言语音识别方法,其特征在于,具体包括以下步骤方言语音数据收集准备;
3、利用音色转换技术,将收集到的所述方言语音数据转换成多发音人的大量方言语音数据;
4、在得到所述大量的方言语音数据后,利用所述大量的方言语音数据,训练方言语音识别声学模型;
5、利用所述方言语音识别声学模型对待识别的方言语音进行识别。
6、进一步地,所述方言语音识别声学模型的训练,具体包括:
7、将所述大量的方言语音数据划分为训练集、验证集和测试集;利用所述训练集中的数据训练所述声学模型,更新模型参数;
8、对训练完成的所述声学模型进行验证和测试,得到性能最佳的模型;
9、对所述声学模型迭代更新。
10、本发明提供一种基于小样本数据的方言语音识别装置,其特征在于,所述装置包括:获取单元、方言语音识别单元、及输出单元;
11、其中,所述获取单元用于获取待识别的方言语音数据;
12、所述方言语音识别单元,用于识别所述待识别的方言语音数据;
13、其中,所述方言语音识别单元包括数据库、音色转换单元、以及方言语音识别声学模型;
14、所述数据库用于存储尽可能多的已有方言语音数据;
15、所述音色转换单元用于利用音色转换技术,将所述已有方言语音数据转换成多发音人的大量方言语音数据;
16、所述方言语音识别声学模型用于识别所述待识别的方言语音数据;并且,其由所述音色转换单元中得到的所述大量方言语音数据训练得到;
17、所述输出单元用于输出方言语音识别结果。
18、进一步地,所述方言语音识别声学模型的训练,具体包括:
19、将所述大量的方言语音数据划分为训练集、验证集和测试集;利用所述训练集中的数据训练所述声学模型,更新模型参数;
20、对训练完成的所述声学模型进行验证和测试,得到性能最佳的模型;
21、对所述声学模型迭代更新。
22、本发明还提供一种计算机可读存储介质,其特征在于:
23、其上存储有计算机程序,该程序被处理器执行时实现权利要求1-2中任一项所述的方法的步骤。
24、本发明还提供一种电子设备,其特征在于,包括:
25、一个或多个处理器;以及
26、与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1-2中任一项所述的方法的步骤。
27、本发明采用音色转换技术,可以用少量的方言语音数据转化为多人多方言的语音数据,从而大大增加了可用于训练的方言语音数据量,解决了方言语音数据稀缺、训练数据少的问题。采用音色转换技术保留了原方言音频中的发音习惯和语音特征,获取的方言语音数据质量更高,从而提高了方言语音识别模型的识别准确率。本发明提供的系统和方法可以使得语音识别可以更好地服务于更多使用方言的人,具有更好的用户体验。
技术特征:1.一种基于小样本数据的方言语音识别方法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,
3.一种基于小样本数据的方言语音识别装置,其特征在于,所述装置包括:获取单元、方言语音识别单元、以及输出单元;
4.根据权利要求3所述的装置,其特征在于,
5.一种计算机可读存储介质,其特征在于:
6.一种电子设备,其特征在于,包括:
技术总结本发明提供了一种基于小样本数据的方言语音识别方法及装置。本发明旨在通过收集少量的多种方言语音数据,利用音色转化技术生成大量的方言语音数据,以此训练方言语音识别模型。首先,我们每种方言准备至少一人的语音数据,然后通过音色转化技术,模拟出多种不同的音色,从而生成大量的多人多方言的数据。这种方法可以大大减少数据收集的周期、难度和成本,同时也能够提高数据的多样性,使得训练出的模型具有更好的泛化能力。接下来,我们将利用这些生成的数据来训练多方言语音识别模型。通过这种方式,可以实现对多种方言的准确识别,从而提高语音识别系统的适用范围和用户体验。技术研发人员:支国翔,司玉景,李全忠受保护的技术使用者:普强信息技术(北京)有限公司技术研发日:技术公布日:2024/1/15本文地址:https://www.jishuxx.com/zhuanli/20240618/20860.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。