技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种方言语音的文字转换方法、装置及介质与流程 > 正文

一种方言语音的文字转换方法、装置及介质与流程

国知局
2024-09-11 15:03:57

本发明涉及音频处理，并且更具体地，涉及一种方言语音的文字转换方法、装置及介质。

背景技术：

1、语音平台是将文章的文字与语音互相转换的一个平台，在使用过程中发现，客户如果使用方言录制语音，转换文字内容时不准确，还需要手动进行文字调整，消耗了时间、影响了客户的体验感。从而目前急需一种将方言准确转换成文字数据的方法，解决不同方言文字转换不准确的技术问题。

技术实现思路

1、针对现有技术的不足，本发明提供一种方言语音的文字转换方法、装置及介质。

2、根据本发明的一个方面，提供了一种方言语音的文字转换方法，包括：

3、收集不同地区的方言语音数据，其中方言语音数据包括方言的发音、语速以及语调；

4、采用mel频率倒谱系数算法、长时平均短时能量比算法以及语音端点检测算法对方言语音数据进行语音特征提取，获取方言语音数据的多种特征音频数据；

5、根据多种特征音频数据以及方言语音数据的文本标注对机器学习模型进行训练，生成方言语音转换模型；

6、将待转换方言语音数据的多种待转换特征音频数据输入至方言语音转换模型，输出待转换方言语音数据的方言转换文本，其中，

7、mel频率倒谱系数算法的加窗公式为：

8、；

9、式中，a为汉明加窗函数的系数，n为分帧的长度， n为窗长。

10、可选地，还包括：对方言语音数据进行降噪处理。

11、可选地，采用mel频率倒谱系数算法、长时平均短时能量比算法以及语音端点检测算法对方言语音数据进行语音特征提取，获取方言语音数据的多种特征音频数据，包括：

12、调整mel频率倒谱系数算法的滤波器数量以及滤波器频率范围对不同方言的方言语音数据进行语音特征提取，获取不同方言的方言语音数据的多种特征音频数据中的mel频率倒谱系数；

13、采用长时平均短时能量比算法对不同方言的方言语音数据进行语音特征提取，获取不同方言的方言语音数据的多种特征音频数据中的长时平均短时能量比；

14、采用语音端点检测算法对不同方言的方言语音数据进行语音特征提取，获取不同方言的方言语音数据的多种特征音频数据中的时间特征数据。

15、可选地，长时平均短时能量比算法的公式为：

16、；

17、式中， ltse为表示长期标准误差； n表示样本数量； e( n)表示第n个样本的误差，即实际值与预测值之间的差异。

18、可选地，机器学习模型的损失函数为：

19、；

20、式中，l是损失函数，y是实际类别标签的概率分布，y'是预测概率分布；

21、学习函数为：

22、；

23、式中，θ是模型参数，t是迭代次数，α=0.001是学习率，∇θl(y, y')是损失函数关于模型参数的梯度。

24、根据本发明的另一个方面，提供了一种方言语音的文字转换装置，包括：

25、收集模块，用于收集不同地区的方言语音数据，其中方言语音数据包括方言的发音、语速以及语调；

26、提取模块，用于采用mel频率倒谱系数算法、长时平均短时能量比算法以及语音端点检测算法对方言语音数据进行语音特征提取，获取方言语音数据的多种特征音频数据；

27、训练模块，用于根据多种特征音频数据以及方言语音数据的文本标注对机器学习模型进行训练，生成方言语音转换模型；

28、转换模块，用于将待转换方言语音数据的多种待转换特征音频数据输入至方言语音转换模型，输出待转换方言语音数据的方言转换文本，其中，

29、mel频率倒谱系数算法的加窗公式为：

30、；

31、式中，a为汉明加窗函数的系数，n为分帧的长度， n为窗长。

32、根据本发明的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明上述任一方面所述的方法。

33、根据本发明的又一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明上述任一方面所述的方法。

34、从而，本申请通过对收集的多种方言的方言语音数据进行标注，并进行特征提取形成语音池，进行方言语音转换模型训练，从而对待转换方言语音数据进行转换，生成对应的文字，并通过改进的特征提取算法对不同方言进行多种特征音频数据进行提取，提高方言转换效率。识别多地区的方言语音，提高了转换文字的准确度，节省了时间。

技术特征：

1.一种方言语音的文字转换方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：对所述方言语音数据进行降噪处理。

3.根据权利要求1所述的方法，其特征在于，采用mel频率倒谱系数算法、长时平均短时能量比算法以及语音端点检测算法对所述方言语音数据进行语音特征提取，获取所述方言语音数据的多种特征音频数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述长时平均短时能量比算法的公式为：

5.根据权利要求1所述的方法，其特征在于，所述机器学习模型的损失函数为：

6.一种方言语音的文字转换装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：处理模块，用于对所述方言语音数据进行降噪处理。

8.根据权利要求6所述的装置，其特征在于，提取模块，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：

技术总结本发明公开了一种方言语音的文字转换方法、装置及介质。其中，方法包括：收集不同地区的方言语音数据，其中方言语音数据包括方言的发音、语速以及语调；采用Mel频率倒谱系数算法、长时平均短时能量比算法以及语音端点检测算法对方言语音数据进行语音特征提取，获取方言语音数据的多种特征音频数据；根据多种特征音频数据以及方言语音数据的文本标注对机器学习模型进行训练，生成方言语音转换模型；将待转换方言语音数据的多种待转换特征音频数据输入至方言语音转换模型，输出待转换方言语音数据的方言转换文本。技术研发人员：杨明,王浩,薛富恩受保护的技术使用者：北京安锐卓越信息技术股份有限公司技术研发日：技术公布日：2024/9/9