技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别及转换系统的制作方法 > 正文

一种语音识别及转换系统的制作方法

国知局
2024-06-21 10:39:27

本发明涉及语音识别，具体而言，涉及一种语音识别及转换系统。

背景技术：

1、语音识别及转换系统是一种将人类语音转换为文本或指令的技术，它可以识别人类语音中的语音信号并将其转换为计算机可读的文本形式，现有的语音识别及转换系统都是通过语音识别库将语音转换为文字，准确率比较高，然后现有的语音识别及转换系统仅能识别普通话，对于方言地区的用户来说并不实用，会给用户造成众多不便。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种语音识别及转换系统，通过提取方言或普通话语音中的音纹特征，构建一个音纹特征库，并基于该音纹特征库对方言或普通话进行文本转换，并利用合成器将转换后的文本进行语音输出。

2、根据本发明实施例的一个方面，提供了一种语音识别及转换系统，包括：

3、语音处理单元，用于对用户的方言语和普通话音信号进行采集，同时对采集到的方言和普通话语音信号进行预处理；

4、建模单元，用于对所述预处理后的方言和普通话语音信号进行声学特征提取，从中提取出所述声学特征中唯一的方言音纹特征和普通话音纹特征，构建出所述方言或普通话的音纹模型；

5、语音识别单元，用于根据所述方言音纹模型和普通话音纹模型，将输入的方言语音或普通话语音识别为相应的方言文本或普通话文本；

6、文本转换单元，用于将所述方言文本转换为普通话文本或将普通话文本转换为方言文本，并基于合成器将所述普通话文本转换为普通话语音或将方言文本转换为方言语音。

7、作为一种可选的实施方式，所述建模单元用于对所述预处理后的方言和普通话语音信号进行声学特征提取，从中提取出所述声学特征中唯一的方言音纹特征和普通话音纹特征，构建出所述方言或普通话的音纹模型，包括：

8、将所述预处理的方言或普通话语音信号切割成短时帧；

9、对每帧信号进行幅度平方运算，计算出每帧的短时能量；

10、通过判断相邻帧之间信号的正负变化来计算过零率；

11、对每帧信号进行傅里叶变换，将时域信号转换为频域信号，利用一组滤波器将频域信号映射到梅尔刻度上，得到每个滤波器的能量；

12、对梅尔频谱的能量值进行对数运算，将能量幅度压缩到对数刻度上；

13、将对数压缩后的梅尔频谱应用离散余弦变换，得到倒谱系数；

14、将倒谱系数与总体均值向量进行主成分分析，得到语音信号的i-vector作为音纹特征；

15、将所述方言或普通话语音的音纹特征向量作为输入，构建方言或普通话的高斯混合模型。

16、作为一种可选的实施方式，所述语音识别单元用于根据所述方言音纹模型和普通话音纹模型，将输入的方言语音或普通话语音识别为相应的方言文本或普通话文本，包括：

17、从输入的方言语音或普通话语音中提取出倒谱系数；

18、利用方言音纹模型或普通话音纹模型，计算出输入语音的i-vector，提取出所述方言语音或普通话语音中的方言音纹特征或普通话音纹特征；

19、利用余弦相似度方法，将提取的方言音纹特征或普通话音纹特征与对应的方言音纹模型或普通话音纹模型进行比对；

20、选择与方言音纹模型或普通话音纹模型匹配度最高的结果，输出对应的文本。

21、作为一种可选的实施方式，所述文本转换单元用于将所述方言文本转换为普通话文本或将普通话文本转换为方言文本，并基于合成器将所述普通话文本转换为普通话语音或将方言文本转换为方言语音，包括：

22、收集包含方言或普通话文本的数据集；

23、从所述方言文本或普通话文本中提取出有效特征，包括：音节、拼音、声调；

24、将所述方言文本对应到普通话文本或将普通话文本对应到方言文本，将其进行配对，得到方言文本或者普通话文本相对应的普通话文本或方言文本；

25、对转换后的普通话文本或方言文本进行预处理，并提取出相关音素、拼声、声调特征；

26、利用训练好的tacotron模型，输入所述普通话文本或方言文本，生成与文本对应的语音；

27、将生成的普通话或方言语音进行去噪、平滑处理，将处理后的普通话或方言语音输出为音频文件或实时语音流。

28、根据本发明实施例的另一方面，还提供了一种语音识别及转换方法，包括：

29、对用户的方言语和普通话音信号进行采集，同时对采集到的方言和普通话语音信号进行预处理；

30、对所述预处理后的方言和普通话语音信号进行声学特征提取，从中提取出所述声学特征中唯一的方言音纹特征和普通话音纹特征，构建出所述方言或普通话的音纹模型；

31、根据所述方言音纹模型和普通话音纹模型，将输入的方言语音或普通话语音识别为相应的方言文本或普通话文本；

32、将所述方言文本转换为普通话文本或将普通话文本转换为方言文本，并基于合成器将所述普通话文本转换为普通话语音或将方言文本转换为方言语音。

33、根据本发明实施例的又一方面，还提供了一种计算设备，所述计算设备包括：至少一个处理器、存储器和输入输出单元；其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行上述语音识别及转换系统。

34、根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述语音识别及转换系统。

35、在本发明实施例中，建模单元通过提取方言语音中的音纹特征，建立音纹模型，使系统能够准确的判断出输入语音所属的方言类型；语音识别单元通过将识别到的方言或普通话语音转换为方言文本或普通话文本，再将方言文本或普通话文本匹配上对应的普通话文本或方言文本，有效的帮助了方言地区的用户与使用普通话的用户能够更好的进行沟通交流；文本转换单元通过预设的合成器，将转换后的普通话文本或方言文本合成为语音结果并进行输出，有效的提高了方言区域的用户在使用普通话的场合下的交流便利性和效率。本发明能够针对方言与普通话进行语音转换，实现方言与普通话进行互译，有效的提高了方言与普通交流的便利性和效率。

技术特征：

1.一种语音识别及转换系统，其特征在于，所述系统包括：

2.根据权利要求1所述的一种语音识别及转换系统，其特征在于，所述建模单元用于对所述预处理后的方言和普通话语音信号进行声学特征提取，从中提取出所述声学特征中唯一的方言音纹特征和普通话音纹特征，构建出所述方言或普通话的音纹模型，包括：

3.根据权利要求1所述的一种语音识别及转换系统，其特征在于，所述语音识别单元用于根据所述方言音纹模型和普通话音纹模型，将输入的方言语音或普通话语音识别为相应的方言文本或普通话文本，包括：

4.根据权利要求1所述的一种语音识别及转换系统，其特征在于，所述文本转换单元用于将所述方言文本转换为普通话文本或将普通话文本转换为方言文本，并基于合成器将所述普通话文本转换为普通话语音或将方言文本转换为方言语音，包括：

5.一种语音识别及转换方法，其特征在于，所述方法包括：

6.一种计算设备，所述计算设备包括：

7.一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的一种语音识别及转换系统。

技术总结本发明公开了一种语音识别及转换系统，包括：对用户的方言语和普通话音信号进行采集，同时对采集到的方言和普通话语音信号进行预处理；对预处理后的方言和普通话语音信号进行声学特征提取，从中提取出声学特征中唯一的方言音纹特征和普通话音纹特征，构建出方言或普通话的音纹模型；根据方言音纹模型和普通话音纹模型，将输入的方言语音或普通话语音识别为相应的方言文本或普通话文本；将方言文本转换为普通话文本或将普通话文本转换为方言文本，并基于合成器将普通话文本转换为普通话语音或将方言文本转换为方言语音。本发明能够针对方言与普通话进行语音转换，有效的提高了方言与普通交流的便利性和效率。技术研发人员：张丹,李宏军,崔焕受保护的技术使用者：北京神州安付科技股份有限公司技术研发日：技术公布日：2024/1/15