技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别的方法及装置、非易失性存储介质与流程 > 正文

语音识别的方法及装置、非易失性存储介质与流程

国知局
2024-06-21 11:34:19

本申请涉及语音识别，具体而言，涉及一种语音识别的方法及装置、非易失性存储介质。

背景技术：

1、目前工业界中越来越多的场景需要能同时识别多语种或多方言，例如，服务对象为广东区域的语音识别服务要求同时识别粤语和普通话；相关技术中，采用多种方言的文字统一建模的方式建立能够识别各种方言的声学模型，但是，由于粤语和其他地区方言具有其独特之处。其一，粤语有自身独特的发音体系：普通话只有四个声调，包括阴平、阳平、上声、去声。而广东话有九个声调，包括阴平、阳平、阴上、阳上、阴去、阳去、上阴入、下阴入、阳入。其二，粤语有很多字的发音和普通话完全不同，例如“街”在粤语中读gai，在普通话中读jie。其三，粤语和普通话的语法也有些许差别，例如，粤语的“我食咗饭”(我吃了饭)和普通话的“我吃了饭”词序不同。综上，由于粤语和普通话混合在一起会产生大量同形异音字(例如上面的“街”)，声学模型很难学习该字的概率分布，导致声学模型存在偏向其中一个方言的识别，一个方言识别效果好，而另一个方言识别效果差的问题。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音识别的方法及装置、非易失性存储介质，以至少解决由于粤语和普通话存在同形异音字造成的使用一个语音识别模型同时识别粤语和普通话的识别效果准确率低的技术问题。

2、根据本申请实施例的一个方面，提供了一种语音识别的方法，包括：获取语音信息，并确定每一帧语音信息所属的语音类型，其中，语音类型包括：方言和普通话；根据每一帧语音信息所属的语音类型确定每一帧语音信息对应的语音识别模型，其中，语音识别模型包括：用于识别属于方言的语音信息的第一语音识别模型、用于识别属于普通话的语音信息的第二语音识别模型；采用每一帧语音信息对应的语音识别模型对每一帧语音信息的内容进行识别，得到识别结果。

3、可选地，第一语音识别模型和第二语音识别模型是通过以下方法训练得到的：获取训练数据，其中，训练数据的类型包括：单个文字和语句；在训练数据的类型为单个文字的情况下，获取每个训练数据的标识，其中，每个训练数据的标识用于指示每个训练数据在方言中出现的第一频率和每个训练数据在普通话中出现的第二频率；根据第一频率和第二频率为每个训练数据归类，得到第一类训练数据和第二类训练数据，其中，第一类训练数据为第一语音识别模型的训练数据，第二类训练数据为第二语音识别模型的训练数据；利用第一类训练数据训练神经网络模型，得到第一语音识别模型，以及，利用第二类训练数据训练神经网络模型，得到第二语音识别模型。

4、可选地，根据第一频率和第二频率为每个训练数据归类，包括：在第一频率大于预设阈值，且第二频率小于预设阈值的情况下，将训练数据归类为第一类训练数据，并为训练数据标记第一标签，其中，第一标签用于指示训练数据为方言；在第一频率小于预设阈值，且第二频率大于预设阈值的情况下，将训练数据归类为第二类训练数据，并为训练数据标记第二标签，其中，第二标签用于指示训练数据为普通话；在第一频率大于预设阈值，且第二频率大于预设阈值的情况下，将训练数据同时归类为第一类训练数据和第二类训练数据，并为训练数据标记第一标签和第二标签。

5、可选地，语音识别的方法还包括：通过以下方式优化第一语音识别模型：在训练数据为语句的情况下，获取语句的第一概率，其中，第一概率为语句被归类为第一类训练数据的概率；获取组成语句的每个文字的第二概率，其中，第二概率为每个文字在单独使用时被归类为第一类训练数据的概率；根据第一概率和第二概率确定损失函数；并基于损失函数优化第一语音识别模型。

6、可选地，基于第一概率和第二概率确定损失函数，包括：确定组成语句的每个文字的第三概率，其中，第三概率为每个文字所属的语音类型为目标类型的概率，目标类型为语句所属的语音类型；将第二概率与第三概率对应的目标解确定为损失函数，其中，目标解为以第三概率真数的对数函数的解。

7、可选地，确定组成语句的每个文字的第三概率，包括：确定组成语句的文字的数量；将第一概率与数量的比值确定为组成语句的每个文字的第三概率。

8、可选地，确定每一帧语音信息所属的语音类型，包括：获取每一帧语音信息被识别为方言的概率，和每一帧语音信息被识别为普通话的概率；在每一帧语音信息被识别为方言的概率大于识别为普通话的概率的情况下，将每一帧语音信息所属的语音类型确定为方言；在每一帧语音信息被识别为方言的概率小于识别为普通话的概率的情况下，将每一帧语音信息所属的语音类型确定为普通话。

9、根据本申请实施例的另一方面，还提供了一种语音识别的装置，包括：获取模块，用于获取语音信息，并确定每一帧语音信息所属的语音类型，其中，语音类型包括：方言和普通话；确定模块，用于根据每一帧语音信息所属的语音类型确定每一帧语音信息对应的语音识别模型，其中，语音识别模型包括：用于识别属于方言的语音信息的第一语音识别模型、用于识别属于普通话的语音信息的第二语音识别模型；识别模块，用于采用每一帧语音信息对应的语音识别模型对每一帧语音信息的内容进行识别，得到识别结果。

10、根据本申请实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质中存储有计算机程序，其中，在非易失性存储介质所在设备通过运行计算机程序执行上述的语音识别的方法。

11、根据本申请实施例的另一方面，还提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为通过计算机程序执行上述的语音识别的方法。

12、在本申请实施例中，采用获取语音信息，并确定每一帧语音信息所属的语音类型，其中，语音类型包括：方言和普通话；根据每一帧语音信息所属的语音类型确定每一帧语音信息对应的语音识别模型，其中，语音识别模型包括：用于识别属于方言的语音信息的第一语音识别模型、用于识别属于普通话的语音信息的第二语音识别模型；采用每一帧语音信息对应的语音识别模型对每一帧语音信息的内容进行识别，得到识别结果的方式，通过将在普通话和粤语(方言)中高频出现的同形异音文字分开建模，得到语音识别模型，以及在语音识别模型的训练阶段加入方言语句辅助训练，达到了训练得到的声学模型将普通话和粤语(方言)分开识别，从而实现了提高声学模型分别普通话和粤语(方言)的准确率，以及提高识别效果的准确率的技术效果，进而解决了由于粤语和普通话存在同形异音字造成的使用一个语音识别模型同时识别粤语和普通话的识别效果准确率低技术问题。

技术特征：

1.一种语音识别的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一语音识别模型和所述第二语音识别模型是通过以下方法训练得到的：

3.根据权利要求2所述的方法，其特征在于，根据所述第一频率和所述第二频率为每个所述训练数据归类，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：通过以下方式优化所述第一语音识别模型：

5.根据权利要求4所述的方法，其特征在于，基于所述第一概率和所述第二概率确定损失函数，包括：

6.根据权利要求5所述的方法，其特征在于，确定组成所述语句的每个文字的第三概率，包括：

7.根据权利要求1所述的方法，其特征在于，确定每一帧所述语音信息所属的语音类型，包括：

8.一种语音识别的装置，其特征在于，包括：

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质中存储有计算机程序，其中，在所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的语音识别的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任意一项所述的语音识别的方法。

技术总结本申请公开了一种语音识别的方法及装置、非易失性存储介质。其中，该方法包括：获取语音信息，并确定每一帧语音信息所属的语音类型，其中，语音类型包括：方言和普通话；根据每一帧语音信息所属的语音类型确定每一帧语音信息对应的语音识别模型，其中，语音识别模型包括：用于识别属于方言的语音信息的第一语音识别模型、用于识别属于普通话的语音信息的第二语音识别模型；采用每一帧语音信息对应的语音识别模型对每一帧语音信息的内容进行识别，得到识别结果。本申请解决了由于粤语和普通话存在同形异音字造成的使用一个语音识别模型同时识别粤语和普通话的识别效果准确率低的技术问题。技术研发人员：杨岩,李杰,康健受保护的技术使用者：中国电信股份有限公司技术研发日：技术公布日：2024/3/11