语音识别、获取语音识别模型的方法、装置及设备集群与流程
- 国知局
- 2024-06-21 10:40:24
本技术涉及计算机,特别涉及语音识别、获取语音识别模型的方法、装置及设备集群。
背景技术:
1、随着计算机技术的发展,不仅可以利用计算机技术收集不同语音类型的语音数据,还可对语音数据进行语音识别,以获取语音数据对应的文本数据。其中,语音数据的语音类型与语音数据的发音相关,不同的发音对应不同的语音类型,例如普通话与粤语属于不同的语音类型。
2、相关技术中,由于语音数据包括多种语音类型,用于识别语音数据的语音识别模型包括针对不同语音类型的输出层网络,根据输入的语音数据的语音类型,确定对应的输出层网络,从而通过对应的输出层网络输出该语音数据对应的文本数据。
3、然而,上述语音识别方法,对于输入的语音数据需要有准确的语音类型,才能通过语音类型对应的输出层网络输出对应的文本数据,完全依赖语音类型,稳定性较差。
技术实现思路
1、本技术提供了一种语音识别、获取语音识别模型的方法、装置及设备集群,以解决相关技术提供的问题,技术方案如下:
2、第一方面,提供了一种语音识别的方法,所述方法包括:获取待识别的第一语音数据;获取所述第一语音数据对应的第一特征向量和第二特征向量,所述第一特征向量用于表征所述第一语音数据对应的对象信息,所述第二特征向量用于表征所述第一语音数据对应的语音类型信息,所述对象信息用于校准所述语音类型信息;基于所述第一特征向量与所述第二特征向量识别所述第一语音数据对应的第一文本数据。
3、本技术提供的语音识别的方法,在参考第一语音数据对应的语音类型信息的基础上,还参考了第一语音数据对应的对象信息,且对象信息可用于校准语音类型信息,即使第二特征向量表征的语音类型信息存在误差,也可以通过第一特征向量表征的对象信息对语音类型信息进行校准,提高了识别第一文本数据过程中参考的语音类型信息的准确率,进而保证了语音识别的稳定性与准确率。
4、在一种可能的实现方式中,所述基于所述第一特征向量与所述第二特征向量识别所述第一语音数据对应的第一文本数据,包括:基于所述第一特征向量、所述第二特征向量与所述第一语音数据对应的第一语音特征进行编码处理,得到第一参考向量;根据用于确定所述第一参考向量指示的文本数据的解码规则,对所述第一参考向量进行解码,得到所述第一文本数据。
5、由于第一参考向量是基于第一特征向量与第二特征向量得到的,第一参考向量包括第一语音数据对应的对象信息与语音类型信息,在基于第一参考向量解码过程中,可参考第一语音数据对应的对象信息与语音类型信息,在解码过程中参考更多的信息,提高解码得到的第一文本数据的精确度。
6、在一种可能的实现方式中,所述基于所述第一特征向量、所述第二特征向量与所述第一语音数据对应的第一语音特征进行编码处理,得到第一参考向量,包括:拼接所述第一特征向量与所述第二特征向量,得到第一联合嵌入向量;基于所述第一联合嵌入向量与所述第一语音特征进行编码处理,得到所述第一参考向量。
7、在一种可能的实现方式中,所述基于所述第一联合嵌入向量与所述第一语音特征进行编码处理,得到所述第一参考向量,包括:拼接所述第一联合嵌入向量与所述第一语音特征,得到第一拼接向量,对所述第一拼接向量进行编码处理,得到所述第一参考向量;或者,对所述第一语音特征进行编码处理,得到第一编码结果,拼接所述第一联合嵌入向量与所述第一编码结果,得到所述第一参考向量。
8、不限定基于第一联合嵌入向量与第一语音特征获取第一参考向量中涉及到的拼接和编码的先后顺序,灵活度高。
9、在一种可能的实现方式中,所述拼接所述第一特征向量与所述第二特征向量,包括:基于所述第一特征向量与所述第二特征向量在时间维度上对应,拼接同一时间维度上的所述第一特征向量与所述第二特征向量。将同一时间维度上的第一特征向量与第二特征向量进行拼接,拼接得到的第一联合嵌入向量的时间维度与第一特征向量的时间维度保持一致,以实现后续基于第一联合嵌入向量的拼接操作。
10、在一种可能的实现方式中,所述基于所述第一特征向量、所述第二特征向量与所述第一语音数据对应的第一语音特征进行编码处理,得到第一参考向量,包括:拼接所述第一特征向量与所述第一语音特征,得到第二联合嵌入向量;基于所述第二联合嵌入向量与所述第二特征向量进行编码处理,得到所述第一参考向量。除了先拼接第一特征向量与第二特征向量,还可以先拼接第一特征向量与第一语音特征,不限定拼接顺序,灵活度高。
11、在一种可能的实现方式中,所述基于所述第二联合嵌入向量与所述第二特征向量进行编码处理,得到所述第一参考向量,包括:拼接所述第二联合嵌入向量与所述第二特征向量,得到第二拼接向量,对所述第二拼接向量进行编码处理,得到所述第一参考向量;或者,对所述第二联合嵌入向量进行编码处理,得到第二编码结果,拼接所述第二编码结果与所述第二特征向量,得到所述第一参考向量。
12、无论是第一联合嵌入向量还是第二联合嵌入向量,均有多种拼接与编码的操作顺序,通用性强。
13、在一种可能的实现方式中,所述基于所述第一特征向量、所述第二特征向量与所述第一语音数据对应的第一语音特征进行编码处理,得到第一参考向量,包括:拼接所述第二特征向量与所述第一语音特征,得到第三联合嵌入向量;基于所述第三联合嵌入向量与所述第一特征向量进行编码处理,得到所述第一参考向量。除了上述两种拼接顺序,还存在先拼接第二特征向量与第一语音特征的拼接顺序,组合多样,获取第一参考向量的方式更灵活。
14、在一种可能的实现方式中,所述基于所述第三联合嵌入向量与所述第一特征向量进行编码处理,得到所述第一参考向量,包括:拼接所述第三联合嵌入向量与所述第一特征向量,得到第三拼接向量,对所述第三拼接向量进行编码处理,得到所述第一参考向量;或者,对所述第三联合嵌入向量进行编码处理,得到第三编码结果,拼接所述第三编码结果与所述第一特征向量,得到所述第一参考向量。即使是先拼接了第二特征向量与第一语音特征,也存在两种拼接与编码的操作顺序,第一参考向量获取方式更多样,通用性强。
15、在一种可能的实现方式中,所述对所述第一参考向量进行解码,得到所述第一文本数据,包括:获取所述第一参考向量对应的多个候选文本数据;获取所述多个候选文本数据中的各个候选文本数据的关联评分,所述各个候选文本数据的关联评分用于表示所述各个候选文本数据与所述第一语音数据的相关程度;从所述多个候选文本数据中选择关联评分最高的候选文本数据作为所述第一文本数据。先确定多个候选文本数据,再进一步获取各个候选文本数据的关联评分,从而确定关联评分最高的候选文本数据为第一文本数据,分步执行解码过程,提高了解码过程的层次条理性。
16、在一种可能的实现方式中,所述获取所述第一语音数据对应的第一特征向量和第二特征向量,包括:调用目标语音识别模型获取所述第一语音数据对应的所述第一特征向量和所述第二特征向量,所述目标语音识别模型基于第二语音数据训练得到;所述基于所述第一特征向量与所述第二特征向量识别所述第一语音数据对应的第一文本数据,包括:调用所述目标语音识别模型基于所述第一特征向量与所述第二特征向量识别所述第一语音数据对应的第一文本数据。通过一个目标语音识别模型即可实行语音识别的操作,语音识别的操作简单,语音识别效率高。
17、第二方面,提供了一种获取语音识别模型的方法,所述方法包括:获取多个第二语音数据,获取待训练的初始语音识别模型;调用所述初始语音识别模型获取所述任一第二语音数据对应的第三特征向量与第四特征向量,所述第三特征向量用于表征所述任一第二语音数据对应的对象信息,所述第四特征向量用于表征所述任一第二语音数据对应的语音类型信息;基于所述第三特征向量与所述第四特征向量识别所述任一第二语音数据对应的第二文本数据;获取所述任一第二语音数据对应的基准文本数据,基于所述多个第二语音数据对应的基准文本数据与所述第二文本数据更新所述初始语音识别模型的参数,得到目标语音识别模型。
18、本技术提供的获取语音识别模型的方法,在参考第二语音数据对应的语音类型信息的基础上,还参考了第二语音数据对应的对象信息,参考的信息量更多,训练得到的目标语音识别模型的准确率更高。且对象信息可用于校准语音类型信息,即使第四特征向量表征的语音类型信息存在误差,也可以通过对象信息对语音类型信息进行校准,提高了第二语音数据对应的语音类型信息的准确率,进而保证了初始语音识别模型训练过程的稳定性,训练得到的目标语音识别模型的精确度较高。
19、在一种可能的实现方式中,所述初始语音识别模型包括初始类型识别子模型;所述调用所述初始语音识别模型获取所述任一第二语音数据对应的第三特征向量与第四特征向量之前,还包括:获取多个第三语音数据;基于所述第三语音数据更新所述初始类型识别子模型的参数,得到目标类型识别子模型;所述调用所述初始语音识别模型获取所述任一第二语音数据对应的第三特征向量与第四特征向量,包括:调用所述目标识别子模型获取所述第三特征向量与所述第四特征向量。
20、可以先对初始类型识别子模型进行训练,不限定初始语音识别模型包括的子模型的训练顺序,灵活度高。且基于训练结束的目标类型识别子模型获取的第三特征向量与第四特征向量,相较于初始类型识别子模型获取的特征向量,准确率较高,基于准确率较高的第三特征向量与第四特征向量训练得到的目标语音识别模型的精确度较高。
21、在一种可能的实现方式中,所述初始类型识别子模型包括初始语音分类模块与初始对象分类模块;所述基于所述第三语音数据更新所述初始类型识别子模型的参数,得到目标类型识别子模型,包括:调用所述初始语音分类模块获取任一第三语音数据的初始语音分类结果,调用所述初始对象分类模块获取所述任一第三语音数据的初始对象分类结果;基于所述任一第三语音数据的初始语音分类结果与基准语音分类结果获取所述任一第三语音数据对应的第一损失值;基于所述第一损失值更新所述初始语音分类模块的参数,得到目标语音分类模块;基于所述任一第三语音数据的初始对象分类结果与基准对象分类结果获取所述任一第三语音数据对应的第二损失值;基于所述第二损失值更新所述初始对象分类模块的参数,得到目标对象分类模块;将包括所述目标语音分类模块与所述目标对象分类模块的模型作为所述目标类型识别子模型。通过初始对象分类模块与初始语音分类模块对应的损失值分别对初始对象分类模块与初始语音分类模块进行参数更新,针对性更强。
22、在一种可能的实现方式中,所述初始类型识别子模型还包括初始编码模块,所述初始编码模块用于提取所述第三语音数据的初始语音分类结果与初始对象分类结果的编码特征;所述基于所述第二损失值更新所述初始对象分类模块的参数,得到目标对象分类模块之后,还包括:基于所述初始语音分类模块的参数更新与所述初始对象分类模块的参数更新,更新所述初始编码模块的参数,得到第一编码模块。除了更新初始语音分类模块与初始对象分类模块的参数,还会对初始类型识别子模型包括的其他模块,也即是初始编码模块进行更新,进行参数更新的模块更多,更新过程更全面,更新得到的目标类型识别子模型更准确。
23、在一种可能的实现方式中,所述初始语音识别模型还包括初始文本输出子模型,所述初始文本输出子模型用于输出所述任一第二语音数据对应的第二文本数据;所述基于所述多个第二语音数据对应的基准文本数据与所述第二文本数据更新所述初始语音识别模型的参数,得到目标语音识别模型,包括:基于所述基准文本数据与所述第二文本数据更新所述初始文本输出子模型的参数,得到目标文本输出子模型,将包括所述目标文本输出子模型和所述目标类型识别子模型的模型作为所述目标语音识别模型。针对先对初始类型识别子模型训练的情况,所更新参数的模型也即是初始文本输出子模型,初始语音识别模型中包括的不同的子模型的参数更新可以是异步执行,灵活度更高。
24、在一种可能的实现方式中,所述多个第三语音数据为多个语音类型的第三语音数据,不同语音类型的第三语音数据的数量分布均匀。基于语音类型分布均匀的多个第三语音数据训练得到的目标类型识别子模型适应多种语音类型的语音数据,可用于执行获取多种语音类型的语音数据的对象信息和语音类型信息的操作,通用性强。
25、在一种可能的实现方式,所述多个第二语音数据为多个语音类型的第二语音数据,不同语音类型的第二语音数据的数量分布不均匀。不同语音类型的第二语音数据的数量分布可以不均匀,对第二语音数据的语音类型分布要求低,用于训练初始语音识别模型的第二语音数据更容易获取,训练过程更易于执行。
26、第三方面,提供了一种语音识别的装置,所述装置包括:
27、获取模块,用于获取待识别的第一语音数据;
28、所述获取模块,还用于获取所述第一语音数据对应的第一特征向量和第二特征向量,所述第一特征向量用于表征所述第一语音数据对应的对象信息,所述第二特征向量用于表征所述第一语音数据对应的语音类型信息,所述对象信息用于校准所述语音类型信息;
29、识别模块,用于基于所述第一特征向量与所述第二特征向量识别所述第一语音数据对应的第一文本数据。
30、在一种可能的实现方式中,所述识别模块,用于基于所述第一特征向量、所述第二特征向量与所述第一语音数据对应的第一语音特征进行编码处理,得到第一参考向量;根据用于确定所述第一参考向量指示的文本数据的解码规则,对所述第一参考向量进行解码,得到所述第一文本数据。
31、在一种可能的实现方式中,所述识别模块,用于拼接所述第一特征向量与所述第二特征向量,得到第一联合嵌入向量;基于所述第一联合嵌入向量与所述第一语音特征进行编码处理,得到所述第一参考向量。
32、在一种可能的实现方式中,所述识别模块,用于拼接所述第一联合嵌入向量与所述第一语音特征,得到第一拼接向量,对所述第一拼接向量进行编码处理,得到所述第一参考向量;或者,对所述第一语音特征进行编码处理,得到第一编码结果,拼接所述第一联合嵌入向量与所述第一编码结果,得到所述第一参考向量。
33、在一种可能的实现方式中,所述识别模块,用于基于所述第一特征向量与所述第二特征向量在时间维度上对应,拼接同一时间维度上的所述第一特征向量与所述第二特征向量。
34、在一种可能的实现方式中,所述识别模块,用于拼接所述第一特征向量与所述第一语音特征,得到第二联合嵌入向量;基于所述第二联合嵌入向量与所述第二特征向量进行编码处理,得到所述第一参考向量。
35、在一种可能的实现方式中,所述识别模块,用于拼接所述第二联合嵌入向量与所述第二特征向量,得到第二拼接向量,对所述第二拼接向量进行编码处理,得到所述第一参考向量;或者,对所述第二联合嵌入向量进行编码处理,得到第二编码结果,拼接所述第二编码结果与所述第二特征向量,得到所述第一参考向量。
36、在一种可能的实现方式中,所述识别模块,用于拼接所述第二特征向量与所述第一语音特征,得到第三联合嵌入向量;基于所述第三联合嵌入向量与所述第一特征向量进行编码处理,得到所述第一参考向量。
37、在一种可能的实现方式中,所述识别模块,用于拼接所述第三联合嵌入向量与所述第一特征向量,得到第三拼接向量,对所述第三拼接向量进行编码处理,得到所述第一参考向量;或者,对所述第三联合嵌入向量进行编码处理,得到第三编码结果,拼接所述第三编码结果与所述第一特征向量,得到所述第一参考向量。
38、在一种可能的实现方式中,所述识别模块,用于获取所述第一参考向量对应的多个候选文本数据;获取所述多个候选文本数据中的各个候选文本数据的关联评分,所述各个候选文本数据的关联评分用于表示所述各个候选文本数据与所述第一语音数据的相关程度;从所述多个候选文本数据中选择关联评分最高的候选文本数据作为所述第一文本数据。
39、在一种可能的实现方式中,所述获取模块,用于调用目标语音识别模型获取所述第一语音数据对应的所述第一特征向量和所述第二特征向量,所述目标语音识别模型基于第二语音数据训练得到;所述识别模块,用于调用所述目标语音识别模型基于所述第一特征向量与所述第二特征向量识别所述第一语音数据对应的第一文本数据。
40、第四方面,提供了一种获取语音识别模型的装置,所述装置包括:
41、获取模块,用于获取多个第二语音数据,获取待训练的初始语音识别模型;
42、所述获取模块,还用于调用所述初始语音识别模型获取所述任一第二语音数据对应的第三特征向量与第四特征向量,所述第三特征向量用于表征所述任一第二语音数据对应的对象信息,所述第四特征向量用于表征所述任一第二语音数据对应的语音类型信息;
43、识别模块,用于基于所述第三特征向量与所述第四特征向量识别所述任一第二语音数据对应的第二文本数据;
44、更新模块,用于获取所述任一第二语音数据对应的基准文本数据,基于所述多个第二语音数据对应的基准文本数据与所述第二文本数据更新所述初始语音识别模型的参数,得到目标语音识别模型。
45、在一种可能的实现方式中,所述初始语音识别模型包括初始类型识别子模型;所述获取模块,还用于获取多个第三语音数据;所述更新模块,还用于基于所述第三语音数据更新所述初始类型识别子模型的参数,得到目标类型识别子模型;所述获取模块,用于调用所述目标识别子模型获取所述第三特征向量与所述第四特征向量。
46、在一种可能的实现方式中,所述初始类型识别子模型包括初始语音分类模块与初始对象分类模块;所述更新模块,用于调用所述初始语音分类模块获取任一第三语音数据的初始语音分类结果,调用所述初始对象分类模块获取所述任一第三语音数据的初始对象分类结果;基于所述任一第三语音数据的初始语音分类结果与基准语音分类结果获取所述任一第三语音数据对应的第一损失值;基于所述第一损失值更新所述初始语音分类模块的参数,得到目标语音分类模块;基于所述任一第三语音数据的初始对象分类结果与基准对象分类结果获取所述任一第三语音数据对应的第二损失值;基于所述第二损失值更新所述初始对象分类模块的参数,得到目标对象分类模块;将包括所述目标语音分类模块与所述目标对象分类模块的模型作为所述目标类型识别子模型。
47、在一种可能的实现方式中,所述初始类型识别子模型还包括初始编码模块,所述初始编码模块用于提取所述第三语音数据的初始语音分类结果与初始对象分类结果的编码特征;所述更新模块,还用于基于所述初始语音分类模块的参数更新与所述初始对象分类模块的参数更新,更新所述初始编码模块的参数,得到第一编码模块。
48、在一种可能的实现方式中,所述初始语音识别模型还包括初始文本输出子模型,所述初始文本输出子模型用于输出所述任一第二语音数据对应的第二文本数据;所述更新模块,用于基于所述基准文本数据与所述第二文本数据更新所述初始文本输出子模型的参数,得到目标文本输出子模型,将包括所述目标文本输出子模型和所述目标类型识别子模型的模型作为所述目标语音识别模型。
49、在一种可能的实现方式中,所述多个第三语音数据为多个语音类型的第三语音数据,不同语音类型的第三语音数据的数量分布均匀。
50、在一种可能的实现方式中,所述多个第二语音数据为多个语音类型的第二语音数据,不同语音类型的第二语音数据的数量分布不均匀。
51、第五方面,提供了一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器;所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行上述第一方面任一种的语音识别的方法,或者上述第二方面的任一种的获取语音识别模型的方法。
52、第六方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序指令,当所述计算机程序指令由计算设备集群执行时,所述计算设备集群执行上述第一方面任一种的语音识别的方法,或者上述第二方面的任一种的获取语音识别模型的方法。
53、第七方面,提供了一种包含指令的计算机程序产品,当所述指令被计算设备集群运行时,使得所述计算设备集群执行上述第一方面任一种的语音识别的方法,或者上述第二方面的任一种的获取语音识别模型的方法。
54、第八方面,提供了一种通信装置,该装置包括:收发器、存储器和处理器。其中,该收发器、该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,以控制收发器接收信号,并控制收发器发送信号,并且当该处理器执行该存储器存储的指令时,使得该处理器执行第一方面或第一方面的任一种可能的实施方式中的方法,或者执行第二方面或第二方面的任一种可能的实施方式中的方法。
55、可选地,所述处理器为一个或多个,所述存储器为一个或多个。
56、可选地,所述存储器可以与所述处理器集成在一起,或者所述存储器与处理器分离设置。
57、在具体实现过程中,存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(read only memory,rom),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本技术对存储器的类型以及存储器与处理器的设置方式不做限定。
58、第九方面,提供了一种芯片,包括处理器,用于从存储器中调用并运行所述存储器中存储的指令,使得安装有所述芯片的通信设备执行上述各方面中的方法。
59、第十方面,提供另一种芯片,包括:输入接口、输出接口、处理器和存储器,所述输入接口、输出接口、所述处理器以及所述存储器之间通过内部连接通路相连,所述处理器用于执行所述存储器中的代码,当所述代码被执行时,所述处理器用于执行上述各方面中的方法。
60、应当理解的是,本技术实施例的第三方面至第十方面的技术方案及对应的可能的实现方式所取得的有益效果可以参见上述对第一方面和第二方面及其对应的可能的实现方式的技术效果,此处不再赘述。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21099.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表