用于语音识别的电子装置及其控制方法与流程
- 国知局
- 2024-06-21 11:55:49
本公开涉及一种电子装置及其控制方法,更具体地,涉及一种用于基于语音(speech)识别模型获得与用户话音(voice)相对应的文本信息的电子装置及其控制方法。
背景技术:
1、语音识别是用于将用户发出的语音的音频信号转换成文本信息的过程。一种用于语音识别的电子装置将音频信号换能或以其他方式转换成数字信号,并且将数字信号输入到语音识别模型。然后,该装置从语音识别模型中获得与用户的话语(utterance)相对应的文本信息。
2、为了训练语音识别模型以将数字信号转换成文本信息,可以基于之前记录的话语(通常在大约2000至8000个单词)来分析用户的话音。语音识别模型可以开发并使用多个权重或参数来分析用户的话语。
3、如果用于存储语音识别模型中使用的预设单词、权重或参数的空间是不可用的,则语音识别模型必须改为保存在本地或短期存储器中。如果语音识别模型的内存有限,则处理速度可能很慢,可能慢到不切实际的程度。
4、例如,当语音识别模型被实施为存储在用户的终端设备(例如,智能电话)中的设备上(on-device)类型时,可能存在对内存使用和存储空间的限制的问题,从而导致操作速度不便甚至无效。
技术实现思路
1、技术问题
2、提供了一种其中语音识别模型中使用的不同权重信息部分地共享数据的电子装置及其控制方法。
3、技术方案
4、根据本公开的一个方面,一种电子装置包括:存储器,其存储语音识别模型和与通过语音识别模型获得的第一用户话音相对应的第一识别信息,语音识别模型包括第一网络、第二网络和第三网络;以及处理器,被配置为:通过将与第二用户话音相对应的第二话音数据输入到第一网络来获得第一向量;通过将第一识别信息输入到语音识别模型的第二网络来获得第二向量,第二网络基于第一权重信息生成第二向量;以及通过将第一向量和第二向量输入到第三网络来获得与第二用户话音相对应的第二识别信息,第三网络基于第二权重信息生成第二识别信息,其中第二权重信息的至少一部分与第一权重信息相同。
5、语音识别模型可以是递归神经网络换能器(recurrent neural networktransducer,rnn-t)模型。
6、第一网络可以是转录网络(transcription network),第二网络可以是预测网络,并且第三网络可以是联合网络。
7、处理器还可以被配置为基于接收到第二用户话音来获得与第二用户话音相对应的特征向量,并且第一网络中包括的第一子网可以基于特征向量生成第一向量。
8、处理器还可以被配置为获得与第一识别信息相对应的独热(one-hot)向量,并且第二网络中包括的第二子网基于独热向量和第一权重信息生成第二向量。
9、第三网络中包括的第三子网可以基于第一向量和第二向量生成第三向量,并且第三网络基于第三向量和第二权重信息生成第二识别信息。
10、第一权重信息可以包括与预设数量的子词相对应的至少一个第一权重,第二权重信息可以包括至少一个第一权重和至少一个附加权重,至少一个第一权重可以被存储在存储器的第一区域中,并且至少一个附加权重可以被存储在存储器的第二区域中,并且处理器还可以被配置为使用存储在第一区域中的至少一个第一权重和存储在第二区域中的至少一个附加权重作为第二权重信息。
11、至少一个附加权重可以是当预设数量的子词中没有子词对应于第二用户话音时所使用的权重,并且至少一个第一权重的维度可以对应于至少一个附加权重的维度。
12、第一权重信息可以基于指示根据第一权重信息的损失值变化量的第一梯度、指示根据第二权重信息的损失值变化量的第二梯度以及学习率来训练,并且第二权重信息可以基于经训练的第一权重信息来确定。
13、第一权重信息和第二权重信息中的每一个可以基于第一子权重信息和第二子权重信息的平均值来训练,第一子权重信息可以基于指示根据第一权重信息的损失值变化量的第一梯度以及学习率来确定,并且第二子权重信息可以基于指示根据第二权重信息的损失值变化量的第二梯度以及学习率来确定。
14、根据本公开的一个方面,一种控制电子装置的方法,该电子装置存储语音识别模型和与通过语音识别模型获得的第一用户话音相对应的第一识别信息,该语音识别模型包括第一网络、第二网络和第三网络,该方法包括:通过将与第二用户话音相对应的第二话音数据输入到第一网络来获得第一向量;通过将第一识别信息输入到第二网络来获得第二向量,第二网络基于第一权重信息生成第二向量;以及通过将第一向量和第二向量输入到第三网络来获得与第二用户话音相对应的第二识别信息,第三网络基于第二权重信息生成第二识别信息,其中第二权重信息的至少一部分与第一权重信息相同。
15、语音识别模型可以是递归神经网络换能器(rnn-t)模型。
16、第一网络可以是转录网络,第二网络可以是预测网络,并且第三网络可以是联合网络。
17、获得第一向量可以包括基于接收到第二用户话音来获得与第二用户话音相对应的特征向量,并且第一网络中包括的第一子网可以基于特征向量生成第一向量。
18、获得第二向量可以包括获得与第一识别信息相对应的独热向量,并且第二网络中包括的第二子网可以基于独热向量和第一权重信息生成第二向量。
技术特征:1.一种电子装置,包括:
2.根据权利要求1所述的电子装置,其中,所述语音识别模型是递归神经网络换能器rnn-t模型。
3.根据权利要求2所述的电子装置,其中,所述第一网络是转录网络,所述第二网络是预测网络,并且所述第三网络是联合网络。
4.根据权利要求1所述的电子装置,其中,所述处理器还被配置为基于接收到所述第二用户话音来获得与所述第二用户话音相对应的特征向量,并且
5.根据权利要求1所述的电子装置,其中,所述处理器还被配置为获得与所述第一识别信息相对应的独热向量,并且
6.根据权利要求1所述的电子装置,其中,所述第三网络中包括的第三子网基于所述第一向量和所述第二向量生成第三向量,并且
7.根据权利要求1所述的电子装置,其中,所述第一权重信息包括与预设数量的子词相对应的至少一个第一权重,
8.根据权利要求7所述的电子装置,其中,所述至少一个附加权重是当所述预设数量的子词中没有子词对应于所述第二用户话音时所使用的权重,并且
9.根据权利要求1所述的电子装置,其中,所述第一权重信息是基于指示根据所述第一权重信息的损失值变化量的第一梯度、指示根据所述第二权重信息的损失值变化量的第二梯度以及学习率来训练的,并且
10.根据权利要求1所述的电子装置,其中,所述第一权重信息和所述第二权重信息中的每一个是基于第一子权重信息和第二子权重信息的平均值来训练的,
11.一种控制电子装置的方法,所述电子装置存储语音识别模型和与通过所述语音识别模型获得的第一用户话音相对应的第一识别信息,所述语音识别模型包括第一网络、第二网络和第三网络,所述方法包括:
12.根据权利要求11所述的方法,其中,所述语音识别模型是递归神经网络换能器rnn-t模型。
13.根据权利要求12所述的方法,其中,所述第一网络是转录网络,所述第二网络是预测网络,并且所述第三网络是联合网络。
14.根据权利要求11所述的方法,其中,获得所述第一向量包括基于接收到所述第二用户话音来获得与所述第二用户话音相对应的特征向量,并且
15.根据权利要求11所述的方法,其中,获得所述第二向量包括获得与所述第一识别信息相对应的独热向量,并且
技术总结本电子设备包括:存储器,用于存储话音识别模型和与通过话音识别模型获取的第一用户话音相对应的第一识别信息,话音识别模型包括第一网络、第二网络和第三网络;以及处理器,其在第一网络中输入与第二用户话音相对应的话音数据以便获取第一向量,在第二网络中输入第一识别信息以基于第一权重信息生成向量以便获取第二向量,在第三网络中输入第一向量和第二向量以基于第二权重信息生成识别信息以便获取与第二用户话音相对应的第二识别信息,其中第二权重信息的至少一部分与第一权重信息相同。技术研发人员:朴珍奂,金成洙,金思晨,朴峻模,D·桑德亚纳,韩昌玗受保护的技术使用者:三星电子株式会社技术研发日:技术公布日:2024/6/2本文地址:https://www.jishuxx.com/zhuanli/20240618/24539.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。