技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种智能家居训练离线语音固件的方法及装置与流程 > 正文

一种智能家居训练离线语音固件的方法及装置与流程

国知局
2024-06-21 11:45:55

本发明涉及语音固件训练，尤其涉及一种智能家居训练离线语音固件的方法及装置。

背景技术：

1、智能家居是以住宅为平台，利用综合布线技术、网络通信技术、安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成，构建高效的住宅设施与家庭日程事务的管理系统，提升家居安全性、便利性、舒适性、艺术性，并实现环保节能的居住环境。其中人机交互型智能家居最为普及，一般通过语音固件接收用户语音，执行语音指令。因此，语音固件能否准确获取语音指令内容成家居智能的关键。

2、授权公告号为cn111105795b的中国专利文件提供了一种智能家居训练离线语音固件的方法及装置，该方法包括终端设备获取离线语音固件的训练请求，训练请求包括待训练的语音指令文案，根据待训练的语音指令文案，确定待训练的语音指令对应的语音训练方案，将语音训练方案展示给用户，以使用户根据语音训练方案输入语音信息，在接收到用户输入的语音信息后，根据用户输入的语音信息，生成语音指令文案对应的离线语音固件，将离线语音固件发送给离线语音设备，以使离线语音设备存储离线语音固件并根据离线语音固件识别用户发出的语音控制指令。

3、上述的智能家居训练离线语音固件的方法及装置在进行语音固件训练时，需要用户在线进行语音输入。一方面需要用户花费一定时间和精力来辅助语音固件训练，造成了用户的不便。另一方面由于采样量的限制，语音输入的环境因素(例如噪音)和用户身体因素(例如疾病)都会影响其最终的训练结果。

技术实现思路

1、针对背景技术中存在的问题，提出一种智能家居训练离线语音固件的方法及装置。

2、本发明提出一种智能家居训练离线语音固件的方法，从用户智能移动端的数据库中提取语音数据；将上述数据处理后，作为训练样本反复输入离线语音固件训练系统，实现智能家居的离线语音固件训练。

3、优选的，具体步骤包括：

4、s1、发出预设的语音指令，激活离线语音固件训练系统；

5、s2、从语音指令中提取用户的身份识别特征信息；

6、s3、获得该用户授权，从其智能移动端上带语音通讯功能的app数据库中提取该用户的一段语音数据合集a；

7、s4、筛选出通过身份验证的第一语音数据集x，使其转译为数字信号；将数字信号导入训练模型中，按照标准语音方案将其反向转码为第二语音数据集y；

8、s5、分别提取第一语音数据集x和第二语音数据集y的语音识别特征x’和y’，对比后找出语音识别特征x’中的第一差异语音识别特征z1’；

9、s6、对所有的第一差异语音识别特征z1’汇总，同时根据当地语言特征对第一差异语音识别特征z1’进行二次识别，将第一差异语音识别特征z1’中仍然识别不出的部分记录为第二差异语音识别特征z2’；

10、s7、根据第二差异语音识别特征z2’计算语音固件的语音识别失败概率p；

11、s8、当p大于设定的语音识别误差概率阈值时，每间隔时间t，再次采集更新部分的语音数据合集a’，将其语音识别特征xt’与语音识别特征x’合并，重复上述对比、二次识别，直至p小于设定的语音识别误差概率阈值；

12、s9、训练完成。

13、优选的，预设的语音指令来自提前建立的激活词表，用户可以通过操作智能设备上的app选择激活词表中的激活语句进行发声，再通过自动语音识别技术将该激活语句转化为语音序列；最后该将语音序列加密存储，用于后续的身份验证。

14、优选的，自动语音识别过程如下：预处理：常见的预处理内容包括格式转换、压缩编解码、音频数据抽取、声道选择和采样率设置；音频场景分析；话音检测与断句；fbank特征提取，并对语音数据进行增强；建立i-vector声音模型，提取声纹矢量特征，注册声纹信息；输入语音识别特征x’和y’，反复对离线语音固件训练模型进行训练。

15、优选的，fbank特征提取方法如下：首先使用一阶高通滤波器应用于原始音频信号，进行信号预加重；将预加重后的语音分割成多个短时帧；接着利用hamming窗为每一个短时帧进行加窗操作；对加窗后的语音信号进行离散傅里叶变换；最后使用梅尔频率均匀分布的三角滤波器对功率谱图进行滤波，得到了fbank特征。

16、优选的，对语音数据进行增强包括离线语音数据的增强和在线语音数据的增强；离线数据增强采用语音叠加的方式对语音数据进行增强；在线数据增强采用频率掩膜的方式对语音数据进行增强。

17、优选的，i-vector声音模型为高斯混合模型行均值超向量平移操作得到，具体公式如下：

18、优选的，μi＝μ(b)+twi；μi为第i条语音对应的gmm的均值超向量；μ(b)为ubm的均值超向量；t为i-vector提取器；wi为总变化空间内服从标准高斯分布的隐变量。

19、优选的，对离线语音固件训练模型进行训练时需要对语音识别特征x’和y’中的矢量特征进行提取，得到训练集，将训练集输入离线语音固件训练模型，对其离线训练；训练过程中通过分类器分离出第一差异语音识别特征z1’和第二差异语音识别特征z2’。

20、优选的，语音识别失败概率p的计算公式为：

21、优选的，为第m差异语音识别特征矢量值；vx’∪y’为语音识别特征x’和y’的并集矢量值。

22、本发明又提出一种智能家居训练离线语音固件的装置，应用于从用户智能移动端的数据库中提取语音数据以及将上述数据处理后，作为训练样本反复输入的离线语音固件训练系统中。

23、与现有技术相比，本发明具有如下有益的技术效果：本发明从用户智能移动端的数据库中提取现有的语音数据。通过数据处理、加工后，作为训练样本输入离线语音固件训练系统，通过训练模型对语音特征反复识别、分类，对离线语音固件的语音识别率进行提高。训练数据量大，且无需用户花费额外时间输入语音数据，使得语音固件训练高效、智能，训练效果全面、优异。

技术特征：

1.一种智能家居训练离线语音固件的方法，其特征在于，从用户智能移动端的数据库中提取语音数据；将上述数据处理后，作为训练样本反复输入离线语音固件训练系统，实现智能家居的离线语音固件训练。

2.根据权利要求1所述的一种智能家居训练离线语音固件的方法，其特征在于，步骤包括：

3.根据权利要求2所述的一种智能家居训练离线语音固件的方法，其特征在于，预设的语音指令来自提前建立的激活词表，用户可以通过操作智能设备上的app选择激活词表中的激活语句进行发声，再通过自动语音识别技术将该激活语句转化为语音序列；最后该将语音序列加密存储，用于后续的身份验证。

4.根据权利要求3所述的一种智能家居训练离线语音固件的方法，其特征在于，自动语音识别过程如下：预处理：常见的预处理内容包括格式转换、压缩编解码、音频数据抽取、声道选择和采样率设置；音频场景分析；话音检测与断句；fbank特征提取，并对语音数据进行增强；建立i-vector声音模型，提取声纹矢量特征，注册声纹信息；输入语音识别特征x’和y’，反复对离线语音固件训练模型进行训练。

5.根据权利要求4所述的一种智能家居训练离线语音固件的方法及装置，其特征在于，fbank特征提取方法如下：首先使用一阶高通滤波器应用于原始音频信号，进行信号预加重；将预加重后的语音分割成多个短时帧；接着利用hamming窗为每一个短时帧进行加窗操作；对加窗后的语音信号进行离散傅里叶变换；最后使用梅尔频率均匀分布的三角滤波器对功率谱图进行滤波，得到了fbank特征。

6.据权利要求4所述的一种智能家居训练离线语音固件的方法，其特征在于，对语音数据进行增强包括离线语音数据的增强和在线语音数据的增强；离线数据增强采用语音叠加的方式对语音数据进行增强；在线数据增强采用频率掩膜的方式对语音数据进行增强。

7.根据权利要求4所述的一种智能家居训练离线语音固件的方法，其特征在于，i-vector声音模型为高斯混合模型行均值超向量平移操作得到，具体公式如下：

8.根据权利要求4所述的一种智能家居训练离线语音固件的方法，其特征在于，对离线语音固件训练模型进行训练时需要对语音识别特征x’和y’中的矢量特征进行提取，得到训练集，将训练集输入离线语音固件训练模型，对其离线训练；训练过程中通过分类器分离出第一差异语音识别特征z1’和第二差异语音识别特征z2’。

9.根据权利要求1所述的一种智能家居训练离线语音固件的方法，其特征在于，语音识别失败概率p的计算公式为：

10.一种智能家居训练离线语音固件的装置，其特征在于，应用于从用户智能移动端的数据库中提取语音数据以及将上述数据处理后，作为训练样本反复输入的离线语音固件训练系统中。

技术总结本发明涉及语音固件训练技术领域，尤其涉及一种智能家居训练离线语音固件的方法及装置。本发明从用户智能移动端的数据库中提取语音数据。智能移动端包括智能手机、手表、手环和平板电脑这些，能进行语音通话的智能设备。因此本方法通过上述来源直接获取语音数据。将上述数据处理后，作为训练样本反复输入离线语音固件训练系统，实现智能家居的离线语音固件训练。数据量大，且无需用户花费额外时间输入语音数据，训练高效、智能。技术研发人员：王习受保护的技术使用者：安徽凡智信息科技有限公司技术研发日：技术公布日：2024/4/22