基于云平台的语音数据处理方法及其系统与流程
- 国知局
- 2024-06-21 11:33:51
本申请涉及智能分析领域,且更为具体地,涉及一种基于云平台的语音数据处理方法及其系统。
背景技术:
1、随着生活水平的提高,人们的生活方式和需求发生了变化,越来越多的人追求便利、舒适和智能化的生活体验。科技的不断发展,物联网和人工智能等技术得到了突破性的进展,这为智能家居的实现提供了基础。物联网技术使得各种设备和家居设施能够互相连接和交互,而人工智能则赋予了这些设备智能化的能力,能够根据用户的需求和习惯进行自动化控制。
2、一般情况下,智能家居系统可以根据语音指令的内容来执行相应的任务。然而,一些高级的智能家居系统可以通过识别特定人的声音来区分不同的用户,并根据个人设置和权限来执行相应的操作。
3、因此,需要一种基于云平台的语音数据处理方案。
技术实现思路
1、为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于云平台的语音数据处理方法及其系统,其通过对发声人的声音信号进行特征提取以识别发声人的身份,进而决定是否执行语音指令。这样,智能家居系统可以根据个人设置和权限执行相应的操作,以给用户提供更加个性化的智能体验。
2、根据本申请的一个方面,提供了一种基于云平台的语音数据处理方法,其包括:
3、获取发声人的声音信号;
4、将所述声音信号进行降噪处理以得到增强声音信号;
5、从所述增强声音信号提取对数梅尔谱图;
6、将所述对数梅尔谱图通过使用空洞卷积核的第一卷积神经网络模型以得到发声梅尔谱图特征图;
7、将所述增强声音信号的波形图通过作为过滤器的第二卷积网络模型以得到发声波形特征图;
8、融合所述发声梅尔谱图特征图和所述发声波形特征图以得到声音综合特征图;
9、将所述声音综合特征图通过分类器以得到分类结果,所述分类结果用于表示所述发声人的声音是否属于云平台中语音数据库中的声音。
10、在上述基于云平台的语音数据处理方法中,所述将所述对数梅尔谱图通过使用空洞卷积核的第一卷积神经网络模型以得到发声梅尔谱图特征图,包括:所述使用空洞卷积核的第一卷积神经网络模型的各层在层的正向传递过程中分别对输入数据进行:基于所述空洞卷积核对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的均值池化处理以得到池化特征图;对所述池化特征图进行非线性激活以得到激活特征图;其中,所述第一卷积神经网络模型的最后一层的输出为所述发声梅尔谱图特征图,所述第一卷积神经网络模型的第一层的输入为所述对数梅尔谱图。
11、在上述基于云平台的语音数据处理方法中,所述将所述增强声音信号的波形图通过作为过滤器的第二卷积网络模型以得到发声波形特征图,包括:所述作为过滤器的第二卷积神经网络模型的各层在层的正向传递过程中分别对输入数据进行:基于二维卷积核对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的均值池化处理以得到池化特征图;对所述池化特征图进行非线性激活以得到激活特征图;其中,所述第二卷积神经网络模型的最后一层的输出为所述发声波形特征图,所述第二卷积神经网络模型的第一层的输入为所述增强声音信号的波形图。
12、在上述基于云平台的语音数据处理方法中,所述融合所述发声梅尔谱图特征图和所述发声波形特征图以得到声音综合特征图,包括:计算所述发声梅尔谱图特征图相对于所述发声波形特征图的基于秩序先验的特征工程过渡因子;以所述基于秩序先验的特征工程过渡因子作为权重,对所述发声梅尔谱图特征图进行加权优化以得到加权后发声梅尔谱图特征图;计算所述加权后发声梅尔谱图特征图和所述发声波形特征图之间的按位置加权和以得到所述声音综合特征图。
13、在上述基于云平台的语音数据处理方法中,所述计算所述发声梅尔谱图特征图相对于所述发声波形特征图的基于秩序先验的特征工程过渡因子,包括:以如下计算公式计算所述发声梅尔谱图特征图相对于所述发声波形特征图的基于秩序先验的特征工程过渡因子;其中,所述计算公式为:
14、
15、其中,w、h、c分别为特征图的宽、高、通道数,表示所述发声梅尔谱图特征图的第(i,j,k)位置的特征值,表示所述发声波形特征图的第(i,j,k)位置的特征值,α和β是预定超参数,w表示所述基于秩序先验的特征工程过渡因子,exp(·)表示以自然常数e为底的指数运算。
16、在上述基于云平台的语音数据处理方法中,所述将所述声音综合特征图通过分类器以得到分类结果,所述分类结果用于表示所述发声人的声音是否属于云平台中语音数据库中的声音,包括:使用所述分类器以如下分类公式对所述声音综合特征图进行处理以生成所述分类结果;其中,所述分类公式为:
17、o=softmax{(wn,bn):...:(w1,b1)|project(f)}
18、其中o为所述分类结果,project(f)表示将所述声音综合特征图投影为向量,w1至wn为各层全连接层的权重矩阵,b1至bn表示各层全连接层的偏置向量,softmax为归一化指数函数。
19、根据本申请的另一方面,提供了一种基于云平台的语音数据处理系统,其包括:
20、声音数据获取模块,用于获取发声人的声音信号;
21、声音数据降噪处理模块,用于将所述声音信号进行降噪处理以得到增强声音信号;
22、对数梅尔谱图提取模块,用于从所述增强声音信号提取对数梅尔谱图;
23、对数梅尔谱图特征编码模块,用于将所述对数梅尔谱图通过使用空洞卷积核的第一卷积神经网络模型以得到发声梅尔谱图特征图;
24、波形图特征提取模块,用于将所述增强声音信号的波形图通过作为过滤器的第二卷积网络模型以得到发声波形特征图;
25、声音综合特征融合模块,用于融合所述发声梅尔谱图特征图和所述发声波形特征图以得到声音综合特征图;
26、声音分析结果生成模块,用于将所述声音综合特征图通过分类器以得到分类结果,所述分类结果用于表示所述发声人的声音是否属于云平台中语音数据库中的声音。
27、与现有技术相比,本申请提供的基于云平台的语音数据处理方法及其系统,其通过对发声人的声音信号进行特征提取以识别发声人的身份,进而决定是否执行语音指令。这样,智能家居系统可以根据个人设置和权限执行相应的操作,以给用户提供更加个性化的智能体验。
技术特征:1.一种基于云平台的语音数据处理方法,其特征在于,包括:
2.根据权利要求1所述的基于云平台的语音数据处理方法,其特征在于,将所述对数梅尔谱图通过使用空洞卷积核的第一卷积神经网络模型以得到发声梅尔谱图特征图,包括:所述使用空洞卷积核的第一卷积神经网络模型的各层在层的正向传递过程中分别对输入数据进行:
3.根据权利要求2所述的基于云平台的语音数据处理方法,其特征在于,将所述增强声音信号的波形图通过作为过滤器的第二卷积网络模型以得到发声波形特征图,包括:所述作为过滤器的第二卷积神经网络模型的各层在层的正向传递过程中分别对输入数据进行:
4.根据权利要求3所述的基于云平台的语音数据处理方法,其特征在于,融合所述发声梅尔谱图特征图和所述发声波形特征图以得到声音综合特征图,包括:
5.根据权利要求4所述的基于云平台的语音数据处理方法,其特征在于,计算所述发声梅尔谱图特征图相对于所述发声波形特征图的基于秩序先验的特征工程过渡因子,包括:以如下计算公式计算所述发声梅尔谱图特征图相对于所述发声波形特征图的基于秩序先验的特征工程过渡因子;
6.根据权利要求5所述的基于云平台的语音数据处理方法,其特征在于,将所述声音综合特征图通过分类器以得到分类结果,所述分类结果用于表示所述发声人的声音是否属于云平台中语音数据库中的声音,包括:使用所述分类器以如下分类公式对所述声音综合特征图进行处理以生成所述分类结果;
7.一种基于云平台的语音数据处理系统,其特征在于,包括:
8.根据权利要求7所述的基于云平台的语音数据处理系统,其特征在于,所述声音综合特征融合模块,包括:
9.根据权利要求8所述的基于云平台的语音数据处理系统,其特征在于,所述特征工程过渡因子计算单元,用于:以如下计算公式计算所述发声梅尔谱图特征图相对于所述发声波形特征图的基于秩序先验的特征工程过渡因子;
10.根据权利要求9所述的基于云平台的语音数据处理系统,其特征在于,所述声音分析结果生成模块,用于:使用所述分类器以如下分类公式对所述声音综合特征图进行处理以生成所述分类结果;
技术总结本申请涉及智能分析领域,其具体地公开了一种基于云平台的语音数据处理方法及其系统,其通过对发声人的声音信号进行特征提取以识别发声人的身份,进而决定是否执行语音指令。这样,智能家居系统可以根据个人设置和权限执行相应的操作,以给用户提供更加个性化的智能体验。技术研发人员:朱士喜,丰自越受保护的技术使用者:合肥探创信息科技有限公司技术研发日:技术公布日:2024/3/11本文地址:https://www.jishuxx.com/zhuanli/20240618/22268.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表