技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音分类方法、装置、设备、介质和程序产品与流程 > 正文

语音分类方法、装置、设备、介质和程序产品与流程

国知局
2024-06-21 11:39:39

本公开涉及人工智能领域，更具体地涉及一种语音分类方法、装置、设备、介质和程序产品。

背景技术：

1、随着科学技术的进步和深度学习研究的深入，语音情感识别在生活中的应用逐渐广泛。语音是表达个人情感信息的最明显和最直接的方式之一，也是传递情绪的最精确和最具有多样性的媒介。金融产品推销策略主要通过客户经理或智能客服为客户介绍产品，通过客户经理解释产品，需要消耗大量的人力资源，而人工智能客服往往是依靠提取关键字的方式来对客户做出回应，缺乏对客户情感变化的捕捉，从而导致人工智能客服提供的服务缺乏个性化与人性化，因此营销效果往往不是特别理想。此外，在人工智能客服判断客户的情感时，仅对低频区域的语音有较为良好的识别效果，对中高频的语音信息识别往往不尽人意。

技术实现思路

1、鉴于上述问题，本公开提供了提高语音识别效果的语音分类方法、装置、设备、介质和程序产品。

2、根据本公开的第一个方面，提供了一种语音分类方法，包括：对初始语音采样信号进行预处理，获得多个语音信号帧；对每个语音信号帧进行滤波，获得语音信号帧的梅尔特征向量和逆梅尔特征向量；将梅尔特征向量和逆梅尔特征向量进行特征混合，获得混合梅尔特征向量；计算混合梅尔特征向量的特征参数；对全部特征参数进行分类，获得分类结果。

3、根据本公开的实施例，计算混合梅尔特征向量的特征参数包括：对混合梅尔特征向量中频率低于特定阈值的部分进行幂数运算，获得第一子特征参数；对混合梅尔特征向量中频率不低于特定阈值的部分进行对数运算，获得第二子特征参数；结合第一子特征参数与第二子特征参数，获得混合梅尔特征向量的特征参数。

4、根据本公开的实施例，对每个语音信号帧进行滤波，获得语音信号帧的梅尔特征向量和逆梅尔特征向量包括：通过n个梅尔滤波器对语音信号帧进行滤波，获得长度为n的梅尔能量向量；通过m个逆梅尔滤波器对语音信号帧进行滤波，获得长度为m的逆梅尔能量向量；将梅尔能量向量进行离散余弦变换后，得到n个梅尔倒谱系数；将逆梅尔能量向量进行离散余弦变换后，得到m个逆梅尔倒谱系数；取n个梅尔倒谱系数的前k个梅尔倒谱系数作为语音信号帧的梅尔特征向量；取m个逆梅尔倒谱系数的前k个逆梅尔倒谱系数作为语音信号帧的逆梅尔特征向量；其中，m为正整数，n为正整数，k为不大于m且不大于n的正整数。

5、根据本公开的实施例，对初始语音采样信号进行预处理，获得多个语音信号帧包括：对初始语音采用信号进行预加重；对预加重后的初始语音采样信号进行分帧，获得多个时域语音信号帧；对每个时域语音信号帧进行加窗处理，获得获得加窗后的时域语音信号帧；对每个加窗后的时域语音信号帧进行快速傅里叶变换，得到每个加窗后的时域语音信号帧所对应的语音信号帧。

6、根据本公开的实施例，多个时域语音信号帧中，相邻的时域语音信号帧的时域信息至少部分重叠。

7、根据本公开的实施例，将梅尔特征向量和逆梅尔特征向量进行特征混合，获得混合梅尔特征向量包括：基于预设的混合模型将梅尔特征向量和逆梅尔特征向量进行特征混合，获得混合梅尔特征向量，混合模型基于费希尔准则训练得到。

8、根据本公开的实施例，对全部特征参数进行分类，获得分类结果包括：对每个特征参数进行分类，获得每个特征参数对应的分类结果；基于预设权重和每种分类结果所对应的特征参数的个数，计算初始语音采样信号的分类结果。

9、根据本公开的实施例，对每个特征参数进行分类，获得每个特征参数对应的分类结果包括：基于间隔最大化的支持向量机模型，对每个特征参数进行分类，获得每个特征参数对应的分类结果。

10、本公开的第二方面提供了一种语音分类装置，包括：预处理模块，用于对初始语音采样信号进行预处理，获得多个语音信号帧；滤波模块，用于对每个语音信号帧进行滤波，获得语音信号帧的梅尔特征向量和逆梅尔特征向量；混合模块，用于将梅尔特征向量和逆梅尔特征向量进行特征混合，获得混合梅尔特征向量；计算模块，用于计算混合梅尔特征向量的特征参数；以及，分类模块，用于对全部特征参数进行分类，获得分类结果。

11、本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述语音分类方法。

12、本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述语音分类方法。

13、本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述语音分类方法。

14、本公开提供的语音分类方法、装置、设备、介质和程序产品至少具有以下有益效果之一：梅尔滤波对低频语音信号的识别效果较好，逆梅尔滤波对高频信号的识别效果较好，通过梅尔特征向量和逆梅尔特征向量混合后，再计算特征参数，可以同时有效识别高频和低频信号。使用费希尔准则进行特征混合，既可以从特征向量中选取出特征明显的分量，也可以降低系数的维度，去除系数中的冗余信息。在低能量段采用幂函数的方式计算特征参数，降低噪声对低能量时噪声对滤波带的影响。

技术特征：

1.一种语音分类方法，包括：

2.根据权利要求1所述的语音分类方法，其中，所述计算所述混合梅尔特征向量的特征参数包括：

3.根据权利要求1或2所述的语音分类方法，其中，所述对每个所述语音信号帧进行滤波，获得所述语音信号帧的梅尔特征向量和逆梅尔特征向量包括：

4.根据权利要求1所述的语音分类方法，其中，所述对初始语音采样信号进行预处理，获得多个语音信号帧包括：

5.根据权利要求4所述的语音分类方法，其中，所述多个时域语音信号帧中，相邻的所述时域语音信号帧的时域信息至少部分重叠。

6.根据权利要求1所述的语音分类方法，其中，将所述梅尔特征向量和所述逆梅尔特征向量进行特征混合，获得混合梅尔特征向量包括：

7.根据权利要求1所述的语音分类方法，其中，对全部所述特征参数进行分类，获得分类结果包括：

8.根据权利要求7所述的语音分类方法，其中，所述对每个所述特征参数进行分类，获得每个所述特征参数对应的分类结果包括：

9.一种语音分类装置，包括：

10.一种电子设备，包括：

11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～8中任一项所述的方法。

12.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～8中任一项所述的方法。

技术总结本公开提供了一种语音分类方法，可以应用于人工智能技术领域。该语音情感分类方法包括：对初始语音采样信号进行预处理，获得多个语音信号帧；对每个语音信号帧进行滤波，获得语音信号帧的梅尔特征向量和逆梅尔特征向量；将梅尔特征向量和逆梅尔特征向量进行特征混合，获得混合梅尔特征向量；计算混合梅尔特征向量的特征参数；对全部特征参数进行分类，获得分类结果。本公开还提供了一种语音分类装置、设备、存储介质和程序产品。技术研发人员：肖雪莹,罗伟,吴延生,曾现元受保护的技术使用者：中国工商银行股份有限公司技术研发日：技术公布日：2024/3/27