技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种智能语音转写方法及系统与流程 > 正文

一种智能语音转写方法及系统与流程

国知局
2024-06-21 11:51:50

本发明涉及语音转写，具体涉及一种智能语音转写方法及系统。

背景技术：

1、自动语音识别技术是人机交互技术中的重要技术之一。自动语音识别系统在语音助手或听写工具等人机交互系统中普遍存在。智能语音转写方法是指将音频数据通过算法识别转换为文本数据，然而，音频转换文本的准确率受到音频中噪声的严重影响，语音去噪能够改善语音质量，降低噪声污染，提高语音转写时的准确率。

2、其中sg（savitzky-golay smoothing）多项式滤波算法是一种常用的语音去噪技术，sg滤波算法通过局部多项式拟合后的数据代替原数据实现平滑、去噪。然而在语音数据复杂的环境中，sg多项式滤波算法存在对多项式阶数较为敏感的缺陷。采用sg滤波去噪时，较大的阶数能够更好地适应数据的曲线特征，但会导致平滑后的数据失去部分细节信息。较小的阶数则能更好的保留数据的细节信息，但可能无法适应复杂的数据曲线变化，都容易造成语音转写错误。

技术实现思路

1、为了解决上述技术问题，本发明的目的在于提供一种智能语音转写方法及系统，所采用的技术方案具体如下：

2、第一方面，本发明实施例提供了一种智能语音转写方法，该方法包括以下步骤：

3、采集语音数据，将语音数据进行采样得到离散语音序列；

4、根据离散语音序列中的元素分布特征得到离散语音序列中各元素的语音边界影响系数；根据各元素的语音边界影响系数得到离散语音序列的各信号区；根据各信号区内元素的频域特征得到各信号区的高频序列与低频序列；根据各信号区内元素与低频序列中元素的关系得到各信号区的语音低频相似度；结合各信号区的语音低频相似度及信号区内元素的语音边界影响系数得到各信号区的语音低频信号纯净指数；利用经验模态分解算法获取各信号区的高频序列的各本征模态分量；结合频域分析算法得到低频序列及各本征模态分量的频谱包络线；根据各本征模态分量的频谱包络线与低频序列的频谱包络线的关系及各信号区的语音低频信号纯净指数得到各信号区的语音信号区失真系数；结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写；

5、所述根据离散语音序列中的元素分布特征得到离散语音序列中各元素的语音边界影响系数，表达式为：

6、

7、式中，表示离散语音序列中第i个元素的语音边界影响系数，表示以离散语音序列中第i个元素为中心的预设局部邻域内的元素数量，表示离散语音序列中的第i个元素，表示第i个元素的预设局部邻域内的第j个元素，表示第i个元素的预设局部邻域构成的数据序列，表示求均值函数，表示求方差函数，为以自然常数为底数的指数函数。

8、优选的，所述根据各元素的语音边界影响系数得到离散语音序列的各信号区，包括：

9、将离散语音序列中语音边界影响系数的归一化值大于等于预设阈值的元素作为语音边界点，将相邻两个语音边界点之间的所有元素作为一个信号区。

10、优选的，所述根据各信号区内元素的频域特征得到各信号区的高频序列与低频序列，包括：

11、将各信号区的所有元素作为小波包分解算法的输入，输出为各信号区中各元素对应的高频值与低频值，将所有高频值按对应信号区元素顺序组成高频序列，将所有低频值按对应信号区元素顺序组成低频序列。

12、优选的，所述根据各信号区内元素与低频序列中元素的关系得到各信号区的语音低频相似度，表达式为：

13、

14、式中，表示信号区的语音低频相似度，表示信号区中的第k个元素，表示信号区中所有元素的均值，表示信号区中的第k个元素对应的低频值，表示信号区的低频序列的所有元素均值，表示信号区中的所有元素数量。

15、优选的，所述结合各信号区的语音低频相似度及信号区内元素的语音边界影响系数得到各信号区的语音低频信号纯净指数，包括：

16、以低频序列中各元素为中心，构建预设尺寸的局部邻域，计算局部邻域内所有元素的香农熵，计算各信号区中任一元素的语音边界影响系数与所述任一元素在低频序列中对应元素的所述香农熵的差值绝对值，计算所述差值绝对值与预设大于0的调参系数的和值，计算各信号区的语音低频相似度与对应信号区元素的所述和值的比值，将各信号区中所有元素的所述比值的和值作为各信号区的语音低频信号纯净指数。

17、优选的，所述结合频域分析算法得到低频序列及各本征模态分量的频谱包络线，包括：

18、将低频序列及各本征模态分量进行离散傅里叶变换，得到低频序列及各本征模态分量的频谱图，将各频谱图利用局部最大值算法获取各频谱图的频谱包络线，作为对应低频序列及各本征模态分量的频谱包络线。

19、优选的，所述根据各本征模态分量的频谱包络线与低频序列的频谱包络线的关系及各信号区的语音低频信号纯净指数得到各信号区的语音信号区失真系数，包括：

20、计算各信号区内低频序列的频谱包络线与各本征模态分量的频谱包络线的皮尔逊相关系数，信号区的语音信号区失真系数的表达式为：

21、

22、式中，为信号区的预设邻近信号区数量，、分别表示信号区、信号区的语音低频信号纯净指数，、分别表示信号区、信号区所述皮尔逊相关系数最大值对应的本征模态分量，、分别表示信号区、信号区的高频序列，为预设大于0的调节参数，为皮尔逊相关系数函数。

23、优选的，所述结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写，包括：

24、计算各信号区的语音信号区失真系数的归一化值，计算所述归一化值的相反数与1的和值，将所述和值与预设值的乘积的四舍五入取整值作为sg滤波算法的阶数，结合各信号区的所述阶数利用sg滤波算法对各信号区的数据进行去噪，将去噪后的离散语音序列进行非线性拟合得到连续语音数据，将连续语音数据利用语音转文本算法进行语音转写。

25、第二方面，本发明实施例还提供了一种智能语音转写系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

26、本发明至少具有如下有益效果：

27、本发明通过分析语音数据的短时波动幅度，计算离散语音序列中各元素的语音边界影响系数，基于语音边界影响系数划分得到各信号区，有效减少了sg多项式滤波算法中的边界效应影响；然后采用小波包分解得到低频序列和高频序列，基于低频序列与离散语音序列的相似关系，构建语音低频信号纯净指数；最后基于语音数据的波动复杂特性结合高频序列，计算语音信号区失真系数，进一步获得sg多项式滤波的阶数，减少了语音数据波动的影响，保留细节信息的同时具有更好的平滑效果。弥补了传统sg算法无法适应复杂的数据曲线变化，降低去噪效果，导致转写成文本时错误率较高的缺陷，有效提高了转写文本的正确率。

技术特征：

1.一种智能语音转写方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述根据各元素的语音边界影响系数得到离散语音序列的各信号区，包括：

3.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述根据各信号区内元素的频域特征得到各信号区的高频序列与低频序列，包括：

4.根据权利要求3所述的一种智能语音转写方法，其特征在于，所述根据各信号区内元素与低频序列中元素的关系得到各信号区的语音低频相似度，表达式为：

5.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述结合各信号区的语音低频相似度及信号区内元素的语音边界影响系数得到各信号区的语音低频信号纯净指数，包括：

6.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述结合频域分析算法得到低频序列及各本征模态分量的频谱包络线，包括：

7.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述根据各本征模态分量的频谱包络线与低频序列的频谱包络线的关系及各信号区的语音低频信号纯净指数得到各信号区的语音信号区失真系数，包括：

8.根据权利要求1所述的一种智能语音转写方法，其特征在于，所述结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写，包括：

9.一种智能语音转写系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任意一项所述方法的步骤。

技术总结本发明涉及语音转写技术领域，具体涉及一种智能语音转写方法及系统，该方法包括：采集语音数据得到离散语音序列，将离散语音序列划分为各信号区，获取各信号区的高频序列与低频序列，获取各信号区的语音低频相似度及语音低频信号纯净指数，利用经验模态分解算法获取各信号区的高频序列的各本征模态分量，获取低频序列及各本征模态分量的频谱包络线，构建各信号区的语音信号区失真系数，结合各信号区的语音信号区失真系数及滤波算法、语音转文本算法完成语音转写。本发明旨在提高语音转写的准确率，降低噪音干扰。技术研发人员：张忠,李治强,杨静,陈聪,何杰受保护的技术使用者：广州市艾索技术有限公司技术研发日：技术公布日：2024/5/12