技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种智能语音识别系统及方法与流程 > 正文

一种智能语音识别系统及方法与流程

国知局
2024-06-21 11:56:12

本发明涉及人工智能、语音识别领域，尤其涉及一种智能语音识别系统及方法。

背景技术：

1、智能语音识别技术，简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。对于语音识别的方法有很多，周柳阳等学者提出的“202111178759.5”“一种智能语音识别处理方法及系统”通过多组录音信息和传感信息对周边的生物进行定位，并获得声音发出生物的位置信息，从而根据该位置信息对录音信息进行聚焦处理，使其能够更为清晰和突出。

2、但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：语音识别系统的识别过程较复杂、识别结果准确性较差。

技术实现思路

1、本发明通过提供一种智能语音识别系统及方法，解决了现有技术中语音识别系统的识别过程较复杂、识别结果准确性较差的技术问题。

2、本发明提供了一种智能语言识别系统及方法，具体包括以下技术方案：

3、一种智能语音识别系统，包括以下部分：

4、语音信号采集组件，预处理组件，语音信号精准处理组件，特征提取组件块，声学模型组件，语言模型组件，发声词典组件和解码器组件；

5、所述语音信号采集组件，对语音信号进行采集，然后采集到的信号即待识别语音转换成可操作的模拟信号；

6、所述预处理组件，将所述语音信号采集组件采集到的语音模拟信号进行预处理，将语音信号从原始信号中提取出来转换成了帧序列的加窗短时语音数字信号；

7、所述语音信号精准处理组件，对所述预处理组件获得的短时语音数字信号进行精准处理工作，得到更接近原语音信号信息的语音信号，同时提取到更能代表语音信号的相关特征信息；

8、所述特征提取组件，对经过所述萃取模块后的语音信号的相关特征进行提取，并将语音信号的特征构建特征向量用于进一步语言信号处理；

9、所述声学模型组件，根据声学特性计算所述特征提取组件提供的每一个特征向量在声学特征上的得分以及其权重得分，经组合计算优选出得分最高对应的特征向量，并将信息输出；

10、所述语言模型组件，将通过待识别语音信号输入至预先训练好的语音识别模型中，根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；

11、所述发声词典模块，用来对识别出的信号提供参考对比；

12、所述解码器模块，对词组序列进行解码，得到最后文本输出表示。

13、一种智能语音识别方法，包括以下步骤：

14、s1.首先对待识别的语音进行信号采集，获得语音模拟信号，对采集到的语音模拟信号进行预处理后利用能量迭代循环法进行端点检测得到待识别的语音数字信号，随后对待识别的数字信号提取相关特征信息；

15、s2.将待识别语音信号与其特征矢量通过声学模型组件、发声字典组件、语言模型组件形成的网络，得到与之所有相匹配的识别文字以及单个字或词相互关联的概率关系，最后利用解码器模块对所得数据进行维特比解码译码，得到最终语音识别文字输出。

16、进一步，所述步骤s1包括：

17、将短时语音数字信号s(n)经语音信号精准处理组件进行精准处理，其中n表示采样点位置；引入能量迭代循环因子：

18、

19、其中，e[·]表示能量，si表示第i次迭代语音信号，e[s0]＝0；利用能量迭代循环语音端点检测算法对语音数字信号s(n)进行检测得到更接近原语音信息的语音信号

20、进一步，所述步骤s1包括：

21、将待识别短时语音数字信号s(n)发送到语音信号特征提取组件进行声学特征提取，所提取的特征有语音数字信号的线性预测倒谱系数(lpcc)、梅尔频率倒谱系数(mfcc)；

22、所述线性预测倒谱系数：

23、

24、其中，l(j)为倒谱系数，aj、ak为预测系数，k∈(1，2，...，j-1}，p为预测系数的阶数，j为倒谱系数的阶数；

25、所述梅尔频谱倒谱系数：

26、

27、其中，k表示第k个滤波器，k为滤波器个数，h(k)表示k个梅尔滤波器组，i表示一个序列取值为：i∈{1，2，...，k/2}。

28、进一步，所述步骤s2包括：

29、构造七维声学模型，用以下七个参数来进行描述，即：

30、m＝{y，print,sate，pb，fs,may,cor}

31、其中，y表示模型中所包含的有限隐含状态的集合；print表示输出的可观测序列的集合；sate表示状态之间转移概率的集合；pb表示给定状态下输出相应输出观察值的概率；fs表示系统初始状态概率的集合，may表示所有可能出现状态的权重集合，cor表示所有可能状态之间的相关系数集合。

32、本发明至少具有如下技术效果或优点：

33、1.本发明增加了语音信号精准处理组件，对经过预处理的语音信号进行进一步精准处理，得到更准确的数字信号，可以获得更具有代表性的信号特征信息，从而提高系统识别准确率。

34、2.本发明引入能量迭代循环因子利用循环迭代语音检测算法对语音数字信号进行端点检测，从数字语音信号中检测出语音信号段和噪音段，得到相对准确的语音信号，结合语音信号自身的能量特性利用该端点检测算法不仅可以减少系统计算量，还提高了语音识别系统的准确率。

35、3.本发明构造七个参数的声学模型，对语音信号的信息特征概括的更为全面，通过参考引入拟合因子的混合高斯模型来拟合语音信号，两者相结合对语音信号的拟合更为准确，提供了匹配准确率，进一步提高系统性能。

技术特征：

1.一种智能语音识别系统，其特征在于，包括以下部分：

2.一种智能语音识别方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种智能语音识别方法，其特征在于，所述步骤s1包括：

4.根据权利要求3所述的一种智能语音识别方法，其特征在于，所述步骤s1还包括：

5.根据权利要求2所述的一种智能语音识别方法，其特征在于，所述步骤s2包括：

技术总结本发明提供了一种智能语音识别系统及方法，首先对待识别的语音进行信号采集，获得语音模拟信号，对采集到的语音模拟信号进行预处理后利用能量迭代循环法进行端点检测得到待识别的语音数字信号，随后对待识别的数字信号提取相关特征信息；将待识别语音信号与其特征矢量通过声学模型组件、发声字典组件、语言模型组件形成的网络，得到与之所有相匹配的识别文字以及单个字或词相互关联的概率关系，最后利用解码器模块对所得数据进行维特比解码译码，得到最终语音识别文字输出。本发明解决了在语音识别过程中系统计算量较大、识别结果较差，匹配的准确率较低的问题，为解决上述问题。技术研发人员：文强受保护的技术使用者：海识（烟台）信息科技有限公司技术研发日：技术公布日：2024/6/5