技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别系统的词序纠错方法  >  正文

语音识别系统的词序纠错方法

  • 国知局
  • 2024-06-21 11:37:45

本发明属于语音识别,具体涉及语音识别系统的词序纠错方法。

背景技术:

1、语音识别系统,也被称为自动语音识别(asr)、计算机语音识别或语音转文本,是一种计算技术,它能够将人类的语音信号转换为可理解和处理的文本形式。这项技术的核心是模式识别,通过学习和训练,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。

2、语音识别的过程通常包括:音频采集,即通过麦克风或其他音频设备来采集和录制语音信号;预处理,包括去噪、预加重、分帧等操作;特征提取,从预处理后的语音信号中提取出有用的特征参数;进行识别,即将提取出的特征参数与预先建立的模型进行匹配,得出最可能的识别结果。

3、一般地,为了保证语音识别结果的准确性,需要对语音识别文本进行纠错,其可解决任务型语音对话中的识别错误问题。现有技术中,该系统一般主要由实体词抽取、纠错候选召回和纠错候选排序三个模块组成,即通过从语音文本中抽取重要的实体词作为纠错的基础,再根据实体词生成对应的纠错候选词,并通过语言模型进行评分排序,将得分高的候选词作为纠正结果。这种方法可保证对语音文本存在的多字、少字、同音词的纠错,但因语音录入者的语气环境和日常说话习惯,存在较多不符合普通阅读习惯的文本词序,这些非正常的词序,会极大地影响到生成的语音文本质量。

技术实现思路

1、为解决现有技术中存在的上述问题,本发明提供了语音识别系统的词序纠错方法,旨在解决现有技术中语音识别生成的文本词序不符合常规阅读习惯的技术问题。

2、为实现上述目的,本发明提供如下技术方案:语音识别系统的词序纠错方法,该词序纠错方法用于规定场景、规定时间戳和规定人物下,语音识别系统的原始语音识别,生成规定格式的语音识别文本,所述词序纠错方法包括如下步骤:

3、sp1:语音信号预处理:对输入的原始语音信号,所述语音识别系统进行预处理,提高信号质量;

4、其中,所述预处理步骤包括对原始语音去除噪声和失真修复;

5、sp2:特征提取:将经过预处理的原始语音信号转化为特征表示;

6、其中,所述特征提取包括如下步骤:

7、sp2-1:将经过预处理的原始语音信号切割成多段帧;

8、其中,每个所述帧的持续时间为20-30ms,且相邻帧之间有50%的重叠;

9、sp2-2:对每个所述帧应用窗函数,以减少频域泄漏的影响;

10、sp2-3:对加窗后的每个所述帧进行fft变换,将时域信号转换为频域信号;

11、sp2-4:从每个所述帧的频谱中提取出关键特征;

12、sp2-5:对提取得到的特征进行归一化处理,以保证特征的统计性质一致;

13、sp2-6:将每个所述帧的特征按照时间顺序排列,形成一个特征序列,即完成原始语音信号的特征表示;

14、sp3:语音识别模型:使用语音识别模型进行语音识别,将语音转化为原始文本;

15、其中,所述语音识别模型步骤中,所述语言识别模型基于n-gram统计模型、rnn模型或transformer模型;

16、sp4:上下文建模及错误检测和纠错:结合所述原始文本的上下文信息,利用语言模型对识别结果的原始文本进行优化,抽出实体词,建立实体词库,并根据实体词进行原始文本的多字、少字和同音词的纠错;

17、其中,所述上下文建模及错误检测和纠错步骤中,抽出实体词,建立实体词库,包括:

18、sp4-1:将所述原始文本进行分词处理,将连续的字符序列切分成单个的词语;

19、sp4-2:对于所述分词后的每个词语,进行词性标注;

20、sp4-3:使用机器学习或深度学习的方法,建立一个实体词抽取模型。该模型能够根据输入的分词结果和词性标注信息,判断每个词语是否属于某个预定义的实体类别,如专有名词、地名或机构名;

21、sp4-4:使用已经训练好的实体词抽取模型,对每个词语进行实体分类,再将被分类为实体的词语汇总成库,作为最终的实体词输出;

22、sp5:建立文本对照库:根据语音识别的所述规定场景、规定时间戳或规定人物,录入所述规定场景、规定时间戳或规定人物下对应的训练文本,建立文本对照库;

23、其中,所述建立文本对照库步骤中,根据语音识别的所述规定场景、规定时间戳或规定人物,录入所述规定场景、规定时间戳或规定人物下对应的训练文本,包括:

24、sp5-1:所述规定场景内,所述文本对照库记录规定场景下常用的专有名词、需要滤除的场景对应背景噪声和规定场景下常见的语言习惯,并汇总入文本对照库;

25、sp5-2:所述规定时间戳下,所述文本对照库记录规定时间戳所在的时间段内,常见的语言习惯和流行语;

26、sp5-3:所述规定人物下,所述文本对照库记录规定人物常用的口癖和语言习惯;

27、sp6:建立规则逻辑库:根据语音识别文本的规定格式需求,建立规则逻辑库,并根据规则逻辑库,将实体词库的每一个实体词与文本对照库进行对照,调整每一个实体词在原始文本中上下文的具体位置,生成规定格式的语音识别文本;

28、其中,所述建立规则逻辑库步骤中,根据语音识别文本的规定格式需求,建立规则逻辑库,包括常见文本格式和特殊文本格式;

29、其中,所述常见文本格式为符合常规交流的语言规范格式,所述特殊文本格式包括规定场景、规定时间戳和规定人物的适应性文本表达。

30、在该语音识别系统中,还包括:增加翻译引擎,将纠错后的原始文本进行翻译,再在规则逻辑库中增加对应语系的语言习惯,调整输出的语音识别文本的词序。

31、与现有技术相比,本发明的有益效果是:

32、1、现有技术中,语音识别的纠错系统一般由实体词抽取、纠错候选召回和纠错候选排序三个模块组成,即通过从语音文本中抽取重要的实体词作为纠错的基础,再根据实体词生成对应的纠错候选词,并通过语言模型进行评分排序,将得分高的候选词作为纠正结果,这种方法可保证对语音文本存在的多字、少字、同音词的纠错,但因语音录入者的语气环境和日常说话习惯,存在较多不符合普通阅读习惯的文本词序,这些非正常的词序,会极大地影响到生成的语音文本质量,而本发明中,通过原纠错系统中抽取的实体词建库,通过原始语音信号的录入场景、时间戳和人物的语言习惯建立文本对照库,确定规定场景、时间戳和人物的一般常规词序,与实体词库进行对照,将该规定场景、时间戳和人物下的实体词库,在原始文本的上下文中的词序,确定在该规定场景、时间戳和人物下该实体词的原始意图,从而调整每一个实体词在原始文本中上下文的具体位置,生成符合一般人阅读习惯的文本;同时,生成的语音识别文本通过规则逻辑库输出符合场景、人物、时间戳的语言习惯,可通过调整规则逻辑,自由调整输出文本的效果。

33、2、本发明中,实体词库、文本对照库和规则逻辑库分开独立设置,三者可分别编辑增删内容,无需复杂的逻辑编码,降低了指令修改的门槛,当需要修改逻辑时,只需要调整相应的规则并提交到对应的库即可改变文本输出。

34、3、本发明中,还增设了翻译引擎,可与语音识别系统适配,可根据不同语系的使用习惯,调整翻译后的文本质量。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22533.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。