技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种综合语音和文本的自纠错方法、存储介质和电子设备与流程 > 正文

一种综合语音和文本的自纠错方法、存储介质和电子设备与流程

国知局
2024-06-21 11:37:50

本申请属于语音检索，具体涉及一种综合语音和文本的自纠错方法、存储介质和电子设备。

背景技术：

1、随着人工智能技术的不断发展，智能交互和智能查询已经成为了越来越受欢迎的解决方案。智能交互是指能够自动识别用户语音或文字输入，并能够根据用户需求给出相应的回答或建议的技术。智能查询则是通过自然语言处理技术，将用户输入的关键词或问题转化为可理解的语义，然后根据用户需求提供相应的查询结果。在企业和政府部门中，智能交互和智能查询技术被广泛应用于单位名称、部门名称、人名等信息的查询和管理。通过智能交互和智能查询技术，用户可以快速、准确地查询所需信息，避免了传统的手动查询方式带来的繁琐和耗时。此外，智能交互和智能查询技术还可以降低企业和政府部门的人工成本，减少人工座席的数量和工作时间。

2、在传统的智能交互中，智能交互一般采用通用语音识别模型来实现语音转文字的效果，在特定的场景下，通用模型的效果一般且无法适用于特定场景，无法完成语音识别的错误纠正，当转化成文字后，目标查询文字和识别文字往往存在一定的差异，比如同音不同字、缺字和多字，这时候需要通过特定场景下的文字纠错模型去提升语音识别后处理，通过两者相结合，可以实现更加高效和准确的语音和文字交互。

技术实现思路

1、本发明针对现有技术中的不足，提供一种综合语音和文本的自纠错方法、存储介质和电子设备，能够对发音不准、存在背景噪声和字母与数字组合等不易识别的语音进行纠错，并将纠错后的语音生成对应的文本信息，对文本信息再进行纠错以匹配更准确的检索结果。

2、为实现上述目的，本发明采用以下技术方案：

3、一种综合语音和文本的自纠错方法，包括以下步骤：

4、s1、收集用户检索的语音；

5、s2、对步骤s1收集的语音使用语音纠错神经网络进行纠错，将纠错后的语音转化为文本信息；

6、s3、对步骤s2得到的文本信息与数据库中已存储的检索词句进行匹配，当无法匹配时对文本信息进行文本纠错然后进入步骤s4，所述文本纠错包括字数错误纠正、模糊匹配和特定文本替换；当存在相匹配的检索词句时直接进入步骤s4；

7、s4、根据文本信息匹配相应的检索结果并合成结果语音返回给用户。

8、作为优选，所述步骤s2中语音纠错神经网络训练的训练集包括第一语音集、第二语音集、声学场景集和每个语音集对应的标注文本；第二语音集中语音长度大于第一语音集中语音的长度；声学场景集包括带有区域性口音的语音、带有特殊背景噪音的语音和字母数字组合的语音。

9、作为优选，所述第一语音集包括公司名称、产品名称、专业词汇、人名和地名。

10、作为优选，所述步骤s3中字数错误纠正对步骤s2得到的文本信息先与数据库中的检索词句进行对比，存在文本信息仅与某些检索词句的部分文字相同的情况时，计算文本信息与所有与其存在部分文字相同的检索词句的编辑距离，所述编辑距离为将文本信息转换正确单词所需的最少操作次数，所述操作包括插入、删除和替换，将编辑距离最小且满足设定条件的检索词句替换文本信息；不存在任何检索词句与文本信息存在相同的文字时不使用字数错误纠正。

11、作为优选，所述设定条件为操作次数最多为文本信息长度的四分之一。

12、作为优选，所述步骤s3中模糊匹配将数据库中的检索词句转换为拼音单独存储为拼音库；模糊匹配具体过程如下：

13、s301、将文本信息依次转换为拼音字符串，得到声母和韵母字符串；

14、s302、根据设定的拼音规则对拼音字符串进行重新拼写，得到文本信息对应的拼音信息；所述拼音规则包括忽略声调和将平翘舌音视为相同；

15、s303、计算拼音信息与拼音库中所有信息的编辑距离，将编辑距离最小的拼音库中信息对应的检索词句替换原本的文本信息。

16、作为优选，所述步骤s3中特定文本替换在其余文本纠错都无法适用的情况下使用，特定文本替换为根据用户的检索语音人工标注对应的文本信息并将检索语音和标注文本对应存储为特定替换信息库；当其余文本纠错都无法适用时，根据步骤s2纠错后的语音信息与特定替换信息库中的检索语音进行比对，如有相同的语音则将文本信息替换为该检索语音对应的标注文本；如不存在与相同的语音，则标记该文本信息待人工重新标注。

17、作为优选，所述步骤s2中语音纠错神经网络对用户检索语音的每次纠错结果都会实时记录存入数据库，质检人员实时查看记录，对纠错结果不符合要求的人工修改，并将该用户检索语音和修改后的纠正结果作为训练集对语音神经网络进行再训练；所述步骤s3中模糊匹配和特定文本替换使用内存缓存机制和单例模式提高反馈速度。

18、一种计算机可读存储介质，存储有计算机程序，所述计算机程序使计算机执行上述任一项所述的一种综合语音和文本的自纠错方法。

19、一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现上述任一项所述的一种综合语音和文本的自纠错方法。

20、本发明的有益效果是：

21、本申请的方法先对用户的检索语音用语音纠错神经网络纠错，然后将纠错后的语音生成对应的文本信息，语音纠错神经网络能纠正发音不准、去除背景噪声、辨别区域性口音和准确识别字母数字组合这种不易辨别的语音；当文本信息无法在数据库中匹配到检索词句时再进行文本纠错以匹配到数据库中的检索词句，文本纠错能识别并纠正字数错误（多字或少字）、同音不同字（模糊匹配）以及通过以上都无法解决文本错误（特定文本替换），通过文本纠错后能从数据库中匹配到相应的检索目标，通过语音纠错和文本纠错相结合的方式，能够解决大多数通用模型上的疑难杂症，（也就是上述提到语音和文本错误），提高了语音检索整体的准确率；能够被广泛应用于智能客服、智能助手等领域，具有一定的通用性。

22、通过对语音纠错的结果进行实时质检并修改不符合要求的纠正结果返回语音神经网络进行再训练，能不断提高语言纠错神经网络的准确性；通过内缓存机制和单例模式能满足并发需求和实时性需求，提高了文本纠错的反馈速度。

技术特征：

1.一种综合语音和文本的自纠错方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种综合语音和文本的自纠错方法，其特征在于：所述步骤s2中语音纠错神经网络训练的训练集包括第一语音集、第二语音集、声学场景集和每个语音集对应的标注文本；第二语音集中语音长度大于第一语音集中语音的长度；声学场景集包括带有区域性口音的语音、带有特殊背景噪音的语音和字母数字组合的语音。

3.根据权利要求2所述的一种综合语音和文本的自纠错方法，其特征在于：所述第一语音集包括公司名称、产品名称、专业词汇、人名和地名。

4.根据权利要求1所述的一种综合语音和文本的自纠错方法，其特征在于：所述步骤s3中字数错误纠正对步骤s2得到的文本信息先与数据库中的检索词句进行对比，存在文本信息仅与某些检索词句的部分文字相同的情况时，计算文本信息与所有与其存在部分文字相同的检索词句的编辑距离，所述编辑距离为将文本信息转换正确单词所需的最少操作次数，所述操作包括插入、删除和替换，将编辑距离最小且满足设定条件的检索词句替换文本信息；不存在任何检索词句与文本信息存在相同的文字时不使用字数错误纠正。

5.根据权利要求4所述的一种综合语音和文本的自纠错方法，其特征在于：所述设定条件为操作次数最多为文本信息长度的四分之一。

6.根据权利要求1所述的一种综合语音和文本的自纠错方法，其特征在于：所述步骤s3中模糊匹配将数据库中的检索词句转换为拼音单独存储为拼音库；模糊匹配具体过程如下：

7.根据权利要求1所述的一种综合语音和文本的自纠错方法，其特征在于：所述步骤s3中特定文本替换在其余文本纠错都无法适用的情况下使用，特定文本替换为根据用户的检索语音人工标注对应的文本信息并将检索语音和标注文本对应存储为特定替换信息库；当其余文本纠错都无法适用时，根据步骤s2纠错后的语音信息与特定替换信息库中的检索语音进行比对，如有相同的语音则将文本信息替换为该检索语音对应的标注文本；如不存在与相同的语音，则标记该文本信息待人工重新标注。

8.根据权利要求1所述的一种综合语音和文本的自纠错方法，其特征在于：所述步骤s2中语音纠错神经网络对用户检索语音的每次纠错结果都会实时记录存入数据库，质检人员实时查看记录，对纠错结果不符合要求的人工修改，并将该用户检索语音和修改后的纠正结果作为训练集对语音神经网络进行再训练；所述步骤s3中模糊匹配和特定文本替换使用内存缓存机制和单例模式提高反馈速度。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序使计算机执行如权利要求1-8任一项所述的一种综合语音和文本的自纠错方法。

10.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如权利要求1-8任一项所述的一种综合语音和文本的自纠错方法。

技术总结本申请提供一种综合语音和文本的自纠错方法，属于语音检索技术领域，包括以下步骤：S1、收集用户检索的语音；S2、对步骤S1收集的语音使用语音纠错神经网络进行纠错，将纠错后的语音转化为文本信息；S3、对步骤S2得到的文本信息与数据库中已存储的检索词句进行匹配，当无法匹配时对文本信息进行文本纠错然后进入步骤S4，所述文本纠错包括字数错误纠正、模糊匹配和特定文本替换；当存在相匹配的检索词句时直接进入步骤S4；S4、根据文本信息匹配相应的检索结果并合成结果语音返回给用户；本方法能够对发音不准、存在背景噪声和字母与数字组合等不易识别的语音纠错，将纠错后的语音生成对应的文本信息，对文本信息再进行纠错以匹配更准确的检索结果。技术研发人员：施道平,高培培,陈萍,陈辉,薄萌萌,徐姗受保护的技术使用者：江苏号百科技有限公司技术研发日：技术公布日：2024/3/21