语音识别方法、装置、电子设备和存储介质与流程
- 国知局
- 2024-06-21 11:30:57
本技术的实施方式涉及语音识别,更具体地,本技术的实施方式涉及语音识别方法、装置、电子设备和存储介质。
背景技术:
1、本部分旨在为权利要求书中陈述的本技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
2、ai语音识别技术是指机器自动将人的语音转成文字的技术,又称自动语音识别(automatic speech recognition,asr)技术。在现有技术中,已经相当多的语音识别软件,但是这些软件都需要在转化文字完成之后再跟进语言本意进行识别和理解,无法在阅读文章的过程中,或者是在收听连续语句时高效理解文章或者语句的含义,难以让用户对文章主旨和真实语境进行及时理解,降低用户的使用体验感。
3、有鉴于此,亟需提出一种语音识别方法,以便在语音识别的过程中,提升语意识别准确度,让用户对文章主旨和真实语境进行及时理解,提升用户的使用体验感。
技术实现思路
1、为克服相关技术中存在的问题,本技术的实施方式期望提供一种语音识别方法、装置、电子设备和存储介质。该语音识别方法能够在语音识别的过程中,提升语意识别准确度,让用户对文章主旨和真实语境进行及时理解,提升用户的使用体验感。
2、在本技术实施方式的第一方面中,提供了一种语音识别方法,包括:获取待识别音频;基于待识别音频确定待分析字幕;基于待分析字幕确定目标意群;以及基于目标意群、待识别音频和待分析字幕生成目标音频和目标字幕。
3、在本技术的一个实施例中,目标意群包含第一意群、第二意群和第三意群;其中,基于待分析字幕确定目标意群包括:对待分析字幕进行语块拆解处理,得到第一意群;对待分析字幕进行进行连续语义特征提取,得到第二意群;以及对待分析字幕进行语法分析,得到第三意群。
4、在本技术的一个实施例中,对待分析字幕进行语块拆解处理包括:识别待分析字幕中的固定短语和半固定短语;以及根据固定短语和半固定短语对待分析字幕进行语块拆解处理。
5、在本技术的一个实施例中,对待分析字幕进行进行连续语义特征提取包括:基于预设词性搭配在待分析字幕识别搭配词组;以及基于搭配词组进行连续语义特征提取。
6、在本技术的一个实施例中,对待分析字幕进行语法分析包括:识别待分析字幕中的关联词语和标点符号;根据关联词语进行语法分析,以确定待分析字幕中的强调短语;强调短语包含转折短语和递进短语;以及根据标点符号进行语法分析,以确定待分析字幕中的陈述句结束词、疑问句结束词和感叹句结束词。
7、在本技术的一个实施例中,基于目标意群、待识别音频和待分析字幕生成目标音频和目标字幕包括:基于目标意群对待识别音频进行发音效果调整,得到目标音频;以及基于目标意群对待分析字幕进行字幕标记添加,得到目标字幕。
8、在本技术的一个实施例中,基于目标意群对待识别音频进行发音效果调整包括:在第一意群中相邻的拆解语块之间添加停顿效果;在第二意群中连续语义特征的对应位置处添加连读效果;以及对第三意群中短语和词语进行发音音调调整。
9、在本技术的一个实施例中,基于目标意群对待分析字幕进行字幕标记添加包括:在第一意群中相邻的拆解语块之间添加停顿标记;在第二意群中连续语义特征的对应位置处添加连读标记;以及对第三意群中短语和词语添加音调调整标记。
10、在本技术的一个实施例中,基于待识别音频确定待分析字幕包括:对待识别音频进行预处理,得到预处理音频;将预处理音频转换为文本表示形式,得到文本式音频文件;将文本式音频文件输入至语言识别模型中,得到语言识别模型输出的字幕文本序列;将字幕文本序列进行文本去重处理和文本合并处理,得到待分析字幕。
11、在本技术的一个实施例中,在基于目标意群、待识别音频和待分析字幕生成目标音频和目标字幕之后,还包括:将目标意群整合存储至意群数据库中。
12、在本技术实施方式的第二方面中,提供了一种语音识别装置,用于执行如第一方面中任一项所述的语音识别方法,包括:音频获取模块,用于获取待识别音频;字幕生成模块,用于基于待识别音频确定待分析字幕;意群确定模块,用于基于待分析字幕确定目标意群;以及数据输出模块,用于基于目标意群、待识别音频和待分析字幕生成目标音频和目标字幕。
13、在本技术的一个实施例中,目标意群包含第一意群、第二意群和第三意群;其中,意群确定模块用于:对待分析字幕进行语块拆解处理,得到第一意群;对待分析字幕进行进行连续语义特征提取,得到第二意群;以及对待分析字幕进行语法分析,得到第三意群。
14、在本技术的一个实施例中,意群确定模块用于:识别待分析字幕中的固定短语和半固定短语;以及根据固定短语和半固定短语对待分析字幕进行语块拆解处理。
15、在本技术的一个实施例中,意群确定模块用于:基于预设词性搭配在待分析字幕识别搭配词组;以及基于搭配词组进行连续语义特征提取。
16、在本技术的一个实施例中,意群确定模块用于:识别待分析字幕中的关联词语和标点符号;根据关联词语进行语法分析,以确定待分析字幕中的强调短语;强调短语包含转折短语和递进短语;以及根据标点符号进行语法分析,以确定待分析字幕中的陈述句结束词、疑问句结束词和感叹句结束词。
17、在本技术的一个实施例中,数据输出模块用于:基于目标意群对待识别音频进行发音效果调整,得到目标音频;以及基于目标意群对待分析字幕进行字幕标记添加,得到目标字幕。
18、在本技术的一个实施例中,数据输出模块用于:在第一意群中相邻的拆解语块之间添加停顿效果;在第二意群中连续语义特征的对应位置处添加连读效果;以及对第三意群中短语和词语进行发音音调调整。
19、在本技术的一个实施例中,数据输出模块用于:在第一意群中相邻的拆解语块之间添加停顿标记;在第二意群中连续语义特征的对应位置处添加连读标记;以及对第三意群中短语和词语添加音调调整标记。
20、在本技术的一个实施例中,字幕生成模块用于:对待识别音频进行预处理,得到预处理音频;将预处理音频转换为文本表示形式,得到文本式音频文件;将文本式音频文件输入至语言识别模型中,得到语言识别模型输出的字幕文本序列;将字幕文本序列进行文本去重处理和文本合并处理,得到待分析字幕。
21、在本技术的一个实施例中,语音识别装置还包括意群存储模块,意群存储模块用于:将目标意群整合存储至意群数据库中。
22、本技术第三方面提供一种电子设备,包括:处理器;以及存储器,其上存储有用于语音识别的可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
23、本技术第四方面提供一种非暂时性机器可读存储介质,其上存储有用于语音识别的可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
24、本技术实施方式提供的技术方案具有以下有益效果:
25、本技术实施方式提供的语音识别方法、装置、电子设备和存储介质,通过获取待识别音频,基于待识别音频确定待分析字幕,进而基于待分析字幕确定目标意群。从而能够通过目标意群来确定待分析字幕中的各句子的构成成分,通过确定各个构成成分的语义来达到确定待分析字幕的语意,提升语意识别准确度。
26、进一步地,本技术能够基于目标意群、待识别音频和待分析字幕生成目标音频和目标字幕,通过目标音频和目标字幕对用户进行展示,使得用户能够对文章主旨和真实语境进行及时理解,提升用户的使用体验感。
27、总的来说,本技术能够在语音识别的过程中,提升语意识别准确度,让用户对文章主旨和真实语境进行及时理解,提升用户的使用体验感。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21980.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表