语音识别方法、装置、相关设备及计算机程序产品与流程
- 国知局
- 2024-06-21 11:50:16
本技术涉及语音识别,更具体的说,是涉及一种语音识别方法、装置、相关设备及计算机程序产品。
背景技术:
1、语音识别即将语音转写为文本的过程。近年来,随着语音识别技术的成熟,已成功应用于各行各业中,尤其是针对特定领域的语音识别技术,如针对会议录音数据进行语音识别、针对教学课堂的录音数据进行语音识别等。通过将会议录音、教学录音等转换为文本内容,大大方便了参会人回顾会议内容,以及学生的课后学习。
2、为了提升语音识别的准确率,部分方案尝试将录音相关的材料作为参考信息,辅助进行语音识别的过程。示例如,将会议主题信息作为参考信息,辅助进行语音识别,对于会议主题信息所包含的一些关键词,能够提升语音识别的准确率。
3、但是,一些实际场景下可供参考的信息较少,如会议录音识别场景,仅有会议主题信息,而参会人发言过程可能会针对该主题发散进行讨论,这些录音内容远远超出了会议主题信息所包含的内容,导致语音识别的准确率仍有待提升。
技术实现思路
1、鉴于上述问题,提出了本技术以便提供一种语音识别方法、装置、相关设备及计算机程序产品,以进一步提升语音识别准确率。具体方案如下:
2、第一方面,提供了一种语音识别方法,包括:
3、获取目标场景下的待识别语音,及所述目标场景下与所述待识别语音对应的初始参考信息;
4、调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本,作为模型生成的扩展文本;
5、以所述扩展文本,或者所述扩展文本和所述初始参考信息作为目标参考信息,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果。
6、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本的过程,包括:
7、获取提示指令prompt格式模板,所述prompt格式模板包括任务指令及参考信息槽,所述任务指令用于指示人工智能大模型基于所述参考信息槽内的初始参考信息,扩展生成所述目标场景下所可能产生的音频转写文本;
8、将所述初始参考信息填充到所述参考信息槽,得到第一提示指令prompt;
9、将所述第一提示指令prompt输入至所述人工智能大模型,得到模型生成的音频转写文本。
10、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,所述待识别语音为在线语音识别过程中实时获取的待识别音频流;
11、对应的,与所述待识别语音对应的初始参考信息包括当前时刻之前已经识别出的语音转写文本;
12、所述任务指令具体用于:指示人工智能大模型基于所述参考信息槽内的初始参考信息,扩展生成所述目标场景下当前时刻之后未来一段时间内所可能产生的音频转写文本。
13、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,所述目标场景为会议录音识别场景,与所述待识别语音对应的初始参考信息包括以下至少一项或多项:
14、会议相关资料信息、会议主题、会议所属领域关键词、会议时长、会议发言人描述信息、会议发言人个数、已进行会议的录音转写文本;
15、对应的,调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本的过程,包括:
16、调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成本次会议可能产生的会议内容。
17、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,所述目标场景为课堂教学录音识别场景,与所述待识别语音对应的初始参考信息包括以下至少一项或多项:
18、教学相关资料信息、教学科目、教学大纲、教学时长、教师描述信息、已进行教学的录音转写文本;
19、对应的,调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本的过程,包括:
20、调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成本次课堂教学过程可能产生的教学内容。
21、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果的过程,包括:
22、从所述目标参考信息中提取关键词组成关键词列表;
23、使用语音识别模型对所述待识别语音进行识别,并在识别过程中对所述关键词列表中的关键词进行正向激励,以得到语音识别结果。
24、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果的过程,包括:
25、使用语音识别模型对所述待识别语音进行识别,得到初步语音识别结果;
26、利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果。
27、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:
28、从所述目标参考信息中提取关键词组成关键词列表;
29、遍历所述初步语音识别结果中的各个词,并将当前遍历的词与所述关键词列表中各关键词进行字形和/或字音的匹配,若找到与当前遍历的词相匹配的目标关键词,则利用所述目标关键词替换所述当前遍历的词,得到修正后的语音识别结果。
30、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:
31、将所述初步语音识别结果按照发言人角色进行分类,得到所述初步语音识别结果中每个句子对应的角色;
32、将所述目标参考信息按照发言人角色进行分类,得到每个角色对应的预发言语料库;
33、对于所述初步语音识别结果中每个句子:
34、在与所述句子对应的角色的预发言语料库中查找语义相似度超过设定相似度阈值的目标语料,遍历所述句子中各个词,将当前遍历的词与所述目标语料中各词进行字形和/或字音的匹配,若找到与当前遍历的词相匹配的目标词,则利用所述目标词替换所述当前遍历的词,得到修正后的语音识别结果。
35、在一种可能的设计中,在本技术实施例的第一方面的另一种实现方式中,利用所述目标参考信息,对所述初步语音识别结果进行修正,得到修正后的语音识别结果的过程,包括:
36、调用所述人工智能大模型,以指示所述人工智能大模型基于所述目标参考信息对所述初步语音识别结果进行修正,得到模型输出的修正后的语音识别结果。
37、第二方面,提供了一种语音识别装置,包括:
38、数据获取单元,用于获取目标场景下的待识别语音,及所述目标场景下与所述待识别语音对应的初始参考信息;
39、大模型调用单元,用于调用预配置的人工智能大模型,以指示所述人工智能大模型基于所述初始参考信息扩展生成所述目标场景下所可能产生的音频转写文本,作为模型生成的扩展文本;
40、语音辅助识别单元,用于以所述扩展文本,或者所述扩展文本和所述参考信息作为目标参考信息,结合所述目标参考信息对所述待识别语音进行语音识别,得到语音识别结果。
41、第三方面,提供了一种语音识别设备,包括:存储器和处理器;
42、所述存储器,用于存储程序;
43、所述处理器,用于执行所述程序,实现本技术前述第一方面中任一项所描述的语音识别方法。
44、第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现本技术前述第一方面中任一项所描述的语音识别方法。
45、第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本技术前述第一方面中任一项所描述的语音识别方法。
46、借由上述技术方案,本技术在对目标场景下的待识别语音进行识别时,获取了该场景下与待识别语音对应的初始参考信息,示例如对于会议录音识别场景可以获取会议主题信息等作为初始参考信息。进一步,考虑到初始参考信息可能不够丰富,本技术进一步借助了人工智能大模型强大的自然语言理解及文本生成能力,指示大模型基于该初始参考信息扩展生成目标场景下所可能产生的音频转写文本,仍以会议录音识别场景为例,可以调用大模型,让大模型基于会议主题信息,生成本次会议可能产生的会议内容,作为扩展文本,可以理解的是,本技术是指示大模型基于初始参考信息来生成目标场景下所可能产生的音频转写文本,因此所生成的扩展文本仍属于目标场景下与初始参考信息相关的内容,可以理解为是对初始参考信息的一种扩展发散,其能够涵盖目标场景下与初始参考信息相关的更加丰富的信息,且与待识别语音的相关性足够高,以此作为目标参考信息对待识别语音进行语音识别,可以更好的辅助语音识别,提升语音识别的准确率。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23878.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表