技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种云值机特情语音转文字的方法及系统与流程  >  正文

一种云值机特情语音转文字的方法及系统与流程

  • 国知局
  • 2024-06-21 11:58:31

本发明涉及自然语言处理的,尤其涉及一种云值机特情语音转文字的方法及系统。

背景技术:

1、近年来,随着现代综合交通运输体系的发展,推动了高速公路取消人工收费站以及无人车道的普及。目前,无人车道面对特情场景时,仍需人员进行现场处理,这与无人车道的建设目标相悖。因此,在基于现有技术框架的基础上,我们提出了利用数字人技术接管特情处置场景,但这一技术现阶段面临着对云值机语音无法准确识别的技术难点。

2、在ai技术飞速发展的今天,针对语音转文字的应用场景,市场上已有众多厂家推出了较为成熟的产品,诸如:阿里云,讯飞,灵聚,openai等提出的语音识别模型。但这些模型直接应用在交通领域特情云值机语音转文字的场景中,由于不能充分理解特情语音的上下文,产生的错字率已不足以支撑后续工作的进行。针对这些不足,我们提出了在现有语音识别模型的基础上,利用特情数据对模型进行高效微调训练的优化方案。

技术实现思路

1、本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

2、鉴于上述现有云值机特情语音转文字的方法及系统存在的问题,提出了本发明。

3、因此,本发明目的是提供一种云值机特情语音转文字的方法及系统,其采用端点检测模型、语音转译模型、人工修正的方法对收集的云值机特情语音进行信息提取,随后利用脚本文件将这些信息制作成json格式的特情语音数据集。

4、为解决上述技术问题,本发明提供如下技术方案:一种云值机特情语音转文字的方法,包括以下步骤:

5、步骤一:获取云值机特情语音;

6、步骤二:对所述云值机特情语音进行端点检测,获取所述云值机特情语音中有效语音的起止时间;

7、步骤三:对所述云值机特情语音进行转译,获取所述云值机特情语音的文字转译结果;

8、步骤四:基于所述有效语音的起止时间以及所述文字转译结果,制作语音数据集,包括:基于脚本将语音文件路径、所述有效语音的起止时间以及所述文字转译结果制作成json格式的字符串类型,得到特情语音数据集;

9、步骤五:获取特情语音数据集中的预训练的语音识别模型,配置adalora微调参数包括:初始与目标低秩矩阵的秩、adalora层的随机失活率、偏置;配置训练参数包括:批大小、学习率、预热步数;并联预训练语音识别模型与adalora微调模型,初始化adalora低秩矩阵a,b矩阵;冻结所述预训练语音识别模型参数,采用所述特情语音数据集对所述adalora微调模型进行训练,得到高效微调的语音识别模型;使用ctranslate2对所述高效微调后的模型进行推理加速。

10、作为本发明所述云值机特情语音转文字的方法的一种优选方案,其中:所述步骤二中还包括:基于经训练的端点检测模型,对云值机特情语音进行端点检测,获取有效语音的起止时间。

11、作为本发明所述云值机特情语音转文字的方法的一种优选方案,其中:所述步骤三中还包括:基于经训练的语音转译模型,对所述云值机特情语音进行粗糙的文字转译,再经专业人士对转译结果进行修正后,获取正确的文字转译结果。

12、作为本发明所述云值机特情语音转文字的方法的一种优选方案,其中:所述步骤五中并联所述预训练语音识别模型与所述adalora微调模型,包括:在所述预训练语音识别模型的所有线性层中并联内在低秩矩阵a、b,采用随机高斯初始化所述降维矩阵a,初始化所述升维矩阵b为0。

13、作为本发明所述云值机特情语音转文字的方法的一种优选方案,其中:所述步骤五中还包括冻结所述预训练语音识别模型参数,采用所述语音数据集对所述adalora微调模型进行训练包括:在训练阶段只训练所述adalora微调模型参数,通过在训练过程中动态更新增量矩阵的秩而达到裁剪不重要的本征矩阵,增强重要本征矩阵所包含的信息量,最后将增量矩阵与所述预训练语音识别模型参数合并,得到高效微调后的语音识别模型。

14、作为本发明所述云值机特情语音转文字的方法的一种优选方案,其中:所述云值机特情语音转文字的方法使用到云值机特情语音转文字系统,包括:

15、云值机特情语音获取模块:用于获取云值机特情语音;

16、特情语音数据集制作模块:用于对所述云值机特情语音进行端点检测,语音转译以及利用脚本制作成json格式的数据集;

17、预训练语音识别模块:用于对语音提供基本的转译功能;

18、adalora高效微调模块:用于对所述预训练的语音识别模块提供增量微调参数;

19、加速推理模块:使用ctranslate2对所述语音识别模型进行推理加速。

20、作为本发明所述云值机特情语音转文字的方法的一种优选方案,其中:包括一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述特情云值机语音转文字的方法。

21、本发明的有益效果:本发明采用端点检测模型、语音转译模型、人工修正的方法对收集的云值机特情语音进行信息提取,随后利用脚本文件将这些信息制作成json格式的特情语音数据集。通过加载预训练的语音识别模型、配置adalora微调参数、训练参数,利用制作的特情语音数据集对模型进行微调训练,对合并后的模型进行加速推理转换,最后得到能直接应用在云值机特情语音转文字场景中的语音识别模型。

技术特征:

1.一种云值机特情语音转文字的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的云值机特情语音转文字的方法,其特征在于:所述步骤二中还包括:基于经训练的端点检测模型,对云值机特情语音进行端点检测,获取有效语音的起止时间。

3.根据权利要求2所述的云值机特情语音转文字的方法,其特征在于:所述步骤三中还包括:基于经训练的语音转译模型,对所述云值机特情语音进行粗糙的文字转译,再经专业人士对转译结果进行修正后,获取正确的文字转译结果。

4.根据权利要求1所述的云值机特情语音转文字的方法,其特征在于:所述步骤五中并联所述预训练语音识别模型与所述adalora微调模型,包括:在所述预训练语音识别模型的所有线性层中并联内在低秩矩阵a、b,采用随机高斯初始化所述降维矩阵a,初始化所述升维矩阵b为0。

5.根据权利要求1所述的云值机特情语音转文字的方法,其特征在于:所述步骤五中还包括冻结所述预训练语音识别模型参数,采用所述语音数据集对所述adalora微调模型进行训练包括:在训练阶段只训练所述adalora微调模型参数,通过在训练过程中动态更新增量矩阵的秩而达到裁剪不重要的本征矩阵,增强重要本征矩阵所包含的信息量,最后将增量矩阵与所述预训练语音识别模型参数合并,得到高效微调后的语音识别模型。

6.根据权利要求1所述的云值机特情语音转文字的方法,其特征在于:所述云值机特情语音转文字的方法使用到云值机特情语音转文字系统,包括:

7.根据权利要求1所述的云值机特情语音转文字的方法,其特征在于:包括一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述特情云值机语音转文字的方法。

技术总结本发明公开了一种云值机特情语音转文字的方法及系统,包括以下步骤:步骤一:获取云值机特情语音;步骤二:对所述云值机特情语音进行端点检测,获取所述云值机特情语音中有效语音的起止时间;步骤三:对所述云值机特情语音进行转译,获取所述云值机特情语音的文字转译结果;步骤四:基于所述有效语音的起止时间以及所述文字转译结果制作成JSON格式的字符串类型,得到特情语音数据集。本发明采用端点检测模型、语音转译模型、人工修正的方法对收集的云值机特情语音进行信息提取,随后利用脚本文件将这些信息制作成JSON格式的特情语音数据集。技术研发人员:刘贵强,吴烨南,卞佳加,丘陵受保护的技术使用者:南京感动科技有限公司技术研发日:技术公布日:2024/6/13

本文地址:https://www.jishuxx.com/zhuanli/20240618/24821.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。