一种激活唤醒词的ASR识别方法与流程
- 国知局
- 2024-06-21 11:45:18
本发明涉及asr自动语音识别,具体的说,是一种激活唤醒词的asr识别方法。
背景技术:
1、可语音激活的设备有自己的标准唤醒词,激活设备的音频称为唤醒音频。如果用标准唤醒词激活了设备,称为正确激活;如果设备被非标准词激活,称为误激活,该非标准词的音频称为误唤醒音频。但现有技术中无法识别和处理误唤醒音频,以及识别语音过程中耗时长、磁盘占用较多的问题。
技术实现思路
1、本发明的目的在于提供一种激活唤醒词的asr识别方法,用于解决现有技术中现有技术中无法识别和处理误唤醒音频,以及识别语音过程中耗时长、磁盘占用较多的问题。
2、本发明通过下述技术方案解决上述问题:
3、一种激活唤醒词的asr识别方法,包括:
4、步骤s1、获取到用户唤醒音频后,将音频转换为二进制数据流;
5、步骤s2、将二进制数据流传入asrt声学模型,识别出拼音并输入asrt语言模型,asrt语言模型识别出中文唤醒词,记录识别结果;
6、步骤s3、将识别结果上传并判断:若识别结果为自定义标准唤醒词,则标注对应的用户唤醒音频为正确激活,否则,则标注对应的用户唤醒音频为误激活。
7、本发明将音频文件转换为二进制流式文件进行读取、格式转换、识别等,无需进行读写操作,减少磁盘占用,降低磁盘压力,缩短识别耗时,加快识别速度。通过误激活唤醒词自动语音识别框架,能够识别用户激活设备时的唤醒词,返回识别结果为后续误激活统计作为支持数据。
8、进一步地,所述步骤s1具体为:将收到的用户唤醒音频转换为二进制数据,调用python三方库里的io.bytesio方法将二进制数据转换为流式数据,然后将流式数据传入自定义标准格式验证组件,如果流式数据的格式不满足要求,则进行格式转换输出二进制数据流,如果满足,则直接输出二进制数据流。
9、进一步地,所述步骤s3中如果识别结果上传失败,则删除该识别结果对应的用户唤醒音频。
10、本发明与现有技术相比,具有以下优点及有益效果:
11、(1)本发明通过误激活唤醒词自动语音识别框架,能够识别用户激活设备时的唤醒词,返回识别结果为后续误激活统计作为支持数据。
12、(2)本发明将音频文件转换为二进制流式文件进行读取、格式转换、识别等,无需进行读写操作,减少磁盘占用,降低磁盘压力,缩短识别耗时,加快识别速度。
技术特征:1.一种激活唤醒词的asr识别方法,其特征在于,包括:
2.根据权利要求1所述的一种激活唤醒词的asr识别方法,其特征在于,所述步骤s1具体为:将收到的用户唤醒音频转换为二进制数据,调用python三方库里的io.bytesio方法将二进制数据转换为流式数据,然后将流式数据传入自定义标准格式验证组件,如果流式数据的格式不满足要求,则进行格式转换输出二进制数据流,如果满足,则直接输出二进制数据流。
3.根据权利要求1或2所述的一种激活唤醒词的asr识别方法,其特征在于,所述步骤s3中如果识别结果上传失败,则删除该识别结果对应的用户唤醒音频。
技术总结本发明公开了一种激活唤醒词的ASR识别方法,获取到用户唤醒音频后,将音频转换为二进制数据流;将二进制数据流传入ASRT声学模型,识别出拼音并输入ASRT语言模型,ASRT语言模型识别出中文唤醒词,记录识别结果;将识别结果上传并判断:若识别结果为自定义标准唤醒词,则标注对应的用户唤醒音频为正确激活,否则,则标注对应的用户唤醒音频为误激活。本发明将音频文件转换为二进制流式文件进行读取、格式转换、识别等,无需进行读写操作,减少磁盘占用,降低磁盘压力,缩短识别耗时,加快识别速度。通过误激活唤醒词自动语音识别框架,能够识别用户激活设备时的唤醒词,返回识别结果为后续误激活统计作为支持数据。技术研发人员:童姝宇受保护的技术使用者:四川虹微技术有限公司技术研发日:技术公布日:2024/4/22本文地址:https://www.jishuxx.com/zhuanli/20240618/23379.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。