技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音唤醒方法、装置、系统及可读介质与流程  >  正文

一种语音唤醒方法、装置、系统及可读介质与流程

  • 国知局
  • 2024-06-21 10:40:11

本发明涉及语音识别,尤其是涉及一种语音唤醒方法、装置、系统及可读介质。

背景技术:

1、近年来,具有语音操作功能的智能设备逐渐进入了人们的生活,这类设备在使用语音操作之前,一般需要通过特定的唤醒词来唤醒语音操作功能。现有语音服务的唤醒方法中,一般是将用户端采集的语音数据传输至云服务器或服务器进行语音识别,检测到识别文字中含有预设唤醒词则唤醒。但是,该唤醒方法中由于网络抖动、网络阻塞等问题的存在导致云服务器或服务器无法实时处理用户输入的语音数据,机器唤醒响应不及时。而且,通过云服务器或服务器进行语音识别,为了保证不错过对用户不定时输入唤醒指令的识别任务,云服务器或服务器需要独占一定数量的资源不间断的对语音数据进行实时的语音识别,不仅增大服务器的负载压力,还增加了不必要的资源消耗和系统开销,造成资源浪费和高耗能。因此,基于终端低功耗的唤醒技术方案显得尤为重要。

2、现阶段,基于终端低功耗的语音唤醒产品中较为典型的语音唤醒功能的实现主要包括两类,其中一类是基于嵌入式语音唤醒芯片实现,其需要在制作智能终端产品时预先将语音唤醒芯片内嵌于智能终端设备中并激活语音唤醒功能,如天猫精灵音箱、小度智能耳机、科沃斯扫地机等;另一类是将语音唤醒sdk嵌入app中并激活语音唤醒功能,如天猫精灵app、小爱同学app、百度语音助手app等。第一类基于嵌入式语音唤醒芯片实现语音唤醒由于芯片架构的不同导致其存在芯片软件适配度差的问题,而且针对那些出厂时没有嵌入语音唤醒芯片的智能终端来说,无法通过简单的处理手段将该芯片嵌入到原智能终端设备中故而无法实现语音唤醒功能。而第二类基于内嵌语音唤醒sdk的app,由于不同终端设备所支持的操作环境以及硬件架构具备一定的差异性,则对应的语音唤醒sdk需要做定制化的更改以满足其操作系统、硬件架构适配性的要求,导致其在不同操作系统下应用的语音唤醒软件之间可迁移性、灵活性不高。

技术实现思路

1、有鉴于此,本发明的目的在于提供一种语音唤醒方法、装置及系统,以减小唤醒阶段的负载压力,同时解决现有技术中不同智能终端设备进行语音唤醒时遇到的适配性差的问题。

2、第一方面,本发明实施例提供了一种语音唤醒方法,应用于语音唤醒系统的前端,前端与语音唤醒系统的后端通信连接,方法包括:响应于语音交互发起操作,启动语音唤醒系统的前端的语音识别元件;获取语音数据,通过语音识别元件识别语音数据得到语音数据对应的文字数据;基于文字数据确定语音数据中是否存在预设的唤醒词;若语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互;若语音数据中不存在唤醒词,重新启动语音识别元件对语音数据进行识别,直至语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作。

3、在本发明较佳的实施例中,在上述启动语音唤醒系统的前端的语音识别元件之前,方法还包括:若未开启语音数据的获取权限,对获取权限的开启进行请求;在语音数据的获取权限开启后,获取预先设置的配置信息;配置信息包括唤醒词、语种信息和语音识别函数;基于配置信息对语音识别元件进行初始化。

4、在本发明较佳的实施例中,上述通过语音识别元件识别语音数据得到语音数据对应的文字数据,包括:确定语音数据对应的语种;基于语种和语音识别函数将语音数据转化为文字数据。

5、在本发明较佳的实施例中,在上述停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互之前,方法还包括基于唤醒词的字符占比数以及文字数据中是否含有预先设置的动作词集合中的任一动作词,确定唤醒词是否有效;若唤醒词无效,则重新启动语音识别元件对语音数据进行识别,直至唤醒词有效;其中,字符占比数用于确定唤醒词是否有效。

6、在本发明较佳的实施例中,上述确定唤醒词是否有效,包括:判断唤醒词所处位置后的文字数据中是否存在任一动作词;若唤醒词所处位置后的文字数据中不存在任一动作词,则确定唤醒词的字符占比数是否大于或等于预先设置的占比数阈值;若唤醒词的字符占比数大于或等于占比数阈值,则唤醒词有效。

7、在本发明较佳的实施例中,当语音数据对应的语种为中文时,上述基于文字数据确定语音数据中是否存在唤醒词,包括:确定唤醒词对应的第一拼音和文字数据对应的第二拼音;基于第一拼音和第二拼音进行正则比对;若第二拼音中包括第一拼音,语音数据中存在唤醒词。

8、在本发明较佳的实施例中,在向上述后端发送语音唤醒指令之后,方法还包括:基于预先设置的时间阈值确定语音交互是否结束;若语音交互结束,重新启动语音识别元件。

9、第二方面,本发明实施例还提供一种语音唤醒装置,应用于语音唤醒系统的前端,前端与语音唤醒系统的后端通信连接,装置包括用于执行上述的语音唤醒方法的各个模块,模块包括语音识别元件启动模块、语音数据识别模块、唤醒词判断模块和指令发送模块,其中:语音识别元件启动模块,用于响应于语音交互发起操作,启动语音唤醒系统的前端的语音识别元件;语音数据识别模块,用于获取语音数据,通过语音识别元件识别语音数据得到语音数据对应的文字数据;唤醒词判断模块,用于基于文字数据确定语音数据中是否存在预设的唤醒词;指令发送模块,用于若语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互;若语音数据中不存在唤醒词,重新启动语音识别元件对语音数据进行识别,直至语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作。

10、第三方面,本发明实施例还提供一种语音唤醒系统,包括:前端和后端,前端和后端通信连接;前端用于,响应于语音交互发起操作,启动语音唤醒系统的前端的语音识别元件;获取语音数据,通过语音识别元件识别语音数据得到语音数据对应的文字数据;基于文字数据确定语音数据中是否存在预设的唤醒词;若语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互;若语音数据中不存在唤醒词,重新启动语音识别元件对语音数据进行识别,直至语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作。后端用于,对前端发送的语音唤醒指令进行响应;获取语音数据,基于语音数据进行语音交互。

11、第四方面,本发明实施例还提供一种计算机可读介质,计算机可读介质具有处理器可执行的非易失的程序代码,程序代码使处理器执行上述第一方面的语音唤醒方法。

12、本发明实施例带来了以下有益效果:

13、本发明实施例提供了一种语音唤醒方法、装置、系统及可读介质,相对于前端将采集的语音数据传输至后端进行识别并判断是否含有唤醒词的方法,本技术中利用前端轻量级的语音识别元件对语音数据进行识别,并基于是否在语音数据中识别出预设的唤醒词判断是唤醒后端进行语音交互,还是重启语音识别元件对用户后续输入的语音数据进行识别,直至识别到预设的唤醒词后停止工作。在语音识别元件的基础上通过重启机制和判断机制的双机制协同工作实现对后端的语音唤醒,如此在前端进行唤醒词的语音识别以减少在唤醒阶段中服务器的负载压力和资源开销,提高机器唤醒响应效率。再者,本技术中是以不同的智能终端设备支持的语音识别元件做基础,不需要针对该设备的支持操作系统以及硬件架构做适配性调整。因而本技术改造后得到的语音识别元件的可迁移性和灵活度较高,且改造后的语音识别元件的体积小、量级轻,几乎不影响应用程序的性能,响应速率快。

14、本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。

15、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21064.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。