技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种流式语音识别方法、装置、介质及设备与流程 > 正文

一种流式语音识别方法、装置、介质及设备与流程

国知局
2024-06-21 10:42:17

本技术涉及智能语音对话，具体涉及一种流式语音识别方法、装置、介质及设备。

背景技术：

1、随着科技的不断发展，各种穿戴式、便携式的智能设备，以及大量的应用软件已经完全融入大众生活，常用的输入法、在线会议、直播、实时翻译等一系列应用存在着语音识别的需求。现阶段大部分语音识别模型都是针对非流式语音识别设计的，这意味着语音识别模型需要等待用户停顿或结束说话才能开始识别，并且只能在用户停顿或结束语音输入后才能输出完整的识别结果。如此会造成语音识别延迟时间较长和交互不连贯的问题，因此在人机交互等大量应用场景下基于流式语音识别的需求显得尤为重要。

2、目前，市面上较为典型的基于流式语音识别的产品可以实时地对接收到的语音数据进行识别，达到边接收用户语音输入数据边返回识别结果的效果。但是，该产品只能识别单轮特定时长（1分钟内）的语音数据，超过上述时长或一定时间内未接收到语音数据则均会中断语音识别功能，因而无法针对长时间多轮语音对话场景实现无间断地实时语音识别，易造成对话交互过程不流畅、错误理解用户意图等现象，导致对话交互效果较差的问题。

技术实现思路

1、本技术的主要目的在于提供一种流式语音识别方法、装置、介质及设备，旨在解决现有技术中在流式语音识别过程中由于时间限制导致中断其语音识别功能，进而导致对话交互效果差，语音识别的质量降低的问题。

2、为实现上述目的，本技术的实施例采用的技术方案如下：

3、第一方面，本技术实施例提供一种流式语音识别方法，流式语音识别方法包括：

4、在流式语音识别的过程中，启动第一监听任务，以监听后端与语音识别模块的连接状态是否断开；

5、在后端与语音识别模块的连接状态为断开时，根据第一时间戳与第二时间戳的差值大小，确定中断事件类别；其中，第一时间戳为连接状态断开时对应的时间戳，第二时间戳为第一监听任务的启动时间对应的时间戳；

6、根据中断事件类别，向语音识别模块发起重连请求；

7、响应于重连请求，与语音识别模块重新建立连接，更新第二时间戳为当前时间的时间戳，并继续进行流式语音识别。

8、在第一方面的一种可能实现方式中，中断事件类别至少包括第一中断事件，第一中断事件是基于第一时间戳与第二时间戳的差值小于预设时间阈值而被标记的中断事件；根据中断事件类别，向语音识别模块发起重连请求包括：

9、基于第一中断事件连续被标记的次数判断是否大于或等于预设次数；

10、若是，则终止当前对话任务的所有数据处理并进入待唤醒状态；

11、若否，向语音识别模块发起重连请求。

12、在第一方面的一种可能实现方式中，基于第一中断事件连续被标记的次数判断是否大于或等于预设次数包括：

13、基于第一中断事件被标记次数进行累计加1操作，得到计数值，计数值的初始值为零；

14、判断第一时间戳与第二时间戳的差值是否大于或等于预设时间阈值；

15、若是，则重置计数值为零；

16、若否，则对计数值进行累计加1操作以得到更新后的计数值；

17、基于更新后的计数值判断是否大于或等于预设次数。

18、在第一方面的一种可能实现方式中，在后端与语音识别模块的连接状态为断开之后，流式语音识别方法还包括：

19、基于第一时间戳对前端传输的语音数据进行缓存，得到缓存数据；

20、在与语音识别模块重新建立连接之后，基于第二时间戳在预设延迟时间后将缓存数据发送至语音识别模块中进行流式语音识别。

21、在第一方面的一种可能实现方式中，在流式语音识别的过程中，启动第一监听任务，以监听后端与语音识别模块的连接状态是否断开之前，流式语音识别方法还包括：

22、前端启动第二监听任务，获得第三时间戳和第四时间戳；其中，第三时间戳为语音采集设备开始采集语音流数据的时间戳，第四时间戳为实时采集语音流数据的时间戳；

23、根据第三时间戳与第四时间戳的差值，获得第二时间差；

24、判断第二时间差是否大于或等于第一预设时间；

25、在第二时间差大于或等于第一预设时间的情况下，前端将采集的语音流数据传输至后端，更新第三时间戳为当前时间的时间戳；

26、后端向语音识别模块发起语音识别请求；

27、响应于语音识别请求，后端向语音识别模块传输语音流数据以进行流式语音识别。

28、在第一方面的一种可能实现方式中，前端将采集的语音流数据传输至后端包括：

29、前端将采集的语音流数据以预设数据传输速率传输至后端。

30、在第一方面的一种可能实现方式中，预设数据传输速率的获取方法包括：

31、获取前端音频采集设备的设置参数和预设传输时间，设置参数至少包括采样率、音频通道数以及每次采样样本位数；预设传输时间小于或等于第一预设时间；

32、基于设置参数和第二时间差计算，得到音频文件大小；

33、基于音频文件大小和预设传输时间的比值，得到预设数据传输速率。

34、第二方面，本技术实施例提供一种流式语音识别装置，流式语音识别装置包括用于执行如上述第一方面中任一项提供的一种流式语音识别方法的步骤的多个模块，模块包括监听模块、获得模块、请求模块和重连模块，其中：

35、监听模块，监听模块用于在流式语音识别的过程中，启动第一监听任务，以监听后端与语音识别模块的连接状态是否断开；

36、获得模块，获得模块用于在后端与语音识别模块的连接状态为断开时，根据第一时间戳与第二时间戳的差值大小，确定中断事件类别；其中，第一时间戳为连接状态断开时对应的时间戳，第二时间戳为第一监听任务的启动时间对应的时间戳；

37、请求模块，请求模块用于根据中断事件类别，向语音识别模块发起重连请求；

38、重连模块，重连模块用于响应于重连请求，与语音识别模块重新建立连接，更新第二时间戳为当前时间的时间戳，并继续进行流式语音识别。

39、第三方面，本技术实施例提供一种电子设备，电子设备包括：

40、存储器，用于存储程序指令；

41、处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行如上述第一方面中任一项提供的一种流式语音识别方法。

42、第四方面，本技术实施例提供一种存储介质，存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如上述第一方面中任一项提供的一种流式语音识别方法。

43、与现有技术相比，本技术的有益效果是：

44、本技术实施例提出的一种流式语音识别方法、装置、介质及设备，该方法包括：在流式语音识别的过程中，启动第一监听任务，以监听后端与语音识别模块的连接状态是否断开；在后端与语音识别模块的连接状态为断开时，根据第一时间戳与第二时间戳的差值大小，确定中断事件类别；其中，第一时间戳为连接状态断开时对应的时间戳，第二时间戳为第一监听任务的启动时间对应的时间戳；根据中断事件类别，向语音识别模块发起重连请求；响应于重连请求，与语音识别模块重新建立连接，更新第二时间戳为当前时间的时间戳，并继续进行流式语音识别。本技术通过启动监听任务来监听流式语音识别，实时获取后端与语音识别模块的连接状态，在其处于断开状态时，通过断开时对应的时间戳与启动监听任务对应的时间戳之间的差值大小，确认引起中断的原因并进而确定中断事件类别，确认后根据不同情况的中断对应发起重连请求，并与语音识别模块重新连接继续进行流式语音识别，既能确保对话交互的流畅，又能保证有效信息不丢失，提升语音识别的质量。