技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于语音识别的方法、装置、电子设备和存储介质与流程 > 正文

用于语音识别的方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 10:39:24

背景技术：

1、随着机器学习技术的发展，目前已经将机器学习技术应用于语音识别领域。具体地，在线语音识别技术可以将精确的语音识别模型部署在云端计算设备。本地计算设备可以向云端传输待识别语音数据，并且可以利用云端的充足计算资源来运行该精确的语音识别模型，由此以在线方式识别语音数据。备选地，可以在本地计算设备处实现离线语音识别，由于本地计算设备的计算资源和存储资源通常有限，因而只能部署并调用简化的语音识别模型。然而，简化的语音识别模型的准确性并不令人满意。目前已经提出了在本地计算设备处调用云端的语音识别模型的技术方案，然而当本地计算设备的网络状态不稳定时，难以在可接受时间范围内获得识别结果。此时，如何在可接受的时间延迟范围内提高语音识别的准确性，成为一个研究热点。

技术实现思路

1、根据本公开的第一方面，提供了一种用于语音识别的方法。在该方法中，在本地计算设备处确定语音数据所表示的文本内容。响应于从本地计算设备成功访问远程计算设备，向远程计算设备发送语音数据，以指示由远程计算设备返回语音数据表示的远程文本内容。响应于从本地计算设备接收远程文本内容失败，将由本地计算设备确定的文本内容作为语音数据的识别结果。

2、根据本公开的第二方面，提供了一种用于语音识别的装置，包括：确定模块，被配置用于在本地计算设备处确定语音数据所表示的文本内容；发送模块，被配置用于响应于从本地计算设备成功访问远程计算设备，向远程计算设备发送语音数据，以指示由远程计算设备返回语音数据表示的远程文本内容；以及识别模块，被配置用于响应于从本地计算设备接收远程文本内容失败，将由本地计算设备确定的文本内容作为语音数据的识别结果。

3、根据本公开的第三方面，提供了一种电子设备，包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。

4、根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。

5、根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，其中计算机程序/指令被处理器执行时实现根据本公开的第一方面的方法。

技术特征：

1.一种用于语音识别的方法，包括：

2.根据权利要求1的所述方法，进一步包括：响应于从所述本地计算设备成功接收所述远程文本内容，将接收的所述远程文本内容作为所述语音数据的所述识别结果。

3.根据权利要求1的所述方法，其中所述语音数据是语音数据流，其中向所述远程计算设备发送所述语音数据包括：在所述本地计算设备处确定所述文本内容的同时，向所述远程计算设备发送所述语音数据，以指示由所述远程计算设备返回所述语音数据表示的远程文本内容。

4.根据权利要求1的所述方法，其中在所述本地计算设备处确定所述文本内容包括：

5.根据权利要求4的所述方法，其中确定所述文本内容中的所述语音块表示的所述文字包括：

6.根据权利要求5的所述方法，其中获取所述正向特征包括：基于所述正向序列和语音识别模型中的正向模型确定所述正向特征，所述正向模型描述按照所述正向时间顺序排列的多个帧与用于确定所述语音块表示的文字的正向特征之间的关联关系；以及

7.根据权利要求6的所述方法，其中生成所述语音块的所述块特征包括：拼接所述正向特征和所述反向特征，以生成所述语音块的所述块特征。

8.根据权利要求7的所述方法，其中识别所述语音块表示的所述文字包括：

9.根据权利要求8的所述方法，其中所述正向模型、所述反向模型和所述文字编码模型位于所述语音识别模型中的至少一个块双向门控循环单元中。

10.根据权利要求9的所述方法，其中所述语音识别模型进一步包括：注意力单元，所述注意力单元基于所述样本语音块中的所述多个样本语音帧的频率与时间之间的关联关系，更新所述样本语音块表示的所述文字的所述文字编码。

11.根据权利要求10的所述方法，进一步包括：

12.根据权利要求1的所述方法，其中所述本地计算设备被部署在车辆处，并且所述方法进一步包括：使用所述语音数据的所述识别结果控制所述车辆。

13.一种用于语音识别的装置，包括：

14.一种电子设备，包括：

15.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至12中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序/指令，其中所述计算机程序/指令被处理器执行时实现根据权利要求1至12中任一项所述的方法。

技术总结本公开涉及用于语音识别的方法、装置、电子设备和存储介质。在一种方法中，在本地计算设备处确定语音数据所表示的文本内容。响应于从所述本地计算设备成功访问远程计算设备，向所述远程计算设备发送所述语音数据，以指示由所述远程计算设备返回所述语音数据表示的远程文本内容。响应于从所述本地计算设备接收所述远程文本内容失败，将由所述本地计算设备确定的所述文本内容作为所述语音数据的识别结果。可以在本地计算设备和远程计算设备两者处并行地执行语音识别，以此方式，可以提高在弱网和无网环境下的语音识别性能。技术研发人员：冯芝金受保护的技术使用者：北京嘀嘀无限科技发展有限公司技术研发日：技术公布日：2024/1/15