技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别方法、装置和电子设备与流程 > 正文

一种语音识别方法、装置和电子设备与流程

国知局
2024-06-21 11:41:48

本公开涉及语音识别，尤其涉及一种语音识别方法、装置和电子设备。

背景技术：

1、目前，用户在使用电子设备的过程中，可以通过语音的方式控制电子设备执行相应的操作。在此过程中，电子设备会持续地接收到用户输入的语音信息所对应的音频流，同时电子设备对该音频流进行解码，并实时地提示解码的结果。当该结果的实时率较低，提示的结果可能会出现延迟的现象；同时，当该结果的识别精度较低时，需要用户重复输入语音信息，才可能识别时用户需要执行的操作。因此，如何保证电子设备在对音频流进行解码的过程中，所提示解码的结果的实时率和识别精度成为了一个亟待解决的问题。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种语音识别方法、装置和电子设备。

2、本公开的技术方案如下：

3、第一方面，本公开提供一种显示设备，包括：通信器，被配置为获取待识别音频流；其中，待识别音频流包括至少一个缓存包；处理器，被配置为对通信器获取的缓存包进行特征提取，得到至少一个音频特征；处理器，还被配置为基于通信器获取的待识别音频流中已识别的数据块的识别结果，确定当前周期的数据块的数据块大小；处理器，还被配置为按照数据块大小对音频特征进行打包，得到当前周期的数据块；处理器，还被配置为基于上一周期的数据块对应的声学信息的第一文本长度和上一周期的数据块对应的语言信息的第二文本长度，确定目标解码算法；其中，目标解码算法包括贪心解码和n-最优解码中的一项或者多项；处理器，还被配置为基于目标解码算法对当前周期的数据块进行解码，得到至少一个理论识别结果；其中，理论识别结果包括声学信息和语言信息中的任一项；处理器，还被配置为对理论识别结果进行重打分，得到每个理论识别结果对应的理论得分；处理器，还被配置为基于理论得分，确定当前周期的数据块的识别结果；其中，识别结果包括理论识别结果中的任一个。

4、第二方面，本公开提供一种语音识别方法，包括：获取待识别音频流；其中，待识别音频流包括至少一个缓存包；对缓存包进行特征提取，得到至少一个音频特征；基于待识别音频流中已识别的数据块的识别结果，确定当前周期的数据块的数据块大小；按照数据块大小对音频特征进行打包，得到当前周期的数据块；基于上一周期的数据块对应的声学信息的第一文本长度和上一周期的数据块对应的语言信息的第二文本长度，确定目标解码算法；其中，目标解码算法包括贪心解码和n-最优解码中的一项或者多项；基于目标解码算法对当前周期的数据块进行解码，得到至少一个理论识别结果；其中，理论识别结果包括声学信息和语言信息中的任一项；对理论识别结果进行重打分，得到每个理论识别结果对应的理论得分；基于理论得分，确定当前周期的数据块的识别结果；其中，识别结果包括理论识别结果中的任一个。

5、第三方面，本公开提供一种电子设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在执行计算机程序时，使得电子设备实现如第二方面提供的任一项的语音识别方法。

6、第四方面，本发明提供一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行如第二方面提供的任一项的语音识别方法。

7、第五方面，本发明提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第二方面提供的任一项的语音识别方法。

8、需要说明的是，上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中，第一计算机可读存储介质可以与显示设备的处理器封装在一起的，也可以与显示设备的处理器单独封装，本公开对此不作限定。

9、本公开中第二方面、第三方面、第四方面以及第五方面的描述，可以参考第一方面的详细描述；并且，第二方面、第三方面、第四方面以及第五方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

10、在本公开中，上述显示设备的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似，属于本公开权利要求及其等同技术的范围之内。

11、本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

12、本公开提供的技术方案与现有技术相比具有如下优点：

13、由上述可知，在获取到待识别音频流时，可以对待识别音频流中的缓存包进行特征提取，得到至少一个音频特征。之后，基于待识别音频流中已识别的数据块的识别结果，确定当前周期的数据块的数据块大小，从而可以动态地调节当前周期的数据块的数据块大小，以调节解码的速度，保证用户的体验。按照数据块大小对音频特征进行打包，得到当前周期的数据块；基于上一周期的数据块对应的声学信息的第一文本长度和上一周期的数据块对应的语言信息的第二文本长度，确定目标解码算法。由于贪心解码的解码速度大于n-最优解码的解码速度，但是贪心解码的解码准确率小于n-最优解码的解码准确率，为了保证解码速度和解码准确率，本公开实施例提供的语音识别方法，通过对上一周期的数据块对应的声学信息的第一文本长度和上一周期的数据块对应的语言信息的第二文本长度进行分析，如：通过第一文本长度和第二文本长度之间的大小关系，确定目标解码算法。如此，可以动态地基于第一文本长度和第二文本长度之间的大小关系，选择合适的解码算法，保证用户的体验。基于目标解码算法对当前周期的数据块进行解码，得到至少一个理论识别结果；对理论识别结果进行重打分，得到每个理论识别结果对应的理论得分；基于理论得分，确定当前周期的数据块的识别结果。由于本公开提供的语音识别方法，可以动态地调整数据块的大小，以及使用的解码算法，从而可以保证解码速度和解码准确率，解决了如何保证电子设备在对音频流进行解码的过程中，所提示解码的结果的实时率和识别精度的问题。

技术特征：

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述处理器，具体被配置为在所述通信器获取的所述待识别音频流中已识别的数据块的识别结果中均不包含实际字符的情况下，确定当前周期的数据块的数据块大小为第一数值。

3.根据权利要求1所述的显示设备，其特征在于，所述处理器，具体被配置为在所述通信器获取的所述待识别音频流中已识别的数据块的识别结果中包含实际字符，且所述上一周期的数据块的识别结果中包含的实际字符为目标字符的情况下，确定当前周期的数据块的数据块大小为第二数值。

4.根据权利要求1所述的显示设备，其特征在于，所述处理器，具体被配置为在所述通信器获取的所述待识别音频流中已识别的数据块的识别结果中存在实际字符为目标字符的识别结果的情况下，确定当前周期的数据块的数据块大小为第三数值。

5.根据权利要求1所述的显示设备，其特征在于，所述处理器，具体被配置为在所述声学信息的第一文本长度和所述语言信息的第二文本长度均为0的情况下，确定目标解码算法为所述贪心解码。

6.根据权利要求1所述的显示设备，其特征在于，所述处理器，具体被配置为在所述声学信息的第一文本长度不为0，且所述第一文本长度大于或等于所述语言信息的第二文本长度的情况下，确定目标解码算法包括贪心解码和n-最优解码。

7.根据权利要求1所述的显示设备，其特征在于，所述处理器，具体被配置为在所述声学信息的第一文本长度不为0，且所述第一文本长度小于所述语言信息的第二文本长度，或者在所述声学信息的第一文本长度等于0，且所述第一文本长度小于所述语言信息的第二文本长度的情况下，确定目标解码算法为n-最优解码。

8.根据权利要求1所述的显示设备，其特征在于，所述目标解码算法包括贪心解码；所述处理器，具体被配置为对所述当前周期的数据块进行前向计算，得到所述当前周期的数据块对应的特征矩阵；

9.根据权利要求8所述的显示设备，其特征在于，所述目标解码算法还包括n-最优解码，n等于1；

10.根据权利要求1所述的显示设备，其特征在于，所述目标解码算法包括n-最优解码，n等于1；

技术总结本公开涉及语音识别技术领域，尤其涉及一种语音识别方法、装置和电子设备，用于解决如何保证电子设备在对音频流进行解码的过程中，所提示解码的结果的实时率和识别精度的问题。包括：基于待识别音频流中已识别的数据块的识别结果，确定当前周期的数据块的数据块大小；按照数据块大小对音频特征进行打包，得到当前周期的数据块；基于上一周期的数据块对应的声学信息的第一文本长度和上一周期的数据块对应的语言信息的第二文本长度，确定目标解码算法；基于目标解码算法对当前周期的数据块进行解码，得到至少一个理论识别结果；对理论识别结果进行重打分，得到每个理论识别结果对应的理论得分；基于理论得分，确定当前周期的数据块的识别结果。技术研发人员：张宝军,张晓明受保护的技术使用者：海信视像科技股份有限公司技术研发日：技术公布日：2024/4/7