技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别方法、装置和电子设备与流程 > 正文

一种语音识别方法、装置和电子设备与流程

国知局
2024-06-21 11:41:21

本公开涉及语音识别，尤其涉及一种语音识别方法、装置和电子设备。

背景技术：

1、在人机交互的场景中，语音识别对自然语言理解和自然语言生成，起着至关重要的作用。语音识别的正确性是下游任务的基础和瓶颈所在，如：用户在使用电子设备的过程中，可以通过语音的方式控制电子设备执行相应的操作。在此过程中，电子设备会持续地接收到用户输入的语音信息所对应的音频流，同时电子设备对该音频流进行解码，并实时地提示解码的结果。在此过程中，存在电子设备静音出字的问题，如：用户在与电子设备进行语音交互的过程中，用户没有进行讲话，或是思考停顿时间较长，此时电子设备会出现识别出字的情况，导致用户的体验较差。

2、因此，如何提升电子设备的语音识别的准确率成为了一个亟待解决的问题。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种语音识别方法、装置和电子设备。

2、本公开的技术方案如下：

3、第一方面，本公开提供一种显示设备，包括：通信器，被配置为接收待识别语音数据；其中，一个待识别语音数据对应一个用户账号，一个用户账号对应一个无用户语音数据的背景语音数据；处理器，被配置为对通信器接收的待识别语音数据进行识别，得到待识别语音数据对应的目标识别结果，以及目标识别结果的识别得分；处理器，还被配置为对背景语音数据和通信器接收的待识别语音数据进行匹配，得到待识别语音数据和背景语音数据之间的匹配得分；处理器，还被配置为基于识别得分和匹配得分，得到融合得分；处理器，还被配置为基于融合得分，确定目标识别结果的提示状态；其中，提示状态包括不显示状态和显示状态中的任一项；处理器，还被配置为按照提示状态，生成提示信息。其中，提示信息包括目标识别结果和融合得分小于第一阈值的目标识别结果中的任一项。

4、第二方面，本公开提供一种语音识别方法，包括：接收待识别语音数据；其中，一个待识别语音数据对应一个用户账号，一个用户账号对应一个无用户语音数据的背景语音数据；对待识别语音数据进行识别，得到待识别语音数据对应的目标识别结果，以及目标识别结果的识别得分；对背景语音数据和待识别语音数据进行匹配，得到待识别语音数据和背景语音数据之间的匹配得分；基于识别得分和匹配得分，得到融合得分；基于融合得分，确定目标识别结果的提示状态；其中，提示状态包括不显示状态和显示状态中的任一项；按照提示状态，生成提示信息。其中，提示信息包括目标识别结果和融合得分小于第一阈值的目标识别结果中的任一项。

5、第三方面，本公开提供一种电子设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在执行计算机程序时，使得电子设备实现如第二方面提供的任一项的语音识别方法。

6、第四方面，本发明提供一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行如第二方面提供的任一项的语音识别方法。

7、第五方面，本发明提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第二方面提供的任一项的语音识别方法。

8、需要说明的是，上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中，第一计算机可读存储介质可以与显示设备的处理器封装在一起的，也可以与显示设备的处理器单独封装，本公开对此不作限定。

9、本公开中第二方面、第三方面、第四方面以及第五方面的描述，可以参考第一方面的详细描述；并且，第二方面、第三方面、第四方面以及第五方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

10、在本公开中，上述显示设备的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似，属于本公开权利要求及其等同技术的范围之内。

11、本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

12、本公开提供的技术方案与现有技术相比具有如下优点：

13、采用本公开提供的语音识别方法，显示设备在得到待识别语音数据进行识别后，先对待识别语音数据进行识别，得到待识别语音数据对应的目标识别结果，以及目标识别结果的识别得分。为了防止由于识别错误，导致没有字符的待识别语音数据被识别出包含字符的目标识别结果，显示设备在生成提示信息时，先对背景语音数据和待识别语音数据进行匹配，从而可以确定待识别语音数据与没有用户语音数据的背景语音数据之间的匹配得分。之后，显示设备基于匹配得分和识别得分，得到融合得分。之后，显示设备基于待识别语音数据和背景语音数据之间的。显示设备基于融合得分，确定目标识别结果的提示状态，从而可以基于提示状态生成提示信息。如：识别得分相同的情况下，当背景语音数据和待识别语音数据的匹配越高，得到的匹配得分越高，此时对应的融合得分越高，即用户没有说话的概率越高。由于融合得分更高了，因此融合得分大于或等于第一阈值的概率越高。由于，融合得分大于或等于第一阈值时，确定提示状态为不显示状态，此时生成显示融合得分小于第一阈值的目标识别结果的提示信息。因此显示设备可以识别出在接收到待识别语音数据时，用户是否有说话，从而可以降低用户在与电子设备进行语音交互的过程中，用户没有进行讲话，或是思考停顿时间较长，此时电子设备会出现识别出字的情况。由于电子设备出现静音出字的问题更少了，因此提升了语音识别的准确率，解决了如何提升电子设备的语音识别的准确率的问题。

技术特征：

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述处理器，进一步被配置为对所述通信器接收的待识别语音数据进行识别，得到所述待识别语音数据对应的至少一个待识别结果，以及每个所述待识别结果的识别得分；

3.根据权利要求1所述的显示设备，其特征在于，所述处理器，进一步被配置为对所述背景语音数据和所述通信器接收的所述待识别语音数据进行相似度计算，得到所述待识别语音数据和所述背景语音数据之间的相似度；

4.根据权利要求1所述的显示设备，其特征在于，所述处理器，进一步被配置为基于所述识别得分与第一权重的乘积，和所述匹配得分与第二权重的乘积之和，得到融合得分。

5.根据权利要求1所述的显示设备，其特征在于，所述处理器，进一步被配置为在所述融合得分小于所述第一阈值时，确定所述提示状态为显示状态。

6.根据权利要求1所述的显示设备，其特征在于，所述处理器，进一步被配置为在所述融合得分大于或等于第一阈值时，确定所述提示状态为不显示状态。

7.根据权利要求6所述的显示设备，其特征在于，所述不显示状态包括延时等待；所述处理器，进一步被配置为在所述融合得分大于或等于所述第一阈值时，且所述融合得分小于第二阈值时，确定所述提示状态为延时等待；其中，所述第一阈值小于所述第二阈值；

8.根据权利要求7所述的显示设备，其特征在于，所述不显示状态包括无字；所述处理器，进一步被配置为在所述融合得分大于或等于所述第二阈值时，确定所述提示状态为无字；

9.根据权利要求1所述的显示设备，其特征在于，所述处理器，还被配置为在所述提示状态为显示状态的连续次数大于或等于次数阈值的情况下，停止计算所述匹配得分。

10.根据权利要求1-9任一项所述的显示设备，其特征在于，所述待识别语音数据为显示设备响应于对语义交互功能的启动操作后接收到的。

技术总结本公开涉及语音识别技术领域，尤其涉及一种语音识别方法、装置和电子设备，用于解决如何提升电子设备的语音识别的准确率的问题。该方法包括：接收待识别语音数据；对待识别语音数据进行识别，得到待识别语音数据对应的目标识别结果，以及目标识别结果的识别得分；对背景语音数据和待识别语音数据进行匹配，得到待识别语音数据和背景语音数据之间的匹配得分；基于识别得分和匹配得分，得到融合得分；基于融合得分，确定目标识别结果的提示状态；按照提示状态，生成提示信息。其中，提示信息包括目标识别结果和融合得分小于第一阈值的目标识别结果中的任一项。技术研发人员：马志强受保护的技术使用者：海信视像科技股份有限公司技术研发日：技术公布日：2024/4/7