技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音控制方法、系统、电子设备及存储介质与流程 > 正文

语音控制方法、系统、电子设备及存储介质与流程

国知局
2024-06-21 11:56:11

本技术涉及语音控制，特别涉及一种语音控制方法、系统、电子设备及存储介质。

背景技术：

1、随着智能技术的发展，现有的电子设备大多数都具备了可见即可说功能(也即语音控制功能)，例如用户可以通过语音说出电子设备屏幕上的显示内容(即可见内容，可见内容例如可以为文字、图形、颜色等)，以使电子设备进行语音识别可以得到识别结果，并且电子设备根据识别结果可以进行触发相应的屏幕点击操作等处理。以车辆为例，当前车载语音系统基本都具备可见即可说功能，即可以支持用户语音说出车载屏幕上的文本内容以触发对应的屏幕点击操作的功能。

2、示例性的，现有技术中，语音控制功能通过以下方法实现：用户唤醒电子设备的语音功能，将电子设备屏幕上的显示内容(例如电子设备屏幕上打开的某一应用界面上的文本内容)通过语音说出，电子设备的语音获取模块接收用户语音，然后将用户语音发送给语音识别模块，语音识别模块将用户语音与先前存储的标准文本内容进行匹配，并返回识别结果至电子设备的显示模块，由电子设备的显示模块根据识别结果完成标准文本对应控件的索引，发出控制指令，以使电子设备完成屏幕点击操作。但是这种方式，先前存储的标准文本内容是电子设备屏幕上的可见文本本身，而可见文本的口语读法和可见文本的严格字符读法不一定对应，比如电子设备界面的可见文本是“24.0元”，口语读法为“二十四元”，严格字符读法(也即标准文本内容)为“二十四点零元”，如果按照口语读法，识别出的可见文本就是“24元”，导致用户语音无法与电子设备屏幕上的可见内容匹配，进而无法触发对应的屏幕点击操作，实现可见即可说功能。

3、综上，现有电子设备的语音控制功能，存在由于用户语音与电子设备屏幕呈现的显示内容对应的标准文本表达匹配不准确，无法实现用户实际想要实现的语音控制功能，影响语音控制功能的问题。

技术实现思路

1、本技术提供了一种语音控制方法、系统、电子设备及存储介质，可以解决现有技术中存在的由于用户语音与电子设备屏幕呈现的显示内容对应的标准文本表达匹配不准确，无法实现用户实际想要实现的语音控制功能，影响语音控制功能的问题。

2、为解决上述技术问题，第一方面，本技术的实施方式提供了一种语音控制方法，应用于电子设备，电子设备显示第一信息，该方法包括：响应于用户针对第一信息的语音输入操作，确定第一信息对应的第一语音信息；确定第一语音信息对应的第一口语化文本；根据第一口语化文本，以及预设的口语化文本与标准文本的对应关系，确定第一语音信息对应的第一标准文本；根据第一标准文本执行对应处理。

3、本技术实现方式中，在语音识别过程中，首先响应于用户针对电子设备显示的第一信息(例如电子设备显示的控件对应的文本内容)的语音输入操作，确定第一信息对应的第一语音信息(例如用户读电子设备屏幕显示的控件对应的文本内容得到的语音信息)，然后确定第一语音信息对应的第一口语化文本，根据第一口语化文本，以及预设的口语化文本与标准文本的对应关系，能够准确确定出第一语音信息对应的第一标准文本，最后根据第一标准文本执行对应处理(例如根据第一标准文本触发控件)。由此，能够根据第一语音信息准确得到第一标准文本(例如电子设备屏幕显示的控件对应的文本内容)，有效地提升了用户语音与电子设备屏幕呈现的显示内容对应的标准文本表达匹配的准确性，从而可以更为准确地实现对应的语音控制功能(例如可以根据用户语音更为准确地触发电子设备屏幕的点击操作)，即从而更好地实现可见即可说功能。

4、在上述第一方面的一种可能的实现中，预设的口语化文本与标准文本的对应关系，通过以下方式生成：获取电子设备显示的目标信息的文字描述信息，作为目标信息对应的标准文本；对标准文本进行文本转口语化语音处理，得到标准文本对应的口语化语音信息；对口语化语音信息进行语音转文本处理，得到口语化语音信息对应的口语化文本，以生成预设的口语化文本与标准文本的对应关系。

5、本技术实现方式中，获取电子设备界面显示信息对应的标准文本，然后对标准文本进行文本转口语化语音处理，得到标准文本对应的口语化语音信息，然后对口语化语音信息进行语音转文本处理，得到口语化语音信息对应的口语化文本，以生成预设的口语化文本与标准文本的对应关系。由此，提升了口语化文本与标准文本对应关系的准确性，进而提升了用户语音与电子设备屏幕呈现的显示内容对应的标准文本表达匹配的准确性。

6、在上述第一方面的一种可能的实现中，对标准文本进行文本转口语化语音处理，得到标准文本对应的口语化语音信息，包括：确定标准文本对应的语种信息；根据语种信息对标准文本进行文本转语口语化音处理，得到标准文本对应的口语化语音信息。

7、本技术实现方式中，首先确定出标准文本对应的语种信息，然后根据语种信息对标准文本进行文本转口语化语音处理，增加了得到的标准文本对应的口语化语音信息的准确性，进而提升了口语化文本与标准文本对应关系的准确性。

8、在上述第一方面的一种可能的实现中，确定第一语音信息对应的第一口语化文本，包括：基于自动语音识别引擎，确定第一语音信息对应的第一口语化文本；根据语种信息对标准文本进行文本转口语化语音处理，得到标准文本对应的口语化语音信息，包括：基于文本转语音引擎，根据语种信息对标准文本进行文本转口语化语音处理，得到标准文本对应的口语化语音信息。

9、本技术实现方式中，基于自动语音识别引擎，能够更加准确地得到第一语音信息对应的第一口语化文本。基于文本转语音引擎，增加了标准文本进行文本转口语化语音处理的准确性。得到的标准文本对应的口语化语音信息也更加准确。

10、在上述第一方面的一种可能的实现中，第一信息为第一控件，根据第一标准文本执行对应处理，包括：根据第一标准文本，以及预设的标准文本与控件的对应关系，确定第一标准文本对应的第一控件，触发第一控件。

11、本技术实现方式中，在第一信息为第一控件的情况下，能够根据第一标准文本，以及预设的标准文本与控件的对应关系，准确地确定第一控件并进行触发，提升了根据用户语音触发的电子设备屏幕的点击操作的准确性，从而更好地实现可见即可说功能。

12、在上述第一方面的一种可能的实现中，电子设备为车载电子设备。

13、第二方面，本技术的实施方式提供了一种语音控制系统，包括：语音获取模块，用于响应于用户针对第一信息的语音输入操作，确定第一信息对应的第一语音信息；语音识别模块，用于确定第一语音信息对应的第一口语化文本，并根据第一口语化文本，以及预设的口语化文本与标准文本的对应关系，确定第一语音信息对应的第一标准文本；处理模块，用于根据第一标准文本执行对应处理。

14、第三方面，本技术的实施方式提供了一种电子设备，包括：存储器，用于存储计算机程序，计算机程序包括程序指令；处理器，用于执行程序指令，以使电子设备执行上述第一方面和/或第一方面的任意一种可能的实现方式所提供的语音控制方法。

15、第四方面，本技术的实施方式提供了一种计算机可读取存储介质，计算机可读取存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被电子设备运行以使执行上述第一方面和/或第一方面的任意一种可能的实现方式所提供的语音控制方法。

16、第五方面，本技术的实施方式提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述第一方面和/或第一方面的任意一种可能的实现方式所提供的语音控制方法。

17、上述第二方面至第五方面的相关有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

18、本技术的有益效果：

19、本技术提供的语音控制方法，在语音识别过程中，首先响应于用户针对电子设备显示的第一信息(例如电子设备显示的控件对应的文本内容)的语音输入操作，确定第一信息对应的第一语音信息(例如用户读电子设备屏幕显示的控件对应的文本内容得到的语音信息)，然后确定第一语音信息对应的第一口语化文本，根据第一口语化文本，以及预设的口语化文本与标准文本的对应关系，能够准确确定出第一语音信息对应的第一标准文本，最后根据第一标准文本执行对应处理(例如根据第一标准文本触发控件)。由此，能够根据第一语音信息准确得到第一标准文本(例如电子设备屏幕显示的控件对应的文本内容)，有效地提升了用户语音与电子设备屏幕呈现的显示内容对应的标准文本表达匹配的准确性，从而可以更为准确地实现对应的语音控制功能，即从而更好地实现可见即可说功能。