技术新讯 > 乐器声学设备的制造及制作,分析技术 > 人机交互方法及相关装置与流程 > 正文

人机交互方法及相关装置与流程

国知局
2024-06-21 11:36:24

本技术涉及终端，尤其涉及人机交互方法及相关装置。

背景技术：

1、随着智能终端的普及程度越来越高，语音交互成为常用且重要的人机交互方式之一。目前，语音交互大多需要用户先通过预设的唤醒词唤醒终端，进而实现后续的交互，这种方式比较繁琐，进而用户体验不佳。还有一部分厂家提供了免唤醒功能，也即，无需预先唤醒终端，直接输入预定义的免唤醒指令即可，但是预定义的免唤醒指令固定且有限，并且容易在用户聊天的时候误唤醒，影响用户体验。

2、因此，希望提供人机交互方法，以提高用户的交互体验。

技术实现思路

1、本技术提供了人机交互方法及相关装置，以期提高用户的交互体验。

2、第一方面，本技术提供了一种人机交互方法，该方法可以由终端来执行，或者，也可以由配置在终端中的部件(如芯片、芯片系统等)执行，或者，还可以由能实现全部或部分终端功能的逻辑模块或软件实现，本技术对此不作限定。

3、示例性地，该方法包括：接收来自用户的第一语音输入；在确定上述第一语音输入与预定义的第一免唤醒指令语义相似的情况下，对上述第一语音输入做出相应的响应，上述第一免唤醒指令用于在不输入预设的唤醒词的情况下指示终端执行第一免唤醒指令对应的操作。

4、基于上述技术方案，终端接收来自用户的第一语音输入，在上述第一语音输入与预定义的第一免唤醒指令语义相似的情况下，对第一语音输入做出相应的响应，也即，在未预先唤醒终端的情况下，即使用户语音输入的语句不是预定义的第一免唤醒指令，只要与预定义的第一免唤醒指令语义相似，终端便可以做出响应，有利于解决预定义的第一免唤醒指令固定且有限导致的终端无响应的问题，进而有利于提高用户的交互体验。

5、结合第一方面，在第一方面的某些可能的实现方式中，在对第一语音输入做出相应的响应之前，上述方法还包括：向用户确认第一语音输入的语义。

6、终端接收到第一语音输入之后，可以向用户确认一下识别出的第一语音输入的语义是否正确，这样一方面可以提高准确性，另一方面，可以避免用户误提及第一语音输入导致终端做出响应，例如，如果用户是误提及第一语音输入，则可以在终端向用户确认时，做出否定的回复，以避免终端继续执行对应的操作，有利于提高用户的体验。

7、可选地，向用户确认第一语音输入的语义，包括：通过提示框和/或语音播报，向用户确认第一语音输入的语义。

8、终端可以通过提示框向用户确认第一语音输入的语义，提示框中包含第一语音输入的语义，还可以通过语音播报，向用户确认第一语音输入的语义，还可以通过提示框和语音播报结合的方式，向用户确认第一语音输入的语义。通过提供上述多种确认方式，大大提高了终端向用户确认语义时的灵活性。

9、结合第一方面，在第一方面的某些可能的实现方式中，上述方法还包括：向用户提示第一免唤醒指令。

10、终端还可以向用户提示下一次直接使用预定义的第一免唤醒指令。例如，终端可以通过提示框和/或语音播报，向用户提示第一免唤醒指令。本技术对提示方式不作限定。

11、结合第一方面，在第一方面的某些可能的实现方式中，在接收来自用户的第一语音输入之前，上述方法还包括：接收来自用户的第二语音输入；在第二语音输入与第一免唤醒指令语义相似的情况下，向用户确认第二语音输入的语义；响应于用户确认第二语音输入的语义的操作，生成与第二语音输入对应的第二免唤醒指令。

12、终端通过上述方法来学习并生成第二免唤醒指令，第二免唤醒指令可以用于在不输入预设的唤醒词的情况下指示终端执行对应的操作。具体地，终端接收到来自用户的第二语音输入后，在第二语音输入与第一免唤醒指令语义相似的情况下，向用户确认一下是否是上述语义，如果用户确认第二语音输入的语义正确，则生成与其对应的第二免唤醒指令，以便于下次终端未被预先唤醒的情况下，再次接收到第二语音输入时，可以对其做出响应。换言之，大大增加了可以用于在不输入预设的唤醒词的情况下指示终端执行对应的操作的免唤醒指令，进而有利于提高用户的交互体验。

13、结合第一方面，在第一方面的某些可能的实现方式中，第一语音输入与预定义的第一免唤醒指令语义相似，包括：第一语音输入与第二免唤醒指令相同。

14、终端接收到第一语音输入之后，确定第一语音输入与第一免唤醒指令是否语义相似，一种方式是，可以基于第一语音输入与预定义的第一免唤醒指令做语义分析确定二者是否语义相似。另一种方式是，终端可以判断第一语音输入与生成的第二免唤醒指令是否相同，可以理解，第二免唤醒指令是基于第二语音输入生成的与第一免唤醒指令语义相似的指令，如果第一语音输入与生成的第二免唤醒指令相同，则第一语音输入与第一免唤醒指令语义相似，这样终端也可以对第一语音输入做出响应。上述两种方式可以结合使用，也可以分开使用，大大提高了终端确定第一语音输入与第一免唤醒指令是否语义相似的灵活性。

15、结合第一方面，在第一方面的某些可能的实现方式中，接收来自用户的第二语音输入，包括：在预设时长范围内连续多次接收到第二语音输入。

16、换言之，终端在预设时长范围内连续多次接收到第二语音输入的情况下，再向用户确认第二语音输入的语义，这样一来，可以有效地避免用户误提及第二语音输入的情况下，终端误以为是用户希望执行相应的操作，有利于提高用户的交互体验。

17、第二方面，本技术提供了一种人机交互方法，该方法可以由终端来执行，或者，也可以由配置在终端中的部件(如芯片、芯片系统等)执行，或者，还可以由能实现全部或部分终端功能的逻辑模块或软件实现，本技术对此不作限定。

18、示例性地，该方法包括：接收来自用户的第一语音输入；在未接收到预设的唤醒词，但第一语音输入包含目标对象的情况下，对第一语音输入做出相应的响应，上述目标对象是在第一语音输入之前接收到的其他语音输入中被提及次数达到预设门限的对象，上述预设的唤醒词用于唤醒终端。

19、基于上述技术方案，终端未被预先唤醒的情况下，接收到来自用户的第一语音输入后，若该第一语音输入中包含之前语音输入中被提及次数达到预设门限的对象，则对其做出相应的响应，也即，通过对之前语音输入的学习，保存被提及次数达到预设门限的目标对象后，只要接收到的语音输入中包含上述目标对象，即使不预先唤醒终端，终端也可以对其做出相应的响应，节省了唤醒终端的时间，简化了交互流程，有利于提高用户的交互体验。

20、结合第二方面，在第二方面的某些可能的实现方式中，在接收来自用户的第一语音输入之前，上述方法还包括：接收来自用户的预设的唤醒词；接收来自用户的第二语音输入；在第二语音输入中包含的第一对象在第二语音输入及其之前的语音输入中被提及的次数超过预设门限的情况下，将第一对象确定为目标对象。

21、终端可以记录第一对象在语音输入中被提及的次数，如果第一对象在语音输入中被提及的次数超过预设门限，则将其确定为目标对象，以便于用户后续可以在未预先唤醒终端的情况下，发出包含目标对象的语音输入，终端接收到上述语音输入后，便可以做出响应，也即，无需预先唤醒终端，简化了交互流程，有利于提高用户的交互体验。

22、结合第二方面，在第二方面的某些可能的实现方式中，上述方法还包括：基于目标对象，生成包含目标对象的免唤醒指令；向用户提示免唤醒指令。

23、终端可以基于目标对象，生成包含目标对象的免唤醒指令，并向用户提示下次可以直接使用上述免唤醒指令，无需预先唤醒终端，终端即可以做出相应的响应。其中，终端可以通过提示框和/或语音播报，向用户提示上述免唤醒指令。本技术对提示方式不作限定。

24、第三方面，本技术提供了一种人机交互方法，该方法可以由终端来执行，或者，也可以由配置在终端中的部件(如芯片、芯片系统等)执行，或者，还可以由能实现全部或部分终端功能的逻辑模块或软件实现，本技术对此不作限定。

25、示例性地，该方法包括：接收来自用户的第一语音输入，该第一语音输入属于第一指令集合，该第一指令集合中的指令与预定义的免唤醒指令语义相似；在满足预设条件的情况下，响应第一语音输入。

26、基于上述技术方案，终端接收到与预定义的免唤醒指令语义相似的第一语音输入后，在满足预设条件的情况下，响应第一语音输入，也就是说，对于与预定义的免唤醒指令语义相似的第一语音输入，满足预设条件，终端才会做出相应的响应，并不是任何情况下都能响应，这样可以避免用户误提及第一语音输入导致终端响应。可以想象，第一语音输入可能相对预定义的免唤醒指令来说比较口语化，如果任何情况下都做出响应，很可能出现用户交谈过程中频繁触发终端响应的情况，因此，通过设置预设条件，在满足预设条件的情况下，终端才会做出相应的响应，有利于大大提高用户的交互体验。

27、结合第三方面，在第三方面的某些可能的实现方式中，上述预设条件包括以下至少一项：与终端距离处于预设范围内的用户的数量不超过阈值；用户处于预定义的位置；第一语音输入所来自的用户不属于预设人群；或，接收到第一语音输入的时间落入预设时段。

28、与终端距离处于预设范围内的用户的数量不超过阈值，也即，在与终端距离处于预设范围内的用户的数量较少的情况下，可以响应上述第一语音输入，不难理解，如果周围用户数量较少，则用户误提及第一语音输入的可能性越小，也即，用户可能确实是希望终端执行对应的操作，相对地，如果周围用户数量较多，则用户误提及第一语音输入的可能性越大。用户处于预定义的位置，例如，终端响应来自距离自身最近的用户的第一语音输入，或，用户处于景区，希望终端提高服务的可能性更大等，终端响应来自用户的第一语音输入。第一语音输入所来自的用户不属于预设人群，预设人群例如小孩、老人等，可以理解，对于预设人群，其发出的指令可能存在危险性，终端可以不对其做出响应。接收到第一语音输入的时间落入预设时段，预设时段例如可以是上班时段，这些时段终端可以响应上述第一语音输入，如果是其他时段，终端可以只响应预定义的免唤醒指令。综上，上述预设条件可以有效地避免用户误提及第一语音输入导致终端响应。

29、结合第三方面，在第三方面的某些可能的实现方式中，上述方法应用于车，上述与终端距离处于预设范围内的用户的数量不超过阈值，包括：车内存在一个乘客；或，上述用户处于预定义的位置，包括：用户处于主驾的位置。

30、第四方面，本技术提供了一种人机交互方法，该方法可以由终端来执行，或者，也可以由配置在终端中的部件(如芯片、芯片系统等)执行，或者，还可以由能实现全部或部分终端功能的逻辑模块或软件实现，本技术对此不作限定。

31、示例性地，该方法包括：在未接收到来自用户的预设的唤醒词的情况下，根据来自用户的第一语音输入，确定第一语音输入用于请求导航；向用户询问请求导航的目的地；基于用户反馈的目的地，为用户提供导航服务。

32、基于上述技术方案，在未预先唤醒终端的情况下，终端接收到来自用户的第一语音输入后，发现其意图是想请求导航，便可以向用户询问导航的目的地，并根据用户反馈的目的地，向用户提供导航服务，无需预先唤醒终端，简化了交互流程，有利于提高用户的交互体验。

33、结合第四方面，在第四方面的某些可能的实现方式中，上述方法还包括：生成包含目的地的免唤醒指令；向用户提示上述免唤醒指令。

34、终端可以生成包含上述目的地的免唤醒指令，并向用户提示下次可以直接使用上述免唤醒指令，终端便可以做出相应的响应。其中，终端可以通过提示框和/或语音播报，向用户提示上述免唤醒指令。本技术对提示方式不作限定。

35、第五方面，本技术提供了一种人机交互方法，该方法可以由终端来执行，或者，也可以由配置在终端中的部件(如芯片、芯片系统等)执行，或者，还可以由能实现全部或部分终端功能的逻辑模块或软件实现，本技术对此不作限定。

36、示例性地，该方法包括：接收来自用户的第一语音输入，该第一语音输入不属于预定义的免唤醒指令；在第一语音输入与预定义的免唤醒指令中的第一免唤醒指令语义相似的情况下，引导用户输入上述第一免唤醒指令。

37、基于上述技术方案，终端接收到第一语音输入，该第一语音输入不属于预定义的免唤醒指令，但该第一语音输入与预定义的免唤醒指令中的第一免唤醒指令语义相似，则终端引导用户输入对应的第一免唤醒指令，以便于用户输入第一免唤醒指令后，终端对其做出相应的响应，相比于终端不响应也不提示，可以大大提高用户的交互体验。

38、结合第五方面，在第五方面的某些可能的实现方式中，上述引导用户输入第一免唤醒指令，包括：通过提示框和/或语音播报，引导用户输入第一免唤醒指令。

39、终端可以通过提示框引导用户输入第一免唤醒指令，提示框中包含第一免唤醒指令，还可以通过语音播报，引导用户输入第一免唤醒指令，还可以通过提示框和语音播报结合的方式，引导用户输入第一免唤醒指令。通过提供上述多种方式，大大提高了终端引导用户输入第一免唤醒指令时的灵活性。

40、结合第五方面，在第五方面的某些可能的实现方式中，上述通过提示框和/或语音播报，引导用户输入第一免唤醒指令，包括：通过提示框提示用户输入第一免唤醒指令，该提示框中包含第一免唤醒指令；在预设时长范围内通过提示框提示的次数达到预设门限，但用户未发出第一免唤醒指令的情况下，通过语音播报，引导用户输入第一免唤醒指令。

41、第六方面，本技术提供了一种计算机设备，包括用于实现第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中的方法的单元。应理解，各个单元可通过执行计算机程序来实现相应的功能。

42、第七方面，本技术提供了一种计算机设备，包括处理器，所述处理器用于执行第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中所述的方法。

43、所述计算机设备还可以包括存储器，用于存储计算机可读指令，所述处理器读取所述计算机可读指令使得所述计算机设备可以实现上述各方面中描述的方法。所述计算机设备还可以包括通信接口，所述通信接口用于该计算机设备与其它设备进行通信，示例性地，通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。

44、第八方面，本技术提供了一种车辆，用于实现第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中的方法，或，包括第六方面或第七方面所述的任意一种计算机设备。

45、第九方面，本技术提供了一种芯片系统，该芯片系统包括至少一个处理器，用于支持实现上述第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中所涉及的功能，例如，例如接收或处理上述方法中所涉及的数据和/或信息。

46、在一种可能的设计中，所述芯片系统还包括存储器，所述存储器用于保存程序指令和数据，存储器位于处理器之内或处理器之外。

47、该芯片系统可以由芯片构成，也可以包含芯片和其它分立器件。

48、第十方面，本技术提供了一种计算机可读存储介质，所述存储介质中存储有计算机可读指令，当所述计算机可读指令被计算机执行时，使得计算机实现第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中的方法。

49、第十一方面，本技术提供了一种计算机程序产品，所述计算机程序产品包括：计算机可读指令，当所述计算机可读指令被计算机运行时，使得计算机实现第一方面至第五方面以及第一方面至第五方面任一种可能实现方式中的方法。

50、应当理解的是，本技术的第六方面至第十一方面与本技术的第一方面至第五方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

标签：人机装置流程技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240618/22348.html

上一篇
言语增强的制作方法

下一篇
返回列表

人机交互方法及相关装置与流程

相关技术

最新技术

技术分类