技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法及电子设备与流程 > 正文

语音交互方法及电子设备与流程

国知局
2024-06-21 11:36:55

本技术涉及语音交互，尤其涉及一种语音交互的方法及电子设备。

背景技术：

1、随着人工智能的不断发展，电子设备的语音助手为用户提供了更多的便利。例如，用户可以通过语音助手控制电子设备播放音乐、查询词条；也可以与语音助手进行对话、聊天。通常，用户通过语音助手控制电子设备时，需要通过固定的词语或通过按压预设的按键唤醒语音助手。为了使用户与语音助手之间的交互更加自然，电子设备识别到用户说话时与电子设备之间的姿势满足预设姿势，即可通过用户使用的命名语音与语音助手进行交互，无需通过固定的词语唤醒语音助手，使得语音助手可以与用户即问即答。

2、然而，由于用户间的差异，如发音不同、握持电子设备的姿势不同等，电子设备存在误唤醒语音助手的情况，或者，导致语音助手未被唤醒，影响用户的使用体验。

技术实现思路

1、为了解决上述技术问题，本技术提供一种语音交互的方法及电子设备，使得不同发音的用户或握持电子设备的姿势不同的用户在使用时，可以按照用户各自的使用习惯，准确唤醒语音助手，减小免唤醒语音助手的使用姿势的限制，减小免唤醒语音交助手时出现误唤醒的概率，提高了用户与语音助手交互的体验。

2、第一方面，本技术提供一种语音交互的方法，包括：获取用户第i次输入的语音数据和对应的电子设备的位姿数据，i为大于0的整数；根据第i次的语音数据、第i次的位姿数据以及预设的判决模型，确定第i次的目标置信度，目标置信度用于指示用户需要电子设备启动语音交互应用的概率；获取当前的目标阈值；根据第i次的目标置信度和当前的目标阈值，判断第i次是否启动语音交互应用；当检测到电子设备需要更新当前的目标阈值时，根据本次的目标置信度和本次之前的至少n个目标置信度，更新目标阈值，以供下一次判断是否启动语音交互应用，n为大于0的整数。

3、这样，电子设备可以根据存储的目标置信度更新目标阈值，使得判断是否启动语音助手的判断标准更加符合用户的使用的习惯，如握持姿态、发音；从而减小了免唤醒语音助手的使用限制，如无需用户嘴部与电子设备底部的麦克风之间形成的角度(即用户的嘴部与麦克风之间的连线与水平线之前的夹角)处于-45°～45°。另外，通过不断更新目标阈值的方式，也可以逐渐显小免唤醒语音助手的失败概率，提高唤醒的准确性，降低误唤醒的概率。

4、根据第一方面，目标置信度包括至少1个类别的判决置信度，每个类别的判决置信度是基于判决模型输出的置信度确定的；目标阈值包括：与每个类别的判决置信度对应的判决阈值。这样，目标置信度可以包括至少一个类别的判决置信度，多个类别的判决置信度提高了后续判断是否启动语助手的灵活性，同时，目标阈值包括与每个类别的判决置信度对应的判决阈值，即每个判决置信度有对应判决阈值，而不是采用统一的阈值，提高了后续唤醒语音助手的准确性。

5、根据第一方面，检测是否需要更新当前的目标阈值，包括：检测目标阈值中每个类别的判决阈值是否需要被更新；若检测到存在至少一个类别的判决阈值需要被更新，确定需要更新当前的目标阈值。这样，由于不是所有判决阈值均更新时才更新目标阈值，而是检测到存在任一判决阈值需要更新时，确定需要更新目标阈值，可以提高更新目标阈值的灵活性。

6、根据第一方面，检测目标阈值中每个类别的判决阈值是否需要被更新，包括：获取该类别的判决置信度与该类别的判决阈值之间的第一比较结果；根据第一比较结果，判断是否需要存储该类别的判决置信度；若检测到需要存储该类别的判决置信度，存储该类别的判决置信度；检测存储的该类别的判决置信度满足预设条件；若检测到存储的该类别的判决置信度满足预设条件，确定需要更新该类别的判决阈值；若检测到存储的该类别的判决置信度不满足预设条件，确定不需要更新该类别的判决阈值。这样，电子设备若新存储了该类别的判决置信度，使得存储的判决置信度的数量发生变化，通过对存储的该类别的判决置信度与预设条件的判断，可以及时确定出该类别的判决阈值是否需要更新。

7、根据第一方面，根据第一比较结果，判断是否需要存储该类别的判决置信度，包括：若第一比较结果指示该类别的判决置信度大于或等于该类别的判决阈值，或者，指示该类别的判决置信度小于该类别的判决阈值且该类别的判决置信度与该类别的判决阈值之间的差值小于或等于第一预设值，则确定需要存储该类别的判决置信度；若第一比较结果指示该类别的判决置信度小于该类别的判决阈值且该类别的判决置信度与该类别的判决阈值之间的差值大于第一预设值，则确定丢弃类别的判决置信度。这样，后续基于存储的判决置信度更新判决阈值时，由于存储的判决置信度包括不符合启动语音助手标准的判决置信度且该判决置信度与判决阈值相差不大(采用了反例，即不能启动语音助手的判决置信度)，可以避免每次更新后的判决阈值越来越大的问题，导致不能正常唤醒语音助手的问题。丢弃小于判决阈值且与判决阈值相差过大的判决置信度，减小存储无效数据的问题。

8、根据第一方面，存储该类别的判决置信度，包括：若第一比较结果指示该类别的判决置信度大于或等于该类别的判决阈值，将该类别的判决置信度存储至第一存储区域；若第一比较结果指示指示该类别的判决置信度小于该类别的判决阈值且该类别的判决置信度与该类别的判决阈值之间的差值小于或等于第一预设值，将该类别的判决置信度存储至第二存储区域。这样，分开存储满足不同情况的判决置信度，便于后续可以快速获取每种情况的判决置信度。

9、根据第一方面，检测到存储的该类别的判决置信度是否满足预设条件，包括：检测在第一存储区域中该类别的判决置信度的数目是否达到第二预设值；若达到，则确定检测到存储的该类别的判决置信度满足预设条件；若未达到，则确定检测到存储的判决置信度不满足预设条件。这样，通过设置第二预设值，可以灵活调整更新该类别的判决阈值的更新周期，例如，第二预设值越小，更新该类别的判决阈值的周期越短。同时，基于第一存储区域中该类别的判决置信度得到数目进行判断，可以确保第一存储区域中该类别的判决置信度的数量至少为第二预设值。

10、根据第一方面，检测到存储的该类别的判决置信度是否满足预设条件，包括：获取第一存储区域中该类别的判决置信度的数目与第二存储区域中该类别的判决置信度的数目之和作为第一和值；检测第一和值是否达到第二预设值；若达到，则确定检测到存储的该类别的判决置信度满足预设条件；若未达到，则确定检测到存储的该类别的判决置信度不满足预设条件。这样，基于第一存储区域中该类别的判决置信度的数目和第二存储区域中该类别的判决置信度的数目与第二预设值进行比较，该方式可以确保存储的该类别的判决置信度的数目达到第二预设值，且可以缩短更新周期。

11、根据第一方面，当检测到电子设备需要更新当前的目标阈值时，根据本次的目标置信度和本次之前的至少n个目标置信度，更新目标阈值，以供下一次判断是否启动语音交互应用，包括：根据目标阈值中需要更新的判决阈值的类别，从第一存储区域和第二存储区域中获取类别的判决置信度；根据获取的类别的判决置信度，更新类别的判决阈值。这样，更新每个类别的判决阈值时，从第一存储区域获取该类别的判决置信度，以及从第二存储区域获取该类别的判决置信度，避免使用其他类别的判决置信度，导致更新的判决阈值不准确的问题。

12、根据第一方面，根据获取的该类别的判决置信度，更新该类别的判决阈值，包括：根据第一存储区域中该类别的判决置信度，确定该类别的第一记忆阈值；根据第二存储区域中该类别的判决置信度，确定该类别的第二记忆阈值；根据该类别的第一记忆阈值、该类别的第二记忆阈值以及该类别的模型阈值，更新该类别的判决阈值，该类别的模型阈值是预先设置的与该类别的判决置信度对应的阈值。这样，由于模型阈值是预先设置的，第一记忆阈值表征了满足启动语音助手启动的判决置信度，第二记忆阈值表征了不满足启动语音助手启动条件且与对应的判决阈值相差不大的判决置信度；基于三种维度的阈值更新该类别的判决阈值，避免更新后的阈值越来越大的问题，不利于后续正常唤醒语音助手。

13、根据第一方面，根据该类别的第一记忆阈值、该类别的第二记忆阈值以及该类别的模型阈值，更新该类别的判决阈值，包括：获取该类别的第一记忆阈值的第一融合权重；获取该类别的第二记忆阈值的第二融合权重；获取该类别的模型阈值的第三融合权重；按照第一融合权重、第二融合权重和第三融合权重，融合该类别的第一记忆阈值、该类别的第二记忆阈值以及该类别的模型阈值，获得更新后的该类别的判决阈值。这样，更新后的判决阈值融合了记忆阈值该，使得电子设备判断是否启动语音助手的标准更加符合用户的使用习惯，提高免唤醒语音助手的成功概率。

14、根据第一方面，根据第一存储区域中该类别的判决置信度，确定该类别的第一记忆阈值，包括：删除第一存储区域中该类别的判决置信度中的最大值和最小值；获取第一存储区域中该类别的判决置信度的均值作为第一记忆阈值；或者，对第一存储区域中该类别的判决置信度进行聚类操作；获取每个类的均值；融合每个类的均值作为第一记忆阈值。这样，电子设备提供了两种确定第一记忆阈值的方式，提高了确定第一记忆阈值的灵活性，同时，这两种方式可以确保第一记忆阈值的准确性。

15、根据第一方面，根据第二存储区域中该类别的判决置信度，确定第二记忆阈值，包括：删除第二存储区域中该类别的判决置信度中的最大值和最小值；获取第二存储区域中该类别的判决置信度的均值作为第二记忆阈值；或者，对第二存储区域中该类别的判决置信度进行聚类操作；获取每个类的均值；融合每个类的均值作为第二记忆阈值。这样，电子设备提供了两种确定第二记忆阈值的方式，提高了确定第二记忆阈值的灵活性，同时，这两种方式可以确保第二记忆阈值的准确性。

16、根据第一方面，根据该类别的第一记忆阈值、该类别的第二记忆阈值以及该类别的模型阈值，更新该类别的判决阈值，包括：获取该类别的第一记忆阈值的第一融合权重；获取该类别的第二记忆阈值的第二融合权重；获取该类别的模型阈值的第三融合权重；获取该类别的注册阈值的第四融合权重，该类别的注册阈值是基于用户注册语音交互应用时输入的至少一组注册语音数据和对应的注册位姿数据确定的；按照第一融合权重、第二融合权重、第三融合权重和第四融合权重，融合该类别的第一记忆阈值、该类别的第二记忆阈值、该类别的模型阈值和该类别的用户注册阈值，获得更新后的该类别的判决阈值。这样，电子设备增加该类别的注册阈值，由于注册阈值是基于用户注册时输入的注册语音数据和注册位姿数据确定的，使得判断是否启动语音助手的标准更加符合用户的使用习惯。

17、根据第一方面，若i等于1，获取当前每个类别的判决阈值，包括：获取该类别的注册阈值；获取该类别的注册阈值的第一权重；获取该类别的模型阈值；获取该类别的模型阈值的第二权重；根据第一权重和第二权重，融合该类别的注册阈值和该类别的模型阈值，生成该类别的判决阈值。这样，由于初次使用免唤醒语音助手服务时，存储的本次之前的判决置信度的数目为0，因而可以通过该类别的注册阈值和预设模型阈值，确定第1次的判决阈值，使得基于第1次的判决阈值确定的启动语音助手的标准更加符合用户的使用习惯。

18、根据第一方面，获取该类别的注册阈值，包括：获取用户注册的第一注册位姿数据以及与第一注册位姿数据对应的注册唤醒语音数据，注册唤醒语音数据包括至少两条用于触发语音交互应用启动的语音数据，第一注册位姿数据指示的电子设备与用户之间的距离处于第一预设距离之内，第一预设距离为唤醒语音交互应用时电子设备与用户之间的最大距离；获取用户注册的第二注册位姿数据以及与第二注册位姿数据对应的误唤醒语音数据，误唤醒语音数据包括至少两条语音数据，且第一注册位姿数据指示的电子设备与用户之间的距离小于第二注册位姿数据指示的电子设备与用户之间的距离；将第一注册位姿数据和对应的第一注册唤醒语音数据输入判决模型，获得类别的至少两个的判决置信度作为类别的第一组置信度；融合类别的第一组置信度中每个判决置信度，生成类别的第一注册置信度；将第二注册位姿数据和对应的第二注册唤醒语音数据输入判决模型，获得类别的至少两个的判决置信度作为类别的第二组置信度；融合类别的第二组置信度中每个判决置信度，生成类别的第二注册置信度；融合类别的第一注册置信度和第二注册置信度，生成该类别的注册阈值。

19、这样，由于注册唤醒语音数据以及第一注册位姿反映了该用户免唤醒语音助手时的发音特征、握持电子设备的姿势特征，基于该注册唤醒语音数据和第一注册位姿数据确定的第一组置信度作为该用户免唤醒语音助手的正例；用户与电子设备之间的距离处于第一距离之外时，录入的语音数据不能用于唤醒语音助手，基于该误唤醒语音数据和第二注册位姿确定的第二组置信度作为该用户误唤醒语音助手的反例；结合正例和反例确定的注册阈值可以表征用户免唤醒语音助手的习惯，使得后续基于该注册阈值更新的判决阈值更准确。

20、根据第一方面，该方法还包括：将用户第i次输入的语音数据和对应的电子设备的位姿数据输入近讲分类器，获得近讲置信度，该近讲置信度用于指示语音数据用于启动语音交互应用且用户输入语音数据时与电子设备之间的距离在预设距离之内的概率；根据第i次的目标置信度和当前的目标阈值，判断第i次是否启动语音交互应用，包括：根据每个类别的判决置信度与该类别的判决阈值，确定第一判决结果；判断该近讲置信度是否大于预设的近讲阈值，获得第二判决结果；若第一判决结果指示启动语音交互应用且第二判决结果指示近讲置信度大于近讲阈值，则确定第i次启动语音交互应用。

21、这样，电子设备通过近讲分类器和判决模型，共同判断是否启动语音交互应用，可以提高判断是否启动语音交互应用的准确性。同时，近讲分类器是基于用户注册时的数据训练获得，使得该分类器的分类结果更符合该用户，从而定制出与该用户匹配的免唤醒语音助手的方式，可以减小误唤醒概率。

22、根据第一方面，该方法还包括：若检测到启动语音交互应用连续失败的次数大于第三预设值，提示用户重新注册语音交互应用；清除存储的判决置信度以及当前的每个类别的判决阈值。这样，当连续多次启动语音助手失败时，电子设备提示用户重新注册，可以避免用户一直无法免唤醒语音助手或很少成功免唤醒语音助手的情况。

23、根据第一方面，根据第i次的语音数据、第i次的位姿数据以及预设的判决模型，确定第i次的目标置信度，包括：将语音数据、位姿数据输入判决模型，获得第一置信度、第二置信度和第三置信度，第一置信度用于指示语音数据为用户发送给电子设备的语音指令的概率，第二置信度用于指示电子设备处于预设位姿的概率，第三置信度用于指示电子设备处于预设位姿且语音数据为用户发送给电子设备的语音指令的概率；若判决策略指示判决置信度包括1个类别，融合第一置信度、第二置信度和第三置信度，获得第一类别的判决置信度；若判决策略指示判决置信度包括2个类别，融合第一置信度、第二置信度和第三置信度中任意两个置信度，获得第二类别的判决置信度；将未融合的置信度作为第三类别的判决置信度；若判决策略指示判决置信度类别3个类别，将第一置信度作为第四类别的判决置信度，将第二置信度作为第五类别的判决置信度，将第三置信度作为第六类别的判决置信度。这样，电子设备可以根据判决策略，确定目标置信度所包括的判决置信度的类别，使得该语音交互的方法适用于多种场景。

24、第二方面，本技术提供了一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上，当计算机程序被一个或多个处理器执行时，使得电子设备执行第一方面以及第一方面的任一种实现方式对应的语音交互的方法。

25、第二方面以及第二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第二方面以及第二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

26、第三方面，本技术提供了一种计算机可读介质，用于存储计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行上述第一方面以及第一方面的任意一种实现方式所对应的语音交互的方法。