技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种关于用户语音唤醒灵敏度的自适应调节方法与流程 > 正文

一种关于用户语音唤醒灵敏度的自适应调节方法与流程

国知局
2024-06-21 11:31:21

本发明涉及语音唤醒，具体的说，是一种关于用户语音唤醒灵敏度的自适应调节方法。

背景技术：

1、智能语音电视作为目前电视市场的主要产品之一，语音功能相较于传统遥控板的控制方式所具有的方便智能、非接触式操作、随喊随用、无需电池更换、对老年人友好等特点已让越来越多的用户选择用语音而不是遥控器来控制电视。作为语音功能整体流程的开始——唤醒语音功能无疑是语音功能中很重要的一部分。由于用户在电视前的语音并不是所有都是操作指令，所以我们需要定义一个唤醒词来使电视能有效分辨接下来的语音控制命令，当通过唤醒词拉起电视的语音功能后，电视才会解析和执行随后的语音命令。由于每个人的音色、声纹和平时说话的音量都不同，所以系统对不同用户的语音识别结果也会不同，如果对所有用户采用一个统一的语音激活阈值标准的话，就会造成部分用户难以拉起语音功能或容易错误的拉起语音功能的情况，部分用户出现了容易难激活或容易误激活的情况。

技术实现思路

1、本发明的目的在于提供一种关于用户语音唤醒灵敏度的自适应调节方法，用于解决现有技术中对所有用户采用一个统一的语音激活阈值标准的话，就会造成部分用户难以拉起语音功能或容易错误的拉起语音功能的问题。

2、本发明通过下述技术方案解决上述问题：

3、一种关于用户语音唤醒灵敏度的自适应调节方法，包括：

4、步骤s1、采集用户有效在线使用时长；

5、步骤s2、采集用户唤醒终端的音频数据，采用训练好的asr模型识别所述音频数据的识别效果，标注误激活和难激活数据；

6、步骤s3、计算用户设定时间内难激活和误激活分数；

7、步骤s4、根据难激活和误激活分数下发用户语音唤醒灵敏度结果，终端调整用户语音激活阈值。

8、进一步地，所述步骤s1具体为：通过终端的开机操作和关机操作上报的信息，结合终端心跳检测，计算出用户单次在线使用时长，设定时间内根据终端mac地址进行聚合可以得到单台终端的用户该设定时间内有效在线使用时长。

9、进一步地，所述步骤s2具体为：通过终端将用户每次拉起语音功能时的音频数据保存到云端，并上报用户此时的音频激活阈值、终端语音识别结果、当前语音功能唤醒词和相关信息，所述相关信息包括语音拉起时间、机芯、机型和mac地址信息，通过云端生成用户音频数据记录在数据库中，方便后续分析和处理数据；

10、设定时间内通过定时任务使用训练好的asr模型对该设定时间内的所有用户音频数据进行标注。

11、进一步地，所述步骤s3具体为：如果asr模型识别的用户音频结果与标准唤醒词或用户的自定义唤醒词相同，则标注asr识别结果为一致，反之，则标注asr识别结果为不一致，其中：

12、若asr的识别结果为一致但未成功拉起语音功能则视为难激活数据；

13、若asr的识别结果为不一致但成功拉起了语音功能则视为误激活数据；

14、若asr的识别结果为一致且拉起了语音功能则视为正常的激活数据；

15、误激活分数＝用户误激活数据量÷用户有效在线时长；其中用户有效在线时长单位为天；

16、难激活分数＝用户难激活数据量÷用户总唤醒音频数量。

17、进一步地，所述步骤s4具体为：基于用户最后一次上报的语音激活阈值情况和该语音激活阈值下的误激活和难激活分数判断用户的语音唤醒灵敏度自适应结果：

18、如果误激活分数大于m，即平均一天有效使用时长超过m次则认为用户的语音激活阈值较低，终端调高用户语音激活阈值；

19、如果难激活分数大于n％，即平均一百次语音激活中有n次以上的难激活情况则认为用户的语音激活阈值较高，终端调低用户语音激活阈值。

20、本发明与现有技术相比，具有以下优点及有益效果：

21、(1)本发明引入asr语音识别，对用户的语音唤醒情况进行分析和标注，并根据用户的使用时长计算出用户的语音唤醒灵敏度自适应结果并下发给用户，使用户在使用唤醒词拉起语音功能时出现误激活和难激活的频率大大降低，大幅提升了用户体验。

22、(2)本发明通过asr算法识别用户的唤醒词，引入用户在线使用时长作为参数计算用户的误激活和难激活分数，根据结果调整用户的语音激活阈值，减少用户出现误激活或难激活情况的概率。

技术特征：

1.一种关于用户语音唤醒灵敏度的自适应调节方法，其特征在于，包括：

2.根据权利要求1所述的一种关于用户语音唤醒灵敏度的自适应调节方法，其特征在于，所述步骤s1具体为：通过终端的开机操作和关机操作上报的信息，结合终端心跳检测，计算出用户单次在线使用时长，设定时间内根据终端mac地址进行聚合可以得到单台终端的用户该设定时间内有效在线使用时长。

3.根据权利要求1所述的一种关于用户语音唤醒灵敏度的自适应调节方法，其特征在于，所述步骤s2具体为：

4.根据权利要求1所述的一种关于用户语音唤醒灵敏度的自适应调节方法，其特征在于，所述步骤s3具体为：如果asr模型识别的用户音频结果与标准唤醒词或用户的自定义唤醒词相同，则标注asr识别结果为一致，反之，则标注asr识别结果为不一致，其中：

5.根据权利要求1所述的一种关于用户语音唤醒灵敏度的自适应调节方法，其特征在于，所述步骤s4具体为：基于用户最后一次上报的语音激活阈值情况和该语音激活阈值下的误激活和难激活分数判断用户的语音唤醒灵敏度自适应结果：

技术总结本发明公开了一种关于用户语音唤醒灵敏度的自适应调节方法，步骤S1、采集用户有效在线使用时长；步骤S2、采集用户唤醒终端的音频数据，采用训练好的ASR模型识别所述音频数据的识别效果，标注误激活和难激活数据；步骤S3、计算用户设定时间内难激活和误激活分数；步骤S4、根据难激活和误激活分数下发用户语音唤醒灵敏度结果，终端调整用户语音激活阈值。本发明引入ASR语音识别，对用户的语音唤醒情况进行分析和标注，并根据用户的使用时长计算出用户的语音唤醒灵敏度自适应结果并下发给用户，使用户在使用唤醒词拉起语音功能时出现误激活和难激活的频率大大降低，大幅提升了用户体验。技术研发人员：孙铭受保护的技术使用者：四川虹微技术有限公司技术研发日：技术公布日：2024/3/4