技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音交互方法、语音交互提示系统、装置与流程 > 正文

一种语音交互方法、语音交互提示系统、装置与流程

国知局
2024-06-21 11:46:40

本发明属于语音交互，具体是一种语音交互方法、语音交互提示系统、装置。

背景技术：

1、针对于语音交互这一过程，在启动过程中，语音唤醒，也称为关键词检测（kws），是启动语音交互过程的第一步；用户通过说出预设的唤醒词，使得设备从待机状态进入工作状态，开始对用户的语音指令进行监听、识别和响应；

2、在语音交互这一过程中，通常都是依据于一个唤醒词来唤醒系统，唤醒后根据录入的语音内容来识别用户指令，进行交互；

3、公开号为cn113253970a的专利公开了一种语音交互方法，包括：预先创建用于应用程序的ui控件库，当应用程序的图形用户界面显示时，获取图形用户界面的控件列表，按照预定策略自ui控件库中获取控件的语音交互属性并根据语音交互属性生成与控件对应的场景元素信息，根据场景元素信息构建语音交互场景，以及接收场景事件进行语音交互，场景事件根据语音请求及语音交互场景生成。本申请的语音交互方法可将图形用户界面自动转换为语音交互场景，实现了语音交互场景的自动构建，进而可实现交通工具与用户之间的语音交互。

4、但是，上述专利公开的语音交互系统存在如下问题，首先，没有给出一种能够根据用户习惯而不需要特定唤醒词来进行唤醒，导致每次都需要说设定唤醒词，从而不够智能，影响用户使用体验；其次，对于借助唤醒词进行交互的，在交互相同问题时，需要反复录入唤醒词，这种方式过于繁杂，不够智能，而且不能形成对话；基于此，现提供一种解决方案。

技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题之一；

2、为此，本发明提出了一种语音交互方法，该方法具体包括如下步骤：

3、获取到特定环境下的惯性声纹组，每个惯性声纹对应一个用户；之后在特定环境下产生人员声音时，自动生成新增信号；

4、获取到新增的人声，将其标记为待分人声，当待分人声属于惯性声纹组中任意一条惯性声纹时，获取到此时对应待分人声的用户，将其标记为待分用户，并产生贴近信号；

5、之后根据特定环境中声纹个数确定特定环境存在的人数，当仅存在待分用户时，产生独处信号；

6、在同时产生贴近信号和独处信号时，会自动启动对待分人声的每一段语音进行分析，当语音中存在特定语句时，自动识别该段语音中的指令并进行执行；

7、特定语句借助对待分用户过往的语音指令分析得到。

8、进一步地，在特定环境下的语音交互之前，首先进行声纹备份，将惯性用户的声纹进行备份存储，得到惯性声纹组，惯性用户指代为在特定环境下经常使用的，或者特定语音交互设备的所有人。

9、进一步地，人员声音大产生通过下述方式判定：

10、在特定环境下进行声音样本采集，借助语音活动检测技术判定是否产生人员声音。

11、进一步地，对特定环境进行持续监控，监控时长为一个周期，此处一个周期时长由管理员预设；

12、对监控到的所有的人声的声纹进行分析，获取到存在几个不同的声纹，表示为存在人数，当存在人数为一个人时，产生独处信号。

13、进一步地，在同时产生贴近信号和独处信号时，会自动启动对待分人声的语音进行实时获取，对用户说出的每一个独段语音进行分析，具体为：

14、首先对独段语音进行识别，当其中存在待分用户的特定语句时，自动启动语音交互，开始识别用户指令并对应执行。

15、进一步地，待分用户的特定语句通过对用户的语惯分析得到，语惯分析具体方式为：

16、首先，获取到所有对应的待分用户过往在进行语音交互时，近t2时间内所有发出的语音指令，将其标记为过往指令，对过往指令进行转文字处理，得到若干条的过往文字；

17、对所有的进行分词处理，得到若干个过往分词，将过往分词里面的常规分词去除，常规分词由用户设置，剩余标记为可靠分词；

18、获取到所有的可靠分词出现次数，将出现次数超过x1的标记为个性唤词；此处x1为预设数值；个性唤词对应的语音即为特定语句。

19、进一步地，独段语音具体划分方式为：当检测用待分人声对应人员在说话时，会自动进行语音获取，直到对应人员在t1时间内没有录入新的语音时，将录入到的语音标记为一个独段语音；此处t1为预设数值。

20、进一步地，在没有同时产生贴近信号和独处信号时，此时依据唤醒词进行语音交互的唤醒过程，在检测到唤醒词时自动进行语音交互，当用户发出指令，且执行完之后，会进行保留分析，保留分析具体方式为：

21、保留上一条语音指令，并将该语音指令转化为文字并存储为缓态文字，缓态文字自动存储设定时间，设定时间由用户预设，一般为半个小时；得到所有的缓态文字；

22、之后持续获取产生的语音，每获取到一个独段语音时，会自动将其转化为文字，将其标记为独段文字；

23、将独段文字与所有的缓态文字进行比较，当独段文字与任一条缓态文字的相似度超过x2时，产生反应信号，此时会将当下独段文字对应的独段语音标记为指令语音，对指令语音进行识别并执行。

24、进一步地，独段文字与缓态文字的相似度通过下述方式获取得到：

25、获取到独段文字中与缓态文字一致的字符，得到一致的字符数，将该字符数除以独段文字的总字符数，得到的数值标记为相似度。

26、语音交互提示系统，该系统用于按照前述任一项的语音交互提示方法来进行语音交互。

27、与现有技术相比，本发明的有益效果是：

28、一种语音交互方法，根据特定环境中人员数量的分析，和是否为惯性用户的情况下，同时产生贴近信号和独处信号时，之后会自动启动对待分人声的每一段语音进行分析，当语音中存在特定语句时，自动识别该段语音中的指令并进行执行；通过上述方式，可以不通过特定唤醒词在部分场景下根据用户习惯直接唤醒语音交互系统，进行指令下达；

29、同时通过对用户的每一条指令进行分析和保留，以及后续语音内容，能够在产生关联对话时，自动唤醒并执行相关指令；本发明简单有效，且易于实用。

技术特征：

1.一种语音交互方法，其特征在于，该方法具体包括如下步骤：

2.根据权利要求1所述的一种语音交互方法，其特征在于，在特定环境下的语音交互之前，首先进行声纹备份，将惯性用户的声纹进行备份存储，得到惯性声纹组，惯性用户指代为在特定环境下经常使用的，或者特定语音交互设备的所有人。

3.根据权利要求1所述的一种语音交互方法，其特征在于，人员声音大产生通过下述方式判定：

4.根据权利要求1所述的一种语音交互方法，其特征在于，对特定环境进行持续监控，监控时长为一个周期，此处一个周期时长由管理员预设；

5.根据权利要求1所述的一种语音交互方法，其特征在于，在同时产生贴近信号和独处信号时，会自动启动对待分人声的语音进行实时获取，对用户说出的每一个独段语音进行分析，具体为：

6.根据权利要求5所述的一种语音交互方法，其特征在于，待分用户的特定语句通过对用户的语惯分析得到，语惯分析具体方式为：

7.根据权利要求5所述的一种语音交互方法，其特征在于，独段语音具体划分方式为：当检测用待分人声对应人员在说话时，会自动进行语音获取，直到对应人员在t1时间内没有录入新的语音时，将录入到的语音标记为一个独段语音；此处t1为预设数值。

8.根据权利要求1所述的一种语音交互方法，其特征在于，

9.语音交互提示系统，其特征在于，该系统用于按照如权利要求1-9任一项所述的语音交互提示方法来进行语音交互。

10.一种语音交互装置，其特征在于，该装置包括存储器和执行器，存储器用于存储计算机程序，该计算机程序用于实现权利要求1-8任一项所述的语音交互方法，执行器用于执行存储器内存储的计算机程序。

技术总结本发明公开了一种语音交互方法、语音交互提示系统、装置，涉及语音交互技术领域，根据特定环境中人员数量的分析，和是否为惯性用户的情况下，同时产生贴近信号和独处信号时，之后会自动启动对待分人声的每一段语音进行分析，当语音中存在特定语句时，自动识别该段语音中的指令并进行执行；通过上述方式，可以不通过特定唤醒词在部分场景下根据用户习惯直接唤醒语音交互系统，进行指令下达；同时通过对用户的每一条指令进行分析和保留，以及后续语音内容，能够在产生关联对话时，自动唤醒并执行相关指令；本发明简单有效，且易于实用。技术研发人员：张卫平受保护的技术使用者：富迪科技（南京）有限公司技术研发日：技术公布日：2024/4/24