技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于语音指令的智能系统操作方法及系统与流程 > 正文

一种基于语音指令的智能系统操作方法及系统与流程

国知局
2024-06-21 11:32:22

本发明涉及语音识别，特别涉及一种基于语音指令的智能系统操作方法及系统。

背景技术：

1、语音输入法是以语音方式进行输入的方法。语音输入法集语音、手写、拼音、笔画、双拼等多种输入方式于一体，又可以在同一界面实现多种输入方式平滑切换，符合用户使用习惯，大大提升输入速度，基于语音的应用场景也越来越多随着语音识别技术的逐渐成熟，但大多情况下，语音主要应用语音播报、语音问答检索、针对大屏类的简单语音操作等。在一些场景，客户希望能实现更复杂的语音操作，在不改版pc或复杂大屏导航操作逻辑的基础上，语音指令难以精准的实现系统操控。

技术实现思路

1、本发明提供一种基于语音指令的智能系统操作方法及系统，本发明在现有web业务应用系统的基础上，构建智能系统操作系统，通过语音服务前端子系统和语音服务后端子系统的结合对在不改版pc或复杂大屏导航操作逻辑（即保持客户既有习惯）的基础上有效理解用户的复杂的语音指令对应的是操作意图。

2、本发明提供一种基于语音指令的智能系统操作方法，包括：

3、步骤1：基于语音服务前端子系统对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音服务后端子系统；

4、步骤2：语音服务后端子系统对语音数据流进行语音识别，并将识别结果准实时返回至语音服务前端子系统；

5、步骤3：在用户语音指令输入结束后，结合当前应用场景，进行语音纠错以及语音解析，并将语音解析结果发送至语音服务前端子系统；

6、步骤4：语音服务前端子系统按照语音解析结果，生成系统操作指令，控制前端页面作出操作响应。

7、优选的，在一种基于语音指令的智能系统操作方法中，步骤1 ，包括：

8、获取用户语音指令的按照预设时长进行分段，获得语音片段并转化为语音数据流，准实时发送至语音服务后端子系统；

9、将语音片段存储至临时数据集合中，将当前语音片段与临时数据集合中已有的语音片段进行对比，判断各个语音片段的一致性，若一致，判定用户的语音指令输入完成，并生成语音结束指令发送至语音服务后端子系统。

10、优选的，在一种基于语音指令的智能系统操作方法中，步骤2，包括：

11、语音服务后端子系统接收语音数据流；

12、基于预训练的语音识别模型对语音数据流进行实时识别，获得识别结果；

13、将识别结果，同步发送至语音服务前端子系统以及语音解析模块。

14、优选的，在一种基于语音指令的智能系统操作方法中，步骤3，包括：

15、基于识别结果对用户的语音片段进行拼音转化，获得片段拼音语句，并根据片段拼音语句，对用户当前语音片段进行归类，获得归类结果；

16、在接收到语音服务前端子系统上的语音结束指令时，根据全部语音片段的归类结果，确定用户语音指令对应的最终归类结果，基于最终归类结果，获得标准语句；

17、对各个语音片段进行串联，获得指令拼音语句，并结合用户的当前应用场景，基于标准语句对指令拼音语句进行纠错，获得纠错语音指令，并对纠错语音指令进行指令解析，得到语音解析结果，发送至语音服务前端子系统。

18、优选的，在一种基于语音指令的智能系统操作方法中，根据片段拼音语句，对当前语音片段进行归类，包括：

19、获取语音指令对应的关键词参考表，并对片段拼音语句进行关键词提取，基于所述关键词，遍历关键词参考表，判断是否存在匹配词，若存在匹配词，获取匹配词个数，当匹配词个数为1时，判定匹配词对应的操作分类为片段拼音语句对应的当前语音片段的归类结果；

20、当匹配词个数不为1时，获取上一语音片段对应的归类结果，判断匹配词对应的全部归类结果中是否存在与上一语音片段对应的归类结果一致的操作分类，若存在，将上一语音片段对应的归类结果作为当前语音片段对应的归类结果；

21、否则，基于匹配词对应的操作分类生成待定标签添加至当前片段拼音语句；

22、当不存在匹配词时，向当前片段拼音语句添加无效语句标签。

23、优选的，在一种基于语音指令的智能系统操作方法中，根据全部语音片段的归类结果，确定用户语音指令对应的最终归类结果，基于最终归类结果，获得标准语句，包括：

24、获取全部语音片段对应的第一归类结果，判断归类结果是否一致，若一致，判定用户语音指令为单指令语音，并将所述第一归类结果作为最终归类结果；

25、否则，获取各个语音片段与相邻语音片段的第一归类结果的相似情况，若相邻片段的分类结果不一样，且相邻片段不携带无效语句标签时，则向相邻片段添加数字标签0；

26、否则，向相邻片段添加数字标签1；

27、当语音片段只有0数字标签时，判定所述语音片段为错误片段；

28、当语音片段不只有0数字标签时，判定所述语音片段为正确片段；

29、获取全部正确片段对应的第二归类结果，当第二归类结果一致时，判定用户语音指令为单指令语音，并将所述第二归类结果作为最终归类结果；

30、否则，判定用户语音指令为多指令语音，根据第二归类结果对语音片段进行片段归类，获得多个最终归类结果；

31、基于最终归类结果，获取对应操作分类对应的指令标准参考表并进行语句匹配，获得用户语音指令对应的全部标准语句。

32、优选的，在一种基于语音指令的智能系统操作方法中，在接收到语音服务前端子系统上的语音结束指令时，还包括，对当前应用场景进行确定，包括：

33、获取当前使用阶段中全部已响应系统操作指令，并根据各个已响应系统操作指令对应的指令响应时间，确定已响应系统操作指令之间的关联使用偏好；

34、基于各个已响应系统操作指令对应的语音指令，生成多个语音集合，对同一语音集合中的多个语音进行对比，确定当前使用阶段中各个已响应系统操作指令的描述偏好；

35、基于描述偏好以及关联使用偏好，确定用户在当前使用阶段中的语音指令的使用偏好；

36、获取各个应用场景对应的语音控制偏好与所述使用偏好进行对比，获得最佳相似场景，并将所述最佳相似场景作为当前应用场景。

37、优选的，在一种基于语音指令的智能系统操作方法中，对各个语音片段进行串联，获得指令拼音语句，并结合用户的当前应用场景，基于标准语句对指令拼音语句进行纠错，获得纠错语音指令，并对纠错语音指令进行指令解析，得到语音解析结果，包括：

38、当用户语音指令为单指令语音时，直接将各个语音片段进行串联，获得第一指令拼音语句，并基于单指令语音对应的标准语句，生成校准拼音；

39、当用户语音指令为多指令语音时，获取语音片段的片段归类结果，基于片段归类结果生成节点标签，对语音片段进行串联，并将节点标签添加至对应的位置，生成第二指令拼音语句；

40、基于节点标签顺序，对多个标准语句进行拼接，生成第二指令拼音语句对应的校准拼音；

41、根据校准拼音，并结合当前应用场景，对第一指令拼音语句或者第二指令拼音语句的错位音节进行修正，获得纠错语音指令；

42、根据最终归类结果，确定用户指令的解析规则，基于所述解析规则，对纠错语音指令进行解析，获得语音解析结果。

43、优选的，在一种基于语音指令的智能系统操作方法中，根据校准拼音，并结合当前应用场景对第一指令拼音语句或者第二指令拼音语句的错位音节进行修正，获得纠错语音指令，包括：

44、通过自然处理技术，结合当前应用场景以及无效语句标签，对第一指令拼音语句或者第二指令拼音语句进行冗余删除，获得主干语句；

45、通过预训练语音模型将主干语句与校准拼音进行对比纠错，获得纠错语音指令。

46、本发明提供一种基于语音指令的智能系统操作系统，包括：语音服务前端子系统以及语音服务后端子系统；

47、其中，语音前端系统包括语音录制模块、指令处理模块以及操作控制模块；

48、所述语音录制模块，用于对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音识别模块；

49、所述指令处理模块，用于按照语音解析结果，生成系统操作指令；

50、所述操作控制模块，用于控制前端页面作出操作响应；

51、语音后端系统包括语音识别模块以及语音解析模块，其中，

52、所述语音识别模块，用于语音服务后端子系统对语音数据流进行语音识别，并将识别结果准实时返回至指令处理模块。

53、所述语音解析模块，用于基于语音识别结果对用户语音指令进行语音解析，并在用户语音指令输入结束后，结合当前应用场景，将语音解析结果发送至指令处理模块。

54、与现有技术相比，本发明至少存在以下有益效果：

55、上述技术方案的工作原理及有益效果：本发明获取用户语音指令的按照预设时长（如300ms）进行分段，获得语音片段并转化为语音数据流，准实时发送至语音服务后端子系统，实现了语音指令的自动采集，并自动分段确保用户及时输入较长的语音指令的情况下也可以及时得到识别反馈结果；将语音片段存储至临时数据集合中，将当前语音片段与临时数据集合中已有的语音片段进行对比，判断各个语音片段的一致性，若一致，判定用户的语音指令输入完成，并生成语音结束指令发送至语音服务后端子系统，实现了语音指令输入的结束的智能识别，为语音指令的纠错解析处理提供触发依据，确保用户每个语音指令都被完整的录制，有效提高语音指令执行的准确度。

56、本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在本技术文件中所特别指出的结构来实现和获得。

57、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。