技术新讯 > 乐器声学设备的制造及制作,分析技术 > 具有自动语音识别错误校正、域外检测和/或域分类的有效高效集成的增强语音理解的系统的制作方法 > 正文

具有自动语音识别错误校正、域外检测和/或域分类的有效高效集成的增强语音理解的系统的制作方法

国知局
2024-06-21 11:39:42

本公开一般涉及自动语音理解系统，其利用至少一个语音识别模型和至少一个自然语言理解模型来提供用于提供可靠的人机交互而不要求计算负荷上的大的增加的鲁棒系统。

背景技术：

1、自动语音理解是一种将口语语言识别并翻译成由计算机系统理解的格式的技术。口语语言或语音被经由麦克风或其它输入接收，并且被语音理解系统的语音识别组件处理以生成与语音关联的文本。然后基于文本的上下文和含义来理解文本。一旦语音被系统理解，它就可以被用作为对计算机、计算机系统或者经由该接口的另外的系统的输入，使得可以使用正常的人类对话来控制系统。

2、话音交互已经在消费品市场中流行，尤其是在近年中并且在诸如各种服务/制造助理的垂直应用中显示出增加的潜力。对于话音交互而言，语音理解是一个重要的部分。作为对于现代话音交互而言的主要挑战的鲁棒语音理解对于实现令人满意的用户体验(尤其是针对垂直域)是必不可少的。除了鲁棒性之外，效率是直接影响用户体验的另一方面。在此描述的系统和方法中，提出了一种用于域特定的话音交互的新的语音理解系统，可选地支持域外检测或/和域分类，目的在于优化理解鲁棒性并且同时最大化系统效率。

技术实现思路

1、在此描述的系统和方法通过多机器学习模型设置来提供自动语音理解转录，旨在与话音交互接口一起使用。

2、所公开的实施例的一方面包括一种用于标识与语音输入关联的文本串的方法。方法包括：从基于语音的对话接口接收语音输入；由至少一个语音识别模型通过将语音输入转换为相应的文本串来生成第一文本转录预测和第二文本转录预测；以及生成用于第一文本转录预测的第一置信度得分和用于第二文本转录预测的第二置信度得分。方法还包括：确定用于第一文本转录预测和第二文本转录预测的相应的文本串的槽类型；基于用于每个相应的文本串的槽类型将标签应用于第一文本转录预测和第二文本转录预测的相应的文本串。每个标签对应于槽类型之一。方法还包括通过如下来生成至少一个被加标签的文本组：提取第一文本转录预测的至少一个文本串并且基于与文本串关联的标签将该至少一个文本串与第二文本转录预测的至少一个文本串分组在一起。方法还包括使用自然语言模型至少基于与被加标签的文本组关联的标签的槽类型、第一置信度得分和第二置信度得分来确定至少一个被加标签的文本组内的文本串的相关性分级。方法还包括标识至少一个被加标签的文本组中具有最高相关性分级的文本串，其中至少一个被加标签的文本组中具有最高相关性分级的文本串被提供给基于语音的对话接口。

3、所公开的实施例的另一方面包括一种用于在基于语音的对话接口处输出与语音输入关联的文本串的系统。系统包括处理器和存储器。存储器包括指令，指令在由处理器执行时引起处理器：从基于语音的对话接口接收语音输入；由至少一个语音识别模型通过将语音输入转换为相应的文本串来生成第一文本转录预测和第二文本转录预测；生成用于第一文本转录预测的第一置信度得分和用于第二文本转录预测的第二置信度得分；确定用于第一文本转录预测和第二文本转录预测的相应的文本串的槽类型；基于用于每个相应的文本串的槽类型将标签应用于第一文本转录预测和第二文本转录预测的相应的文本串，其中每个标签对应于槽类型之一；通过如下来生成至少一个被加标签的文本组：提取第一文本转录预测的至少一个文本串并且基于与文本串关联的标签将该至少一个文本串与第二文本转录预测的至少一个文本串分组在一起；使用自然语言模型至少基于与被加标签的文本组关联的标签的槽类型、第一置信度得分和第二置信度得分来确定至少一个被加标签的文本组内的文本串的相关性分级；标识至少一个被加标签的文本组中具有最高相关性分级的文本串；以及将至少一个被加标签的文本组中具有最高相关性分级的文本串输出到基于语音的对话接口。

4、所公开的实施例的另一方面包括一种用于标识与语音输入关联的文本串的装置。装置包括处理器和存储器。存储器包括指令，指令在由处理器执行时引起处理器：从基于语音的对话接口接收语音输入；由至少一个语音识别模型通过将语音输入转换为相应的文本串来生成第一文本转录预测和第二文本转录预测；生成用于第一文本转录预测的第一置信度得分和用于第二文本转录预测的第二置信度得分；确定用于第一文本转录预测和第二文本转录预测的相应的文本串的槽类型；基于用于每个相应的文本串的槽类型将标签应用于第一文本转录预测和第二文本转录预测的相应的文本串，其中每个标签对应于槽类型之一；通过如下来生成至少一个被加标签的文本组：提取第一文本转录预测的至少一个文本串并且基于与文本串关联的标签将该至少一个文本串与第二文本转录预测的至少一个文本串分组在一起；使用自然语言模型至少基于与被加标签的文本组关联的标签的槽类型、第一置信度得分和第二置信度得分来确定至少一个被加标签的文本组内的文本串的相关性分级；以及标识至少一个被加标签的文本组中具有最高相关性分级的文本串。

技术特征：

1.一种用于标识与语音输入关联的文本串的方法，所述方法包括：

2.根据权利要求1所述的方法，其中自然语言模型是基于类的自然语言理解模型和基于词语的自然语言理解模型中的一个。

3.根据权利要求2所述的方法，进一步包括：

4.根据权利要求1所述的方法，其中至少一个标签对应于不包括描述的空标签类型。

5.根据权利要求4所述的方法，其中丢弃与空标签类型相关的被加标签的文本组。

6.根据权利要求1所述的方法，进一步包括：

7.根据权利要求1所述的方法，其中自然语言模型包括被配置为标识不对应于标签类型的文本的至少一个层。

8.根据权利要求1所述的方法，其中与被加标签的文本组关联的文本串包括类似的语言用法。

9.一种用于在基于语音的对话接口处输出与语音输入关联的文本串的系统，所述系统包括：

10.根据权利要求9所述的系统，其中自然语言模型是基于类的自然语言理解模型和基于词语的自然语言理解模型之一。

11.根据权利要求10所述的系统，其中指令进一步引起处理器：

12.根据权利要求9所述的系统，其中至少一个标签对应于不包括描述的空标签类型。

13.根据权利要求12所述的系统，其中丢弃与空标签类型相关的被加标签的文本组。

14.根据权利要求9所述的系统，其中指令进一步引起处理器：

15.根据权利要求9所述的系统，其中自然语言模型包括被配置为标识不对应于标签类型的文本的至少一个层。

16.根据权利要求9所述的系统，其中与被加标签的文本组关联的文本串包括类似的语言用法。

17.一种用于标识与语音输入关联的文本串的装置，所述装置包括：

18.根据权利要求17所述的装置，其中自然语言模型是基于类的自然语言理解模型和基于词语的自然语言理解模型之一。

19.根据权利要求17所述的装置，其中至少一个标签对应于不包括描述的空标签类型。

20.根据权利要求17所述的装置，其中所述至少一个输入设备包括至少一个麦克风，并且其中所述至少一个输入设备与制造机器、电动工具、自动化个人助理、家用电器、监视系统和医学成像系统中的至少一个关联。

技术总结公开了具有自动语音识别错误校正、域外检测和/或域分类的有效且高效集成的用于增强语音理解的系统。在此描述的系统和方法涉及用于域特定的话音交互的新的语音理解系统。在此描述的系统和方法以优化接收到的语音输入的识别和理解的方式将自动语音识别错误的自动校正与自然语言理解模型组合。在此描述的系统和方法可以进一步通过联合学习和/或执行自动语音识别错误校正和域相关分类来支持域外检测或域分类。通过与自动语音识别错误校正一起的联合学习，可以基于具有共享特征输入和共享神经层的多个可能的语音识别结果来执行域外检测或域分类。在此描述的系统和方法可以实现具有高计算效率的鲁棒性能。技术研发人员：周正宇受保护的技术使用者：罗伯特·博世有限公司技术研发日：技术公布日：2024/3/27