使用大型语言模型的联合语音和语言模型的制作方法
- 国知局
- 2024-08-22 14:49:38
本公开一般涉及使用大型语言模型的语音理解。更具体地,本公开涉及一种联合语音和语言模型,其将语音映射到文本令牌嵌入空间,而没有可观察的语音信息损失。
背景技术:
1、大型语言模型(“llm”)用于理解文本并基于所理解的文本来生成嵌入。人们一直在努力将llm的能力从文本扩展到其他模式,诸如语音。目前的努力尝试使用共享编码器将语音和文本映射到相同的潜在表示,这一点面临共享编码器无法利用经预先训练的语音和语言编码器的事实,并且因此需要对语音和语言两者进行额外量的进一步训练。
2、在大多数实际的口语系统中,使用自动语音识别(“asr”)识别语音输入,并将识别的转录(t ranscri pt)馈入利用llm的其他系统中。这种级联方法没有提供纠正潜在asr误识别的机会。此外,这些系统在处理用于训练这些系统的训练数据中没有很好表现的域特定实体方面表现较弱。
技术实现思路
1、本公开的实施例的方面和优点将在下面的描述中部分地阐述,或者可以从描述中获知,或者可以通过实践所述实施例而获知。
2、本公开的一个示例方面涉及一种用于识别语音的计算机实现的方法。所述方法包括由处理器对接收到的语音输入执行空白过滤以生成多个经过滤编码,以及由处理器处理多个经过滤编码以生成多个音频嵌入。所述方法还包括由处理器使用语音适配器将多个音频嵌入中的每个音频嵌入映射到文本嵌入以生成多个组合嵌入,以及由处理器向机器学习模型提供多个组合嵌入。所述方法还包括由处理器从机器学习模型接收文本输出。
3、本公开的另一示例方面涉及一种用于识别语音的计算系统。所述计算系统可以包括一个或多个处理器和非暂时性计算机可读介质,所述非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使一个或多个处理器执行操作。操作可以包括对接收到的语音输入执行空白过滤以生成多个经过滤编码,以及处理多个经过滤编码以生成多个音频嵌入。操作还可以包括使用语音适配器将多个音频嵌入中的每个音频嵌入映射到文本嵌入以生成多个组合嵌入,以及基于多个经过滤编码从域特定实体检索器接收一个或多个特定文本嵌入。操作可以进一步包括向机器学习模型提供多个组合嵌入和一个或多个特定文本嵌入,以及从机器学习模型接收表示来自语音输入的语音的文本输出。
4、本公开的另一示例方面涉及一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使一个或多个处理器执行操作。操作可以包括对接收到的语音输入执行空白过滤以生成多个经过滤编码,以及处理多个经过滤编码以生成多个音频嵌入。操作还可以包括使用语音适配器将多个音频嵌入中的每个音频嵌入映射到文本嵌入以生成多个组合嵌入,以及基于多个经过滤编码从域特定实体检索器接收一个或多个特定文本嵌入。操作可以进一步包括向机器学习模型提供多个组合嵌入和一个或多个特定文本嵌入,以及从机器学习模型接收表示来自语音输入的语音的文本输出。
5、本公开的其他方面涉及各种系统、设备、非暂时性计算机可读介质、用户界面和电子装置。
6、参考以下描述和随附权利要求将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并且构成本说明书的一部分的附图示出了本公开的示例实施例,并且连同描述一起用于解释相关原理。
技术特征:1.一种用于识别语音的计算机实现的方法,所述方法包括:
2.根据权利要求1所述的计算机实现的方法,其中执行空白过滤包括从所述语音输入中去除不包括语音的一个或多个帧以生成所述多个经过滤编码。
3.根据权利要求1所述的计算机实现的方法,其中所述多个经过滤编码是部分地使用连接主义时间分类模型来生成的。
4.根据权利要求1所述的计算机实现的方法,其中所述语音适配器是使用语音作为输入以及使用预测转录作为输出来训练的。
5.根据权利要求4所述的计算机实现的方法,其中所述连接主义时间分类模型的文本输入部分在训练期间未使用。
6.根据权利要求1所述的计算机实现的方法,其还包括:
7.根据权利要求6所述的计算机实现的方法,其中所述域特定实体检索器是使用所述语音输入的参考转录中提到的实体来训练的。
8.根据权利要求6所述的计算机实现的方法,其中多个经过滤编码作为所述声学编码提供给所述域特定实体检索器。
9.根据权利要求6所述的计算机实现的方法,其中所述键和所述值被分别编码,并且经编码键与其相应经编码值之间的余弦距离被确定来测量所述经编码键与其相应经编码值之间的相似度。
10.根据权利要求9所述的计算机实现的方法,其中所述一个或多个特定文本嵌入是基于在第一经编码键与第一相应经编码值之间确定的至少一个余弦距离来确定的。
11.根据权利要求1所述的计算机实现的方法,其中向所述机器学习模型提供所述多个组合嵌入和一个或多个特定文本嵌入包括在所述机器学习模型处理所述多个组合嵌入和所述一个或多个特定文本嵌入之前,将所述一个或多个特定文本嵌入加到所述多个组合嵌入中的一个或多个组合嵌入的前面。
12.一种用于识别语音的计算系统,所述计算系统包括:
13.根据权利要求12所述的计算系统,其中执行空白过滤包括从所述语音输入中去除不包括语音的一个或多个帧以生成所述多个经过滤编码。
14.根据权利要求12所述的计算系统,其中所述多个经过滤编码是部分地使用连接主义时间分类模型来生成的。
15.根据权利要求12所述的计算系统,其中所述域特定实体检索器是包括键和值的双编码器模型,其中所述键是声学编码,并且所述值是域特定实体。
16.根据权利要求15所述的计算系统,其中所述键和所述值被分别编码,并且经编码键与其相应经编码值之间的余弦距离被确定来测量所述经编码键与其相应经编码值之间的相似度。
17.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行操作,所述操作包括:
18.根据权利要求17所述的非暂时性计算机可读介质,其中所述多个经过滤编码是部分地使用连接主义时间分类模型来生成的。
19.根据权利要求17所述的非暂时性计算机可读介质,其中所述域特定实体检索器是包括键和值的双编码器模型,其中所述键是声学编码,并且所述值是域特定实体。
20.根据权利要求19所述的非暂时性计算机可读介质,其中所述键和所述值被分别编码,并且经编码键与其相应经编码值之间的余弦距离被确定来测量所述经编码键与其相应经编码值之间的相似度。
技术总结本文公开了用于识别语音的方法和系统。一种用于识别语音的计算机实现的方法。所述方法包括对接收到的语音输入执行空白过滤以生成多个经过滤编码,以及处理所述多个经过滤编码以生成多个音频嵌入。所述方法还包括使用语音适配器将所述多个音频嵌入中的每个音频嵌入映射到文本嵌入以生成多个组合嵌入,以及向机器学习模型提供所述多个组合嵌入。所述方法还包括由处理器从所述机器学习模型接收文本输出。技术研发人员:M·王,H·索尔陶,I·沙弗兰受保护的技术使用者:谷歌有限责任公司技术研发日:技术公布日:2024/8/20本文地址:https://www.jishuxx.com/zhuanli/20240822/280028.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。