人机对话方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:55:50
本技术涉及人工智能,尤其涉及一种人机对话方法、装置、电子设备及存储介质。
背景技术:
1、自然语言处理(natural language processing,nlp)是人工智能领域研究的一个重要方向,以bert(bidirectional encoder representation from transformers,一种基于transformers的双向编码器表征模型)为代表的文本预训练模型一经出现便席卷了nlp的各个领域,同时,基于bert的一些语音预训练模型也在改变着传统的语音任务的处理范式。当前智能设备上的语音助手广泛的使用这些预训练模型作为nlp任务的基座,受限于自动语音识别技术(asr,automatic speech recognition)的识别能力或预训练模型的特征提取能力,现有部分预训练模型提取出的文本态特征存在表征能力不足的问题,这会导致下游语义理解的准确度较低,从而带来一定的误差传播。
技术实现思路
1、本技术实施例提供了一种人机对话方法、装置、电子设备及存储介质,有利于提取出表征能力更强的文本语音特征,以提升语音助手语义理解和答复语句生成的准确度,帮助语音助手更好地与用户进行对话。
2、第一方面,本技术实施例提供一种人机对话方法,该方法包括:
3、获取用户的输入语音及对输入语音进行识别得到的文本;
4、通过语音编码器对输入语音进行特征提取,得到第一语音特征;
5、通过文本语音编码器和文本语音解码器对文本进行特征提取,分别得到第一文本特征和第二文本特征;
6、将第一语音特征融合到第一文本特征中,得到第一文本语音特征;以及将第一语音特征融合到第二文本特征中,得到第二文本语音特征;
7、基于第一文本语音特征进行语义理解,以及基于语义理解的结果和第二文本语音特征生成答复语句。
8、本技术实施例中,该人机对话方法是通过训练好的人机对话模型执行的,人机对话模型包括语音编码器、文本语音编码器和文本语音解码器,对于用户的输入语音,通过语音编码器提取出其语音特征,通过文本语音编码器和文本语音解码器提取出其对应文本的文本特征,将语音特征融合到文本特征中,实现了文本、语音多模态特征的提取,由于提取出的文本语音特征具有更强的表征能力,因此,该文本语音特征有利于提升语音助手语义理解和答复语句生成的准确度,以帮助语音助手更好地与用户进行对话。
9、在一种可能的实施方式中,该方法还包括:
10、通过文本编码器对文本进行特征提取,得到第三文本特征;
11、基于第三文本特征和第一语音特征确定文本与输入语音是否匹配;
12、若文本与输入语音相匹配,则执行将第一语音特征融合到第一文本特征中和将第一语音特征融合到第二文本特征中的操作。
13、该实施方式中,将人机对话模型的文本编码器提取出的文本特征(即第三文本特征)与第一语音特征进行对齐,即判断文本与输入语音是否匹配,以便于后续进行特征融合,得到表征能力更强的文本语音特征。
14、在一种可能的实施方式中,将第一语音特征融合到第一文本特征中,得到第一文本语音特征,包括:
15、计算第一语音特征的查询q;
16、计算第一文本特征的键k和值v;
17、根据第一文本特征的k和第一语音特征的q计算第一注意力矩阵,基于第一文本特征的v和第一注意力矩阵,得到第一文本语音特征;
18、将第一语音特征融合到第二文本特征中,得到第二文本语音特征,包括:
19、计算第二文本特征的k和v;
20、根据第二文本特征的k和第一语音特征的q计算第二注意力矩阵,基于第二文本特征的v和第二注意力矩阵,得到第二文本语音特征。
21、该实施方式中,通过cross attention的方式将语音特征融合到文本特征中,有利于得到表征能力更强的文本语音特征。
22、在一种可能的实施方式中,人机对话方法是通过训练好的人机对话模型执行的,人机对话模型包括文本编码器、语音编码器、文本语音编码器和文本语音解码器,人机对话模型的训练步骤包括:
23、获取多轮人机对话的第一对话样本数据,采用第一样本数据训练得到初始文本编码器;
24、获取来自不同用户的多条第一语音样本数据,采用多条第一语音样本数据训练得到初始语音编码器;
25、获取多轮人机对话的第二对话样本数据,通过初始文本编码器对第二对话样本数据进行特征提取,得到对应的第四文本特征;
26、获取多条第二语音样本数据,通过初始语音编码器对多条第二语音样本数据中的每条第二语音样本数据进行特征提取,得到每条第二语音样本数据对应的第二语音特征;
27、基于第二语音特征和第四文本特征训练初始文本编码器、初始语音编码器、初始文本语音编码器和初始文本语音解码器,得到文本编码器、语音编码器、文本语音编码器和文本语音解码器。
28、该实施方式中,采用多轮人机对话的第一样本数据,通过mask预测、对话连贯性和用户意图识别任务训练出初始文本编码器,采用多条第一语音样本数据,通过mask预测、说话人识别任务训练出初始语音编码器,多任务的预训练能够使初始文本编码器提取出的第四文本特征和初始语音编码器提取出的第二语音特征的精度更高,基于精度更高的第四文本特征和第二语音特征,训练多模态的文本语音编码器和文本语音解码器,有利于提升人机对话模型提取多模态特征的能力,使人机对话模型更好地将语音特征融合到文本特征中,从而提升文本语音特征的表征能力,进而能够基于文本语音特征更好地理解用户语义和生成答复。
29、在一种可能的实施方式中,初始文本编码器是对第一预训练模型进行训练得到的,采用第一样本数据训练得到初始文本编码器,包括:
30、根据第一对话样本数据中的用户输入和对话系统的回复进行掩码预测,得到第一掩码预测的损失;
31、根据第一对话样本数据中的用户输入和第三对话样本数据中的用户输入进行句间连贯性预测,得到第一连贯性预测的损失;
32、根据第一对话样本数据中的用户输入进行意图识别,得到第一意图识别的损失;
33、基于第一掩码预测的损失、第一连贯性预测的损失和第一意图识别的损失中的至少一个,得到第一损失;
34、对第一预训练模型的参数进行调整,以使第一损失收敛,得到初始文本编码器。
35、该实施方式中,采用多轮人机对话数据作为样本数据,通过mask预测、对话连贯性和用户意图识别任务训练初始文本编码器,有利于使最终的文本编码器提取出表征能力更强的文本特征,从而提升人机对话模型在mask预测、对话连贯性和用户意图识别上的准确度得到提升。
36、在一种可能的实施方式中,所述初始语音编码器是对第二预训练模型进行训练得到的,所述获取来自不同用户的多条第一语音样本数据,采用所述多条第一语音样本数据训练得到初始语音编码器,包括:
37、对所述多条第一语音样本数据中的每条第一语音样本数据进行特征提取,得到对应的第三语音特征和第四语音特征;
38、根据所述第三语音特征和所述第四语音特征进行掩码预测,得到第二掩码预测的损失;
39、根据所述第四语音特征进行说话人识别,得到第一说话人识别的损失;
40、根据所述第二掩码预测的损失、所述第一说话人识别的损失中的至少一个,得到第二损失;
41、对所述第二预训练模型的参数进行调整,以使所述第二损失收敛,得到所述初始语音编码器。
42、该实施方式中,通过mask预测、说话人识别任务训练初始语音编码器,有利于使最终的语音编码器提取出能够辅助人机对话模型进行语音识别的语音特征,以便于将该语音特征与文本特征进行融合,得到表征能力更强的多模态特征,从而提升语音助手语义理解的准确度。
43、在一种可能的实施方式中,基于第二语音特征和第四文本特征训练初始文本编码器、初始语音编码器、初始文本语音编码器和初始文本语音解码器,得到文本编码器、语音编码器、文本语音编码器和文本语音解码器,包括:
44、通过初始文本语音编码器和初始文本语音解码器对目标用户输入进行特征提取,分别得到第五文本特征和第六文本特征,目标用户输入为第二对话样本数据中与每条第二语音样本数据对应的用户输入;
45、根据第四文本特征和第二语音特征,得到目标子文本特征,目标子文本特征为第四文本特征中与第二语音特征对齐的文本特征;
46、若目标子文本特征对应的用户输入为目标用户输入,则将第二语音特征融合到第五文本特征和第六文本特征中,分别得到第三文本语音特征和第四文本语音特征;
47、基于第三文本语音特征和第四文本语音特征训练初始文本编码器、初始语音编码器、初始文本语音编码器及初始文本语音解码器,得到文本编码器、语音编码器、文本语音编码器和文本语音解码器。
48、该实施方式中,利用第四文本特征和第二语音特征进行特征对齐,从而确定出与第二语音特征对齐的目标子文本特征,在目标子文本特征对应的用户输入为当前处理的第二语音样本数据对应的目标用户输入的情况下,将第二语音特征融合到相应的文本特征中(即第五文本特征和第六文本特征),得到多模态的第三文本语音特征和第四文本语音特征,从而能够利用多模态的文本语音特征训练得到文本编码器、语音编码器、文本语音编码器和文本语音解码器,进而有利于提升人机对话模型的特征提取能力。
49、在一种可能的实施方式中,基于第三文本语音特征和第四文本语音特征训练初始文本编码器、初始语音编码器、初始文本语音编码器及初始文本语音解码器,得到文本编码器、语音编码器、文本语音编码器和文本语音解码器,包括:
50、根据第三文本语音特征对目标用户输入进行意图识别,得到第二意图识别的损失;
51、根据任意两条第三文本语音特征进行句间连贯性预测,得到第二连贯性预测的损失;
52、根据第三文本语音特征进行说话人识别,得到第二说话人识别的损失;
53、根据第四文本语音特征进行掩码预测,得到第三掩码预测的损失;
54、根据第二意图识别的损失、第二连贯性预测的损失和第二说话人识别的损失中的至少一个,得到第三损失;
55、根据第四文本特征和第二语音特征进行特征对齐,得到特征对齐的损失;
56、根据第三掩码预测的损失、第三损失和特征对齐的损失,得到第四损失;
57、对初始文本编码器、初始语音编码器、初始文本语音编码器及初始文本语音解码器的参数进行调整,以使第四损失收敛,得到文本编码器、语音编码器、文本语音编码器和文本语音解码器。
58、该实施方式中,通过mask预测、意图识别、连贯性预测、说话人识别任务训练得到文本语音的融合模型(即文本语音编码器和文本语音解码器),另外,添加了特征对齐任务进行多模态特征的对齐,从而综合第三掩码预测的损失、第三损失和特征对齐的损失训练得到文本编码器、语音编码器、文本语音编码器和文本语音解码器。
59、在一种可能的实施方式中,根据第四文本特征和第二语音特征,得到目标子文本特征,包括:
60、对第四文本特征进行采样得到待对齐子文本特征;
61、对待对齐子文本特征和第二语音特征进行分类,得到分类结果,分类结果用于表示待对齐子文本特征对应的用户输入与第二语音特征对应的第二语音样本数据是否匹配;
62、若待对齐子文本特征对应的用户输入与第二语音特征对应的第二语音样本数据匹配,则将待对齐子文本特征确定为目标子文本特征。
63、该实施方式中,通过采样得到待对齐子文本特征,然后对待对齐子文本特征和第二语音特征进行二分类,以判断待对齐子文本特征对应的用户输入与第二语音特征对应的第二语音样本数据是否匹配,从而便于后续将第二语音特征融合到第五文本特征和第六文本特征中。
64、第二方面,本技术实施例提供了一种人机对话装置,该装置包括收发单元和处理单元;
65、收发单元,用于获取用户的输入语音及对输入语音进行识别得到的文本;
66、处理单元,用于通过语音编码器对输入语音进行特征提取,得到第一语音特征;通过文本语音编码器和文本语音解码器对文本进行特征提取,分别得到第一文本特征和第二文本特征;将第一语音特征融合到第一文本特征中,得到第一文本语音特征;以及将第一语音特征融合到第二文本特征中,得到第二文本语音特征;基于第一文本语音特征进行语义理解,以及基于语义理解的结果和第二文本语音特征生成答复语句。
67、需要说明的是,第二方面是上述第一方面对应的装置,用于实现第一方面提供的各种方法步骤,具体的实现细节以及有益效果请参见上述第一方面。
68、第三方面,本技术实施例提供了一种电子设备,包括处理器、存储器,以及一个或多个程序,处理器与存储器相连,一个或多个程序被存储在存储器中,并且被配置为由处理器执行时实现上述第一方面中的方法。
69、第四方面,本技术实施例提供了一种芯片系统,应用于电子设备,该芯片系统包括一个或多个处理器,处理器用于调用计算机程序以使得电子设备执行上述第一方面中的方法。
70、第五方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有用于电子设备执行的计算机程序,计算机程序被执行时实现上述第一方面中的方法。
71、第六方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品被电子设备运行,使得电子设备执行上述第一方面中的方法。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24541.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
语音识别方法和装置与流程
下一篇
返回列表