语音关系提取方法、装置、计算机设备及存储介质与流程
- 国知局
- 2024-06-21 11:54:28
本公开涉及人工智能,特别是涉及一种语音关系提取方法、装置、计算机设备及存储介质。
背景技术:
1、语音翻译是将语音文件中的语音内容转换成另一种语言的文本的服务。这种服务在跨语言交流、国际会议、听力障碍人士的辅助设备等方面有着非常重大的作用。
2、其中,在语音翻译过程中,一般需要进行语音关系提取,以便更好地挖掘语音中的知识。语音关系提取旨在从语音中抽取出关系三元组(例如头实体、尾实体以及关系),从而可以辅助输出更为准确的翻译结果。
3、目前,相关技术中采用的语音关系提取方法,其提取得到的语音关系的准确性不高。
技术实现思路
1、本公开实施例提供了一种语音关系提取方法、装置计算机设备及存储介质,该语音关系提取方法可以提升语音关系提取的准确性。
2、本公开第一方面提供了一种语音关系提取方法,所述方法包括:
3、一种语音关系提取方法,其特征在于,所述方法包括:
4、获取待进行语音关系提取的目标语音数据;
5、基于第一神经网络模型对所述目标语音数据进行语音特征提取,得到语音特征;
6、将所述语音特征输入第二神经网络模型进行特征模态转换,得到文本特征;
7、基于第三神经网络模型对所述文本特征进行特征解码,得到所述目标语音数据的语音关系文本;
8、其中,所述第一神经网络模型、所述第二神经网络模型以及所述第三神经网络模型基于目标损失联合训练得到,所述目标损失包括第一损失以及第二损失;所述第一损失为基于第一样本文本特征与第二样本文本特征计算得到,所述第一样本文本特征为样本语音经所述第一神经网络模型进行语音特征提取后再经所述第二神经网络模型进行特征模态转换得到,所述第二样本文本特征为对所述样本语音对应的样本文本进行文本特征提取得到;所述第二损失为基于预测语音关系文本与语音关系标签计算得到,所述预测语音关系文本为所述第三神经网络模型对所述第一样本文本特征进行特征解码得到。
9、本公开第二方面提供了一种语音关系提取装置,所述装置包括:
10、获取单元,用于获取待进行语音关系提取的目标语音数据;
11、提取单元,用于基于第一神经网络模型对所述目标语音数据进行语音特征提取,得到语音特征;
12、转换单元,用于将所述语音特征输入第二神经网络模型进行特征模态转换,得到文本特征;
13、解码单元,用于基于第三神经网络模型对所述文本特征进行特征解码,得到所述目标语音数据的语音关系文本;
14、其中,所述第一神经网络模型、所述第二神经网络模型以及所述第三神经网络模型基于目标损失联合训练得到,所述目标损失包括第一损失以及第二损失;所述第一损失为基于第一样本文本特征与第二样本文本特征计算得到,所述第一样本文本特征为样本语音经所述第一神经网络模型进行语音特征提取后再经所述第二神经网络模型进行特征模态转换得到,所述第二样本文本特征为对所述样本语音对应的样本文本进行文本特征提取得到;所述第二损失为基于预测语音关系文本与语音关系标签计算得到,所述预测语音关系文本为所述第三神经网络模型对所述第一样本文本特征进行特征解码得到。
15、可选地,在一些实施例中,所述第一神经网络模型、所述第二神经网络模型以及所述第三神经网络模型的联合训练过程由训练单元实现,所述训练单元包括:
16、获取子单元,用于获取训练样本数据,所述训练样本数据包括多个样本语音以及每个样本语音对应的语音关系标签;
17、第一提取子单元,用于基于所述第一神经网络模型对所述样本语音进行语音特征提取得到样本语音特征,以及基于所述第二神经网络模型对所述样本语音特征进行特征模态转换得到所述第一样本文本特征;
18、第二提取子单元,用于对所述样本语音进行语音识别得到对应的样本文本,并基于第四神经网络模型对所述样本文本进行文本特征提取,得到所述第二样本文本特征,所述第四神经网络模型的输出特征与所述第三神经网络模型的输入特征尺寸一致;
19、第一计算子单元,用于根据所述第一样本文本特征与所述第二样本文本特征计算联结时序分类损失,得到第一损失;
20、第一解码子单元,用于基于所述第三神经网络模型对所述第一样本文本特征进行特征解码,得到第一预测语音关系文本,并根据所述第一预测语音关系文本与所述语音关系标签计算得到第二损失;
21、更新子单元,用于基于所述第一损失以及所述第二损失对所述第一神经网络模型、所述第二神经网络模型以及所述第三神经网络模型的模型参数进行更新。
22、可选地,在一些实施例中,更新子单元,包括:
23、获取模块,用于获取所述第一损失对应的第一权重系数,以及获取所述第二损失对应的第二权重系数;
24、第一计算模块,用于基于所述第一权重系数以及所述第二权重系数对所述第一损失和所述第二损失进行加权计算,得到第一目标损失;
25、第一更新模块,用于根据所述第一目标损失对所述第一神经网络模型、所述第二神经网络模型以及所述第三神经网络模型的模型参数进行更新。
26、可选地,在一些实施例中,所述训练单元,还包括:
27、第一识别子单元,用于在所述样本文本中识别出实体文本,以及在所述第二样本文本特征中识别出所述实体文本对应的实体特征;
28、转化子单元,用于基于所述第一样本文本特征对所述第二样本文本特征中的实体特征进行模态转化,得到混合模态特征;
29、第二解码子单元,用于基于所述第三神经网络模型对所述混合模态特征进行特征解码得到第二预测语音关系文本,以及基于所述第三神经网络模型对所述第二样本文本特征进行特征解码得到第三预测语音关系文本;
30、第二计算子单元,用于根据所述第二预测语音关系文本以及所述第三预测语音关系文本计算第三损失;
31、所述更新子单元,还用于:
32、基于所述第一损失、所述第二损失以及所述第三损失对所述第一神经网络模型、所述第二神经网络模型以及所述第三神经网络模型的模型参数进行更新。
33、可选地,在一些实施例中,所述转化子单元,包括:
34、第二计算模块,用于对每一实体特征与所述第一样本文本特征进行注意力计算,得到每一实体对应的实体语音特征;
35、更换模块,用于将所述第二样本文本特征中每一实体对应的实体特征更换为对应的实体语音特征,得到混合模态特征。
36、可选地,在一些实施例中,所述训练单元,还包括:
37、第三计算子单元,用于根据所述第二预测语音关系文本与所述语音关系标签计算得到第四损失,以及根据所述第三预测语音关系文本与所述语音关系标签计算得到第五损失;
38、所述更新子单元,包括:
39、第三计算模块,用于基于所述第一损失、所述第二损失、所述第三损失、所述第四损失以及所述第五损失计算第二目标损失;
40、第二更新模块,用于根据所述第二目标损失对所述第一神经网络模型、所述第二神经网络模型以及所述第三神经网络模型的模型参数进行更新。
41、可选地,在一些实施例中,所述训练单元,还包括:
42、压缩子单元,用于将所述第一样本文本特征输入第五神经网络模型进行特征压缩得到第一语句特征,以及将所述第二样本文本特征输入所述第五神经网络模型进行特征压缩得到第二语句特征;
43、投影子单元,用于基于第六神经网络模型对所述第一语句特征进行语义投影得到第三语句特征,以及基于所述第六神经网络模型对所述第二语句特征进行语义投影得到第四语句特征;
44、第四计算子单元,用于根据所述第三语句特征与所述第四语句特征计算第六损失;
45、所述第三计算模块,还用于:
46、根据所述第一损失、所述第二损失、所述第三损失、所述第四损失、所述第五损失以及所述第六损失计算第二目标损失。
47、可选地,在一些实施例中,所述训练单元,还包括:
48、第三解码子单元,用于基于所述第三神经网络模型对所述第三语句特征进行特征解码得到第四预测语音关系文本,以及基于所述第三神经网络模型对所述第四语句特征进行特征解码得到第五预测语音关系文本;
49、第五计算子单元,用于根据所述第四预测语音关系文本与所述第五预测语音关系文本计算第七损失;
50、所述第三计算模块,还用于:
51、根据所述第一损失、所述第二损失、所述第三损失、所述第四损失、所述第五损失、所述第六损失以及所述第七损失计算第二目标损失。
52、可选地,在一些实施例中,所述第三计算模块,包括:
53、获取子模块,用于获取训练轮次;
54、第一计算子模块,用于基于所述训练轮次计算每一损失对应的第三权重系数;
55、第二计算子模块,用于基于每一损失对应的所述第三权重系数对所述第一损失、所述第二损失、所述第三损失、所述第四损失、所述第五损失、所述第六损失以及所述第七损失进行加权计算,得到第二目标损失。
56、可选地,在一些实施例中,训练单元,还包括:
57、第一处理子单元,用于将所述第一样本文本特征输入第五神经网络模型进行特征压缩,并将压缩得到的特征输入第六神经网络模型进行语义投影得到第五语句特征;
58、第二处理子单元,用于将所述第二样本文本特征输入第五神经网络模型进行特征压缩,并将压缩得到的特征输入第六神经网络模型进行语义投影得到第六语句特征;
59、第六计算子单元,用于根据所述第五语句特征与所述第六语句特征计算第八损失;
60、所述更新子单元,还用于:
61、基于所述第一损失、所述第二损失以及所述第八损失对所述第一神经网络模型、所述第二神经网络模型以及所述第三神经网络模型的模型参数进行更新
62、可选地,在一些实施例中,本公开提供的语音关系提取装置,还包括:
63、第二识别子单元,用于对所述目标语音数据进行语气识别,得到语气描述文本;
64、第三提取子单元,用于对所述语气描述文本进行文本特征提取,得到语气文本特征;
65、拼接子单元,用于将所述语气文本特征与所述文本特征进行拼接得到目标文本特征;
66、所述解码单元,还用于:
67、基于第三神经网络模型对所述目标文本特征进行特征解码,得到所述目标语音数据的语音关系文本。
68、本公开第三方面提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音关系提取方法。
69、本公开第四方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语音关系提取方法。
70、本公开第五方面提供了一种计算机程序产品,该计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器读取并执行,使得该计算机设备执行如第一方面所述的语音关系提取方法。
71、本公开实施例提供的语音关系提取方法,通过获取待进行语音关系提取的目标语音数据;基于第一神经网络模型对目标语音数据进行语音特征提取,得到语音特征;将语音特征输入第二神经网络模型进行特征模态转换,得到文本特征;基于第三神经网络模型对文本特征进行特征解码,得到目标语音数据的语音关系文本;其中,第一神经网络模型、第二神经网络模型以及第三神经网络模型基于目标损失联合训练得到,目标损失包括第一损失以及第二损失;第一损失为基于第一样本文本特征与第二样本文本特征计算得到,第一样本文本特征为样本语音经第一神经网络模型进行语音特征提取后再经第二神经网络模型进行特征模态转换得到,第二样本文本特征为对样本语音对应的样本文本进行文本特征提取得到;第二损失为基于预测语音关系文本与语音关系标签计算得到,预测语音关系文本为第三神经网络模型对第一样本文本特征进行特征解码得到。
72、本公开实施例采用根据第二神经网络模型输出的第一样本文本特征,以及对样本语音对应的样本文本进行文本特征提取得到的第二样本文本特征计算得到的第一损失,来指导第二神经网络模型学习,以使得第二神经网络模型对语音特征进行特征转换得到的特征更接近语音对应的文本直接提取出来的文本特征。如此通过训练能将语音数据的语音特征到文本特征之间进行准确的特征模态转换的第二神经网络模型,来缓解从语音数据提取出的语音特征和待进行语音关系提取的文本特征之间的模态差异。相对于相关技术中生硬地将语音特征转换成与文本特征长度一致的特征,本技术提供的第二神经网络模型可以有效缓解从语音特征向文本特征转换时的模态差异,从而可以提升模态转换得到的文本特征的准确性,进而可以提升语音关系提取的准确性。
73、本公开的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24401.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。