技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种陆空通话语音转换方法、装置、终端设备及存储介质 > 正文

一种陆空通话语音转换方法、装置、终端设备及存储介质

国知局
2024-06-21 11:45:53

本发明涉及语音识别领域，尤其涉及一种陆空通话语音转换方法、装置、终端设备及存储介质。

背景技术：

1、空中交通管制员(air traffic controller，atco)与飞行员通过无线电进行交互，确认重要飞行信息，以双重检查的方式维护飞机飞行的安全性和可靠性。然而，由于背景噪声干扰、注意力不集中、疲劳、压力等原因可能会产生沟通误解，进而导致灾难性的航空事故。因此现有的陆空无线电通讯存在语义转换效率低的问题。

2、因此，亟需一种陆空通话语音转换策略，从而解决陆空无线电通讯语义转换效率低的问题。

技术实现思路

1、本发明实施例提供一种陆空通话语音转换方法、装置、终端设备及存储介质，以提高陆空无线电通讯语义转换的效率。

2、为了解决上述问题，本发明一实施例提供一种陆空通话语音转换方法，包括：

3、获取陆空通话语音数据；

4、将所述陆空通话语音数据输入到陆空语音识别模型中，获得与所述陆空通话语音数据对应的文字数据；其中，所述陆空语音识别模型的训练，具体为：基于双阶段训练策略，将语音训练数据和文字训练数据输入到多模态语音识别模型中进行训练，获得所述陆空语音识别模型。

5、作为上述方案的改进，所述多模态语音识别模型，包括：文本输入表示模块、语音输入表示模块、文本编码器模块、跨模态语音编码器模块和解码器模块；其中，所述文本编码器模块包括若干文本编码器单元，所述跨模态语音编码器模块包括若干语音编码器单元；

6、所述文本输入表示模块的输出端与所述文本编码器模块的输入端连接，所述语音输入表示模块的输出端与所述跨模态语音编码器模块的输入端连接，所述跨模态语音编码器模块的输出端与所述解码器模块的输入端连接；其中，所述文本编码器模块中的每一所述文本编码器单元互相连接，所述跨模态语音编码器模块的每一所述语音编码单元互相连接，每一所述文本编码器单元与每一所述语音编码器单元一一对应，且所述文本编码器单元与对应的所述语音编码器单元连接。

7、作为上述方案的改进，所述文本编码器单元包括：第一多头自注意力层、第一残差连接及归一化层、第一位置前馈网络层和第二残差连接及归一化层；

8、在当前文本编码器单元与上一文本编码器单元连接时，当前文本编码器单元的接收数据为文本编码数据；

9、在当前文本编码器单元与文本输入表示模块连接时，当前文本编码器单元的接收数据为文本预处理数据；

10、其中，当前文本编码器单元的数据传输具体为：将接收数据分别传输至所述第一多头自注意力层和所述第一残差连接及归一化层，将所述第一多头自注意力层的输出数据传输至所述第一残差连接及归一化层，将所述第一残差连接及归一化层的输出数据分别传输至所述第一位置前馈网络层和所述第二残差连接及归一化层，将所述第一位置前馈网络层的输出数据传输至所述第二残差连接及归一化层，将第二残差连接及归一化层的输出数据分别传输至下一文本编码器单元以及与当前文本编码器单元对应的语音编码器单元中。

11、作为上述方案的改进，所述文本编码器单元满足以下条件：

12、

13、式中，分别表示是由文本特征序列的查询、键和值矩阵，是所有注意力头沿着对应的列连接后的线性变换矩阵；第i―1层的输出作为第i层的输入，而为文本输入表示模块输出的ew；为第i且i≠0层文本编码器单元输出的文本编码数据；w1和w2为待训练的权重矩阵参数，b1和b2为待训练的偏置参数。

14、作为上述方案的改进，所述语音编码器单元包括：第二多头自注意力层、第三残差连接及归一化层、多头跨模态注意力层、第四残差连接及归一化层、第二位置前馈网络层和第五残差连接及归一化层；

15、在当前语音编码器单元与上一语音编码器单元连接时，当前语音编码器单元的接收数据为语音编码数据；

16、在当前语音编码器单元与语音输入表示模块连接时，当前语音编码器单元的接收数据为语音预处理数据；

17、其中，当前语音编码器单元的数据传输具体为：将接收数据分别传输至所述第二多头自注意力层和所述第三残差连接及归一化层，将所述第二多头自注意力层的输出数据传输至所述第三残差连接及归一化层，将所述第三残差连接及归一化层的输出数据分别传输至所述多头跨模态注意力层和所述第四残差连接及归一化层，所述多头跨模态注意力层接收当前语音编码器单元对应的文本编码器单元传输的文本编码数据；

18、将所述第四残差连接及归一化层的输出数据分别传输至所述第二位置前馈网络层和所述第五残差连接及归一化层，将所述第二位置前馈网络层的输出数据传输至所述第五残差连接及归一化层，将第五残差连接及归一化层的输出数据传输至下一语音编码器单元或解码器中。

19、作为上述方案的改进，所述语音编码器单元满足以下条件：

20、

21、式中，分别表示是语音特征序列的查询、键和值矩阵，是所有注意力头沿着对应的列连接后的线性变换矩阵；表示语音模态内传播的信息；值得注意的是，第j―1层的输出作为第j层的输入，而为语音输入表示模块输出的es；代表从文本到语音传递的跨模态交互信息，同时保证ds和dw相等以统一模态；为第j且j≠0层语音编码器单元输出的语音编码数据。

22、作为上述方案的改进，所述双阶段训练策略，包括：第一阶段预训练策略和第二阶段微调策略；所述基于双阶段训练策略，将语音训练数据和文字训练数据输入到多模态语音识别模型中进行训练，获得所述陆空语音识别模型，包括：

23、基于陆空通话历史数据获得语音训练数据和文字训练数据；其中，每一语音训练数据与每一文字数据一一对应；

24、在所述第一阶段预训练策略中，基于掩码语言建模策略，将文本训练数据输入到文本编码器模块中进行训练，基于跨模态掩码声学建模策略，将语音训练数据输入到跨模态语音编码器模块中进行训练，以获得初始语音识别模型；

25、在所述第二阶段微调策略中，基于预设的参数调整策略对所述初始语音识别模型进行二次训练，获得所述陆空语音识别模型。

26、作为上述方案的改进，所述基于预设的调整策略对所述初始语音识别模型的参数进行调整，获得所述陆空语音识别模型，包括：

27、获取第一语音二次训练数据；

28、将所述第一语音二次训练数据输入到停用文本编码器模块的初始语音识别模型中进行二次训练，获得所述陆空语音识别模型。

29、作为上述方案的改进，获取掩码文字数据和第二语音二次训练数据；

30、将所述掩码文字数据输入到初始语音识别模型的文本编码器模块中，以及将所述第二语音二次训练数据输入到初始语音识别模型的跨模态语音编码器模块中进行二次训练，获得所述陆空语音识别模型。

31、相应的，本发明一实施例还提供了一种陆空通话语音转换装置，包括：数据获取模块和语音识别模块；

32、所述数据获取模块，用于获取陆空通话语音数据；

33、所述语音识别模块，用于将所述陆空通话语音数据输入到陆空语音识别模型中，获得与所述陆空通话语音数据对应的文字数据；其中，所述陆空语音识别模型的训练，具体为：基于双阶段训练策略，将语音训练数据和文字训练数据输入到多模态语音识别模型中进行训练，获得所述陆空语音识别模型。

34、由上可见，本发明具有如下有益效果：

35、本发明提供了一种陆空通话语音转换方法，获取陆空通话语音数据；将所述陆空通话语音数据输入到陆空语音识别模型中，获得与所述陆空通话语音数据对应的文字数据；其中，所述陆空语音识别模型的训练，具体为：基于双阶段训练策略，将语音训练数据和文字训练数据输入到多模态语音识别模型中进行训练，获得所述陆空语音识别模型。本发明通过双阶段训练策略对多模态语音识别模型进行训练，从而通过训练获得的陆空语音识别模型，自动识别陆空通话语音数据并输出文字数据，辅助陆空通话的双方理解会话意图，提高了陆空无线电通讯的语音转换效率。

36、更优地，本发明通过模态内和模态间的交互融合多模态信息，语音识别模型可以在编码阶段实现语音和文本模态之间紧密的语义对齐，并在保持效率的同时获得优越的识别性能。设计了一种两阶段的训练策略，以有效地获得语义感知的声学表征。第一阶段聚焦对语音-文本多模态编码模块进行预训练，以增强模态间语义对齐和声学长距离上下文依赖建模。第二阶段对整个网络进行端对端微调，以缓解训练和推理阶段的输入模态变化差异代沟，以提高泛化性能。