技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音翻译方法、系统、装置、终端及存储介质与流程  >  正文

语音翻译方法、系统、装置、终端及存储介质与流程

  • 国知局
  • 2024-06-21 11:44:13

本公开涉及语音翻译,尤其涉及一种语音翻译方法、系统、装置、终端及存储介质。

背景技术:

1、语音翻译技术是指将属于一种语言的语音翻译为属于另一种语言的文本的技术,语音翻译技术包括级联范式和端到端范式两种范式,目前级联范式的技术比较成熟,但由于部署复杂、维护难度大、时延较大等原因,近些年端到端范式的语音翻译技术成为研究热点。

2、相关技术中,采用端到端的语音翻译模型对语音进行翻译,将源语言的语音信号翻译为目标语言的文本,但是,在一次翻译过程中,只能实时将语音信号翻译为一种目标语言的文本,该语音翻译模型存在局限性。

技术实现思路

1、为克服相关技术中存在的问题,本公开提供一种语音翻译方法、系统、装置、终端及存储介质。

2、根据本公开实施例的第一方面,提供一种语音翻译系统,所述语音翻译系统包括语音编码器和文本解码器,

3、所述语音编码器包括依次连接的卷积神经网络、注意力网络和前馈神经网络;

4、所述文本解码器包括依次连接的n个词嵌入层、解码网络和n个输出层,所述解码网络包括自注意力层、目标源注意力层和前馈神经网络,所述语音编码器的输出端与每个所述解码网络中的目标源注意力层的输入端连接,每个词嵌入层的输入端输入一种目标语言对应的参考数据,所述n个输出层与所述n个词嵌入层一一对应,每个输出层的输出一种目标语言的文本,所述n为大于1的正整数;

5、所述语音编码器用于对输入的语音信号进行编码,得到语音状态序列,所述文本解码器用于基于输入的n个参考数据,对所述语音编码器输出的语音状态序列进行解码,得到n种目标语言的文本。

6、根据本公开实施例的第二方面,提供一种语音翻译方法,所述方法包括:

7、基于m组训练样本训练初始翻译系统,得到训练后的翻译系统;所述m为n+1,所述m组训练样本包括:一组作为输入的语音样本和n组作为输出的文本样本,所述一组作为输入的语音样本属于源语言,所述n组作为输出的文本样本分别属于不同的n种目标语言,所述n为大于1的正整数;

8、将语音信号中的第一语音片段输入至所述翻译系统的语音编码器,得到所述语音编码器输出的所述第一语音片段对应的语音状态序列,所述语音信号包括多个语音片段,且所述语音信号属于所述源语言;

9、将所述第一语音片段对应的语音状态序列以及n个参考数据输入至所述翻译系统的文本解码器,分别得到所述文本解码器输出的所述第一语音片段对应的、所述n种目标语言的目标文本片段;其中,所述n个参考数据为起始符、空词语或者参考文本片段,所述参考文本片段是对所述语音信号中位于所述第一语音片段之前的第二语音片段翻译得到的,每个参考数据对应一种目标语言。

10、在一些实施例中,所述将所述第一语音片段对应的语音状态序列以及n个参考数据输入至所述翻译系统的文本解码器,分别得到所述文本解码器输出的所述第一语音片段对应的、所述n种目标语言的目标文本片段,包括:

11、将所述第一语音片段对应的语音状态序列以及所述n个参考数据输入至所述文本解码器,分别基于所述n个参考数据,从所述第一语音片段对应的语音状态序列中,依次解码得到所述n种目标语言对应的n个中间矢量,并将所述n个中间矢量分别存储至增量式解码字典中;

12、对于每种目标语言,从所述增量式解码字典中读取所述目标语言对应的中间矢量,基于所述目标语言对应的参考数据和所述中间矢量,从所述第一语音片段对应的语音状态序列中解码所述中间矢量的下一个中间矢量,直至解码得到所述最后一个中间矢量,基于解码得到的多个中间矢量输出所述目标语言的目标文本片段。

13、在一些实施例中,所述将所述n个中间矢量分别存储至增量式解码字典中,包括:

14、在解码得到任一中间矢量,且所述第一语音片段对应的语音状态序列的标志位为第一参数的情况下,将所述任一中间矢量存储至所述增量式解码字典中,所述第一参数表示所述第一语音片段对应的语音状态序列还未解码完成。

15、在一些实施例中,所述方法还包括:

16、在解码得到所述任一中间矢量,且所述标志位为第二参数的情况下,将当前解码得到的中间矢量确定为最后一个中间矢量,所述第二参数表示所述第一语音片段对应的语音状态序列已解码完成。

17、在一些实施例中,所述第一语音片段对应的语音状态序列的长度不小于预设长度,所述将语音信号中的第一语音片段输入至所述翻译系统的语音编码器,得到所述语音编码器输出的所述第一语音片段对应的语音状态序列,包括:

18、将所述语音信号中的当前语音帧输入至所述语音编码器,得到所述语音编码器输出的所述当前语音帧对应的语音状态序列;

19、确定当前未输入至所述文本解码器的语音状态序列的总长度,所述当前未输入至所述文本解码器的语音状态序列包括至少一个语音帧对应的语音状态序列;

20、在所述总长度不小于所述预设长度的情况下,将当前未输入至所述文本解码器的语音状态序列确定为所述第一语音片段对应的语音状态序列。

21、在一些实施例中,所述确定当前未输入至所述文本解码器的语音状态序列的总长度之后,所述方法还包括:

22、在所述总长度小于所述预设长度的情况下,将所述语音信号中所述当前语音帧的下一个语音帧输入至所述语音编码器,得到所述语音编码器输出的所述下一个语音帧对应的语音状态序列,直至当前未输入至所述文本解码器的语音状态序列的总长度不小于所述预设长度,将所述当前未输入至所述文本解码器的语音状态序列确定为所述第一语音片段对应的语音状态序列。

23、在一些实施例中,所述将所述语音信号中的当前语音帧输入至所述语音编码器,得到所述语音编码器输出的所述当前语音帧对应的语音状态序列,包括:

24、提取所述当前语音帧对应的语音特征;

25、在所述语音特征中添加所述当前语音帧对应的位置特征,所述位置特征表示所述当前语音帧在所述语音信号中的位置;

26、基于注意力机制,对添加有所述位置特征的语音特征进行计算,得到所述当前语音帧对应的语音状态序列。

27、在一些实施例中,所述确定当前未输入至所述文本解码器的语音状态序列的总长度,包括:

28、调用规则函数,确定当前未输入至所述文本解码器的语音状态序列的总长度,所述规则函数用于指示读操作或者写操作,所述读操作是指在所述总长度小于所述预设长度的情况下,继续获取下一个语音帧对应的语音状态序列,所述写操作是指在所述总长度不小于所述预设长度的情况下,将当前未输入至所述文本解码器的语音状态序列输入至所述文本解码器。

29、在一些实施例中,所述方法还包括:

30、在所述规则函数指示写操作的情况下,分别调用所述每种目标语言对应的预测函数,向服务器返回所述文本解码器解码得到的、所述每种目标语言的目标文本片段。

31、在一些实施例中,所述将所述第一语音片段对应的语音状态序列以及n个参考数据输入至所述翻译系统的文本解码器,分别得到所述文本解码器输出的所述第一语音片段对应的、所述n种目标语言的目标文本片段,包括:

32、调用所述文本解码器,分别对所述n个参考数据进行处理,得到n个参考数据对应的嵌入表示,基于n个嵌入表示,对所述第一语音片段对应的语音状态序列进行解码,得到所述n种目标语言的目标文本片段。

33、根据本公开实施例的第三方面,提供一种语音翻译装置,所述装置包括:

34、训练模块,被配置为基于m组训练样本训练初始翻译系统,得到训练后的翻译系统;所述m为n+1,所述m组训练样本包括:一组作为输入的语音样本和n组作为输出的文本样本,所述一组作为输入的语音样本属于源语言,所述n组作为输出的文本样本分别属于不同的n种目标语言,所述n为大于1的正整数;

35、编码模块,被配置为将语音信号中的第一语音片段输入至所述翻译系统的语音编码器,得到所述语音编码器输出的所述第一语音片段对应的语音状态序列,所述语音信号包括多个语音片段,且所述语音信号属于所述源语言;

36、解码模块,被配置为将所述第一语音片段对应的语音状态序列以及n个参考数据输入至所述文本解码器,分别得到所述文本解码器输出的所述第一语音片段对应的、所述n种目标语言的目标文本片段;其中,所述n个参考数据为起始符、空词语或者参考文本片段,所述参考文本片段是对所述语音信号中位于所述第一语音片段之前的第二语音片段翻译得到的,每个参考数据对应一种目标语言。

37、在一些实施例中,所述解码模块,包括:

38、第一解码单元,被配置为将所述第一语音片段对应的语音状态序列以及所述n个参考数据输入至所述文本解码器,分别基于所述n个参考数据,从所述第一语音片段对应的语音状态序列中,依次解码得到所述n种目标语言对应的n个中间矢量,并将所述n个中间矢量分别存储至增量式解码字典中;

39、第二解码单元,被配置为对于每种目标语言,从所述增量式解码字典中读取所述目标语言对应的中间矢量,基于所述目标语言对应的参考数据和所述中间矢量,从所述第一语音片段对应的语音状态序列中解码所述中间矢量的下一个中间矢量,直至解码得到所述最后一个中间矢量,基于解码得到的多个中间矢量输出所述目标语言的目标文本片段。

40、在一些实施例中,所述第一解码单元,被配置为在解码得到任一中间矢量,且所述第一语音片段对应的语音状态序列的标志位为第一参数的情况下,将所述任一中间矢量存储至所述增量式解码字典中,所述第一参数表示所述第一语音片段对应的语音状态序列还未解码完成。

41、在一些实施例中,所述第二解码单元,还被配置为在解码得到所述任一中间矢量,且所述标志位为第二参数的情况下,将当前解码得到的中间矢量确定为最后一个中间矢量,所述第二参数表示所述第一语音片段对应的语音状态序列已解码完成。

42、在一些实施例中,所述第一语音片段对应的语音状态序列的长度不小于预设长度,所述编码模块,包括:

43、编码单元,被配置为将所述语音信号中的当前语音帧输入至所述语音编码器,得到所述语音编码器输出的所述当前语音帧对应的语音状态序列;

44、长度确定单元,被配置为确定当前未输入至所述文本解码器的语音状态序列的总长度,所述当前未输入至所述文本解码器的语音状态序列包括至少一个语音帧对应的语音状态序列;

45、序列确定单元,被配置为在所述总长度不小于所述预设长度的情况下,将当前未输入至所述文本解码器的语音状态序列确定为所述第一语音片段对应的语音状态序列。

46、在一些实施例中,所述编码模块,被配置为:

47、在所述总长度小于所述预设长度的情况下,将所述语音信号中所述当前语音帧的下一个语音帧输入至所述语音编码器,得到所述语音编码器输出的所述下一个语音帧对应的语音状态序列,直至当前未输入至所述文本解码器的语音状态序列的总长度不小于所述预设长度,将所述当前未输入至所述文本解码器的语音状态序列确定为所述第一语音片段对应的语音状态序列。

48、在一些实施例中,所述解码单元,被配置为:

49、提取所述当前语音帧对应的语音特征;

50、在所述语音特征中添加所述当前语音帧对应的位置特征,所述位置特征表示所述当前语音帧在所述语音信号中的位置;

51、基于注意力机制,对添加有所述位置特征的语音特征进行计算,得到所述当前语音帧对应的语音状态序列。

52、在一些实施例中,所述长度确定单元,被配置为调用规则函数,确定当前未输入至所述文本解码器的语音状态序列的总长度,所述规则函数用于指示读操作或者写操作,所述读操作是指在所述总长度小于所述预设长度的情况下,继续获取下一个语音帧对应的语音状态序列,所述写操作是指在所述总长度不小于所述预设长度的情况下,将当前未输入至所述文本解码器的语音状态序列输入至所述文本解码器。

53、在一些实施例中,所述装置还包括:

54、文本发送模块,被配置为在所述规则函数指示写操作的情况下,分别调用所述每种目标语言对应的预测函数,向服务器返回所述文本解码器解码得到的、所述每种目标语言的目标文本片段。

55、在一些实施例中,所述解码模块,被配置为调用所述文本解码器,分别对所述n个参考数据进行处理,得到n个参考数据对应的嵌入表示,基于n个嵌入表示,对所述第一语音片段对应的语音状态序列进行解码,得到所述n种目标语言的目标文本片段。

56、根据本公开实施例的第四方面,提供一种终端,包括:

57、处理器;

58、用于存储处理器可执行指令的存储器;

59、其中,所述处理器被配置为执行如本公开实施例的第二方面中任一项所述的语音翻译方法。

60、根据本公开实施例的第五方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行如本公开实施例的第二方面中任一项所述的语音翻译方法。

61、采用本公开的上述方法,具有以下有益效果:

62、本公开实施例提供的语音翻译方案,采用包括语音编码器和文本解码器的翻译系统对语音信号进行翻译,首先采用语音编码器对输入的源语言的语音信号进行一次编码,得到对应的语音状态序列,然后再采用文本解码器,基于输入的语音状态序列以及n个参考数据,翻译出n种目标语言的文本,实现了一种源语言的语音信号翻译为多种目标语言的文本,且由于利用了语言之间的知识共性,只需对语音信号进行一次编码,还节约了语音翻译成本。

63、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23224.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。