技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音生成方法、装置、电子设备及存储介质与流程  >  正文

语音生成方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:27:22

本发明涉及医疗和语音合成的,尤其涉及一种语音生成方法、装置、电子设备及计算机可读存储介质。

背景技术:

1、人类听觉系统工作时,大脑各个功能区域会产生和语言相关的活动,这种大脑活动可以使用功能磁共振功能成像(fmri)技术来记录,通过向听众呈现自然运行的语音并同时记录听者大脑的功能核磁共振(fmri)信号,从听者的大脑核磁共振数据中可以解码出和语音信号相关的信息。这种对大脑fmri信号的实时准确语音解码的方法可以用作听众对语音的理解程度的客观度量,也可以用于医学领域中,作为疾病的辅助手段,如精神疾病、阿尔兹海默症等的诊断,还可应用于脑机接口。

2、随着深度学习的发展,基于深度学习的网络被用于从fmri信号中提取出语音相关的表征。然而,这些算法在很大程度上性能受限,其原因在于它们需要超大量的数据和难以获得的有监督标签进行训练。

技术实现思路

1、本发明提供一种语音生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于通过神经网络模型将脑信号转换成合成语音,并减少神经网络模型对训练数据的数量需求和对有监督标签的需求。

2、为实现上述目的,本发明提供一种语音生成方法,所述方法包括:

3、通过脑功能磁共振成像获取脑信号,对所述脑信号进行预处理得到脑电波形数据;

4、通过特征编码器提取所述脑电波形数据的低维度潜层特征,将所述低维度潜层特征输入自注意力模块提取上下文表征数据,通过离散化特征学习模块对所述上下文表征数据进行优化;

5、将优化后的上下文表征数据输入重构语音包络模块得到语音频谱包络数据,基于所述语音频谱包络数据生成合成语音。

6、可选地,所述对所述脑信号进行预处理得到脑电波形数据包括:

7、对所述脑信号进行下采样处理,得到预设频率的fmri信号;

8、使用多通道维纳滤波器对所述预设频率的fmri信号去除伪影;

9、对去除伪影后的fmri信号再次进行下采样,生成预设格式的脑电波形数据。

10、可选地,所述通过特征编码器提取所述脑电波形数据的低维度潜层特征的计算公式为:

11、z=encoder(x)

12、其中,z为所述特征编码器输出的低维度潜层特征,encoder()为编码器函数,x为输入的脑电波形数据。

13、可选地,所述自注意力模块包含12个编码器层,每个编码器层包含一个多头自注意力层和一个连接其它编码器层的前向反馈层,每个编码器的输出作为下一个编码器层的输入。

14、可选地,所述通过离散化特征学习模块对所述上下文表征数据进行优化包括:

15、使用离散化特征学习模块对所述上下文表征数据进行离散化获得离散化表征数据;

16、计算所述上下文表征数据和离散化表征数据的对比损失;

17、基于所述对比损失进行优化至最小值收敛以生成优化的上下文表征数据。

18、可选地,所述计算所述上下文表征数据和离散化表征数据的对比损失的公式如下:

19、

20、其中,lm为对比损失值,k为干扰项数量,包括离散化表征数据qt和k个掩蔽的离散化表征,通过最小化对比损失生成包含语音信息的上下文表征数据ct。

21、可选地,所述重构语音包络模块将负数的皮尔森相关系数作为损失函数,公式如下:

22、

23、其中,cov(y,y′)是样本重构包络y′和标签语音包络y的协方差,σy是标签语音包络y的标准差,σy'是样本重构包络y′的标准差,r为损失函数的损失值。

24、为了解决上述问题,本发明还提供一种语音生成装置,所述装置包括:

25、脑信号处理模块,用于通过脑功能磁共振成像获取脑信号,对所述脑信号进行预处理得到脑电波形数据;

26、特征提取模块,用于通过特征编码器提取所述脑电波形数据的低维度潜层特征,将所述低维度潜层特征输入自注意力模块提取上下文表征数据,通过离散化特征学习模块对所述上下文表征数据进行优化;

27、语音合成模块,用于将优化后的上下文表征数据输入重构语音包络模块得到语音频谱包络数据,基于所述语音频谱包络数据生成合成语音。

28、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

29、至少一个处理器;以及,

30、与所述至少一个处理器通信连接的存储器;其中,

31、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的语音生成方法。

32、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的语音生成方法。

33、本发明通过由特征编码器、自注意力模块和离散化特征学习模块组成的自监督模型提取脑信号的上下文表征数据,减少了对训练数据的数量需求和对有监督标签的需求,结合重构语音包络模块将上下文表征数据转换为语音频谱包络数据,实现了将脑信号转换成合成语音的技术效果。

技术特征:

1.一种语音生成方法,其特征在于,所述方法包括:

2.如权利要求1所述的语音生成方法,其特征在于,所述对所述脑信号进行预处理得到脑电波形数据包括:

3.如权利要求1所述的语音生成方法,其特征在于,所述通过特征编码器提取所述脑电波形数据的低维度潜层特征的计算公式为:

4.如权利要求1所述的语音生成方法,其特征在于,所述自注意力模块包含12个编码器层,每个编码器层包含一个多头自注意力层和一个连接其它编码器层的前向反馈层,每个编码器的输出作为下一个编码器层的输入。

5.如权利要求1所述的语音生成方法,其特征在于,所述通过离散化特征学习模块对所述上下文表征数据进行优化包括:

6.如权利要求5所述的语音生成方法,其特征在于,所述计算所述上下文表征数据和离散化表征数据的对比损失的公式如下:

7.如权利要求1所述的语音生成方法,其特征在于,所述重构语音包络模块将负数的皮尔森相关系数作为损失函数,公式如下:

8.一种语音生成装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的语音生成方法。

技术总结本发明涉及医疗和语音合成技术领域,揭露了一种语音生成方法,包括:通过脑功能磁共振成像获取脑信号,对脑信号进行预处理得到脑电波形数据;通过特征编码器提取脑电波形数据的低维度潜层特征,将低维度潜层特征输入自注意力模块提取上下文表征数据,通过离散化特征学习模块对上下文表征数据进行优化;将优化后的上下文表征数据输入重构语音包络模块得到语音频谱包络数据,基于语音频谱包络数据生成合成语音。本发明减少了对训练数据的数量需求和对有监督标签的需求,结合重构语音包络模块将上下文表征数据转换为语音频谱包络数据,实现了将脑信号转换成合成语音的技术效果。技术研发人员:赵肖英,张之勇,王健宗,程宁受保护的技术使用者:平安创科科技(北京)有限公司技术研发日:技术公布日:2024/2/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/21632.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。