技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频数据生成装置、音频数据生成装置的对抗学习方法、音频数据生成装置的学习方法、及声音合成处理系统与流程  >  正文

音频数据生成装置、音频数据生成装置的对抗学习方法、音频数据生成装置的学习方法、及声音合成处理系统与流程

  • 国知局
  • 2024-06-21 11:36:47

本发明涉及音频数据合成技术(例如,声音合成技术)。

背景技术:

1、近年来,使用了神经网络的声音合成技术取得进展,能够进行与自然声音几乎没有变化的高品质的声音合成。在使用了多个神经网络的声音合成技术中,为了实时地进行声音合成处理,需要高速的gpu(graphics processing unit:图形处理器)运算。但是,为了作为实际服务普及,实现不需要gpu,仅通过cpu(central processing unit:中央处理器)就能够高速且高品质地进行声音合成的技术很重要。

2、作为使用cpu实现高速且高品质的神经声码器的技术,有multi-band melgan(参照非专利文献1)和hifi-gan(参照非专利文献2)。两者都是基于对抗生成网络的方式,是使生成器和识别器同时学习的方式(对抗学习型神经声码器)。生成器进行学习以欺骗识别器,识别器进行学习以将用于学习的声音波形判定为真,将由生成器生成的声音波形判定为假,即,识别器进行学习以高精度区分真的数据和假的数据。

3、multi-band melgan的前身melgan(参照非专利文献3)是使用通过数级的上采样层和卷积层将所输入的音响特征量变换为声音波形的生成器的方式。在multi-bandmelgan中,为了使以往的melgan高速化,使用基于多速率信号处理的子带处理,将全频带的声音信号分割为多个子带信号(=多频带信号),生成器同时生成分割后的多个频带的声音波形(子带信号),并且对生成的子带信号实施零插入型上采样处理后,通过预先计算的合成滤波器(fir滤波器),从零插入型上采样处理后的信号生成全频带声音信号。在该情况下,识别器通过(1)多频带信号的短时傅立叶变换(stft:short-time fourier transform)振幅损失、(2)全频带信号的stft振幅损失,以及(3)作为识别器的识别结果的识别损失进行学习。由此,在multi-band melgan中,最后的上采样处理(例如,在使用4分割的子带信号的情况下,使数据数成为4倍的上采样处理)被简化为简单的零插入处理和fir滤波处理。其结果是,通过multi-band melgan,能够在维持melgan的声音合成精度的同时实现高速化。

4、另一方面,hifi-gan与melgan同样地,由包括数级的上采样层和卷积层的生成器和两种识别器构成。将最初的层的信道数为512的生成器称为v1生成器,将最初的层的信道数为128的生成器称为v2生成器。

5、v1生成器能够进行高音质的声音合成处理,并且通过使用多个cpu核心能够实时地生成声音(声音合成)。v2生成器无法生成v1生成器那样高精度的声音(声音合成),但即使是一个cpu核心,也能够以实时因数(生成1秒的声音所需的时间)约0.1左右进行高速的声音合成。

6、在hifi-gan中,通过导入multi-period discriminator(多周期识别器)和multi-scalediscriminator(多尺度识别器)这两个识别器,可以分别高精度地对声音波形的周期模式和连续性,以及声音波形的长期依赖性进行模型化。因此,在hifi-gan中,能够通过考虑了精练的网络(声音波形的多种特征(全局特征以及局部特征)的模型(神经网络))进行高速处理,并且可以实现比multi-band melgan更高品质的声音合成处理。

7、现有技术文献

8、非专利文献

9、非专利文献1:g.yang,s.yang,k.liu,p.fang,w.chen,and l.xie,"multi-bandmelgan:faster waveform generation for high-quality text-to-speech,"inproc.slt,jan.2021,pp.492-498.

10、非专利文献2:j.kong,j.kim,and j.bae,"hifi-gan:generative adversarialnetworks for efficient and high fidelity speech synthesis,"in proc.neurips,dec.2020,pp.17022-17033.

11、非专利文献3:k.kumar,r.kumar,t.de boissiere,l.gestin,w.z.teoh,j.sotelo,a.de bre bisson,y.bengio,and a.c courville,"melgan:generativeadversarial networks for conditional waveform synthesis,"in proc.neurips,dec.2019,pp.14910-14921.

技术实现思路

1、发明所要解决的技术问题

2、hifi-gan能够高速地生成(合成)高品质的声音,但在音质与生成速度(声音合成处理速度)之间存在折衷的关系。即,采用hifi-gan的v1生成器(v1模型)时,生成的声音是高品质的但生成速度(声音合成处理速度)不是那么快。另一方面,采用v2生成器(v2模型)时,生成速度(声音合成处理速度)与multi-band melgan同样为高速,但生成的声音的品质(音质)不是那么高,与multi-band melgan为相同程度。

3、作为用于高速地实现高品质的声音合成处理的简单的解决对策,考虑将多频带生成算法导入hifi-gan的方式,因此在预备实验中,进行了该方式的研究。然而,可知在采用将多频带生成算法导入hifi-gan的方式时,存在不能降低生成器的损失,不能很好地学习的问题。在采用将多频带生成算法导入hifi-gan的方式时不能降低生成器的损失、不能很好地学习的理由是,由于hifi-gan的两个识别器的识别能力非常高,因此在进入了多频带这样的制约的时间点能够识别为假。研究结果表明,即使使用了在multi-band melgan中使用的、仅使用了stft振幅损失的事前学习,也仍然不能很好地进行学习。

4、因此,鉴于上述技术问题,本发明的目的在于实现一种音频数据生成装置,能够在不使用能够高速处理的gpu的情况下高速地实现高品质的音频生成处理(例如,声音合成处理)。

5、用于解决技术问题的技术方案

6、用于解决上述技术问题的第一发明是一种音频数据生成装置,具备多流生成部、上采样部和卷积处理部。

7、多流生成部包括能够学习的功能部,从梅尔语谱图数据获取多个流数据。

8、上采样部通过对多个流数据的每一个进行上采样处理,获取上采样多流数据。

9、卷积处理部能够学习用于决定卷积处理的参数,通过对上采样多流数据执行卷积处理来获取音频波形数据。

10、在该音频数据生成装置中,具有通过多流生成部获取多个流数据(例如,四个数据驱动分解数据(音频波形数据))的结构,此外,通过导入能够学习的卷积处理部3,能够进行与高精度的音频数据识别装置的对抗学习。然后,通过利用该对抗学习获取的音频数据生成装置,能够进行高速且高精度的音频数据生成处理。此外,由于该音频数据生成装置具有简单的结构,所以能够在不使用能够高速处理的gpu的情况下高速地实现高品质的音频数据生成处理(例如,声音合成处理)。

11、第二发明是在第一发明中,卷积处理部进行无偏置的卷积处理。

12、由此,在该音频数据生成装置中,卷积处理部的结构能够采用与fir滤波器的结构相同的结构。

13、第三发明是在第一或第二发明中,上采样部进行零插入型上采样处理。

14、由此,在该音频数据生成装置中,可以通过简单的结构执行上采样处理,因此能够进行高速处理。

15、第四发明是一种音频数据生成装置的对抗学习方法,使用第一至第三中的任意一个发明的音频数据生成装置和音频数据识别装置来执行,

16、所述音频数据识别装置具备:

17、全局特征识别器,包括能够学习的功能部,基于音频数据的全局特征来识别音频数据的真伪;以及

18、详细特征识别器,包括能够学习的功能部,基于音频数据的详细特征来识别音频数据的真伪。音频数据生成装置的对抗学习方法包括识别步骤、损失评价步骤、生成器参数更新步骤和识别器参数更新步骤。

19、识别步骤为,将由音频数据生成装置生成的音频数据或该音频数据的正解数据输入到音频数据识别装置,由音频数据识别装置识别输入数据的真伪。

20、损失评价步骤为,基于识别步骤的结果数据,获取基于损失函数的损失评价数据。

21、生成器参数更新步骤为,基于损失评价步骤中获取的损失评价数据,更新音频数据生成装置的卷积处理部的参数以及多流生成部的能够学习的功能部的参数。

22、识别器参数更新步骤为,基于损失评价步骤中获取的损失评价数据,更新音频数据识别装置的全局特征识别器的能够学习的功能部的参数,并且更新音频数据识别装置的详细特征识别器的能够学习的功能部的参数。

23、在该音频数据生成装置的对抗学习方法中,使用具备全局特征识别器和详细特征识别器,具有强大的识别能力的音频数据识别装置来进行对抗学习,所以通过学习处理后的音频数据生成装置能够生成高精度的音频数据。另外,在该音频数据生成装置的对抗学习方法中,音频数据生成装置具备生成多个流的多流生成部和能够对上采样后的数据进行学习的卷积处理部,所以即使在使用具有强大的识别能力的音频数据识别装置进行对抗学习的情况下,也能够有效地进行学习、可靠地收敛。

24、第五发明是第一至第三发明中的任意一个发明的音频数据生成装置的学习方法,包括stft损失评价步骤和生成器参数更新步骤。

25、stft损失评价步骤通过短时傅里叶变换损失函数评价对应于输入到音频数据生成装置的梅尔语谱图的音频数据和在音频数据生成装置中根据所输入的梅尔语谱图生成的生成音频数据的损失。

26、生成器参数更新步骤基于stft损失评价步骤中的评价结果,更新音频数据生成装置的卷积处理部的参数以及多流生成部的能够学习的功能部的参数。

27、由此,在该音频数据生成装置的学习方法中,能够根据使用了短时傅立叶变换损失函数的评价值(损失值),进行音频数据生成装置的学习处理。另外,例如,可以将利用该音频数据生成装置的学习方法的学习处理作为使用了音频数据生成装置的音频数据识别装置的对抗学习的事前学习来采用。

28、第六发明是一种声音合成处理系统,具备:音频处理装置,从文本数据输出梅尔频谱数据;以及第一至第三中的任意一个发明的音频数据生成装置。

29、在该声音合成处理系统中,由于使用了可以不使用高速的gpu而使用cpu来根据梅尔语谱图生成声音波形数据的音频数据生成装置,所以能够不使用高速的gpu而使用cpu来进行高速、高精度的声音合成处理。

30、发明的效果

31、根据本发明,能够实现一种音频数据生成装置,能够在不使用能够高速处理的gpu的情况下高速地实现高品质的音频生成处理(例如,声音合成处理)。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22410.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。