技术新讯 > 乐器声学设备的制造及制作,分析技术 > 波形信号生成系统、波形信号生成方法及程序与流程 > 正文

波形信号生成系统、波形信号生成方法及程序与流程

国知局
2024-09-19 14:50:07

本发明涉及波形信号生成系统、波形信号生成方法及程序。

背景技术：

1、在交流中，声音是最常用的媒体信息之一。因此，文本声音合成及声音变换的研究以交流的顺畅化为目的而活跃地进行。作为文本声音合成及声音变换的过程，经常使用以下所示的第一阶段及第二阶段的各过程。以下，将表示输入信号和目标波形信号之间的中间表现的信号称为“中间表现信号”。

2、第一阶段的过程：

3、在声音变换中，中间表现估计装置生成与输入的波形信号(输入波形信号)相关的中间表现。中间表现估计装置基于与输入的波形信号相关的中间表现，来估计与作为恢复目标的波形信号(以下称为“目标波形信号”)相关的中间表现信号。另外，在文本声音合成中，代替向中间表现估计装置输入波形信号，而向中间表现估计装置输入文本数据。

4、在上述第一阶段的过程中，通过对输入的波形信号应用短时间傅里叶变换或小波变换等基于预先确定的基函数的时间频率变换而得到的特征量、或者通过对该特征量进行线性变换而得到的特征量经常被用作与目标波形信号相关的中间表现信号。该特征量例如是谱图或梅尔谱图。通过对谱图或梅尔谱图进一步傅里叶变换而得到的特征量(倒谱或梅尔倒谱)也经常被用作中间表现信号。

5、另外，通过对输入的波形信号或得到的特征量应用规定函数而进一步得到的特征量也经常被用作中间表现信号。该规定函数例如是神经网络函数。

6、第二阶段的过程：

7、波形信号生成装置基于与目标波形信号相关的中间表现信号，来生成目标波形信号。

8、作为实现上述第二阶段的过程的方法，使用神经网络的方法备受关注。例如，在基于对抗式生成网络(gan：generativeadversarialnetworks)的方法中，一维卷积神经网络使用对抗式学习的方法来学习。波形信号生成装置通过向具有学习完毕的神经网络的模型(学习完毕模型)输入梅尔谱图，来生成目标波形信号(参照非专利文献1)。

9、具有高性能gpu(graphics processing unit)和大容量存储器的波形信号生成装置使用这样的学习完毕模型，在与发声速度相比足够短的时间内(实时地)生成目标波形信号。另外，在这样的学习完毕模型中，经常使用深度神经网络(dnn：deep neural network)。深度神经网络等神经网络具有许多学习参数。

10、现有技术文献

11、非专利文献

12、非专利文献1：jungil kong,jaehyeon kim,jaekyoung bae,"hifi-gan:generative adversarial networks for efficient and high fidelity speechsynthesis",in adv.neurips,2020。

技术实现思路

1、发明要解决的课题

2、然而，具有许多学习参数的学习完毕模型(轻量化或未高速化的学习完毕模型)无法在不具有大容量存储器的波形信号生成装置中动作。另外，需要许多运算处理的学习完毕模型无法在不具有高速的运算处理功能的波形信号生成装置中动作。因此，在使用具有神经网络的学习完毕模型从中间表现信号生成目标波形信号的情况下，预先使学习完毕模型轻量化或高速化是优选的。

3、鉴于上述情况，本发明的目的在于提供一种波形信号生成系统、波形信号生成方法及程序，其能够在使用具有神经网络的学习完毕模型从中间表现信号生成目标波形信号的情况下，预先使学习完毕模型轻量化或高速化。

4、用于解决课题的方案

5、本发明的一个方式是一种波形信号生成系统，其中，具备：神经网络函数部，使用神经网络函数来变更中间表现信号的时间分量或特征量分量，由此，从所述中间表现信号生成目标波形信号，所述中间表现信号表示输入信号与所述目标波形信号之间的中间表现；以及非神经网络函数部，使用表示所述中间表现信号的所述时间分量和所述特征量分量的关系的非神经网络函数，来代行从所述中间表现信号生成所述目标波形信号的处理的至少一部分。

6、本发明的一个方式是一种由上述波形信号生成系统执行的波形信号生成方法，其中，所述波形信号生成方法包括：使用神经网络函数来变更中间表现信号的时间分量或特征量分量由此从所述中间表现信号生成目标波形信号的步骤，所述中间表现信号表示输入信号与所述目标波形信号之间的中间表现；以及使用表示所述中间表现信号的所述时间分量和所述特征量分量的关系的非神经网络函数来代行从所述中间表现信号生成所述目标波形信号的处理的至少一部分的步骤。

7、本发明的一个方式是一种用于使计算机作为上述波形信号生成系统发挥功能的程序。

8、发明效果

9、根据本发明，能够在使用具有神经网络的学习完毕模型从中间表现信号生成目标波形信号的情况下，预先使学习完毕模型轻量化或高速化。

技术特征：

1.一种波形信号生成系统，其中，具备：

2.根据权利要求1所述的波形信号生成系统，其中，所述神经网络函数部使用所述神经网络函数对所述中间表现信号的时间分量进行上采样。

3.根据权利要求1或2所述的波形信号生成系统，其中，所述神经网络函数部是卷积神经网络。

4.根据权利要求1至3中任一项所述的波形信号生成系统，其中，所述非神经网络函数部从由所述神经网络函数部变更了所述时间分量的所述中间表现信号生成所述目标波形信号。

5.根据权利要求1至4中任一项所述的波形信号生成系统，其中，所述非神经网络函数部对所述中间表现信号执行逆短时间傅里叶变换、逆小波变换、或基于预先确定的基函数的频率时间变换。

6.一种由波形信号生成系统执行的波形信号生成方法，其中，所述波形信号生成方法包括：

7.一种用于使计算机作为根据权利要求1至5中任一项所述的波形信号生成系统发挥功能的程序。

技术总结波形信号生成系统具备：神经网络函数部，使用神经网络函数来变更表示输入信号和目标波形信号之间的中间表现的中间表现信号的时间分量或特征量分量，由此，从所述中间表现信号生成所述目标波形信号；以及非神经网络函数部，使用表示中间表现信号的时间分量和特征量分量的关系的非神经网络函数来代行从中间表现信号生成目标波形信号的处理的至少一部分。神经网络函数部使用神经网络函数对中间表现信号的时间分量进行上采样。技术研发人员：金子卓弘,田中宏,龟冈弘和,关翔悟受保护的技术使用者：日本电信电话株式会社技术研发日：技术公布日：2024/9/17