技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本特征的上采样方法、电子设备及存储介质与流程  >  正文

文本特征的上采样方法、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:50:38

本发明涉及语音合成,具体涉及文本特征的上采样方法、电子设备及存储介质。

背景技术:

1、在语音合成声学模型对语音进行处理时,会碰到文本特征(如音素)序列和声学特征(如梅尔谱)序列长度不匹配的问题。针对这一问题,一些算法方案是通过先预测文本特征的时长,再进行文本特征上采样来解决。如图1所示,在具体处理中,一般是将文本特征序列通过一个编码器编码成隐状态向量序列,再对每个隐状态向量重复一定的次数,重复后的序列长度和声学特征序列长度保持一致。

2、由于在语音信号处理领域对应音素边界的划分不准,一般会将语音信号划分成固定长度的帧来处理,但没有哪一种分帧方法能保证每一个音素的边界刚好落在语音帧的边界。如图2所示,某些语音帧会有音素重叠(即同时包含两个音素的语音片断),某些音素会有发音缺失。因此,在音素边界划分不准的情况下,这种简单重复的上采样方法会导致一定程度上的发音不连续、机械音等问题。

技术实现思路

1、有鉴于此,本发明实施例提供了一种文本特征的上采样方法、电子设备及存储介质,以解决由于简单重复上采样导致的语音合成效果不佳的问题。

2、根据第一方面,本发明实施例提供了一种文本特征的上采样方法,包括:

3、获取当前文本特征以及所述当前文本特征的相邻文本特征;

4、对所述当前文本特征以及所述相邻文本特征的时长进行预测,确定所述当前文本特征以及所述相邻文本特征的语音帧数,以确定所述当前文本特征的上采样帧数;

5、基于所述当前文本特征与所述相邻文本特征的前后位置关系,确定所述当前文本特征的第一权重以及所述相邻文本特征的第二权重;

6、根据所述第一权重以及所述第二权重,对所述当前文本特征以及所述相邻文本特征进行上采样,确定所述上采样帧数的采样结果。

7、本发明实施例提供的文本特征的上采样方法,利用当前文本特征与相邻文本特征动态地确定出各自对应的第一权重以及第二权重,再利用第一权重与第二权重对当前文本特征以及相邻文本特征进行上采样,使得最终得到的采样结果并不是简单的重复采样,而是保留了当前文本特征与相邻文本特征,从而使上采样结果对发音描述更合理,也使得上采样更聚焦于两个相邻语音帧的区域,能够保证后续语音合成的效果。

8、根据第二方面,本发明实施例提供了一种文本特征的上采样装置,包括:

9、获取模块,用于获取当前文本特征以及所述当前文本特征的相邻文本特征;

10、预测模块,用于对所述当前文本特征以及所述相邻文本特征的时长进行预测,确定所述当前文本特征以及所述相邻文本特征的语音帧数,以确定所述当前文本特征的上采样帧数;

11、确定模块,用于基于所述当前文本特征与所述相邻文本特征的前后位置关系,确定所述当前文本特征的第一权重以及所述相邻文本特征的第二权重;

12、上采样模块,用于根据所述第一权重以及所述第二权重,对所述当前文本特征以及所述相邻文本特征进行上采样,确定所述上采样帧数的采样结果。

13、根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的文本特征的上采样方法。

14、根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的文本特征的上采样方法。

15、需要说明的是,本发明实施例提供的文本特征的上采样装置、电子设备及计算机可读存储介质的相应有益效果,请参见上文文本特征的上采样方法的对应有益效果的描述,在此不再赘述。

技术特征:

1.一种文本特征的上采样方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对基于所述当前文本特征与所述相邻文本特征的前后位置关系,确定所述当前文本特征的第一权重以及所述相邻文本特征的第二权重,包括:

3.根据权利要求1所述的方法,其特征在于,所述对基于所述当前文本特征与所述相邻文本特征的前后位置关系,确定所述当前文本特征的第一权重以及所述相邻文本特征的第二权重,包括:

4.根据权利要求3所述的方法,其特征在于,所述获取所述当前文本特征的权重系数,包括:

5.根据权利要求3所述的方法,其特征在于,所述权重系数包括调整权重系数,所述基于所述主权重项与所述第一系数的乘积,确定所述第一权重,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述第一权重以及所述第二权重,对所述当前文本特征以及所述相邻文本特征进行上采样,确定所述上采样帧数的采样结果,包括:

7.根据权利要求6所述的方法,其特征在于,所述将所述上采样帧数划分为首段、中间段以及尾段,包括:

8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-8中任一项所述的文本特征的上采样方法。

技术总结本发明涉及语音合成技术领域,具体涉及文本特征的上采样方法、电子设备及存储介质,该方法包括获取当前文本特征以及当前文本特征的相邻文本特征;对当前文本特征以及相邻文本特征的时长进行预测,确定当前文本特征以及相邻文本特征的语音帧数,以确定当前文本特征的上采样帧数;基于当前文本特征与相邻文本特征的前后位置关系,确定当前文本特征的第一权重以及相邻文本特征的第二权重;根据第一权重以及第二权重,对当前文本特征以及相邻文本特征进行上采样,确定上采样帧数的采样结果。利用第一权重与第二权重对当前文本特征以及相邻文本特征进行上采样,使得最终得到的采样结果保留了当前文本特征与相邻文本特征,能够保证后续语音合成的效果。技术研发人员:雷延强受保护的技术使用者:广州视源电子科技股份有限公司技术研发日:技术公布日:2024/5/10

本文地址:https://www.jishuxx.com/zhuanli/20240618/23914.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。