技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本转换音频的方法、装置及计算机设备与流程  >  正文

文本转换音频的方法、装置及计算机设备与流程

  • 国知局
  • 2024-06-21 10:44:11

本申请属于计算机领域,涉及声音处理技术,尤其涉及一种文本转换音频的方法、装置及计算机设备。

背景技术:

1、语音合成系统通常用于语音导航、文字播报、小说阅读、虚拟直播等场景中,用户可以从播放列表中选择喜欢的声音(比如,明星的声音)作为播放音。目前,语音合成系统的语音还原效果较差,无法贴合用户实际讲话的节奏,且语音合成系统的功能较单一,无法满足用户的需求。

技术实现思路

1、本申请实施例提供一种文本转换音频的方法、装置及计算机设备,能够解决个性化语音合成的还原效果较差以及语音合成的功能单一的技术问题。

2、本申请实施例第一方面提供一种文本转换音频的方法,包括:获取待处理文本;若待处理文本包含第一类标签,将第一类标签所标记的语句输入声学模型与声码器中,得到第一音频;对第一音频进行语速处理,得到第一目标音频;若待处理文本包含第二类标签,确定第二类标签对应的曲目的人声数据;将人声数据输入预设的声音转换模型,得到将人声数据替换为目标用户的声音数据的第二目标音频,声音转换模型根据目标用户录制的声音样本训练得到;基于根据第一类标签和/或第二类标签在待处理文本中的位置确定的播放顺序、第一目标音频和/或第二目标音频,生成待处理文本对应的第三目标音频。

3、在本申请的一些可选实施例中,对第一音频进行语速处理,得到第一目标音频,包括:将第一音频分割成多个音频帧;提取每一音频帧的音频特征,基于音频特征计算相邻帧之间的相似度;基于第一音频的语速标记确定叠加操作的帧数;基于帧数,对大于预设阈值的相似度对应的相邻帧执行叠加操作,得到叠加音频;对叠加音频进行重建操作,得到第一目标音频。

4、在本申请的一些可选实施例中,对声音转换模型进行训练,包括:获取目标用户录制的声音样本;将声音样本分割成多份音频数据;提取每份音频数据对应的声音特征以及获取每份音频数据对应的文本数据;利用声音特征与文本数据对初始声音转换模型进行多次迭代训练,直至计算得到的初始声音转换模型的第一损失函数小于预设指标,将初始声音转换模型确定为声音转换模型。

5、在本申请的一些可选实施例中,第二类标签包括原唱标签与翻唱标签,若待处理文本包含第二类标签,确定第二类标签对应的曲目的人声数据,包括:若待处理文本包含原唱标签,从预设的歌曲数据库中确定原唱标签对应的曲目的原唱数据,将原唱数据作为人声数据;或,若待处理文本包含翻唱标签,将翻唱标签对应的曲目输入预设的歌声合成模型,得到翻唱音频文件,将翻唱音频文件作为人声数据。

6、在本申请的一些可选实施例中,包括:获取目标用户的歌声样本;将歌声样本划分为多份歌声音频;提取每份歌声音频的歌声音频特征,以及获取每份歌声音频对应的歌词文本;利用歌声音频特征与歌词文本对初始歌声合成模型进行多次迭代训练,直至计算得到的初始歌声合成模型的第二损失函数小于预设指标,将初始歌声合成模型确定为歌声合成模型。

7、在本申请的一些可选实施例中,待处理文本还包括第三类标签,包括:若待处理文本包含第三类标签,将基于第三类标签得到的多个切分语句输入声学模型与声码器,得到多个第二音频;获取第三类标签所标记的语气词音频;基于多个切分语句与语气词音频在对应语句中的位置,确定多个第二音频以及语气词音频的拼接顺序;基于拼接顺序,拼接语气词音频与多个第二音频得到拼接音频。

8、在本申请的一些可选实施例中,方法还包括:基于第一类标签、第二类标签和第三类标签中的一个或者多个标签在待处理文本中的位置,确定播放顺序;基于第一目标音频、第二目标音频和拼接音频中的一个或多个音频以及播放顺序,生成待处理文本对应的第三目标音频。

9、在本申请的一些可选实施例中,待处理文本还包括第四类标签,方法还包括:若待处理文本包含第四类标签,获取第四类标签所标记的停顿时长;获取待处理文本的语句切分符号;基于语句切分符号与停顿时长,确定第三目标音频语句之间的停顿位置与目标停顿时长。

10、本申请实施例还提供了一种文本转换音频的装置,包括:获取模块,用于获取待处理文本;第一识别模块,用于若所述待处理文本包含第一类标签,将所述第一类标签所标记的语句输入声学模型与声码器中,得到第一音频;语速处理模块,用于对所述第一音频进行语速处理,得到第一目标音频;第二识别模块,用于若所述待处理文本包含第二类标签,确定所述第二类标签对应的曲目的人声数据;声音转换模块,用于将所述人声数据输入预设的声音转换模型,得到将所述人声数据替换为目标用户的声音数据的第二目标音频,所述声音转换模型根据所述目标用户录制的声音样本训练得到;拼接模块,用于基于根据所述第一类标签和/或所述第二类标签在所述待处理文本中的位置确定的播放顺序、所述第一目标音频和/或所述第二目标音频,生成所述待处理文本对应的第三目标音频。

11、本申请实施例还提供了一种计算机设备,包括:存储器,及处理器,处理器执行存储器中存储的计算机可读指令,实现的文本转换音频的方法。

12、本申请实施例提供的文本转换音频的方法中,若待处理文本包含第一类标签,将第一类标签所标记的语句输入声学模型与声码器中,得到第一音频,对第一音频进行语速处理,得到第一目标音频,对第一音频进行语速处理,使得第一目标音频更接近用户讲话的节奏,第一目标音频的效果更加自然。若待处理文本包含第二类标签,确定第二类标签对应的曲目的人声数据;将人声数据输入预设的声音转换模型,得到将人声数据替换为目标用户的声音数据的第二目标音频,声音转换模型根据目标用户录制的声音样本训练得到,通过将人声数据替换目标用户的声音数据,能够满足用户的个性化需求。基于根据第一类标签和/或第二类标签在待处理文本中的位置确定的播放顺序、第一目标音频和/或第二目标音频,生成待处理文本对应的第三目标音频。本申请通过识别待处理文本中的第一类标签和/或第二类标签,一方面可以通过标签的类型确定对待处理文本的处理方式,提高处理效率,另一方面可以通过语速控制以及将曲目的人声数据替换为目标用户的声音数据,在一定程度上也可以满足用户的个性化需求,同时也能让待处理文本转换为第三目标音频时,更接近用户的说话节奏,提高用户体验以及第三目标音频的音频效果。

技术特征:

1.一种文本转换音频的方法,其特征在于,包括:

2.根据权利要求1所述的文本转换音频的方法,其特征在于,所述对所述第一音频进行语速处理,得到第一目标音频,包括:

3.根据权利要求1所述的文本转换音频的方法,其特征在于,对所述声音转换模型进行训练,包括:

4.根据权利要求1所述的文本转换音频的方法,其特征在于,所述第二类标签包括原唱标签与翻唱标签,所述若所述待处理文本包含第二类标签,确定所述第二类标签对应的曲目的人声数据,包括:

5.根据权利要求4所述的文本转换音频的方法,其特征在于,包括:

6.根据权利要求1所述的文本转换音频的方法,其特征在于,所述待处理文本还包括第三类标签,包括:

7.根据权利要求6所述的文本转换音频的方法,其特征在于,所述方法还包括:

8.根据权利要求1所述的文本转换音频的方法,其特征在于,所述待处理文本还包括第四类标签,所述方法还包括:

9.一种文本转换音频的装置,其特征在于,包括:

10.一种计算机设备,其特征在于,包括:

技术总结本申请实施例提供一种文本转换音频的方法、装置及计算机设备,所述方法包括:获取待处理文本;若待处理文本包含第一类标签,将第一类标签所标记的语句输入声学模型与声码器中,得到第一音频;对第一音频进行语速处理,得到第一目标音频;若待处理文本包含第二类标签,确定第二类标签对应的曲目的人声数据;将人声数据输入预设的声音转换模型,得到将人声数据替换为目标用户的声音数据的第二目标音频,声音转换模型根据目标用户录制的声音样本训练得到;基于根据第一类标签和/或第二类标签在待处理文本中的位置确定的播放顺序、第一目标音频和/或第二目标音频,生成待处理文本对应的第三目标音频。本申请能够有效地满足用户的个性化需求。技术研发人员:苏嘉昌,林绪虹,韦军富,杨凯翔受保护的技术使用者:广州欢聚时代信息科技有限公司技术研发日:技术公布日:2024/2/1

本文地址:https://www.jishuxx.com/zhuanli/20240618/21427.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。