口音转换方法、装置、介质及电子设备与流程
- 国知局
- 2024-06-21 10:41:56
本公开涉及语音处理,具体地,涉及一种口音转换方法、装置、介质及电子设备。
背景技术:
1、目前,在线英语口语练习的需求变得越来越大,用户在练习口语发音的时,需要明确自己距离标准口音的发音差异。现有的相关应用程序中,一般是通过将一个或多个预先设置好的标准发音人发音作为参照,以此来辅助评价用户的发音,但是标准发音人与用户的声音之间存在一定差异,在指导发音时无法贴合用户本身的声音。因此,如何将用户自身音色的声音通过标准口音进行发音,是亟待解决的问题。
技术实现思路
1、提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、第一方面,本公开提供一种口音转换方法,所述方法包括:获取待处理语音;提取所述待处理语音中的第一声学特征,所述第一声学特征为与所述待处理语音内容相关且与说话人无关的声学特征;根据所述第一声学特征和目标口音对应的第一说话人表征确定第二声学特征;根据所述待处理语音提取所述待处理语音对应的第二说话人表征,并根据所述第二声学特征和所述第二说话人表征确定具有与所述待处理语音对应的音色、且具有所述目标口音的目标语音;其中,所述第二声学特征为与所述目标语音对应的、具有所述目标口音、且不包括音色信息的声学特征。
3、第二方面,本公开提供一种口音转换装置,所述装置包括:获取模块,用于获取待处理语音;提取模块,用于提取所述待处理语音中的第一声学特征,所述第一声学特征为与所述待处理语音内容相关且与说话人无关的声学特征;第一确定模块,用于根据所述第一声学特征和目标口音对应的第一说话人表征确定第二声学特征;第二确定模块,用于根据所述待处理语音提取所述待处理语音对应的第二说话人表征,并根据所述第二声学特征和所述第二说话人表征确定具有与所述待处理语音对应的音色、且具有所述目标口音的目标语音;其中,所述第二声学特征为与所述目标语音对应的、具有所述目标口音、且不包括音色信息的声学特征。
4、第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面中所述方法的步骤。
5、第四方面,本公开提供一种电子设备,包括:存储装置,其上存储有至少一个计算机程序;至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现第一方面中所述方法的步骤。
6、通过上述技术方案,在需要对语音进行口音转换时,能够先从待处理语音中提取与说话人无关的第一声学特征,以剥离语音中所有与说话人有关的信息例如口音、音色等,只留下与语音内容本身相关的信息,例如语调、时域分布、重音、音高、重读、停顿等韵律特征以及句法、语篇结构、信息结构等,然后再根据目标口音对应说话人的第一说话人表征将与口音相关的特征信息补入该第一声学特征中以得到带有目标口音信息的第二声学特征,最后,为了保证目标语音中仍保留待处理语音中说话人的音色,会再通过待处理语音中提取得到的第二说话人表征将音色相关的特征信息补入该第二声学特征中,以最终得到既具有与所述待处理语音对应的音色、而且还具有所述目标口音的目标语音。这样,不仅能够实现对语音进行口音转换的效果,而且还能保证转换后的语音音色保持不变,从而使得口音转换所得到的目标语音与用户本身的声音相似度更高,提高了用户的口音转换体验,并且,本公开中的转换链路较短,从而使得转换效率得到的很大提高,中间信息的损失也能得到控制,使得目标语音与待处理语音之间的信息差较小,进而使得最终目标语音的质量得到提升。
7、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
技术特征:1.一种口音转换方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述提取所述待处理语音中的第一声学特征包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一声学特征和目标口音对应的第一说话人表征确定第二声学特征包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述待处理语音提取所述待处理语音对应的第二说话人表征包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述第二声学特征和所述第二说话人表征确定具有与所述待处理语音对应的音色、且具有所述目标口音的目标语音包括:
6.根据权利要求5所述的方法,其特征在于,所述第三声学特征包括对应于所述目标口音的梅尔频谱;
7.根据权利要求1-6中任一权利要求所述的方法,其特征在于,所述第一声学特征包括语音后验图特征ppg,所述第二声学特征包括瓶颈层特征bn。
8.一种口音转换装置,其特征在于,所述装置包括:
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
技术总结本公开涉及一种口音转换方法、装置、介质及电子设备,包括:提取待处理语音中的第一声学特征,第一声学特征为与待处理语音内容相关且与说话人无关的声学特征;根据第一声学特征和目标口音对应的第一说话人表征确定第二声学特征;根据待处理语音提取待处理语音对应的第二说话人表征,并根据第二声学特征和第二说话人表征确定具有与待处理语音对应的音色、且具有目标口音的目标语音;第二声学特征为与目标语音对应的、具有目标口音、且不包括音色信息的声学特征。这样,不仅能够进行口音的转换,而且还能保证音色不变,提高了用户体验,且转换链路较短,提高了转换效率,减少了中间信息的损失,进而减少了信息差,提高了目标语音的质量。技术研发人员:汤本来,李忠豪,马泽君受保护的技术使用者:北京有竹居网络技术有限公司技术研发日:技术公布日:2024/2/1本文地址:https://www.jishuxx.com/zhuanli/20240618/21294.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表