电子设备、终端设备及其控制方法与流程
- 国知局
- 2024-06-21 11:55:31
本公开涉及一种电子装置、终端装置及其控制方法。更具体地,本公开涉及一种从文本生成语音波形并输出语音波形的电子装置、终端装置及其控制方法。
背景技术:
1、随着语音处理技术的发展,正在使用执行语音处理功能的电子装置。各种语音处理功能中的一种是文本到语音(tts)功能。tts功能可以指将文本转换为语音并输出语音或语音信号的功能。在示例中,tts功能可以通过使用韵律部分和声码器部分来执行语音转换功能。韵律部分可以基于文本来估计声学特征。也就是说,韵律部分可以估计合成声音的发音、节奏等。估计的声学特征可以被输入到声码器部分。声码器部分可以从输入声学特征估计语音波形。当从声码器部分估计的语音波形通过扬声器输出时,可以执行tts功能。
2、通常,可以训练韵律部分和声码器部分以从声学特征估计语音波形,但是因为声码器部分仅支持在训练中使用的声学特征,所以可以仅输出具有固定采样率的语音波形。因此,为了输出各种采样率的语音波形,可以使用单独的韵律部分和声码器部分。
3、一个电子装置可以输出各种采样率的语音信号,并且可以根据电子装置输出彼此不同采样率的语音信号。另外,连接到一个电子装置的外部扬声器的规格也可以变化。现有技术方法具有如下缺点:训练单独的韵律部分和声码器部分并且普遍使用训练的韵律部分和声码器部分,并且在一个电子装置中包括多个韵律部分和多个声码器部分。
4、因此,需要能够使用一个韵律部分和声码器部分来输出各种采样率的语音信号的技术。
技术实现思路
1、技术问题
2、提供了一种电子装置及其控制方法,该电子装置包括声码器部分,该声码器部分使用从一个韵律部分估计的相同声学特征来输出各种采样率的语音波形。另外,提供了电子装置的规格,以及输出包括与识别的规格相对应的音频特征的语音信号的电子装置及其控制方法。
3、问题的解决方案
4、根据本公开的一个方面,一种电子装置包括:输入接口;以及处理器,包括被配置为提取声学特征的韵律模块和被配置为生成语音波形的声码器模块,其中,处理器被配置为:使用输入接口接收文本输入;使用韵律模块从文本输入识别第一声学特征,其中,第一声学特征与第一采样率相对应;基于识别的第一声学特征生成与不同于第一采样率的修改采样率相对应的修改的声学特征;以及通过基于第一声学特征和修改的声学特征训练声码器模块来生成多个声码器学习模型。
5、处理器还可以被配置为通过对第一声学特征进行下采样来生成修改的声学特征。
6、处理器还可以被配置为通过基于预设的声学特征执行第一声学特征的近似来生成修改的声学特征。
7、修改的声学特征可以包括第一修改的声学特征,并且处理器还可以被配置为基于基于预设的声学特征近似的第一修改的声学特征和通过对第一声学特征进行下采样而生成的第二修改的声学特征来训练声码器模块。
8、根据本公开的一个方面,一种终端装置包括:处理器,包括韵律模块和声码器模块,声码器模块包括以不同采样率训练的多个声码器学习模型;以及扬声器,其中,处理器被配置为:识别与终端装置相关联的组件的规格;基于识别的组件的规格从多个声码器学习模型中选择声码器学习模型;使用韵律模块从文本中识别声学特征;使用选择的声码器学习模型生成与识别的声学特征相对应的语音波形;以及通过扬声器输出生成的语音波形。
9、处理器还可以被配置为基于终端装置的内部组件的规格以及确定语音波形的流式传输输出是否可能的结果来识别候选声码器学习模型。
10、处理器还可以被配置为基于与候选声码器学习模型相对应的采样率当中的最高采样率及与候选声码器学习模型相对应的声音质量当中的最高声音质量来选择声码器学习模型。
11、处理器还可以被配置为基于处理器的资源选择声码器学习模型。
12、扬声器可以包括包含在终端装置内部的内部扬声器和连接到终端装置的外部扬声器中的至少一个。
13、处理器还可以被配置为识别外部扬声器的规格,并且基于识别的外部扬声器的规格来选择声码器学习模型。
14、根据本公开的一个方面,一种电子装置的控制方法包括:接收文本输入;使用被配置为提取声学特征的韵律模块从文本输入识别第一声学特征,其中,第一声学特征与第一采样率相对应;基于识别的第一声学特征生成具有不同于第一采样率的修改的采样率的修改的声学特征;以及通过训练声码器模块来生成多个声码器学习模型,声码器模块被配置为基于第一声学特征和修改的声学特征来生成语音波形。
15、可以通过对第一声学特征进行下采样来生成修改的声学特征。
16、可以通过基于预设的声学特征执行第一声学特征的近似来生成修改的声学特征。
17、修改的声学特征可以包括第一修改的声学特征,并且生成多个声码器学习模型可以包括基于第一修改的声学特征和通过对第一声学特征进行下采样而生成的第二修改的声学特征来训练声码器模块。
18、根据本公开的一方面,一种终端装置的控制方法包括:识别与终端装置相关联的组件的规格;基于识别的组件的规格从多个声码器学习模型中选择声码器学习模型;使用韵律模块从文本中识别声学特征;使用识别的声码器学习模型生成与识别的声学特征相对应的语音波形;以及通过扬声器输出生成的语音波形。
技术特征:1.一种电子装置,包括:
2.根据权利要求1所述的电子装置,其中,所述处理器还被配置为通过对第一声学特征进行下采样来生成修改的声学特征。
3.根据权利要求1所述的电子装置,其中,所述处理器还被配置为通过基于预设的声学特征执行第一声学特征的近似来生成修改的声学特征。
4.根据权利要求3所述的电子装置,其中,所述修改的声学特征包括第一修改的声学特征,并且
5.一种终端装置,包括:
6.根据权利要求5所述的终端装置,其中,所述处理器还被配置为基于终端装置的内部组件的规格以及确定语音波形的流式传输输出是否可能的结果来识别候选声码器学习模型。
7.根据权利要求6所述的终端装置,其中,所述处理器还被配置为基于与候选声码器学习模型相对应的采样率当中的最高采样率以及与候选声码器学习模型相对应的声音质量当中的最高声音质量来选择声码器学习模型。
8.根据权利要求6所述的终端装置,其中,所述处理器还被配置为基于处理器的资源来选择声码器学习模型。
9.根据权利要求5所述的终端装置,其中,所述扬声器包括包含在终端装置内部的内部扬声器和连接到终端装置的外部扬声器中的至少一个。
10.根据权利要求9所述的终端装置,其中,所述处理器还被配置为识别外部扬声器的规格,并且基于识别的外部扬声器的规格来选择声码器学习模型。
11.一种电子装置的控制方法,所述方法包括:
12.根据权利要求11所述的方法,其中,通过对第一声学特征进行下采样来生成修改的声学特征。
13.根据权利要求11所述的方法,其中,通过基于预设的声学特征执行第一声学特征的近似来生成修改的声学特征。
14.根据权利要求13所述的方法,其中,所述修改的声学特征包括第一修改的声学特征,并且
15.一种终端装置的控制方法,所述方法包括:
技术总结公开了一种电子装置、终端装置及其控制方法。该电子装置包括:输入接口;以及处理器,包括用于提取声学特征的韵律模块和被用于生成语音波形的声码器模块。处理器:使用输入接口接收文本输入;使用韵律模块从输入文本识别第一声学特征,其中,第一声学特征与第一采样率相对应;基于识别的第一声学特征,生成与不同于第一采样率的修改的采样率相对应的修改的声学特征;以及通过基于第一声学特征和修改的声学特征训练声码器模块来生成多个声码器学习模型。技术研发人员:朴相俊,朱基岘,朴莹旻,成准植受保护的技术使用者:三星电子株式会社技术研发日:技术公布日:2024/6/2本文地址:https://www.jishuxx.com/zhuanli/20240618/24498.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表