技术新讯 > 乐器声学设备的制造及制作,分析技术 > 电子设备及其控制方法与流程  >  正文

电子设备及其控制方法与流程

  • 国知局
  • 2024-06-21 11:29:16

本公开总体涉及一种电子设备及其控制方法。更具体地,本公开涉及一种使用人工智能模型执行语音合成的电子设备及其控制方法。

背景技术:

1、随着电子技术的发展,各种类型的设备已经被开发和分布,特别是执行语音合成的设备被推广。

2、语音合成是一种被称为文本到语音(tts)的从文本实现人声的技术,近年来,使用神经网络模型的神经tts正在被开发。

3、例如,神经tts可以包括韵律神经网络模型和神经声码器神经网络模型。韵律神经网络模型可以接收文本并输出声学特征信息,并且神经声码器神经网络模型可以接收声学特征信息并输出语音数据(波形)。

4、在tts模型中,韵律神经网络模型具有用于学习的说话者的语音特征。换言之,韵律神经网络模型的输出可以是声学特征信息,其包括特定说话者的语音特征和特定说话者的话语速度特征。

5、在相关技术中,随着人工智能模型的发展,提出了一种个性化tts模型,个性化tts模型输出包括电子设备的用户的语音特征的语音数据。个性化tts模型是基于个人用户的话语语音数据训练的tts模型,并且输出包括在学习中使用的用户的语音特征和话语速度特征的语音数据。

6、在个性化tts模型的训练中使用的个人用户的话语语音数据的声音质量通常低于在通用tts模型训练中使用数据的声音质量,并且因此,可能出现关于从个性化tts模式输出的语音数据的话语速度的问题。

技术实现思路

1、技术问题

2、提供了一种用于文本到语音(tts)模型的自适应话语速度调节方法。

3、技术方案

4、根据示例性实施例的一方面,用于控制电子设备的方法可以包括:获得文本;通过将文本输入到第一神经网络模型中,获得与文本相对应的声学特征信息以及其中声学特征信息的每帧与包括在文本中的每个音素匹配的对准信息;基于对准信息识别声学特征信息的话语速度;基于文本和声学特征信息识别声学特征信息中包括的每个音素的参考话语速度;基于声学特征信息的话语速度和每个音素的参考话语速度获得话语速度调节信息;以及基于话语速度调节信息,通过将声学特征信息输入到第二神经网络模型中获得与文本相对应的语音数据。

5、识别声学特征信息的话语速度可以包括基于对准信息识别与包括在声学特性信息中的第一音素相对应的话语速度。识别每个音素的参考话语速度可以包括:基于声学特征信息识别包括在声学特征信息中的第一音素,以及基于文本识别与第一音素相对应的参考话语速度。

6、识别与第一音素相对应的参考话语速度可以包括:基于文本获得与第一音素相对应的第一参考话语速度,以及获得用于训练第一神经网络模型的样本数据。

7、识别与第一音素相对应的参考话语速度可以包括:获得用于训练第一神经网络模型的样本数据的评估信息,以及基于与第一音素相对应的第一参考话语速度和评估信息识别与第一音素相对应的第二参考话语速度。评估信息可以由电子设备的用户获得。

8、该方法可以包括基于第一参考话语速度和第二参考话语速度中的一个识别与第一音素相对应的参考话语速度。

9、识别与第一音素相对应的话语速度可以包括:基于声学特征信息中与第一音素相对应的话语速度和与在第一音素之前的至少一个音素相对应的话语速度,识别与第一音素相对应的平均话语速度。获得话语速度调节信息可以包括基于与第一音素相对应的平均话语速度和与第一音素相对应的参考话语速度获得与第一音素相对应的话语速度调节信息。

10、第二神经网络模型可以包括编码器,被配置为接收声学特征信息的输入;以及解码器,被配置为从编码器接收向量信息输出的输入。获得语音数据可以包括:当声学特征信息中与第一音素相对应的至少一帧被输入到第二神经网络模型时,基于与第一音素相对应的话语速度调节信息识别包括在第二神经网模型中的解码器的循环数;以及基于与第一音素相对应的至少一帧向第二神经网络模型的输入,获得与第一音素相对应的至少一帧和多条第一语音数据,多条第一语言数据与循环数相对应。第一语音数据包括与第一音素相对应的语音数据。

11、基于被输入到第二神经网络模型的声学特征信息中与第一音素相对应的至少一帧中的一个,可以获得多条第二语音数据,第二语音数据与循环数相对应。

12、解码器可以被配置为基于其中偏移大小是第一时间间隔的声学特征信息获得第一频率的语音数据。基于作为参考值的话语速度调节信息的值,将包括在声学特征信息中的一帧输入到第二神经网络模型,并且可以获得多条第二语音数据,多条第二语音数据与第一时间间隔和第一频率的乘积相对应。

13、话语速度调节信息可以包括关于声学特征信息的话语速度与每个音素的参考话语速度的比值的信息。

14、根据示例性实施例的一方面,电子设备可以包括:存储器,被配置为存储指令;以及处理器,被配置为执行指令以:获得文本;通过将文本输入到第一神经网络模型中,获得与文本相对应的声学特征信息以及其中声学特征信息的每帧与包括在文本中的每个音素匹配的对准信息;基于对准信息识别声学特征信息的话语速度;基于文本和声学特征信息识别声学特征信息中包括的每个音素的参考话语速度;基于声学特征信息的话语速度和每个音素的参考话语速度获得话语速度调节信息;以及基于话语速度调节信息,通过将声学特征信息输入到第二神经网络模型中获得与文本相对应的语音数据。

15、处理器还可以被配置为执行指令以:基于对准信息识别与包括在声学特性信息中的第一音素相对应的话语速度,基于声学特征信息识别包括在声学特征信息中的第一音素,以及基于文本识别与第一音素相对应的参考话语速度。

16、处理器还可以被配置为执行指令以:基于文本获得与第一音素相对应的第一参考话语速度,以及获得用于训练第一神经网络模型的样本数据。

17、处理器还可以被配置为执行指令以:获得用于训练第一神经网络模型的样本数据的评估信息;以及基于与第一音素相对应的第一参考话语速度和评估信息识别与第一音素相对应的第二参考话语速度。评估信息由电子设备的用户获得。

18、处理器还可以被配置为执行指令以:基于第一参考话语速度和第二参考话语速度中的一个识别与第一音素相对应的参考话语速度。

技术特征:

1.一种用于控制电子设备的方法,所述方法包括:

2.根据权利要求1所述的方法,其中,识别声学特征信息的话语速度包括基于对准信息识别与包括在声学特性信息中的第一音素相对应的话语速度,以及

3.根据权利要求2所述的方法,其中,识别与第一音素相对应的参考话语速度包括:

4.根据权利要求3所述的方法,其中,识别与第一音素相对应的参考话语速度还包括:

5.根据权利要求4所述的方法,还包括:

6.根据权利要求2所述的方法,

7.根据权利要求2所述的方法,其中,第二神经网络模型包括配置为接收声学特征信息的输入的编码器和配置为接收从编码器输出的向量信息输入的解码器,

8.根据权利要求7所述的方法,其中,基于与声学特征信息当中第一音素相对应的至少一帧中的一个被输入到第二神经网络模型,获得多条第二语音数据,多条第二语音数据与循环数相对应。

9.根据权利要求7所述的方法,

10.根据权利要求1所述的方法,其中,话语速度调节信息包括关于声学特征信息的话语速度与每个音素的参考话语速度的比值的信息。

11.一种电子设备,包括:

12.根据权利要求11所述的电子设备,其中,处理器还被配置为执行指令以:

13.根据权利要求12所述的电子设备,其中,处理器还被配置为执行指令以:

14.根据权利要求13所述的电子设备,其中,处理器还被配置为执行指令以:

15.根据权利要求14所述的电子设备,其中,处理器还被配置为执行指令以:

技术总结一种用于控制电子设备的方法,包括:获得文本;通过将文本输入到第一神经网络模型中,获得与文本相对应的声学特征信息以及其中声学特征信息的每帧与包括在文本中的每个音素匹配的对准信息;基于对准信息识别声学特征信息的话语速度;基于文本和声学特征信息识别声学特征信息中包括的每个音素的参考话语速度;基于声学特征信息的话语速度和每个音素的参考话语速度获得话语速度调节信息;以及基于话语速度调节信息,通过将声学特征信息输入到第二神经网络模型中获得与文本相对应的语音数据。技术研发人员:朴相俊,朱基岘受保护的技术使用者:三星电子株式会社技术研发日:技术公布日:2024/2/19

本文地址:https://www.jishuxx.com/zhuanli/20240618/21773.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。