技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、设备、存储介质及程序产品与流程  >  正文

语音合成方法、装置、设备、存储介质及程序产品与流程

  • 国知局
  • 2024-06-21 11:56:22

本公开涉及语音处理,尤其涉及一种语音合成方法、装置、设备、存储介质及程序产品。

背景技术:

1、随着手机的持续发展,越来越多的功能出现在人们的视野中,手机承担了越来越多的功能,各式各样的工作都可以通过手机完成办理,语音信息的传输非常的重要。

2、目前,在用户使用语音进行交互的过程中,外部环境中的噪声会对用户语音带来影响,降低用户间交互质量,用户体验较差。

技术实现思路

1、本公开提供一种语音合成方法、装置、设备、介质及程序产品,以至少解决现有用户间交互质量较低,用户体验较差的技术问题。

2、本公开的技术方案如下:

3、本公开实施例提供一种语音合成方法,包括:

4、在用户当前所处环境的声音状态为噪声状态的情况下,获取当前环境声音中的与所述用户对应的第一语音;

5、根据所述第一语音,确定所述用户所需的目标文本;

6、根据所述目标文本,生成待传输信息。

7、可选地,在所述获取当前环境声音中的与所述用户对应的第一语音之前,所述方法还包括:

8、采集所述用户当前所处环境中的环境声音;

9、从所述环境声音中分离出环境噪声;

10、识别所述环境噪声对应的噪声分贝;

11、在所述噪声分贝大于设定分贝阈值的情况下,确定所述用户当前所处环境的声音状态为噪声状态。

12、可选地,所述在用户当前所处环境的声音状态为噪声状态的情况下,获取当前环境声音中的与所述用户对应的第一语音,包括:

13、在用户当前所处环境的声音状态为噪声状态的情况下,采集所述当前环境声音;

14、根据所述用户对应的声纹特征,从所述当前环境声音中分离出与所述用户对应的第一语音。

15、可选地,所述根据所述第一语音,确定所述用户所需的目标文本,包括:

16、对所述第一语音进行文本识别,得到与所述第一语音对应的原始文本;

17、在界面上展示所述原始文本;

18、响应于对所述原始文本的处理操作,获取所述用户所需的所述目标文本。

19、可选地,所述界面包括确认控件,所述响应于对所述原始文本的处理操作,获取所述用户所需的所述目标文本,包括:

20、响应于对所述确认控件的触发操作,将所述原始文本作为所述目标文本。

21、可选地,所述界面包括确认控件,所述响应于对所述原始文本的处理操作,获取所述用户所需的所述目标文本,包括:

22、响应于对所述原始文本的触发操作,将所述原始文本激活为可编辑状态;

23、响应于对所述可编辑状态的所述原始文本的修改操作,得到修改后的原始文本;

24、响应于对所述确认控件的触发操作,将所述修改后的原始文本作为所述目标文本。

25、可选地,所述根据所述目标文本,生成待传输信息,包括:

26、获取信息传输类型;

27、若所述信息传输类型为文本传输,则将所述目标文本作为所述待传输信息;

28、若所述信息传输类型为语音传输,将所述目标文本和所述用户的声纹特征输入已有的语音合成模型中,得到所述用户对应的第二语音;将所述第二语音作为所述待传输信息。

29、可选地,所述获取信息传输类型,包括:

30、响应于信息传输类型选择操作,获取所述信息传输类型;或者,

31、识别当前应用场景;查询应用场景与信息传输类型的映射关系表,得到所述当前应用场景对应的所述信息传输类型。

32、可选地,在使用所述语音合成模型之前,所述方法还包括:

33、采集所述用户对应的样本语音数据;

34、根据所述样本语音数据,对预训练模型进行模型训练,得到所述语音合成模型。

35、本公开实施例还提供一种语音合成装置,包括:

36、获取模块,用于在用户当前所处环境的声音状态为噪声状态的情况下,获取当前环境声音中的与所述用户对应的第一语音;

37、确定模块,用于根据所述第一语音,确定所述用户所需的目标文本;

38、生成模块,用于根据所述目标文本,生成待传输信息。

39、可选地,所述获取模块在所述获取当前环境声音中的与所述用户对应的第一语音之前,还可用于:

40、采集所述用户当前所处环境中的环境声音;

41、从所述环境声音中分离出环境噪声;

42、识别所述环境噪声对应的噪声分贝;

43、在所述噪声分贝大于设定分贝阈值的情况下,确定所述用户当前所处环境的声音状态为噪声状态。

44、可选地,所述获取模块在用户当前所处环境的声音状态为噪声状态的情况下,获取当前环境声音中的与所述用户对应的第一语音时,用于:

45、在用户当前所处环境的声音状态为噪声状态的情况下,采集所述当前环境声音;

46、根据所述用户对应的声纹特征,从所述当前环境声音中分离出与所述用户对应的第一语音。

47、可选地,所述确定模块在根据所述第一语音,确定所述用户所需的目标文本时,用于:

48、对所述第一语音进行文本识别,得到与所述第一语音对应的原始文本;

49、在界面上展示所述原始文本;

50、响应于对所述原始文本的处理操作,获取所述用户所需的所述目标文本。

51、可选地,所述界面包括确认控件,所述确定模块在响应于对所述原始文本的处理操作,获取所述用户所需的所述目标文本时,用于:

52、响应于对所述确认控件的触发操作,将所述原始文本作为所述目标文本。

53、可选地,所述界面包括确认控件,所述确定模块在响应于对所述原始文本的处理操作,获取所述用户所需的所述目标文本时,用于:

54、响应于对所述原始文本的触发操作,将所述原始文本激活为可编辑状态;

55、响应于对所述可编辑状态的所述原始文本的修改操作,得到修改后的原始文本;

56、响应于对所述确认控件的触发操作,将所述修改后的原始文本作为所述目标文本。

57、可选地,所述生成模块在根据所述目标文本,生成待传输信息时,用于:

58、获取信息传输类型;

59、若所述信息传输类型为文本传输,则将所述目标文本作为所述待传输信息;

60、若所述信息传输类型为语音传输,将所述目标文本和所述用户的声纹特征输入已有的语音合成模型中,得到所述用户对应的第二语音;将所述第二语音作为所述待传输信息。

61、可选地,所述生成模块在获取信息传输类型时,用于:

62、响应于信息传输类型选择操作,获取所述信息传输类型;或者,

63、识别当前应用场景;查询应用场景与信息传输类型的映射关系表,得到所述当前应用场景对应的所述信息传输类型。

64、可选地,所述生成模块在使用所述语音合成模型之前,还可用于:

65、采集所述用户对应的样本语音数据;

66、根据所述样本语音数据,对预训练模型进行模型训练,得到所述语音合成模型。

67、本公开实施例还提供一种手机,包括:

68、处理器;

69、用于存储所述处理器可执行指令的存储器;

70、其中,所述处理器被配置为执行所述指令,以实现如上述的方法中的各步骤。

71、本公开实施例还提供一种电子设备,包括:

72、处理器;

73、用于存储所述处理器可执行指令的存储器;

74、其中,所述处理器被配置为执行所述指令,以实现如上述的方法中的各步骤。

75、本公开实施例还提供一种计算机可读存储介质,所述计算机指令用于使所述计算机执行上述的方法中的各步骤。

76、本公开实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述的方法中的各步骤。

77、本公开的实施例提供的技术方案至少带来以下有益效果:

78、在本公开的一些实施例中,在用户当前所处环境的声音状态为噪声状态的情况下,从当前环境声音中提取与用户对应的第一语音,以去除环境中的噪声;根据第一语音,确定用户所需的目标文本;根据用户实际所需的目标文本,生成准确的待传输信息,提升用户间交互质量,提升用户体验。

79、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24595.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。