技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种智能体的发声方法、装置、设备及存储介质与流程 > 正文

一种智能体的发声方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:51:33

本申请涉及，尤其涉及一种智能体的发声方法、装置、设备及存储介质。

背景技术：

1、随智能硬件行业的发展，越来越多的智能设备有发出声音的功能，从简单的提示音、到复杂的模仿人类说话，各种各样的产品都具有了说话的功能。如智能机器人这样的高智能硬件产品，会具有越来越高的智能，也逐渐会以一个独立的个体形式存在于人们生活中。这样的产品，就像其他生物一样，需要有自己独有声音特点，而且每个种类的机器人、甚至每个机器人都可能具有不同的音色。因此，需要有一套可以为机器人提供独有音色的解决方案。

2、但是到目前为止，即使是很多高智能的机器人产品，也都是通过语音合成技术(tts)、通过预先训练好的模型和音色、将要表达的文本转化为语音。转化出来的声音单调，而且音色受到原始模型的影响，基本一致。市面上很少看到有自己的特有声音的智能硬件产品，也很少有人为智能硬件产品设计音色。

3、少数国外的公司，已经在尝试通过合成的形式生成声音，包括为说话障碍的人提供发声功能，或者给一个智能机器人产品提供说话的功能。在发声模型方面，有类似于可以模拟生物的发声系统，实现频率单一的发声控制的方案。

4、目前市场上所有机器人在进行与人交互的过程中，并不会体现出任何声音声色的变化，

5、通常只是预录存的声音片段中提取相关信息的声音进行播放，或者先生成对应的文字表达再根据设定好的固定音色音调音频进行播放，由于在机器人智能化的过程中交互功能使用日益频繁，传统的声音播放方案不但毫无特色，而且会让人潜意思的认定其就是机器人而非其他。

6、目前虽然可以做到定制声音，但是存在一定的缺点，1)有些方案是以人类语言为目标设计的，在模仿人类发声方面表现可以，但是无法模仿动物的发声；2)这些声音虽然是定制的，但也是实现预制好的。而人或动物进行语音交流时，其声音(包括频率、音调、音量等)是和情绪、环境都密切相关。而上述方案无法根据语境(包括要表达的内容、说话的环境、交互对象等等)进行实时的调整，且由于都是现有的国外的方案，大多都只能根据英语的发声规律进行模仿，而无法模仿汉语特有的语调，不适合中文发音，通过汉语发音进行模仿和学习的效果很差。

技术实现思路

1、本申请提供了一种智能体的发声方法、装置、设备及存储介质，解决了现有方案主要以人类语言为目标设计，无法模仿动物的发声，且无法根据生物类型进行发声调整的技术问题。

2、有鉴于此，本申请第一方面提供了一种智能体的发声方法，所述方法包括：

3、s1、确定目标发声生物类型及其对应发声内容；

4、s2、根据所述目标发声生物类型将所述发声内容拆解为音素内容或频谱内容，并提取所述音素内容或频谱内容的发声特征；

5、s3、调取所述目标发声生物类型对应的物理发声模型，并将所述音素内容或所述频谱内容的发声特征按照预设映射关系映射至所述物理发声模型，得到对应发声参数；

6、s4、根据所述发声参数生成并播放音频文件。

7、可选地，所述步骤s1之前包括：

8、获取目标模仿语音数据。

9、可选地，所述步骤s1具体包括：

10、对所述目标模仿语音数据进行识别，确定目标发声生物类型，所述目标发声生物类型包括人类以及非人类；

11、若所述目标发声生物类型为人类，则通过语音识别方法将所述目标模仿语音数据转换为对应语言类型的发声内容，否则通过声音检测方法和声学特征提取的方式获取所述目标模仿语音数据的发声特征，并基于机器学习分类识别确定目标发声生物类型，将所述发声内容通过汉语表示。

12、可选地，所述步骤s2具体包括：

13、若所述目标发声生物类型为人类，则根据语言类型调取对应的发音特征数据库，将所述发声内容拆解为音素内容，否则调取所述目标发声生物类型对应的预设频谱特性，将所述发声内容拆解为频谱内容；

14、提取所述音素内容或所述频谱内容的发声特征。

15、可选地，所述步骤s3之后还包括：

16、获取实时参数，所述实时参数包括智能体状态参数、目标交流对象参数以及环境参数；

17、根据所述实时参数对所述发声参数进行调整，得到调整后的发声参数。

18、可选地，所述根据所述实时参数对所述发声参数进行调整具体包括：

19、根据所述实时参数，对所述发声参数的发声长度、发声频率或发声音量进行调整。

20、可选地，所述步骤s3之后还包括：

21、通过随机变量对所述发声参数进行微调，所述随机变量包括元音变量、辅音变量、上颚音变量、鼻音变量、舌音变量、齿音变量以及噪声变量。

22、本申请第二方面提供一种智能体的发声装置，所述装置包括：

23、确定单元，用于确定目标发声生物类型及其对应发声内容；

24、音素拆解单元，用于根据所述目标发声生物类型将所述发声内容拆解为音素内容或频谱内容，并提取所述音素内容或频谱内容的发声特征；

25、发声参数处理单元，用于调取所述目标发声生物类型对应的物理发声模型，并将所述音素内容或所述频谱内容的发声特征按照预设映射关系映射至所述物理发声模型，得到对应发声参数；

26、生成单元，用于根据所述发声参数生成并播放音频文件。

27、本申请第三方面提供一种智能体的发声设备，所述设备包括处理器以及存储器：

28、所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

29、所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的智能体的发声的方法的步骤。

30、本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的方法。

31、从以上技术方案可以看出，本申请实施例具有以下优点：

32、本申请中，提供了一种智能体的发声方法、装置、设备及存储介质，通过确定目标发声生物类型及其对应发声内容，在将发声内容拆解为音素内容并提取对应发声特征的同时，根据不同目标发声生物类型对应的物理发声模型，将音素内容的发声特征映射至物理发声模型中，形成对应的发声参数，使得智能体能够发出不同目标发声生物类型的声音，解决了现有方案主要以人类语言为目标设计，无法模仿动物的发声，且无法根据生物类型进行发声调整的技术问题。

技术特征：

1.一种智能体的发声方法，其特征在于，包括：

2.根据权利要求1所述的智能体的发声方法，其特征在于，所述步骤s1之前包括：

3.根据权利要求2所述的智能体的发声方法，其特征在于，所述步骤s1具体包括：

4.根据权利要求3所述的智能体的发声方法，其特征在于，所述步骤s2具体包括：

5.根据权利要求1所述的智能体的发声方法，其特征在于，所述步骤s3之后还包括：

6.根据权利要求5所述的智能体的发声方法，其特征在于，所述根据所述实时参数对所述发声参数进行调整具体包括：

7.根据权利要求1所述的智能体的发声方法，其特征在于，所述步骤s3之后还包括：

8.一种智能体的发声装置，其特征在于，包括：

9.一种智能体的发声设备，其特征在于，所述设备包括处理器以及存储器：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任一项所述的智能体的发声方法。

技术总结本申请公开了一种智能体的发声方法、装置、设备及存储介质，通过确定目标发声生物类型及其对应发声内容，在将发声内容拆解为音素内容并提取对应发声特征的同时，根据不同目标发声生物类型对应的物理发声模型，将音素内容的发声特征映射至物理发声模型中，形成对应的发声参数，使得智能体能够发出不同目标发声生物类型的声音，解决了现有方案主要以人类语言为目标设计，无法模仿动物的发声，且无法根据生物类型进行发声调整的技术问题。技术研发人员：魏强,金友芝,魏鹂萱,张明哲受保护的技术使用者：北京萌友智能科技有限公司技术研发日：技术公布日：2024/5/12