技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型评测方法、装置及电子设备与流程 > 正文

模型评测方法、装置及电子设备与流程

国知局
2024-06-21 10:41:45

本申请涉及数据处理技术，尤其涉及音频数据处理，具体涉及一种模型评测方法、装置及电子设备。

背景技术：

1、语音合成技术是将文字转换成音频信号输出的一种技术，在人机交互领域占有重要角色，应用价值较广。而个性化语音合成是通过语音合成技术，合成与真人发音非常相似的音频信号，目前已经广泛应用于地图，智能音箱等领域。

2、当前有许多个性化语音合成模型，来用于合成音频信号，这些个性化语音合成模型合成的音频还原度参差不齐，因此，对个性化语音合成模型进行评测至关重要。

3、目前，通常是依靠预先训练的声纹校验模型，来评测个性化语音合成模型合成的音频还原度，即合成的音频与真人发音的相似度，从而评测个性化语音合成模型的优劣。然而，由于声纹校验模型通常是一个一个对合成的音频信号进行还原度校验，因此，评测效率比较低。

技术实现思路

1、本申请提供了一种模型评测方法、装置及电子设备。

2、根据第一方面，本申请提供了一种模型评测方法，所述方法包括：

3、获取m个使用第一待评测语音合成模型合成的第一音频信号，以及获取n个录制的第二音频信号；

4、对m个第一音频信号中每个第一音频信号进行声纹提取，获得m个第一声纹特征；对n个第二音频信号中每个第二音频信号进行声纹提取，获得n个第二声纹特征；

5、将所述m个第一声纹特征进行聚类，获得k个第一中心特征；将所述n个第二声纹特征进行聚类，获得j个第二中心特征；

6、统计所述k个第一中心特征与所述j个第二中心特征之间的余弦距离，获得第一距离；

7、基于所述第一距离，对所述第一待评测语音合成模型进行评测；

8、其中，m、n、k和j均为大于1的正整数，m大于k，n大于j。

9、根据第二方面，本申请提供了一种模型评测装置，包括：

10、第一获取模块，用于获取m个使用第一待评测语音合成模型合成的第一音频信号，以及获取n个录制的第二音频信号；

11、第一声纹提取模块，用于对m个第一音频信号中每个第一音频信号进行声纹提取，获得m个第一声纹特征；对n个第二音频信号中每个第二音频信号进行声纹提取，获得n个第二声纹特征；

12、第一聚类模块，用于将所述m个第一声纹特征进行聚类，获得k个第一中心特征；将所述n个第二声纹特征进行聚类，获得j个第二中心特征；

13、第一统计模块，用于统计所述k个第一中心特征与所述j个第二中心特征之间的余弦距离，获得第一距离；

14、第一评测模块，用于基于所述第一距离，对所述第一待评测语音合成模型进行评测；

15、其中，m、n、k和j均为大于1的正整数，m大于k，n大于j。

16、根据第三方面，本申请提供了一种电子设备，包括：

17、至少一个处理器；以及

18、与所述至少一个处理器通信连接的存储器；其中，

19、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中的任一项方法。

20、根据第四方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面中的任一项方法。

21、根据本申请的技术，通过对m个第一声纹特征进行聚类，获得k个第一中心特征，对n个第二声纹特征进行聚类，获得j个第二中心特征；并统计k个第一中心特征与j个第二中心特征之间的余弦距离，获得第一距离，从而能够基于第一距离从整体上评测m个使用第一待评测语音合成模型合成的第一音频信号的还原度，进而能够提高第一待评测语音合成模型的评测效率。本申请解决了现有技术中对个性化语音合成模型进行评测的效率比较低的问题。

22、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种模型评测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述统计所述k个第一中心特征与所述j个第二中心特征之间的余弦距离，获得第一距离，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一距离，对所述第一待评测语音合成模型进行评测，包括：

4.根据权利要求1所述的方法，其特征在于，所述k个第一中心特征中两两第一中心特征之间的余弦距离大于第二预设阈值；所述j个第二中心特征中两两第二中心特征之间的余弦距离大于第三预设阈值。

5.一种模型评测装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述第一统计模块，具体用于针对每个第一中心特征，计算所述第一中心特征与每个第二中心特征的余弦距离，获得所述第一中心特征对应的j个余弦距离；并对所述第一中心特征对应的j个余弦距离进行求和，获得所述第一中心特征对应的余弦距离和；将所述k个第一中心特征对应的余弦距离和进行求和，获得所述第一距离。

7.根据权利要求6所述的装置，其特征在于，所述第一评测模块，具体用于在所述第一距离小于第一预设阈值的情况下，确定所述第一待评测语音合成模型评测成功；在所述第一距离大于或等于所述第一预设阈值的情况下，确定所述第一待评测语音合成模型评测不成功。

8.根据权利要求5所述的装置，其特征在于，所述k个第一中心特征中两两第一中心特征之间的余弦距离大于第二预设阈值；所述j个第二中心特征中两两第二中心特征之间的余弦距离大于第三预设阈值。

9.一种电子设备，其特征在于，包括：

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至4中任一项所述的方法。

技术总结本申请公开了一种模型评测方法、装置及电子设备，涉及音频数据处理技术领域。其中方法包括：获取M个使用第一待评测语音合成模型合成的第一音频信号，以及获取N个录制的第二音频信号；对M个第一音频信号中每个第一音频信号进行声纹提取，获得M个第一声纹特征；对N个第二音频信号中每个第二音频信号进行声纹提取，获得N个第二声纹特征；将M个第一声纹特征进行聚类，获得K个第一中心特征；将N个第二声纹特征进行聚类，获得J个第二中心特征；统计K个第一中心特征与J个第二中心特征之间的余弦距离，获得第一距离；基于第一距离，对第一待评测语音合成模型进行评测。根据本申请的技术，能够提高第一待评测语音合成模型的评测效率。技术研发人员：郑林,陈昌滨,马啸空,孙宇娟受保护的技术使用者：北京百度网讯科技有限公司技术研发日：技术公布日：2024/2/1