技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音资源确定方法、装置、电子设备及非易失性存储介质与流程 > 正文

语音资源确定方法、装置、电子设备及非易失性存储介质与流程

国知局
2024-06-21 11:36:22

本技术涉及计算机，具体而言，涉及一种语音资源确定方法、装置、电子设备及非易失性存储介质。

背景技术：

1、在客服领域的语音合成任务中，经常面临着合成文本仅有部分槽位发生变化的情景，针对该场景，为了充分利用已合成的音频资源，可以仅对槽位信息进行变化，针对性合成槽位语音。为此，在业务场景中需要维护资源数据库，以支持槽位变化的文本和音频资源检索。

2、具体地，在合成输入文本对应的回复语音时，需要根据输入文本快速检索出对应的带槽位正则表达式文本，进而在资源数据库中取出正则表达式所对应的示例文本和语音数据。然而，在客服场景的语音合成任务中，输入的文本往往较短，相关技术在确定与输入文本对应的语音资源时存在准确率较差的问题。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种语音资源确定方法、装置、电子设备及非易失性存储介质，以至少解决由于客服场景的语音合成任务中输入的文本较短，造成相关技术在确定与输入文本对应的语音资源时准确率较差的技术问题。

2、根据本技术实施例的一个方面，提供了一种语音资源确定方法，包括：获取目标输入文本，并依据目标变分自编码器对目标输入文本进行编码，得到目标输入文本对应的隐变量，其中，隐变量用于表征目标输入文本的文本特征；采用目标变分自编码器，依据隐变量，确定目标输入文本对应的候选正则化表达式；在目标输入文本符合候选正则化表达式对应的文本规则情况下，确定候选正则化表达式为目标正则化表达式；获取资源数据库中目标正则化表达式对应的语音资源数据，其中，资源数据库中包括多个正则化表达式，以及正则化表达式所对应的语音资源数据，语音资源数据用于对目标输入文本进行语音回复。

3、可选地，目标变分自编码器通过以下步骤训练得到：获取第一训练集，其中，第一训练集中包括：多个训练文本集合，以及每个训练文本集合所对应的第一正则化表达式，每个训练文本集合中均包含多个目标训练文本，同一训练文本集合内的目标训练文本对应同一类别；对第一训练集进行数据均衡操作，得到目标训练集，其中，数据均衡操作用于平衡第一训练集中各个训练文本集合中目标训练文本的数量；依据目标训练集，对初始变分自编码器进行训练，得到目标变分自编码器。

4、可选地，初始变分自编码器中包括：编码器、解码器、分类器和梯度反转层，其中，梯度反转层用于学习每一类别的全部目标训练文本之间的不变特征；依据目标训练集，对初始变分自编码器进行训练，得到目标变分自编码器包括：依据编码器，确定目标训练集中目标训练文本对应的隐变量；依据解码器、分类器和梯度反转层，确定隐变量对应的第二正则化表达式；采用目标损失函数，依据第一正则化表达式和第二正则化表达式，确定目标损失值；依据目标损失值，对初始变分自编码器的模型参数进行调整，重复上述训练过程，直至目标损失值满足预设阈值条件，得到目标变分自编码器。

5、可选地，采用目标损失函数，依据第一正则化表达式和第二正则化表达式，确定目标损失值包括：依据第一正则化表达式和第二正则化表达式，确定第一交叉熵和第二交叉熵，其中，第一交叉熵用于表征第一正则化表达式所对应的表达式类别与第二正则化表达式所对应的表达式类别之间的偏差程度，第二交叉熵用于表征第一正则化表达式与第二正则化表达式之间的偏差程度；确定重构损失和散度损失，其中，重构损失用于表征初始变分自编码器的输入与初始变分自编码器输出之间的差异程度，散度损失用于表征隐变量的数据分布与预设数据分布类型之间的差异程度，预设数据分布类型包括：高斯分布；依据第一交叉熵、第二交叉熵、重构损失和散度损失，确定目标损失值。

6、可选地，获取第一训练集还包括：获取初始训练文本，并依据初始训练文本的类别，将初始训练文本划分至对应的训练文本集合中；以及，删除初始训练文本中的预设分割字符，并将初始训练文本中预设类型的字符替换为预设标准字符，得到目标训练文本，其中，预设分割字符包括：标点符号字符，预设类型的字符包括：英文字符。

7、可选地，方法还包括：在目标输入文本不符合候选正则化表达式对应的文本规则情况下，获取目标输入文本对应的隐变量；采用激活函数，对隐变量进行二值化操作，得到第一二进制序列；对系统中存储的各个正则化表达式进行二值化操作，得到第二二进制序列；依据第一二进制序列和第二二进制序列进行匹配，将与第一二进制序列匹配的第二二进制序列所对应正则化表达式，确定为目标正则化表达式。

8、可选地，依据第一二进制序列和第二二进制序列进行匹配包括：将第一二进制序列和第二二进制序列均平均划分为目标数量个序列段；在第一二进制序列和第二二进制序列之间匹配到一个完全相同的序列段的情况下，判定第一二进制序列和第二二进制序列之间的海明距离小于预设距离阈值，将第二二进制序列添加至候选二进制序列集合中，其中，海明距离为第一二进制序列和第二二进制序列之间不一致的位的数量，用于表征第一二进制序列和第二二进制序列之间的相似程度，目标数量由预设距离阈值确定；在候选二进制序列集合中，确定与第一二进制序列完全匹配的第二二进制序列。

9、根据本技术实施例的另一个方面，还提供了一种语音资源确定装置，包括：数据获取模块，用于获取目标输入文本，并依据目标变分自编码器对目标输入文本进行编码，得到目标输入文本对应的隐变量，其中，隐变量用于表征目标输入文本的文本特征；数据分类模块，用于采用目标变分自编码器，依据隐变量，确定目标输入文本对应的候选正则化表达式；结果校验模块，用于在目标输入文本符合候选正则化表达式对应的文本规则情况下，确定候选正则化表达式为目标正则化表达式；资源确定模块，用于获取资源数据库中目标正则化表达式对应的语音资源数据，其中，资源数据库中包括多个正则化表达式，以及正则化表达式所对应的语音资源数据，语音资源数据用于对目标输入文本进行语音回复。

10、根据本技术实施例的又一方面，还提供了一种电子设备，包括：存储器和处理器，处理器用于运行存储在存储器中的程序，其中，程序运行时执行语音资源确定方法。

11、根据本技术实施例的再一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的计算机程序，其中，非易失性存储介质所在设备通过运行计算机程序执行语音资源确定方法。

12、在本技术实施例中，采用获取目标输入文本，并依据目标变分自编码器对目标输入文本进行编码，得到目标输入文本对应的隐变量，其中，隐变量用于表征目标输入文本的文本特征；采用目标变分自编码器，依据隐变量，确定目标输入文本对应的候选正则化表达式；在目标输入文本符合候选正则化表达式对应的文本规则情况下，确定候选正则化表达式为目标正则化表达式；获取资源数据库中目标正则化表达式对应的语音资源数据，其中，资源数据库中包括多个正则化表达式，以及正则化表达式所对应的语音资源数据，语音资源数据用于对目标输入文本进行语音回复的方式，通过基于变分自编码器(variationalauto-encoder，vae)的分类方法，用轻量化的vae学习到的隐向量来对文本进行特征表示，将检索问题转换为多分类问题，达到了大大降低语音资源检索的复杂度的目的，进而解决了由于客服场景的语音合成任务中输入的文本较短，造成相关技术在确定与输入文本对应的语音资源时准确率较差技术问题。