技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、语音识别装置、车辆、计算机设备和介质与流程 > 正文

语音识别方法、语音识别装置、车辆、计算机设备和介质与流程

国知局
2024-06-21 11:56:23

本技术涉及语音识别，更具体而言，涉及一种语音识别方法、语音识别装置、车辆、计算机设备、和非易失性计算机可读存储介质。

背景技术：

1、在实际的用户车载语音交互时，一个语音有时需要交互很多次才能成功。而用户在首次交互失败后，往往会进行第二次、第三次的交互，直到成功或放弃，大部分情况下，用户会放慢语速，增加音量，减少噪声，但是也有一些情况，用户数次尝试均不成功，导致车载的语音交互识别的准确率和成功率较低，影响用户的使用体验。

技术实现思路

1、本技术实施方式提供一种语音识别方法、语音识别装置、车辆、计算机设备、和非易失性计算机可读存储介质。通过对获取到的重复语音进行解码，以获取第一中间解码结果，并通过预设的语音嵌入模型、声纹音库及目标文本，生成第二中间解码结果，累加第一中间解码结果和第二中间解码结果以生成第三中间解码结果，以输出第n次语音识别对应的文本识别结果，利用前几次语音识别失败的经验和预设权重，提高多次语音交互的准确性和成功率。

2、本技术的语音识别方法包括在对第n次获取到待识别的重复语音的情况下，对所述重复语音进行解码，以获取第一中间解码结果，所述n大于1；在历史匹配文本列表中，确定与所述第一中间解码结果匹配的目标文本，所述历史匹配文本列表通过确定第1次获取到待识别语音的文本识别结果在预设的通用文本匹配列表中匹配的文本生成，所述重复语音与所述待识别语音的语义相同；基于预设的语音嵌入模型、声纹音库及所述目标文本，生成第二中间解码结果，并根据前n-1次语音识别的文本识别结果，调整所述第二中间解码结果中，各个目标文本对应的特征的权重；累加所述第一中间解码结果和权重调整后的所述第二中间解码结果，以生成第三中间解码结果；输入所述第三中间解码结果到预设的解码图中，以输出第n次语音识别的文本识别结果。

3、在某些实施方式中，包括：获取基于各个用户的历史语音数据生成的通用匹配列表；获取基于当前用户的历史语音数据生成的个性化匹配列表，所述历史语音数据包括多个发音相似的文本组成的文本对；根据通用匹配列表、个性化匹配列表、所述通用匹配列表对应的第一权重及所述个性化匹配列表对应的第二权重，生成所述通用文本匹配列表。

4、在某些实施方式中，所述基于预设的语音嵌入模型、声纹音库及所述目标文本，生成第二中间解码结果，包括：基于预设的语音嵌入模型和所述目标文本，生成文本解码结果；基于声纹音库和所述目标文本，生成声音解码结果；基于预设的语音嵌入模型，累加所述文本解码结果和所述声音解码结果，以生成所述第二中间解码结果。

5、在某些实施方式中，所述根据前n-1次语音识别的文本识别结果，调整所述第二中间解码结果中，各个目标文本对应的特征的权重，包括：降低所述第二中间解码结果中，前n-1次语音识别的文本识别结果对应的所述目标文本的特征的权重；和/或增加所述第二中间解码结果中，前n-1次语音识别的文本识别结果对应的所述目标文本之外的所述目标文本的特征的权重。

6、在某些实施方式中，第n次获取的所述重复语音包括多个音节，所述根据前n-1次语音识别的文本识别结果，调整所述第二中间解码结果中，各个目标文本对应的特征的权重，包括：根据前n-1次语音识别的文本识别结果、上一个音节对应的文本识别结果、及上一个音节对应的所述第二中间解码结果中各个所述目标文本对应的特征的权重，调整当前音节对应的所述第二中间解码结果中，各个所述目标文本对应的特征的权重。

7、在某些实施方式中，还包括：获取各个用户的历史语音数据中，包含重复语音的目标语音数据；根据所述目标语音数据中，多次语音识别时的音频和文本识别结果，生成多个训练样本，并将所述目标语音数据中，最后一次语音识别时文本识别结果作为文本标签、及将所述目标语音数据对应的用户标识作用户标签；基于所述训练样本、预设的声音模型及预设的声纹音库，训练所述语音嵌入模型至收敛。

8、在某些实施方式中，所述语音嵌入模型包括音频分离模块和特征累加模块，所述基于所述训练样本、预设的声音模型及预设的声纹音库，训练所述语音嵌入模型至收敛，包括：基于预设的声音模型提取所述训练样本的第一特征向量；输入所述第一特征向量到所述音频分离模块，以生成音色特征向量和文本特征向量；根据所述音色特征向量、所述训练样本对应的用户标签和预设的第一损失函数，确定第一损失值，及根据所述文本特征向量、所述训练样本对应的文本标签及预设的第一损失函数，确定第二损失值；通过所述特征累加模块，累加所述文本特征向量和声音特征向量，以生成第二特征向量，并根据所述第二特征向量和预设的第二损失函数，确定第三损失值；根据各个所述训练样本对应的所述第一损失值、所述第二损失值、及所述第三损失值，调整所述语音嵌入模型，直至所述语音嵌入模型收敛。

9、本技术实施方式的语音识别装置包括编码模块、确定模块、生成模块、累加模块和输出模块。编码模块用于在对第n次获取到待识别的重复语音的情况下，对所述重复语音进行解码，以获取第一中间解码结果，所述n大于1；确定模块用于在历史匹配文本列表中，确定与所述第一中间解码结果匹配的目标文本，所述历史匹配文本列表通过确定第1次获取到待识别语音的文本识别结果在预设的通用文本匹配列表中匹配的文本生成，所述重复语音为所述待识别语音的语义相同；生成模块用于基于预设的语音嵌入模型、声纹音库及所述目标文本，生成第二中间解码结果，并根据前n-1次语音识别的文本识别结果，调整所述第二中间解码结果中，各个目标文本对应的特征的权重；累加模块用于累加所述第一中间解码结果和权重调整后的所述第二解码结果，以生成第三中间解码结果；输出模块用于输入所述第三中间解码结果到预设的解码图中，以输出第n次语音识别的文本识别结果。

10、本技术实施方式的车辆包括处理器、存储器；及计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行上述任一实施方式所述的语音识别方法的指令。

11、本技术实施方式的计算机设备包括处理器、存储器；及计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行上述任一实施方式所述的语音识别方法的指令。

12、本技术实施方式的非易失性计算机可读存储介质，包括计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一实施方式所述的语音识别方法。

13、本技术实施方式的语音识别方法、语音识别装置、车辆、计算机设备、和非易失性计算机可读存储介质，通过在对第n次获取到待识别的重复语音的情况下，对重复语音进行解码，以获取第一中间解码结果，n大于1，并在历史匹配文本列表中，确定与第一中间解码结果匹配的目标文本，历史匹配文本列表通过确定第1次获取到待识别语音的文本识别结果在预设的通用文本匹配列表中匹配的文本生成，重复语音为待识别语音的语义相同，使得可以进一步确定第n次获取到待识别的重复语音与第1次获取到的待识别语音语义相同；再基于预设的语音嵌入模型、声纹音库及目标文本，生成第二中间解码结果，有助于提高车载的语音识别系统对特定用户的语音的理解和识别能力，并根据前n-1次语音识别的文本识别结果，调整第二中间解码结果中，各个目标文本对应的特征的权重，使得生成的第二中间解码结果可以更好地适应前n-1次语音识别的文本识别结果，从而提高最终的语音识别准确性和连贯性；再累加第一中间解码结果和权重调整后的第二中间解码结果，以生成第三中间解码结果，使得在获取到的待识别的重复语音包括的真正的语义与目标文本并不匹配时，可以通过累加处理降低对第三中间解码结果的识别影响，使得可以更好地基于前n-1次的识别结果，提高生成的第三中间解码结果的准确性；最后输入第三中间解码结果到预设的解码图中，以输出第n次语音识别的文本识别结果。

14、本技术的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实施方式的实践了解到。