技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音信息的处理方法及装置、非易失性存储介质与流程 > 正文

语音信息的处理方法及装置、非易失性存储介质与流程

国知局
2024-06-21 11:31:21

本申请涉及语音识别，具体而言，涉及一种语音信息的处理方法及装置、非易失性存储介质。

背景技术：

1、当主说话人在嘈杂的环境下通话时，由于通话场景中存在如敲击声、音乐、白噪声、车声等多种噪声，以及非主说话人发出的声音(非有效人声)，导致通话录音会记录静音、噪声、非有效人声等其它声音，并进一步导致语音识别输出的结果准确率低，无法输出可读文本信息。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音信息的处理方法及装置、非易失性存储介质，以至少解决由于通话环境中存在噪声和非有效人声造成的语音识别准确率低的技术问题。

2、根据本申请实施例的一个方面，提供了一种语音信息的处理方法，包括：接收语音流，其中，语音流包括：目标对象发送的语音信息、非目标对象发送的语音信息，非目标对象与目标对象在同一通话场景；确定语音流中每个语音帧的评价指标，并在语音流中选择评价指标高于预设分值的语音帧，得到语音帧集合，评价指标用于确定每个语音帧所属的语音信息的类型，预设分值为目标对象的输入值，不同类型的语音帧对应不同的预设分值；在语音帧集合中截取有效信息，并根据有效信息确定有效识别结果，其中，有效识别结果为语义连续的文本信息。

3、可选地，确定语音流中每个语音帧的评价指标，包括：获取每个语音帧的能量值，其中，每个语音帧的能量值是根据每个语音帧对应频域信号在预设时间区间内的幅值确定的，预设时间区间为每个语音帧信号的持续时长；根据每个语音帧的能量值确定每个语音帧的评价指标。

4、可选地，有效信息通过以下方法确定：获取语音帧集合中每个语音帧的能量值，并确定能量值高于第一能量阈值的多个有效语音帧，以及能量值低于第二能量阈值的多个无效语音帧；根据有效语音帧确定有效语音序列，并根据无效语音帧确定无效语音序列，其中，有效语音序列中的多个有效语音帧是连续的，有效语音序列中的有效语音帧的数量为第一预设值，无效语音序列中的多个无效语音帧是连续的，无效语音帧中的无效语音帧的数量为第二预设值；将语音帧集合中位于有效语音序列和无效语音序列之间多个连续语音帧组成的语音帧序列确定为有效信息。

5、可选地，第一能量阈值通过以下方法确定：在接收到语音流后，确定目标对象发送的语音信息的能量值，并确定非目标对象发送的语音信息的能量值，其中，目标对象发送的语音信息的能量值为目标对象发送的语音信息中每个语音帧的能量值的累加和，非目标对象发送的语音信息的能量值为非目标对象发送的语音信息中每个语音帧的能量值的累加和；将目标对象发送的语音信息的能量值与预设能量阈值进行对比，得到对比结果；根据对比结果确定第一能量阈值。

6、可选地，根据对比结果确定第一能量阈值，包括：在对比结果指示目标对象发送的语音信息的能量值大于预设能量阈值的情况下，将第一能量阈值设置为预设能量阈值；在对比结果指示目标对象发送的语音信息的能量值小于预设能量阈值的情况下，将第一能量阈值设置为第三能量阈值，其中，第三能量阈值小于目标对象发送的语音信息的能量值，并且大于非目标对象发送的语音信息的能量值。

7、可选地，根据有效信息输出有效识别结果，包括：对有效信息进行语义识别，输出识别结果；对识别结果进行语义判断，得到语义判断结果；在语义判断结果指示识别结果为语义连续的文本信息的情况下，将识别结果确定为有效识别结果，并输出识别结果；在判断结果指示识别结果不是语义连续的文本信息的情况下，拒绝输出识别结果。

8、可选地，语音信息的处理方法还包括：确定语音帧集合组成的语音信息对应的声纹，并获取语音帧集合的能量值，其中，语音帧集合的能量值为语音帧集合中每个语音帧的能量值的累加和；将语音帧集合组成的语音信息对应的声纹和语音帧集合的能量值记录为目标对象的关联信息，其中，声纹和目标对象以键值对的形式记录，目标对象和语音帧集合的能量值以键值对的形式记录。

9、根据本申请实施例的另一方面，还提供了一种语音信息的处理装置，包括：接收模块，用于接收语音流，其中，语音流包括：目标对象发送的语音信息、非目标对象发送的语音信息，非目标对象与目标对象在同一通话场景；筛选模块，用于确定语音流中每个语音帧的评价指标，并在语音流中选择评价指标高于预设分值的语音帧，得到语音帧集合，评价指标用于确定每个语音帧所属的语音信息的类型，预设分值为目标对象的输入值，不同类型的语音帧对应不同的预设分值；输出模块，用于在语音帧集合中截取有效信息，并根据有效信息确定有效识别结果，其中，有效识别结果为语义连续的文本信息。

10、根据本申请实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质中存储有计算机程序，其中，在非易失性存储介质所在设备通过运行计算机程序执行上述的语音信息的处理方法。

11、根据本申请实施例的另一方面，还提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为通过计算机程序执行上述的语音信息的处理方法。

12、在本申请实施例中，采用接收语音流，其中，语音流包括：目标对象发送的语音信息、非目标对象发送的语音信息，非目标对象与目标对象在同一通话场景；确定语音流中每个语音帧的评价指标，并在语音流中选择评价指标高于预设分值的语音帧，得到语音帧集合，评价指标用于确定每个语音帧所属的语音信息的类型，预设分值为目标对象的输入值，不同类型的语音帧对应不同的预设分值；在语音帧集合中截取有效信息，并根据有效信息确定有效识别结果，其中，有效识别结果为语义连续的文本信息的方式，通过语音活性检测(voice activity detection，vad)过滤静音、噪声；对通过语音活性检测后的语音信息进行能量识别，过滤非有效人声；对经过非有效人声过滤后的语音信息进行声纹识别，获取主说话人语音；最后对通过声纹识别的主说话人语音进行语义判断；通过上述方法，通过识别语音信息的能量过滤非有效人声，通过声纹识别获取主说话人语音，并通过语义识别判断是否为有效语音识别；将语音活性检测、声音能量过滤、声纹识别和语义识别方法结合使用，将上一步处理后的语音信息作为下一步的输入，达到了有效的过滤无效语音的目的，从而实现了提高语音识别效率及降低误识别率的技术效果，进而解决了由于通话环境中存在噪声和非有效人声造成的语音识别准确率低技术问题。

技术特征：

1.一种语音信息的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，确定所述语音流中每个语音帧的评价指标，包括：

3.根据权利要求1所述的方法，其特征在于，所述有效信息通过以下方法确定：

4.根据权利要求3所述的方法，其特征在于，所述第一能量阈值通过以下方法确定：

5.根据权利要求4所述的方法，其特征在于，根据所述对比结果确定所述第一能量阈值，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述有效信息输出有效识别结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种语音信息的处理装置，其特征在于，包括：

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质中存储有计算机程序，其中，在所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的语音信息的处理方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任意一项所述的语音信息的处理方法。

技术总结本申请公开了一种语音信息的处理方法及装置、非易失性存储介质。其中，该方法包括：接收语音流，其中，语音流包括：目标对象发送的语音信息、非目标对象发送的语音信息，非目标对象与目标对象在同一通话场景；确定语音流中每个语音帧的评价指标，并在语音流中选择评价指标高于预设分值的语音帧，得到语音帧集合，评价指标用于确定每个语音帧所属的语音信息的类型，预设分值为目标对象的输入值，不同类型的语音帧对应不同的预设分值；在语音帧集合中截取有效信息，并根据有效信息确定有效识别结果，其中，有效识别结果为语义连续的文本信息。本申请解决了由于通话环境中存在噪声和非有效人声造成的语音识别准确率低的技术问题。技术研发人员：马冰受保护的技术使用者：中国电信股份有限公司技术研发日：技术公布日：2024/3/4