技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于谱熵的语音感知哈希认证方法、系统、介质及设备与流程 > 正文

基于谱熵的语音感知哈希认证方法、系统、介质及设备与流程

国知局
2024-06-21 11:56:51

本申请涉及蓝牙音频的语音认证，特别是一种基于谱熵的语音感知哈希认证方法、系统、存储介质及设备。

背景技术：

1、感知哈希(perceptual hash)是近年来出现的基于多媒体感知特征的鲁棒哈希技术。感知哈希是多媒体数据集到感知摘要集的一类单向映射，即将具有相同感知内容的多媒体数字表示唯一地映射为一段数字摘要。它具有对内容保持操作的鲁棒性，从媒体感知内容的角度来说，具有单向性、抗碰撞性等与传统密码学哈希函数类似的性质。这就使得许多传统哈希函数的应用模式通过借助于感知哈希，在多媒体领域得以延续，例如：带密钥的感知哈希使得对媒体内容完整性的鲁棒认证可以按照和使用密码学哈希对数据的完整性进行认证相似的方式进行。

2、“cn107195028a-一种高精度无线语音识别门禁系统”,其中描述了基于感知哈希来实现语音识别的门禁系统，简述如下：首先使用语音采集系统采集语音，然后通过无线传输模块将语音发送，再使用语音信号处理模块生成感知哈希序列，最后通过语音识别模块将生成的感知哈希序列与数据库中的预存的比对，确认识别是否成功。其不足在于：1、语音通过无线传输模块发送前没有压缩，导致码率较高，需要较大的传输带宽且功耗较大；2、其在无线接收端需要完成语音的编码和解码，不仅占用较多的存储空间也需要消耗较多的计算资源，从而给接收端的系统实现带来挑战；3、基于mdct(改进型离散余弦变换)系数的子带能量，使用非负矩阵分解，再构造哈希序列，其中的非负矩阵分解运算量较大，再加上编码和解码，这些模块全部集中在在低功耗嵌入式系统实现比较困难；4、其使用了全频带子带能量，但实际上语音感知哈希最重要的频谱成分集中在300hz～3500hz，使用全频带的子带能量不仅会造成精度下降，而且增加了运算量和系统实现的复杂度。

技术实现思路

1、针对现有技术中存在的上述技术问题，本申请提供了一种基于谱熵的语音感知哈希认证方法、系统、存储介质及设备。

2、本申请采用的第一个技术方案是：提供一种基于谱熵的语音感知哈希认证方法，包括：对pcm音频数据执行lc3音频编码，得到音频编码数据；对音频编码数据执行lc3音频部分解码，得到每一帧pcm音频数据的谱系数；根据每一帧pcm音频数据的谱系数，得到相应帧pcm音频数据的伪谱平坦度；根据每一帧pcm音频数据的伪谱平坦度，生成感知哈希序列；以及将感知哈希序列与预存的哈希数据库进行比对，判断pcm音频数据是否为指定人员的语音。

3、本申请采用的第二个技术方案是：提供一种基于谱熵的语音感知哈希认证系统，包括：用于对pcm音频数据执行lc3音频编码，得到音频编码数据的模块；用于对音频编码数据执行lc3音频部分解码，得到每一帧pcm音频数据的谱系数的模块；用于根据每一帧pcm音频数据的谱系数，得到相应帧pcm音频数据的伪谱平坦度的模块；用于根据每一帧pcm音频数据的伪谱平坦度，生成感知哈希序列的模块；以及用于将感知哈希序列与预存的哈希数据库进行比对，判断pcm音频数据是否为指定人员的语音的模块。

4、本申请采用的第三个技术方案是：提供一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行方案一中的基于谱熵的语音感知哈希认证方法。

5、本申请采用的第四个技术方案是：提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机程序，其中：处理器操作计算机程序以执行方案一中的基于谱熵的语音感知哈希认证方法。

6、本申请技术方案可以达到的有益效果是：本申请的技术方案既可以用于低功耗蓝牙，也可以用于经典蓝牙，以及其他短距离无线通信场景，通过采用与现有的lc3编解码器相结合的技术，能够有效降低编解码过程中的运算量、算法延时和传输带宽，并且利用谱平坦度计算哈希序列，能有效区分语音和噪声以及不同人的语音，提高了语音认证的效率和准确率。

技术特征：

1.一种基于谱熵的语音感知哈希认证方法，其特征在于，包括：

2.根据权利要求1所述的基于谱熵的语音感知哈希认证方法，其特征在于，所述根据每一帧所述pcm音频数据的谱系数，得到所述pcm音频数据的伪谱平坦度，包括：

3.根据权利要求1所述的基于谱熵的语音感知哈希认证方法，其特征在于，所述根据每一帧所述pcm音频数据的伪谱平坦度，生成感知哈希序列,包括：

4.根据权利要求3所述的基于谱熵的语音感知哈希认证方法，其特征在于，所述根据每一帧所述pcm音频数据的伪谱能量与相应帧所述pcm音频数据的伪谱平坦度之间的比值，得到每一帧所述pcm音频数据的感知哈希值，包括：

5.根据权利要求3所述的基于谱熵的语音感知哈希认证方法，其特征在于，还包括：

6.根据权利要求3所述的基于谱熵的语音感知哈希认证方法，其特征在于，所述将所述感知哈希序列与预存的哈希数据库进行比对，判断所述pcm音频数据是否为指定人员的语音，包括：

7.根据权利要求1所述的基于谱熵的语音感知哈希认证方法，其特征在于，所述对所述音频编码数据执行lc3音频部分解码，包括：对所述音频编码数据解码到完成变换域噪声整形解码为止。

8.一种基于谱熵的语音感知哈希认证系统，其特征在于，包括：

9.一种计算机可读存储介质，其存储有计算机程序，其中所述计算机程序被操作以执行权利要求1-7中任一项所述的基于谱熵的语音感知哈希认证方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机程序，其中：所述处理器操作所述计算机程序以执行权利要求1-7中任一项所述的基于谱熵的语音感知哈希认证方法。

技术总结本申请公开了一种基于谱熵的语音感知哈希认证方法、系统、存储介质及设备，属于蓝牙音频的语音认证技术领域。该方法包括对PCM音频数据执行LC3音频编码，得到音频编码数据；对音频编码数据执行LC3音频部分解码，得到每一帧PCM音频数据的谱系数；根据每一帧PCM音频数据的谱系数，得到相应帧PCM音频数据的伪谱平坦度；根据每一帧PCM音频数据的伪谱平坦度，生成感知哈希序列；将感知哈希序列与预存的哈希数据库进行比对，判断PCM音频数据是否为指定人员的语音。本申请通过采用与现有LC3编解码器相结合技术，有效降低了编解码过程中运算量和传输带宽，并且基于伪谱平坦度得到的哈希序列能有效区分语音和噪声以及不同人的语音，提高了语音认证的效率和准确率。技术研发人员：李强,王凌志,叶东翔,朱勇受保护的技术使用者：重庆百瑞互联电子技术有限公司技术研发日：技术公布日：2024/6/5