技术新讯 > 乐器声学设备的制造及制作,分析技术 > 利用GAN网络生成基于语音对抗样本的ASR系统 > 正文

利用GAN网络生成基于语音对抗样本的ASR系统

国知局
2024-06-21 11:49:19

本发明涉及多模态信号融合和语音恢复系统，具体为利用gan网络生成基于语音对抗样本的asr系统。

背景技术：

1、伴随人工智能领域的广泛普及，自动语音识别（automatic speech recognition，asr）技术成为人工智能实现人机交互的关键技术之一，其准确率随着深度学习的发展得到了前所未有的提升。然而，攻击者通过对语音信号增加微小扰动，致使asr系统产生具有攻击性的指令，给asr系统带来了大量的、潜在的安全威胁。因此，针对此类型语音对抗样本攻击的防御技术研究对促进asr系统完善化、人机交互全面化两方面具有重要的研究价值，成为人工智能领域一大研究热点。

技术实现思路

1、本发明为了解决asr系统在语音信号有扰动后会产生攻击性指令的问题，创新性地提出构建一种防御成功率高、可迁移性强、鲁棒性强的利用gan网络生成基于语音对抗样本的asr系统。通过提出衡量语音对抗扰动大小的损失函数、修改原始gan的架构、使用符合语音数据特性的生成器来有效地恢复语音对抗样本为正确的语音样本。

2、本发明是采用如下的技术方案实现的：利用gan网络生成基于语音对抗样本的asr系统，该系统的使用包括以下步骤：

3、第一步：改进asr语音识别系统：原asr系统包括卷积层、双向 gru 循环层、全连接层和softmax函数，在原asr系统中全连接层和softmax函数之间加入ctc 损失函数，ctc 损失函数为衡量语音对抗扰动大小的损失函数。

4、第二步：搭建gan网络防御模型：在改进后的asr系统中加入gan网络，gan网络包括生成器和判别器，二者相互博弈实现对对抗样本精准分类，其中gan网络位于全连接层和ctc 损失函数之间。旨在利用生成器重构、判别器分类将语音对抗样本映射回良性语音样本来防御语音对抗样本。

5、第三步：构建数据集：将音频数据利用梯度优化算法来引导加入扰动（语音对抗样本）构建数据集，并将数据集分为训练集和验证集。

6、第四步：训练模型：定义训练循环，其中包括生成器和判别器的训练过程。在训练步骤中，生成器围绕上一阶段系统所给定的语音样本生成已防御扰动的语音样本数据，判别器对该生成的语音样本数据和音频数据进行对比，并将语音样本数据中不含有扰动的数据和音频数据分为一类，将含有扰动的数据分为一类，利用 ctc 损失函数计算损失值，也即含有扰动的数据在语音样本数据中的占比，将损失值可视化后通过梯度下降法对gan网络模型进行优化，在完成上述训练过程后，使用验证集进行验证，用验证集对训练的模型进行评估，直到模型达到要求。

7、第五步：训练好的asr系统即可抵御扰动。

8、本发明针对asr系统安全性展开深入探究，设计了一种防御性更高效、更准确、更全面的基于gan网络的语音对抗样本攻击防御模型，解决在采用深度神经网络方法进行语音攻击防御领域的一大难点。并且系统地组织了语音对抗性攻击和防御的方法，为后续的研究奠定了坚实的基础，并将进一步进行后续研究，重点研究物理世界中语音处理系统的对抗性攻击和防御。

技术特征：

1.利用gan网络生成基于语音对抗样本的asr系统，其特征在于：该系统的使用包括以下步骤：

技术总结本发明涉及多模态信号融合和语音恢复系统，具体为利用GAN网络生成基于语音对抗样本的ASR系统。由于攻击者通过对语音信号增加微小扰动，致使ASR系统产生具有攻击性的指令，给ASR系统带来了大量的、潜在的安全威胁。因此，针对此类型语音对抗样本攻击的防御技术研究对促进ASR系统完善化、人机交互全面化两方面具有重要的研究价值，成为人工智能领域一大研究热点。基于此，本发明在ASR系统中加入了GAN网络防御模型，构建了一种防御成功率高、可迁移性强、鲁棒性强的语音对抗样本防御技术来解决目前针对采用神经网络方法进行语音攻击防御的相关研究尚未成熟这一难点。技术研发人员：朱飑凯,孙钰琛,任利明,曹敏,刘馨鸽,施艺,李佳,张金泉,刘诚宇,王康宁,李峰,刘三满受保护的技术使用者：山西警察学院技术研发日：技术公布日：2024/5/6