技术新讯 > 乐器声学设备的制造及制作,分析技术 > 身份鉴权方法、装置及介质与流程 > 正文

身份鉴权方法、装置及介质与流程

国知局
2024-06-21 10:38:41

本技术涉及计算机应用，具体涉及一种身份鉴权方法、装置及介质。

背景技术：

1、通常信息系统的安全范围定义在5大类安全技术，分别为：身份认证、访问控制、数据保密性、数据完整性以及不可否认性。身份认证是应用系统最基本的安全要求，传统身份识别和认证的方法是利用密码或用户接口模块(pim)的人工制品(例如用户卡)。当今身份识别和认证技术的改良方向是使用用户本人的生物特征数据来识别和认证用户。生物特征数据是描述用户的唯一的物理特征的数据，并且它能够在请求访问时直接从用户本身读取鉴别。生物特征数据的识别技术被公认为准确、安全的个体身份识别认证技术，在社会司法行政和经济活动中有着广泛需求。

2、声纹识别，又称说话人识别(speaker recognition)，是生物特征识别的一种主要手段，其根据语音信号中能够表示说话人信息的声纹特征，利用计算机以及各种信息识别技术，自动确认或分辨说话人身份的生物特征识别技术。人类声纹兼具静态生理特征和动态行为特征的双重优点，在更注重隐私保护和更乐于运用语音交互的时代，正在各个需要身份鉴权的领域展现出强劲的应用潜力。然而，我国在声纹识别技术领域虽已打破国外的长期垄断，但仍满足不了当前各个行业需求的增长，迫切需要底层关键技术上的持续自主创新。

3、目前的员工交接班任务主要依托交接班系统完成。即上一个员工在交接班系统中登录自己的账号将当前工作状况、重点工作任务、注意事项等形成记录文件，交接给下一个当班员工。下一个员工登录自己的账号系统，完成交接班工作。整个过程较为传统，账号使用静态密码，安全性差，且不涉及人工智能等新技术运用，效率较低，无法适应日益增长的调度业务需要；目前依靠人工手动交接的方式，有可能出现交接信息和文档的传递错误，交接的安全性得不到保证，工作的稳定性得不到保证。

技术实现思路

1、本技术实施例提供一种身份鉴权方法、装置及介质，可以实现声纹与密码的双重身份认证，提高用户身份鉴权的准确性，实现自动、智能的交接班，提高交接班效率。

2、一方面，本技术实施例提供一种身份鉴权方法，所述方法包括：获取混叠语音；根据训练好的混叠语音识别模型中的分离模块对所述混叠语音进行语音分离，以得到目标说话人的目标语音，所述训练好的混叠语音识别模型为基于标注有真实分离结果和真实识别结果的混叠语音样本数据进行训练得到；根据所述训练好的混叠语音识别模型中的识别模块识别所述目标语音的语音文本序列；将所述语音文本序列与预设密码进行匹配，以对所述目标说话人进行身份鉴权；若确定所述目标说话人的身份鉴权成功，则执行交接班指令。

3、可选的，所述根据训练好的混叠语音识别模型对所述待测混叠语音进行语音分离，以得到目标说话人的目标语音，包括：将所述混叠语音输入所述训练好的混叠语音识别模型中的频谱转换模块，以得到所述混叠语音的频谱特征；从预设声纹模板库中获取目标说话人的目标声纹模板；基于所述训练好的混叠语音识别模型中的分离模块对所述混叠语音的频谱特征与所述目标声纹模板进行处理，以从所述混叠语音中分离出与所述目标声纹模板相匹配的目标说话人的目标语音。

4、可选的，在所述基于所述训练好的混叠语音识别模型中的分离模块对所述混叠语音的频谱特征与所述目标声纹模板进行处理之后，还包括：若所述分离模块的输出结果为语音分离失败，则确定所述目标说话人的身份鉴权失败，并生成第一提示信息，所述第一提示信息用于提示所述混叠语音中不存在与所述目标说话人的目标声纹模板相匹配的语音；根据所述第一提示信息触发重新获取混叠语音的操作指令。

5、可选的，所述根据所述训练好的混叠语音识别模型中的识别模块识别所述目标语音的语音文本序列，包括：将所述目标语音输入所述训练好的混叠语音识别模型中的音频特征提取模块，以得到所述目标语音的音频特征；基于所述训练好的混叠语音识别模型中的识别模块识别所述目标语音的音频特征得到所述目标语音对应的音素信息，并对所述音素信息进行解码得到所述目标语音的语音文本序列。

6、可选的，所述将所述语音文本序列与预设密码进行匹配，以对所述目标说话人进行身份鉴权，包括：将所述语音文本序列的字符串与预设密码的字符串进行匹配；若所述语音文本序列的字符串与预设密码的字符串相匹配，则确定所述目标说话人的身份鉴权成功；或者若所述语音文本序列的字符串与预设密码的字符串不匹配，则确定所述目标说话人的身份鉴权失败。

7、可选的，所述方法还包括：若确定所述目标说话人的身份鉴权失败，则生成第二提示信息，所述第二提示信息用于提示所述语音文本序列的字符串与预设密码的字符串不匹配；根据所述第二提示信息触发重新获取混叠语音的操作指令。

8、可选的，所述方法还包括：根据所述混叠语音的录入时刻与预设交接班信息，确定所述目标说话人，所述目标说话人用于表征在目标时段内进行交接班的人员，所述混叠语音的录入时刻属于所述目标时段内。

9、可选的，所述方法还包括：响应于根据用户接口模块或用户账号触发的语音获取指令，获取在目标时段内录入的混叠语音，并根据用户接口模块或用户账号确定所述目标说话人，所述目标说话人用于表征在目标时段内进行交接班的人员，所述混叠语音的录入时刻属于所述目标时段内。

10、可选的，在所述获取混叠语音之后，还包括：对所述混叠语音进行预处理，所述预处理包括断点检测处理、预加重处理、分帧处理中的至少一种。

11、可选的，所述方法还包括：基于标注有真实分离结果和真实识别结果的混叠语音样本数据对混叠语音识别模型进行训练，以得到所述训练好的混叠语音识别模型。

12、可选的，所述基于标注有真实分离结果和真实识别结果的混叠语音样本数据对混叠语音识别模型进行训练，以得到所述训练好的混叠语音识别模型，包括：获取标注有真实分离结果和真实识别结果的混叠语音样本数据，所述真实分离结果包括目标说话人的真实语音，所述真实识别结果包括所述真实语音的真实语音文本序列；根据所述混叠语音识别模型中的分离模块对所述混叠语音样本数据进行语音分离，以得到目标说话人的预测语音，以及根据所述预测语音与所述真实语音确定第一损失函数；根据所述混叠语音识别模型中的识别模块识别所述预测语音的预测语音文本序列，以及根据所述预测语音文本序列与所述真实语音文本序列确定第二损失函数；根据所述第一损失函数与所述第二损失函数训练所述混叠语音识别模型的模型参数，以得到所述训练好的混叠语音识别模型。

13、另一方面，本技术实施例提供一种身份鉴权装置，所述装置包括：

14、获取单元，用于获取混叠语音；

15、分离单元，用于根据训练好的混叠语音识别模型中的分离模块对所述混叠语音进行语音分离，以得到目标说话人的目标语音，所述训练好的混叠语音识别模型为基于标注有真实分离结果和真实识别结果的混叠语音样本数据进行训练得到；

16、识别单元，用于根据所述训练好的混叠语音识别模型中的识别模块识别所述目标语音的语音文本序列；

17、匹配单元，用于将所述语音文本序列与预设密码进行匹配，以对所述目标说话人进行身份鉴权；

18、处理单元，用于若确定所述目标说话人的身份鉴权成功，则执行交接班指令。

19、另一方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的身份鉴权方法。

20、另一方面，本技术实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的身份鉴权方法。

21、另一方面，本技术实施例提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上任一实施例所述的身份鉴权方法。

22、本技术实施例通过获取混叠语音；根据训练好的混叠语音识别模型中的分离模块对混叠语音进行语音分离，以得到目标说话人的目标语音，训练好的混叠语音识别模型为基于标注有真实分离结果和真实识别结果的混叠语音样本数据进行训练得到；根据训练好的混叠语音识别模型中的识别模块识别目标语音的语音文本序列；将语音文本序列与预设密码进行匹配，以对目标说话人进行身份鉴权；若确定目标说话人的身份鉴权成功，则执行交接班指令。本技术实施例提供基于说话人声纹识别的身份鉴权方式，实现声纹与密码的双重身份认证，提高用户身份鉴权的准确性，保障了账号安全性，并采用算法模型和特征提取手段，优化网络结构，提高交接过程中用户语音的声纹识别的精度，实现了自动、智能的交接班，极大地提高了交接班效率。