技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种远程智能语音分析监管方法与流程 > 正文

一种远程智能语音分析监管方法与流程

国知局
2024-06-21 10:38:44

本发明涉及信息，尤其涉及一种远程智能语音分析监管方法。

背景技术：

1、传统远程监管工作人员在获取远程监管人员心理状态时，通常依赖于人工观察和评估。这种方法往往受到工作人员主观意见和个人偏见的影响，容易导致评估结果的不准确性。且通常情况下，工作人员通常无法全天候地监测和了解所有远程监管人员的心理状态，由于时间和人力资源的限制，工作人员往往只能进行有限的心理状态评估，无法全面了解每个远程监管人员的情况。而且在评估远程监管人员心理状态时，缺乏客观化的指标和数据支持，心理状态的评估主要依赖于主观的观察和判断，缺乏科学的量化指标来确保评估的客观性和准确性。与此同时，远程监管人员面对访谈和观察时可能会通过模仿或隐藏自己意图，不愿意真实地表达自己的内心感受和心理状态，使工作人员不能获取到远程监管人员真正的心理状态。传统远程监管工作人员在获取远程监管人员心理状态时，通常只依赖于个别工作人员的观察和评估，缺乏整体视角和综合性分析，不能根据远程监管人员的文化背景、社会环境和经济条件进行综合理解远程监管人员心理状态，以对远程监管人员提供全面的支持和干预。

技术实现思路

1、本发明提供了一种远程智能语音分析监管方法，主要包括：

2、根据远程监管人员初始行为模式和远程监管人员初始语音，获取其在开始远程监管时的基线，通过持续监测，记录远程监管人员随时间的行为和语音变化；判断远程监管人员的行为与语音模式与基线数据是否有显著差异，若存在显著差异，分析这些差异是否为自然变化或可能的模仿行为，通过比对行为与语音模式的差异程度与预定的自然变化频率，区分自然变化和模仿行为；检测说话者是否存在伪装或变声的现象，通过与存储的声纹数据进行比对，检测出声纹的不匹配部分；如果验证身份通过，则开始分析语音中的情感变化指标，对语音内容进行分析，判断说话者的情感状态；结合情感分析的结果，进一步评估说话者的心理压力；通过分析远程监管人员话语中的关键词和语境，获取远程监管人员语音中的隐藏意图；通过远程监管人员的日常活动、互动数据，获取远程监管人员的心理状态，结合语音分析远程监管人员心理状态，为其心理状态分析提供背景信息；根据语音分析的结果，评估远程监管人员的再犯风险，根据他们的言语内容，包括对某些事物的态度、意图，判断其可能的再犯意向；结合所有前述分析结果，形成远程监管人员的综合行为模式分析，使用随机森林回归算法预测远程监管人员再犯概率，形成一个完整的远程监管人员行为和心理状态的画像。

3、在一些实施例中，所述根据远程监管人员初始行为模式和远程监管人员初始语音，获取其在开始远程监管时的基线，通过持续监测，记录远程监管人员随时间的行为和语音变化，包括：

4、通过监控摄像头和麦克风设备收集行为和语音，记录个人信息和犯罪史作为辅助信息；根据房间的布局和行为和语音采集需求，确定设备的数量和位置，安装监控摄像头和麦克风设备；通过监控摄像头获取远程监管人员的日常活动、社交互动的行为数据，将摄像头数据与时间戳进行关联；通过麦克风获取远程监管人员语速、音调、语气变化的语音数据，将语音数据与时间戳进行关联；记录个人信息包括远程监管人员的姓名、年龄、性别和犯罪史包括犯罪类型、犯罪时间；将个人信息和犯罪史数据与行为和语音数据进行关联；进行持续监测，记录远程监管人员随时间的行为和语音变化；得到远程监管人员开始远程监管时的基线数据包括行为、语音、个人信息和犯罪史，远程监管人员随时间的行为和语音变化。

5、在一些实施例中，所述判断远程监管人员的行为与语音模式与基线数据是否有显著差异，若存在显著差异，分析这些差异是否为自然变化或可能的模仿行为，通过比对行为与语音模式的差异程度与预定的自然变化频率，区分自然变化和模仿行为，包括：

6、获取远程监管人员的当前行为和语音模式，将其存入远程监管人员行为与语音模式特征库；根据当前的行为与语音模式，更新行为模式历史基线数据和语音模式历史基线数据；使用t检验判断差异是否大于预设差异值，对比远程监管人员的行为与语音模式与行为模式历史基线数据和语音模式历史基线数据；计算远程监管人员的当前行为与语音模式与行为模式基线数据和语音模式基线数据的方差，通过方差得到差异值，判断差异值是模仿行为还是自然变化产生；根据根据远程监管人员基线语音与当前语音的词频进行对比，判断差异是否在预定的自然变化范围内；使用模仿行为特征分析工具，分析当前行为与语音模式中是否含有模仿行为的特征，并记录特征数据；若当前行为与语音模式含有模仿行为的特征，将其特征存入模仿行为与自然变化的区分判定机制，否则，记录为自然变化；分析并确定远程监管人员的行为与语音模式是否存在显著的模仿行为或自然变化；还包括：建立模仿行为特征提取模型，根据其他远程监管人员的动作和语音特征，与远程监管人员的特征和语音进行相似度比较，若相似度高于预设值，判断为存在模仿行为；根据远程监管人员的基线语音和当前语音，判断远程监管人员语音是否在自然变化范围内，是否通过模仿改变语音。

7、所述建立模仿行为特征提取模型，根据其他远程监管人员的动作和语音特征，与远程监管人员的特征和语音进行相似度比较，若相似度高于预设值，判断为存在模仿行为，具体包括：

8、根据监控视频获取远程监管人员的动作，使用人体姿态运动分析，包括姿势、肢体动作、步态，提取出远程监管人员的动作特征。对远程监管人员的语音进行录音，使用音频频谱分析和语音识别提取语音特征，包括音调、音频频率。根据提取的特征，使用余弦相似度，计算远程监管人员与其他远程监管人员之间的动作和语音特征的相似度。根据实际需求和任务目标，设置预设值，若相似度高于阈值，判断存在模仿行为。将存在模仿行为远程监管人员的动作，语音输入transformer，提取特征，建立模仿行为特征提取模型。

9、所述根据远程监管人员的基线语音和当前语音，判断远程监管人员语音是否在自然变化范围内，是否通过模仿改变语音，具体包括：

10、分析语音的频谱特征包括基频、共振峰，如果频谱特征改变幅度大于预设幅度，判断语音改变不在自然范围内。使用pesq评估语音的清晰度和自然度，如果声音质量下降或出现异常，判断存在模仿。通过mfcc提取语音参数，比较基线语音和当前语音的相似度，如果特征参数变化率大于预设变化率，判断为存在模仿。利用语音识别，将语音转换为文本，比较基线语音和当前语音之间的文本相似度，如果词汇量和词频改变超出预设改变值，判定为存在模仿。

11、在一些实施例中，所述检测说话者是否存在伪装或变声的现象。通过与存储的声纹数据进行比对，检测出声纹的不匹配部分，包括：

12、获取说话者的基音频率和共振峰频率，通过与存储的声纹数据进行比对，得到声音频率特征的差异；确定声音频率特征差异是否超过设定的阈值，如果差异超过阈值，判断存在声纹不匹配的现象，存在伪装或变声；获取说话者的语速和断句习惯，通过与存储的声纹数据进行比对，获得声音时长特征的差异；确定声音时长特征差异是否超过设定的阈值，如果差异超过阈值，则判断存在声纹不匹配的现象，可能存在伪装或变声；获取说话者的音量和音色，通过与存储的声纹数据进行比对，获得声音强度特征的差异；确定声音强度特征差异是否超过设定的阈值，如果差异超过阈值，则判断存在声纹不匹配的现象，可能存在伪装或变声；获取说话者的音高和音调，通过与存储的声纹数据进行比对，获得声音语调特征的差异；确定声音语调特征差异是否超过设定的阈值，如果差异超过阈值，则判断存在声纹不匹配的现象，可能存在伪装或变声；通过比对说话者的声音特征与存储的声纹数据之间的差异，判断是否存在声纹的不匹配部分，判断说话者是否存在伪装或变声。

13、在一些实施例中，所述如果验证身份通过，则开始分析语音中的情感变化指标，对语音内容进行分析，判断说话者的情感状态，包括：

14、通过声纹识别对说话者进行身份验证，身份验证通过，对语音进行情感分析；对语音进行滤波、降噪，去除噪声和不相关的信息，获取清晰语音信号；对清晰语音进行特征提取，获取语音中的情感特征；获取语音的基频、能量特征，分析说话者的情感表达方式；分析语音的节奏和速度，判断说话者情感的强度和变化趋势；将提取到的语音特征、情感词汇输入到支持向量机中进行情感分类，输出每句话的情感状态；使用支持向量机，判断说话者的情感类别，将情感分为积极、消极或中性类别，判断说话者的情感状态；根据语音中的语音特征和情感词汇，判断情感的强度是强烈的愤怒还是轻微的不满；分析语音中的情感词汇和语义信息，确定情感的极性，或判定为中性情感；识别语音中的情感词汇，包括高兴、悲伤、愤怒，来推断说话者的情感状态；根据语音中的关键词汇和语义信息，判断情感的类别和强度；对情感一致性进行检测，通过分析面部表情、手势非语言信号，判断其与语音中的情感是否一致，获取全面的情感理解；根据语音中的情感特征，情感表达方式，情感强度和变化趋势，得到说话者的情感状态；还包括：使用支持向量机，对远程监管人员的语音进行情感分类。

15、所述使用支持向量机，对远程监管人员的语音进行情感分类，具体包括：

16、通过声学分析提取远程监管人员语音的声调、音调、音频频率、语速、音量。设定情感类别，包括愤怒、快乐、悲伤、中性，作为远程监管人员语音情感分类的目标变量。收集远程监管人员语音的相关内容，包括与罪行相关的话题、情绪表达或者情感调控。使用获取的语音特征和情感标签作为训练数据，训练支持向量机模型。针对远程监管人员语音中存在的强烈情绪表达，对支持向量机模型进行特殊处理。对远程监管人员语音表达与言语内容一致性的不一致进行分析，从中获取额外的情感分类信息，并在模型中进行处理。使用获取的语音内容作为附加属性，辅助向量机模型对情感分类的训练和预测，提升情感分类的准确性。得到一个远程监管人员语音进行情感分类预测的支持向量机模型，输入远程监管人员语音，输出远程监管人员情感状态。

17、在一些实施例中，所述结合情感分析的结果，进一步评估说话者的心理压力，包括：

18、通过对说话者的语音进行情感分析，得到说话者的情绪状态，包括愤怒、悲伤、紧张；通过采集语音样本，分析语音频率、音调、震颤特征来判断声音是否具有急促、高声或颤抖的特征；通过调查说话者劳动、人际关系方面的问题，获取说话者当前所面临的情绪和压力因素；根据情感分析结果和声音属性，结合调查说话者劳动、人际关系方面的问题，综合分析判断说话者的心理压力水平，得到说话者心理压力水平的初步判断。

19、在一些实施例中，所述通过分析远程监管人员话语中的关键词和语境，获取远程监管人员语音中的隐藏意图，包括：

20、使用tf-idf提取关键词包括暴力、欺骗、报复，与已知的隐藏意图相关联；分析话语的上下文，包括背景信息、语气和语法结构，寻找话语的隐藏意图；获取话语的背景信息和语气，推测出隐藏的意图；使用带有情感类别标注的数据训练rnn模型，得到一个远程监管人员情感分类器，预测愤怒和悲伤的程度；将远程监管人员话语输入远程监管人员情感分类器，识别和分析话语中的情感表达，并将其与隐藏意图相关联；通过对话语的词性进行标注，包括名词、动词、形容词，获取话语中的修辞手法和语言特征；通过远程监管人员的地理位置，获取远程监管人员所属的文化背景和价值观；根据远程监管人员语音中的关键词、语境、情感、语言特征和文化背景，得到远程监管人员的隐藏意图。

21、在一些实施例中，所述通过远程监管人员的日常活动、互动数据，获取远程监管人员的心理状态，结合语音分析远程监管人员心理状态，为其心理状态分析提供背景信息，包括：

22、通过远程监管管理系统或监控记录，获取远程监管人员的作息时间、饮食习惯、体育锻炼活动数据，得到远程监管人员的生活规律和健康状况；通过远程监管管理系统、通信记录或社交平台数据，获取远程监管人员与其他远程监管人员、狱警、家属或朋友的互动，包括社交活动、通信频率，得到远程监管人员的社交关系和支持网络；采用心理测试、访谈获取远程监管人员的情绪变化、心理健康评估数据，得到远程监管人员的心理状态；通过对远程监管人员的语音进行分析，提取声音特征和语音情绪，得到他们的情感状态和心理健康状况；对获取的数据进行清洗、归一化确保数据的准确性和一致性；将日常活动数据、互动数据、心理状态数据和语音分析数据进行分析，判断远程监管人员的生活状况和心理状态确定远程监管人员的生活规律、社交关系和心理状态。

23、在一些实施例中，所述根据语音分析的结果，评估远程监管人员的再犯风险，根据他们的言语内容，包括对某些事物的态度、意图，判断其可能的再犯意向，包括：

24、使用wav2vec将远程监管人员的语音转化为文本数据；使用tf-idf，从转化后的文本数据中提取主题关键词；对转化后的文本数据进行情感分析，判断其对特定话题的积极性或消极性；根据言语的关键词、语境、情感、语言特征和文化背景，得到远程监管人员隐藏意图；基于言语的意图和情感，预测远程监管人员对某一话题或事物的反应或行动；获取远程监管人员的基线语音数据，根据基线语音时间戳，分析其行为和言语的变化趋势；从文本数据中提取使用频率高的关键词、句式结构；对远程监管人员的再犯风险进行评估，生成再犯风险分析报告。

25、在一些实施例中，所述结合所有前述分析结果，形成远程监管人员的综合行为模式分析，使用随机森林回归算法预测远程监管人员再犯概率，形成一个完整的远程监管人员行为和心理状态的画像，包括：

26、通过分析犯罪记录、案件报告信息，确定远程监管人员的犯罪类型、作案动机和犯罪手段，得到远程监管人员的犯罪行为模式和动机；通过调查个人家庭背景、教育程度和就业状况信息，获取远程监管人员的社会环境和条件，得到远程监管人员的社会背景对其发展和行为模式的影响；获取远程监管人员在不同情景下的语音，分析语音情感，得到远程监管人员在不同情境下的情绪波动、心理压力方面的信息，得到远程监管人员的情感和精神健康状况；通过调查个体的性格特征、价值观念和人际关系信息，理解远程监管人员的行为模式，得到远程监管人员的个人特征对其行为和心理状态的影响；收集远程监管人员的数据，包括其犯罪行为模式和动机、社会背景、性格特征、价值观念和人际关系方面的得分，并获取远程监管人员出狱后再犯的数据，将这些信息作为输入，使用随机森林回归算法进行训练，构造多个决策树进行预测出狱后再犯的概率，并取这些决策树的平均值来作为最终预测结果；结合远程监管人员的数据和预测结果，对远程监管人员进行画像并制定个性化的改造计划和帮助远程监管人员重新融入社会。

27、本发明实施例提供的技术方案可以包括以下有益效果：

28、本发明公开了一种根据远程监管人员初始行为模式和远程监管人员初始语音模式，获取其在开始远程监管时的基线数据的方法。通过持续监测技术，记录远程监管人员随时间的行为和语音变化数据。采用模式匹配与对比技术，判断远程监管人员的行为与语音模式与基线数据是否有显著差异。若存在显著差异，进一步分析这些差异是否为自然变化或可能的模仿行为。通过比对行为与语音模式的差异程度与预定的自然变化频率，区分自然变化和模仿行为。同时，本发明还可以检测说话者是否存在伪装或变声的现象。通过与存储的声纹数据进行比对，检测出声纹的不匹配部分。验证身份通过后，本发明还可以分析语音中的情感变化指标。利用情感分析算法，对语音内容进行分析，判断说话者的情感状态。进一步结合情感分析的结果，评估说话者的心理压力。本发明还采用内容分析技术捕捉语音中可能的隐藏意图。通过分析远程监管人员话语中的关键词和语境，尝试捕捉不明确表达但意味深长的内容。同时，本发明还对远程监管人员的生活状况数据进行联合分析，考虑他们的日常活动、互动等数据，与语音分析的结果进行对比，为其心理状态提供背景信息。根据语音分析的结果，本发明还可以评估远程监管人员的再犯风险。根据他们的言语内容，例如对某些事物的态度、意图等，判断其可能的再犯意向。最后，本发明将结合所有前述分析结果，形成远程监管人员的综合行为模式分析。通过深度学习和情感分析算法，形成一个完整的远程监管人员行为和心理状态的画像。