技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于音视频的学习投入度资源优化式精准检测方法及系统 > 正文

基于音视频的学习投入度资源优化式精准检测方法及系统

国知局
2024-06-21 11:46:23

本发明涉及音视频数据处理，具体而言，涉及一种基于音视频的学习投入度资源优化式精准检测方法及系统。

背景技术：

1、随着社会的不断发展，人们对教育的重视程度越来越高；在全球化、信息化的背景下，教育的重要性愈发凸显。学习投入度作为一项重要的教育质量评价指标，越来越受到学校、教师和家长们的关注。

2、然而，传统的学习投入度检测方法往往会占用较多的计算资源，尽管部分耗能较低的投入度检测方法已经被应用，但检测精度却并不理想。随着音视频领域相关技术的不断更新换代，能够为学习投入度资源优化式精准检测提供直接的支持。因此，提出一种基于音视频的学习投入度资源优化式精准检测方法及系统有非常重要的价值和意义。

技术实现思路

1、为了克服上述问题或者至少部分地解决上述问题，本发明提供一种基于音视频的学习投入度资源优化式精准检测方法及系统，结合基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型、基于编码匹配的hmm与lstm智能使用式语音识别模型、基于关键区域精准比对的变化显著帧图像选取式面部专注度检测模型，进行低耗且高质量的语音去噪、语音识别及专注度检测，进而实现对学生学习投入度的精准检测。

2、为解决上述技术问题，本发明采用的技术方案为：

3、第一方面，本发明提供一种基于音视频的学习投入度资源优化式精准检测方法，包括以下步骤：

4、采集学生课堂学习过程中的音视频数据；所述音视频数据包括语音信号及包含学生完整面部图像的视频信号；

5、利用基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对音视频数据中的语音信号进行去噪处理，以得到去噪语音信号；

6、利用基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别，以得到去噪语音识别结果；

7、利用基于关键区域精准比对的变化显著帧图像选取式专注度检测模型，对音视频数据中的视频信号进行检测，以得到对应学生的面部专注度检测结果；

8、根据去噪语音识别结果和面部专注度检测结果生成对应学生的学习投入度检测结果。

9、首先，本发明提出了基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对语音信号进行去噪；该模型首先以分解层数递进的方式实现语音信号的小波去噪，当分解到特定层数并进行相关处理仍然无法满足要求时，再利用基于深度神经网络的语音去噪模型对语音信号进行去噪，较为合理地使用了计算资源，能够保证利用较少的计算资源完成高质量的语音去噪。其次，本发明提出了基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别；该模型首先利用语音编码匹配的方式对去噪语音信号进行分析，如果绝大多数的等分去噪语音信号两两之间匹配度较高，直接利用hmm模型对去噪语音信号进行语音识别；反之，则利用lstm模型对去噪语音信号进行语音识别。根据语音信号的分析结果使用更有针对性的语音识别模型，较为合理地使用了计算资源，能够保证利用较少的计算资源实现高精度的语音识别。最后，本发明提出了基于关键区域精准比对的变化显著帧图像选取式面部专注度检测模型，对面部专注度进行检测；该模型通过关键区域精准比对的方式，挑选出变化显著帧图像，并使用基于svm的面部专注度检测模型对它们进行面部专注度检测，避免了对整个视频中所有帧图像的检测，较为合理地使用了计算资源，能够保证利用较少的计算资源实现高精度的专注度检测。

10、基于第一方面，进一步地，上述利用基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对音视频数据中的语音信号进行去噪处理的方法包括以下步骤：

11、利用小波变换方法对音视频数据中的语音信号进行一层小波分解，对高频系数进行阈值量化处理，处理后重构语音信号，以得到初始去噪结果；

12、对初始去噪结果进行峰值信噪比检测，以得到初始信噪比检测结果；

13、若初始信噪比检测结果大于预置的信噪比阈值，则将初始去噪结果作为最终的去噪语音信号；反之，则利用小波变换方法对语音信号进行二层小波分解，对高频系数进行阈值量化处理，处理后重构语音信号，以得到二次去噪结果；

14、对二次去噪结果进行峰值信噪比检测，以得到二次信噪比检测结果；

15、若二次信噪比检测结果大于预置的信噪比阈值，则将二次去噪结果作为最终的去噪语音信号；反之，则利用小波变换方法对语音信号进行三层小波分解对高频系数进行阈值量化处理，处理后重构语音信号，以得到三次去噪结果；

16、对三次去噪结果进行峰值信噪比检测，以得到三次信噪比检测结果；

17、若三次信噪比检测结果大于预置的信噪比阈值，则将三次去噪结果作为最终的去噪语音信号；反之，则利用小波变换方法对语音信号进行四层小波分解对高频系数进行阈值量化处理，处理后重构语音信号，以得到四次去噪结果；

18、对四次去噪结果进行峰值信噪比检测，以得到四次信噪比检测结果；

19、若四次信噪比检测结果大于预置的信噪比阈值，则将四次去噪结果作为最终的去噪语音信号；反之，则利用基于深度神经网络的语音去噪模型对语音信号进行去噪，输出最终的去噪语音信号。

20、基于第一方面，进一步地，上述利用基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别的方法包括以下步骤：

21、将去噪语音信号进行多等分处理，以得到多段等分去噪语音信号；

22、对各段等分去噪语音信号进行编码，并进行各段等分去噪语音信号匹配；

23、若各段等分去噪语音信号两两之间匹配度高于预置的匹配度阈值，则利用hmm模型对去噪语音信号进行语音识别，以得到去噪语音识别结果；反之，则利用lstm模型对去噪语音信号进行语音识别，以得到去噪语音识别结果。

24、基于第一方面，进一步地，上述利用基于关键区域精准比对的变化显著帧图像选取式专注度检测模型，对音视频数据中的视频信号进行检测的方法包括以下步骤：

25、针对视频信号中第一帧图像之外的每一帧图像，均与上一帧图像进行关键区域相似度比对，以得到对应两帧图像之间的比对结果；

26、若某一帧图像与上一帧图像之间的比对结果小于预设的相似度阈值，则将该帧图像作为变化显著帧图像；

27、利用基于svm的面部专注度检测模型对每个变化显著帧图像进行面部专注度检测，以得到对应的专注度检测结果；

28、根据各个专注度检测结果确定最终的面部专注度检测结果。

29、基于第一方面，进一步地，上述根据去噪语音识别结果和面部专注度检测结果生成对应学生的学习投入度检测结果的方法包括以下步骤：

30、若去噪语音识别结果中仅包含预置的学习内容，且面部专注度检测结果为专注度高，则认定对应学生的学习投入度高，生成对应的高学习投入度检测结果；反正，则认定对应学生的学习投入度低，生成对应的低学习投入度检测结果。

31、基于第一方面，进一步地，该基于音视频的学习投入度资源优化式精准检测方法，还包括以下步骤：

32、将学生的学习投入度检测结果上传至区块链。

33、第二方面，本发明提供一种基于音视频的学习投入度资源优化式精准检测系统，包括：数据采集模块、语音去噪模块、语音识别模块、专注度检测模块及投入度结果生成模块，其中：

34、数据采集模块，用于采集学生课堂学习过程中的音视频数据；所述音视频数据包括语音信号及包含学生完整面部图像的视频信号；

35、语音去噪模块，用于利用基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对音视频数据中的语音信号进行去噪处理，以得到去噪语音信号；

36、语音识别模块，用于利用基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别，以得到去噪语音识别结果；

37、专注度检测模块，用于利用基于关键区域精准比对的变化显著帧图像选取式专注度检测模型，对音视频数据中的视频信号进行检测，以得到对应学生的面部专注度检测结果；

38、投入度结果生成模块，用于根据去噪语音识别结果和面部专注度检测结果生成对应学生的学习投入度检测结果。

39、本系统通过数据采集模块、语音去噪模块、语音识别模块、专注度检测模块及投入度结果生成模块等多个模块的配合，结合基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型、基于编码匹配的hmm与lstm智能使用式语音识别模型、基于关键区域精准比对的变化显著帧图像选取式面部专注度检测模型，进行低耗且高质量的语音去噪、语音识别及专注度检测，进而实现对学生学习投入度的精准检测。首先，本发明提出了基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对语音信号进行去噪；该模型首先以分解层数递进的方式实现语音信号的小波去噪，当分解到特定层数并进行相关处理仍然无法满足要求时，再利用基于深度神经网络的语音去噪模型对语音信号进行去噪，较为合理地使用了计算资源，能够保证利用较少的计算资源完成高质量的语音去噪。其次，本发明提出了基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别；该模型首先利用语音编码匹配的方式对去噪语音信号进行分析，如果绝大多数的等分去噪语音信号两两之间匹配度较高，直接利用hmm模型对去噪语音信号进行语音识别；反之，则利用lstm模型对去噪语音信号进行语音识别。根据语音信号的分析结果使用更有针对性的语音识别模型，较为合理地使用了计算资源，能够保证利用较少的计算资源实现高精度的语音识别。最后，本发明提出了基于关键区域精准比对的变化显著帧图像选取式面部专注度检测模型，对面部专注度进行检测；该模型通过关键区域精准比对的方式，挑选出变化显著帧图像，并使用基于svm的面部专注度检测模型对它们进行面部专注度检测，避免了对整个视频中所有帧图像的检测，较为合理地使用了计算资源，能够保证利用较少的计算资源实现高精度的专注度检测。

40、第三方面，本技术提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器；当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。

41、第四方面，本技术提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

42、本发明至少具有如下优点或有益效果：

43、1、本发明提出了基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对语音信号进行去噪；该模型首先以分解层数递进的方式实现语音信号的小波去噪，当分解到特定层数并进行相关处理仍然无法满足要求时，再利用基于深度神经网络的语音去噪模型对语音信号进行去噪，较为合理地使用了计算资源，能够保证利用较少的计算资源完成高质量的语音去噪。

44、2、本发明提出了基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别；该模型首先利用语音编码匹配的方式对去噪语音信号进行分析，如果绝大多数的等分去噪语音信号两两之间匹配度较高，直接利用hmm模型对去噪语音信号进行语音识别；反之，则利用lstm模型对去噪语音信号进行语音识别。根据语音信号的分析结果使用更有针对性的语音识别模型，较为合理地使用了计算资源，能够保证利用较少的计算资源实现高精度的语音识别。

45、3、本发明提出了基于关键区域精准比对的变化显著帧图像选取式面部专注度检测模型，对面部专注度进行检测；该模型通过关键区域精准比对的方式，挑选出变化显著帧图像，并使用基于svm的面部专注度检测模型对它们进行面部专注度检测，避免了对整个视频中所有帧图像的检测，较为合理地使用了计算资源，能够保证利用较少的计算资源实现高精度的专注度检测。

46、4、本发明利用了区块链技术，将每位学生在每节课中的学习投入度检测结果进行上链存储，提升了整个系统的安全性。