一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种源代码分类方法、装置及电子设备和存储介质与流程

2022-11-13 22:00:00 来源:中国专利 TAG:

技术特征:
1.一种源代码分类方法,其特征在于,包括:获取目标源代码;提取所述目标源代码的目标单词类型信息,并基于所述目标单词类型信息生成所述目标源代码的目标特征向量;将所述目标特征向量输入训练完成的分类模型中,以预测所述目标源代码的类型。2.根据权利要求1所述源代码分类方法,其特征在于,所述提取所述目标源代码的目标单词类型信息,包括:对所述目标源代码进行词法分析,以将所述目标源代码转换为目标单词序列;确定所述目标单词序列中每个单词所属的单词类型,并基于每个单词所属的单词类型提取所述目标源代码的目标单词类型信息。3.根据权利要求2所述源代码分类方法,其特征在于,所述单词类型包括关键字、标识符和符号中任一项或任几项的组合。4.根据权利要求2所述源代码分类方法,其特征在于,所述单词类型信息包括每个单词所属的单词类型和/或所有所述单词类型有序n元组。5.根据权利要求4所述源代码分类方法,其特征在于,所述单词类型有序n元组包括单词类型有序二元组、单词类型有序三元组和单词类型有序四元组中任一项或任几项的组合。6.根据权利要求1至5中任一项所述源代码分类方法,其特征在于,还包括:获取训练集,并对所述训练集中的每个训练源代码进行类型标注;提取每个所述训练源代码的训练单词类型信息,并基于每个所述训练单词类型信息生成对应的训练源代码的训练特征向量;利用所述训练源代码和对应的训练特征向量训练分类模型,以得到训练完成的分类模型。7.根据权利要求6所述源代码分类方法,其特征在于,所述训练源代码的类型包括c程序、c 程序、java程序、python程序、powershell程序、javascript程序、vbscript程序、bash程序和go程序中任一项或任几项的组合。8.一种源代码分类装置,其特征在于,包括:获取模块,用于获取目标源代码;提取模块,用于提取所述目标源代码的目标单词类型信息,并基于所述目标单词类型信息生成所述目标源代码的目标特征向量;预测模块,用于将所述目标特征向量输入训练完成的分类模型中,以预测所述目标源代码的类型。9.一种电子设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述源代码分类方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述源代码分类方法的步骤。

技术总结
本申请公开了一种源代码分类方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取目标源代码;提取目标源代码的目标单词类型信息,并基于目标单词类型信息生成目标源代码的目标特征向量;将目标特征向量输入训练完成的分类模型中,以预测目标源代码的类型。由此可见,本申请提供的源代码分类方法,提高了分类的准确度,降低了性能要求。降低了性能要求。降低了性能要求。


技术研发人员:闫华 位凯志 古亮
受保护的技术使用者:深信服科技股份有限公司
技术研发日:2021.04.26
技术公布日:2022/11/10
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献