域名数据分类方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-10-09 16:29:37
本技术涉及dns,尤其涉及一种域名数据分类方法、装置、电子设备及存储介质。
背景技术:
1、内容分发网络(content delivery network,简称cdn)将源站内容分发至遍布全球的加速节点,当用户通过源域名向源域网站发起网站资源请求时,请求会被调节至离用户最近的节点,提高用户的网络访问速度;对于内容提供者来说,其源域名属于内容提供者的资产,然而实现内容分发的cname域名则由cdn提供商控制解析,不属于内容提供者的资产;因此,在进行资产测绘时,需要区别属于内容提供者的域名和属于cdn提供商的cdn域名。
2、目前,可采用的cdn域名分类技术主要包括:关键字匹配方法和有监督机器学习方法;然而,现有的域名分类方依赖于简单的规则匹配或静态特征学习,难以应对复杂的域名结构和动态变化,导致分类准确性不足,误分类率较高;此外,有监督机器学习方法在处理大量域名时,需要大量的计算资源和时间,导致域名的分类效率低下。
技术实现思路
1、本技术提供一种域名数据分类方法、装置、电子设备及存储介质,用以解决的现有cdn域名分类技术难以应对复杂的域名结构和动态变化,以及域名分类准确性不足、分类效率低,以及误分类率较高的技术问题。
2、第一方面,本技术提供一种域名数据分类方法,包括:
3、获取域名日志数据和cdn域名后缀库,其中,所述域名日志数据包括多个域名;
4、将所述多个域名与所述cdn域名后缀库进行匹配处理,得到域名正样本集和待分类域名,所述域名正样本集用于指示与所述cdn域名后缀库匹配一致的域名,所述待分类域名用于指示与所述cdn域名后缀库匹配不一致的域名;
5、对所述域名正样本集中的各个域名进行特征提取,得到域名特征集;
6、根据所述域名正样本集和所述域名特征集,训练域名分类模型,并通过所述域名分类模型预测所述待分类域名是否属于cdn域名;
7、通过cdn服务对所述域名分类模型的预测结果进行验证,并根据验证结果对所述cdn域名后缀库进行更新处理。
8、可选的,所述将所述多个域名与所述cdn域名后缀库进行匹配处理,得到域名正样本集和待分类域名,包括:
9、根据所述域名日志数据,分别生成所述多个域名的域名解析链,所述域名解析链用于指示域名系统对于所述域名的解析路径;
10、分别将所述多个域名的域名解析链与所述cdn域名后缀库进行匹配处理,得到所述域名正样本集和所述待分类域名。
11、可选的,所述分别对所述每个域名的域名解析链和所述cdn域名后缀库进行匹配处理,得到所述域名正样本集和所述待分类域名,包括:
12、根据所述多个域名的域名解析链,分别提取多个域名解析链中记录的域名信息;
13、分别将所述多个域名解析链的域名信息与所述cdn域名后缀库进行匹配处理;
14、针对每一域名解析链,若所述域名解析链的域名信息中存在至少一个域名信息与所述cdn域名后缀库中的后缀域名匹配一致,则将所述域名解析链对应的域名标记为正样本,并添加到所述域名正样本集中;
15、若所述域名解析链的域名信息中不存在域名信息与所述cdn域名后缀库中的后缀域名匹配一致,则将所述域名解析链对应的域名标记为所述待分类域名。
16、可选的,所述对所述域名正样本集中的各个域名进行特征提取,得到域名特征集,包括:
17、对所述域名正样本集进行解析处理,得到各个域名对应的域名解析日志,所述域名解析日志包括ip地址分布特征和cname文本特征;
18、针对所述域名正样本集中的每一域名,确定所述域名与所述域名对应的域名解析链的相似度;
19、基于所述域名正样本集中多个域名的域名解析日志和对应的相似度,生成所述域名特征集。
20、可选的,所述根据所述域名正样本集和所述域名特征集,训练域名分类模型,并通过所述域名分类模型预测所述待分类域名是否属于cdn域名,包括:
21、获取预训练分类模型;
22、基于所述域名正样本集和所述域名特征集,对所述预训练分类模型进行训练,得到域名分类模型;
23、通过所述域名分类模型对所述待分类域名进行预测处理,并将预测结果中属于所述cdn域名的多个待分类域名分别确定为目标域名。
24、可选的,所述通过cdn服务对所述域名分类模型的预测结果进行验证,包括:
25、确定所述待分类域名中的目标域名,其中,目标域名为被预测为cdn域名的域名;
26、通过所述cdn服务调用不同地理位置的多个公共域名服务器,针对任意一个目标域名,控制所述多个公共域名服务器对所述目标域名进行解析处理,得到多个解析结果;
27、若所述多个解析结果不一致,则针对所述待分类域名中的每一目标域名,确定对应的多个域名后缀;
28、基于各个目标域名的域名后缀对所述cdn域名后缀库进行更新处理,得到新的cdn域名后缀库。
29、可选的,所述方法还包括:
30、确定所述域名日志数据中不同二级域名后缀所服务的二级域名的数量;
31、获取预设域名数量阈值,并针对每一二级域名后缀,将所述预设域名数量阈值分别与所述二级域名后缀对应的二级域名的数量进行比对处理;
32、若所述二级域名的数量大于所述预设域名数量阈值,则将所述二级域名后缀添加到所述cdn域名后缀库。
33、第二方面,本技术提供一种域名数据分类装置,包括:
34、获取模块,用于获取域名日志数据和cdn域名后缀库,其中,所述域名日志数据包括多个域名。
35、处理模块,用于将所述多个域名与所述cdn域名后缀库进行匹配处理,得到域名正样本集和待分类域名,所述域名正样本集用于指示与所述cdn域名后缀库匹配一致的域名,所述待分类域名用于指示与所述cdn域名后缀库匹配不一致的域名。
36、所述处理模块,还用于对所述域名正样本集中的各个域名进行特征提取,得到域名特征集。
37、所述处理模块,还用于根据所述域名正样本集和所述域名特征集,训练域名分类模型,并通过所述域名分类模型预测所述待分类域名是否属于cdn域名。
38、所述处理模块,还用于通过cdn服务对所述域名分类模型的预测结果进行验证,并根据验证结果对所述cdn域名后缀库进行更新处理。
39、可选的,所述处理模块,还用于根据所述域名日志数据,分别生成所述多个域名的域名解析链,所述域名解析链用于指示域名系统对于所述域名的解析路径。
40、所述处理模块,还用于分别将所述多个域名的域名解析链与所述cdn域名后缀库进行匹配处理,得到所述域名正样本集和所述待分类域名。
41、可选的,所述处理模块,还用于根据所述多个域名的域名解析链,分别提取多个域名解析链中记录的域名信息。
42、所述处理模块,还用于分别将所述多个域名解析链的域名信息与所述cdn域名后缀库进行匹配处理。
43、针对每一域名解析链,若所述域名解析链的域名信息中存在至少一个域名信息与所述cdn域名后缀库中的后缀域名匹配一致,则所述处理模块,还用于将所述域名解析链对应的域名标记为正样本,并添加到所述域名正样本集中。
44、若所述域名解析链的域名信息中不存在域名信息与所述cdn域名后缀库中的后缀域名匹配一致,则所述处理模块,还用于将所述域名解析链对应的域名标记为所述待分类域名。
45、可选的,所述处理模块,还用于对所述域名正样本集进行解析处理,得到各个域名对应的域名解析日志,所述域名解析日志包括ip地址分布特征和cname文本特征。
46、所述域名数据分类装置还包括:确定模块。
47、所述确定模块,用于针对所述域名正样本集中的每一域名,确定所述域名与所述域名对应的域名解析链的相似度。
48、所述处理模块,还用于基于所述域名正样本集中多个域名的域名解析日志和对应的相似度,生成所述域名特征集。
49、可选的,所述获取模块,还用于获取预训练分类模型。
50、所述处理模块,还用于基于所述域名正样本集和所述域名特征集,对所述预训练分类模型进行训练,得到域名分类模型。
51、所述处理模块,还用于通过所述域名分类模型对所述待分类域名进行预测处理。
52、所述确定模块,还用于将预测结果中属于所述cdn域名的多个待分类域名分别确定为目标域名。
53、可选的,所述确定模块,还用于确定所述待分类域名中的目标域名,其中,目标域名为被预测为cdn域名的域名。
54、所述处理模块,还用于通过所述cdn服务调用不同地理位置的多个公共域名服务器,针对任意一个目标域名,控制所述多个公共域名服务器对所述目标域名进行解析处理,得到多个解析结果。
55、若所述多个解析结果不一致,则所述确定模块,还用于针对所述待分类域名中的每一目标域名,确定对应的多个域名后缀。
56、所述处理模块,还用于基于各个目标域名的域名后缀对所述cdn域名后缀库进行更新处理,得到新的cdn域名后缀库。
57、可选的,所述确定模块,还用于确定所述域名日志数据中不同二级域名后缀所服务的二级域名的数量。
58、所述获取模块,还用于获取预设域名数量阈值。
59、所述处理模块,还用于针对每一二级域名后缀,将所述预设域名数量阈值分别与所述二级域名后缀对应的二级域名的数量进行比对处理。
60、若所述二级域名的数量大于所述预设域名数量阈值,则所述处理模块,还用于将所述二级域名后缀添加到所述cdn域名后缀库。
61、第三方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
62、所述存储器存储计算机执行指令;
63、所述处理器执行所述存储器存储的计算机执行指令,以实现如上述第一方面以及第一方面各种可能的实现方式所述的域名数据分类方法。
64、第四方面,本技术提供一种计算机可读存储介质,其上存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述第一方面以及第一方面各种可能的实现方式所述的域名数据分类方法。
65、第五方面,本技术提供一种程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的域名数据分类方法。
66、本技术提供的域名数据分类方法,通过获取域名日志数据和cdn域名后缀库,基于域名日志数据,分别生成多个域名的域名解析链,并分别将多个域名的域名解析链与cdn域名后缀库进行匹配处理,得到域名正样本集和待分类域名;对域名正样本集进行解析处理,得到各个域名对应的域名解析日志,针对该域名正样本集中的每一域名,确定域名与域名对应的域名解析链的相似度,并基于域名正样本集中多个域名的域名解析日志和对应的相似度,生成域名特征集;获取预训练分类模型,并基于域名正样本集和域名特征集,对预训练分类模型进行训练,得到域名分类模型;通过域名分类模型对待分类域名进行预测处理,并将预测结果中属于cdn域名的多个待分类域名分别确定为目标域名;通过cdn服务对多个目标域名进行验证,并根据验证结果对cdn域名后缀库进行更新处理。该方法实现了对域名数据的高效分类,避免了人工收集域名数据的局限性,也实现了对cdn域名的准确识别,并通过动态更新cdn域名后缀库,提升域名分类的准确性和适应性,增强了系统对复杂和动态变化的互联网域名环境的适应能力。
本文地址:https://www.jishuxx.com/zhuanli/20240929/313175.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表