ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

钓鱼网站相关数据

2022-04-12 10:03:38  阅读:221  来源: 互联网

标签:表示 包含 钓鱼 网站 是否 URL 网址 contain 相关


数据一

地址:https://www.kaggle.com/datasets/aman9d/phishing-data?resource=download
数据集说明:
Domain: The URL itself.
Ranking: Page Ranking
isIp: Is there an IP address in the weblink
valid: This data is fetched from google's whois API that tells us more about the current
status of the URL's registration.
activeDuration: Also from whois API. Gives the duration of the time since the
registration up until now.
urlLen: It is simply the length of the URL
is@: If the link has a '@' character then it's value = 1
isredirect: If the link has double dashes, there is a chance that it is a redirect. 1-> multiple
dashes present together.
haveDash: If there are any dashes in the domain name.
domainLen: The length of just the domain name.
noOfSubdomain: The number of subdomains preset in the URL.
Labels: 0 -> Legitimate website , 1 -> Phishing Link/ Spam Link

数据二

地址:http://shujujishi.com/dataset/04f86672-ed35-483c-99b0-397c8f0f1d79.html
或者
地址:http://sofasofa.io/competition.php?id=10
数据集说明:
训练集中共有10086条样本,预测集中有7000条样本。数据集共有18个变量。注意:变量中含有缺失值。

变量说明:

变量名 解释
contain_IP 网址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。
is_long 网址字符是否过长。1表示网址过长,0表示网址不长。
is_tinyurl 网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址,0表示不是。
contain_at 网址是否包含“@”符号。1表示包含,0表示不包含。
contain_double_slash 网址是否包含“//”符号,该符号用来表示网址跳转。1表示包含,0表示不包含。
contain_dash 网址是否包含“-”符号,该符号经常帮助用来伪装真网站,比如www.my-taobao.com 。 1表示包含,0表示不包含。
contain_subdomain 网址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。
is_SSL 网址是否是https安全链接。1表示包含,0表示不包含。
with_long_history 网址所属的主域名存在的时间。1表示长久,0表示不长久。
contain_icon 网址网页是否有小图标。1表示包含,0表示不包含。
contain_ext_domain 该网页是否加载其他域名下的附件或者网页。1表示包含,0表示不包含。
contain_email_to 该网页是否包含发送邮件的组建。1表示包含,0表示不包含。
allow_right_click 该网页是否允许用户进行右击操作。1表示允许,0表示不允许。
contain_pop_up_windowL 该网页是否包含弹窗。1表示包含,0表示不包含。
contain_Iframe 该网页是否包含Iframe(嵌套网页)。1表示包含,0表示不包含。
has_DNSRecord 网址是否有DNS记录。1表示有,0表示无。
traffic 该网站的流量大小。1表示大,0表示小。
google_rank 该网址在google搜索中的排名。1表示高于同类网站的平均排名,0表示低于同类网站的平均排名。
y 表示网站是否是钓鱼欺诈网站,1表示是,0表示不是。在test.csv中,这是需要被预测的标签;预测时,请提交每个样本为1的概率。

数据三

地址:https://www.datafountain.cn/datasets/5587
数据集说明:
域:URL本身。
排名:页面排名
isIp:网络链接中是否有
有效的IP地址:此数据是从Google的Whois API中获取的,该信息可以告诉我们有关
URL注册当前状态的更多信息。
activeDuration:同样来自whois API。提供自
注册以来到现在为止的时间。
urlLen:只是URL的长度
is @:如果链接具有’@'字符,则其值= 1
isredirect:如果链接具有双破折号,则有可能是重定向。1->多个
破折号一起出现。
haveDash:域名中是否包含破折号。
domainLen:域名的长度。
noOfSubdomain:URL中预设的子域数。
标签:0->合法网站,1->网络钓鱼链接/垃圾邮件链接

标签:表示,包含,钓鱼,网站,是否,URL,网址,contain,相关
来源: https://www.cnblogs.com/xiximayou/p/16133712.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有