当前位置 原创笔记 正文 下一篇:

网站日志分析:怎么判断百度蜘蛛真假

当我们进行网站日志分析的时候,为了会进行网站蜘蛛分析,如何判断网站蜘蛛的真假呢?小编为你分享几个方法!

什么是真假百度蜘蛛?
百度抓取你的网站页面一定会用一种程序去抓取对吧,这种程序就叫做百度蜘蛛,百度蜘蛛类似一个正 常的访客,拥有着自己的独立IP,而且还会留下浏览轨迹,我们通过蜘蛛日志是可以看到百度蜘蛛抓取轨迹 的,当然了百度蜘蛛也是可以作假的,因为需要躲避一些安全防御的屏蔽,所以伪装成了百度抓取,来破坏采集攻击你的站点。
比如AWVS扫描网站
在文件头加Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
可以绕过狗,waf等另外如果很容易吧对方扫死的话,可以在第一项limit number…..,这里是最大的并发连接数默认是10,可以改低为2-5
某些WAF对访问请求时间太快会进行拦截,可以进行延迟发包,在Delay between 默认是0,改为1-5
假蜘蛛例子:
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /favicon.ico HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /customized/1.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /src/images/logo.png HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /customized/logo.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /help/images/f1.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /customized/1.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /src/images/logo.png HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /LICENSE.txt HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /images/adm/left_menus1.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:57 +0800] “GET /admin/editor/xheditor_skin/default/img/tag-h4.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:58 +0800] “GET /imageslzcms/logo.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:58 +0800] “GET /_skins/201209/images/logo.jpg HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:58 +0800] “GET /images/luzhu.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
114.108.219.8 – – [31/May/2022:13:14:58 +0800] “GET /images/lzbg12.gif HTTP/1.1” 404 2856 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”
百度蜘蛛
假百度蜘蛛有什么意图?
意图的核心就是破坏你的网站,可能是来盗取你站点文章的,也可能是来寻找你网站漏洞的,攻击破坏 你站点让你站点打不开,也可能是来偷取你的网站源码的,总之就是想尽办法来破坏你的站点。
怎么发现假百度蜘蛛?
这个我们通过网站日志分析,可以看到有一些蜘蛛在抓取你网站中根本就没有的文件,其用意就是在测 试你当前网站是否有这种漏洞,正常百度蜘蛛是不会这样进行抓取的,所以我们可以80%的断定这个蜘蛛是 一个假蜘蛛,当然也不能完全肯定,我们可以用下面的两个方法进行判断到底是真假。
网站日志分析:怎么判断百度蜘蛛真假插图
蜘蛛日志发现假蜘蛛
怎么判断真假百度蜘蛛?
1,利用我们本地cmd命令来判断
第一种是非常简单的,我们直接点击电脑左下角的开始->运行->输入cmd就可以进入到一个命令窗口 ,然后输入:nslookup ip (举例:nslookup 116.78.225.167)然后点击回车,如果你可以看到窗口中 出现当前指令“name:baiduspider”就证明是真百度蜘蛛,否则就是假的。

网站日志分析:怎么判断百度蜘蛛真假插图1
网站日志分析:怎么判断百度蜘蛛真假插图2

2,利用ip138进行判断(强烈推荐)
第二种更加简单了,我们访问ip138.com,然后直接输入我们当前需要验证的蜘蛛IP,如果验证中出现 “百度蜘蛛”这四个字证明是真蜘蛛,如果没有出现就一定是假蜘蛛了,这个方法非常的简单实用,推荐大 家使用。

网站日志分析:怎么判断百度蜘蛛真假插图3
网站日志分析:怎么判断百度蜘蛛真假插图4

如何处理这些假百度蜘蛛?

如果你发现了假蜘蛛,我希望你一定要屏蔽这个蜘蛛否则这个IP会一直寻找你网站的漏洞,我们这也是在做网站安全维护,任何黑客想黑你站点,必须有一个IP进来,我们如果直接杜绝了这种IP,也就杜绝了黑 你站点的黑客,所以这一点还是非常重要的。

1、大家可以安装网站防御软件,比如说云锁、安全狗,waf,直接屏蔽这种IP就可以了。

2、如果是nginx可以设置deny 114.108.219.8;

3、如果是阿里云服务器,云服务器->网络与安全->ECS安全组->安全组规则->入方向->手动添加规则

全部拒绝 114.108.219.8/32即可!

网站日志分析:怎么判断百度蜘蛛真假插图5

 

本文来自网络,不代表立场,转载请注明出处:http://www.yuzhuoseo.com/blog/14360.html