Tag Archives: 蜘蛛

如何判断搜索引擎机器人(蜘蛛)有没有爬行你的站点?

pop:在网上看到的,觉得还不错,所以推荐给大家一起学习 我们先来看一篇网上的文章:如何辨别搜索引擎机器人身份 搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。 在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。 目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。 首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的: Google:主机名称应包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com; MSN:主机名称应包含于search.live.com域名中,如:livebot-207-46-98-149.search.live.com; Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。 最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。 现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。 SEO如何查看你网站的日志文件? 从哪里获取你的网站日志文件? 使用ftp从你网站的wwwlogs目录下载ex071227.log文件,然后进行查看,这点应该根据各空间服务商的不同情况而不同,我的空间是万网的,各位朋友可以跟空间商的技术支持取得联系,得到这些信息。 下面是2007年12月27日我的站点日志中的一条记录: 2007-12-26 16:02:17 66.249.70.57 - GET /catalog.asp 200 24254 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) - 从上面可以看出,Google的机器人名称为Googlebot,其地址为http://www.google.com/bot.html 而网页正常的访问记录为: (compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.seo-diy.cn/Post/SEO-Thinking-Practice/letter-cizhi-jingli-right-geshi-weizhi.html 下面是紧接着上一条抓取记录的机器人爬行: 2007-12-26 16:12:06 66.249.70.57 - GET … Continue reading

Posted in Technology | Tagged , , | Leave a comment