零哥博客 - 站群系统|站群SEO技术

站群系统 > 站群相关 > 正文

『语义分析系统seo』网站的搜索引擎蜘蛛抓取越多越好?事实未必

admin 2020-08-14 未知

  从新房市场看,连续个月有个城市新建住宅价格指数上涨。其中,西安、重庆、大理三城新房价格指数环比涨幅领涨全国。从二手房市场看,环比和同比增速均出现了年内的首次缩窄,市场明显“退烧”。其中,呼和浩特、杭州的二手房价格指数环比领涨全国城市,青岛二手房环比领跌全国。

做过SEO或站长的都应该知道,网站要想做排名就必须使网站文章先收录,而网站内容收录由跟搜索引擎蜘蛛的来访抓取有很大的关系。

搜索引擎蜘蛛,又被称为网页爬虫,网络机器人,在FOAF社区中间,也经常被称为网页追逐者,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外它还有一些不常使用的名字,如:蚂蚁,自动索引,模拟程序或者蠕虫。那么,对于一个网站来说,是不是来网站爬行的搜索引擎蜘蛛越多越好呢?

一、搜索引擎蜘蛛抓取网页的原理

关于搜索引擎获得网页的工具,是一款爬行程序(俗称蜘蛛),蜘蛛程序每天都会爬行大量的网页,并将一些新的网页信息带到服务器以便进行网页索引的建立。

搜索引擎蜘蛛抓取网页的原理

可以说,互联网就是由一个个链接构成的,蜘蛛程序顺着这些链接爬行并发现网页信息,蜘蛛程序爬行每一个页面,当这个页面不再有新的链接信息的时候,它就返回,下次再到这个页面的时候,再去爬行(具体可查看马海祥博客的《搜索引擎工作的基础流程与原理》相关介绍)。

当给它足够的时间,他就会找到互联网所有的网页信息(至少是被链接的),在爬行的时候,它还会不断的向服务器提供信息,所以我们在进行网站日志分析的时候,如果发现某一个网页被某个搜索引擎的蜘蛛程序程序爬行并成功抓取数据,那么,这个网页就很有可能被索引。

所以,从SEO的角度来说,提高网页的索引数据(收录量)对于一个网站的搜索引擎优化(SEO)是非常有利的。

当蜘蛛程序在爬行链接的过程中,它还会对爬行过的链接进行处理,因为链接需要载体(文字、图片或其他信息),发现链接载体并存储链接数据。

所以这里我们要做的,就是努力增加蜘蛛爬行页面的频率(在以往的网站分析中经常提到),以保证我们网页在搜索引擎数据库中的索引是最新的。

比如蜘蛛程序今天访问了网站的两个网页并成功抓取,隔了两个星期,它再来访问这两个页面的时候,这两个网页其中一个更新了,另一个确没有,那么,蜘蛛程序可能会在一个星期内再次回访更新过的那个网页,而在一个月后才去访问没有更新的那个网页,随着时间的推移,蜘蛛程序会更加频繁是爬行经常更新的网页,以达到更新服务器中的索引数据,向用户提供最新的网页信息。

二、搜索引擎蜘蛛是不是越多越好?

不论哪个搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、甚至还有盗链等,那是不是所有的搜索引擎蜘蛛都是有用呢?

另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据,只代表它“到此一游”留下痕迹而已,据马海祥了解有些搜索引擎只是过来找下它想要的资源,甚至还有很多是开发人员的蜘蛛测试。

对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。

对于那些想提高网站有效利用率的网站,虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。

可以肯定的说,当今互联网的网络流量有很大一部分的流量是爬虫带来的,因此反搜索引擎爬虫是一个值得SEO长期探索和解决的问题。

所以,从SEO的角度来说,搜索引擎蜘蛛来网站访问并非越多越好,并且还要合理的屏蔽无效的搜索引擎蜘蛛的抓取。

三、过多的搜索引擎爬虫对网站的影响

既然对于网站来说,搜索引擎蜘蛛并非是越多越好,那么,这具体是因为什么原因导致的呢?

1、浪费带宽资源

如果你的网站带宽资源有限,而爬虫的量过多,导致正常用户访问缓慢,原本虚拟主机主机的连接数受限,带宽资源也是有限,这种情况搜索引擎爬虫受影响呈现更明显。

2、过于频繁的抓取会导致服务器报错

如果搜索引擎爬虫过于频繁,会抓取扫描很多无效页面,甚至抓页面抓到服务器报502、500、504等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。

3、与网站主题不相关的搜索引擎爬虫消耗资源

比如一淘网的抓取工具是一淘网蜘蛛(EtaoSpider),目前是被各大电子商务购物网站屏蔽的,拒绝一淘网抓取其商品信息及用户产生的点评内容。

被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛,据马海祥对一些电商网站的测试发现:一淘网蜘蛛(EtaoSpider)的一天爬行量比“百度蜘蛛(Baiduspider)”“360蜘蛛(360Spider)”“SOSO蜘蛛(Sosospider)”等主流蜘蛛爬虫多几倍,并且是远远的多。

重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。

4、无效的测试抓取

一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。

5、robots.txt文件也并非是万能

肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。

正规搜索引擎会遵守规则,不过不会及时生效,但是据我对马海祥博客的测试发现:实际上某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt,也可能它抓取后不一定留用,或者它只是统计信息,收集互联网行业趋势分析统计。

6、不是搜索引擎蜘蛛,但具有蜘蛛的特性

例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具等等,这些抓取对网站没有任何好处!

四、如何解决无效搜索引擎蜘蛛取的问题

各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。那么接下来,马海祥就根据自己的经验跟大家分享4种解决无效搜索引擎蜘蛛抓取的方法:

1、只运行常用的搜索引擎蜘蛛抓取

依据空间流量实际情况,就保留几个常用的,屏蔽掉其它蜘蛛以节省流量。

2、通过服务器防火墙来屏蔽ip

从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP,这是最直接、有效的屏蔽方法。

3、WWW服务器层面做限制

例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。

4、最后robots.txt文件做限制

搜索引擎国际规则还是要遵循规则的。

五、各大搜索引擎蜘蛛的名称

抓取网站的搜索引擎蜘蛛是不是越多越好

为了使大家找到适合自己网站的搜索引擎蜘蛛,马海祥也特意整理了一份最新的各大搜索引擎蜘蛛名称(大家要注意下写法的不同点,特别是大小写):

1、百度蜘蛛:Baiduspider

网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,那是旧黄历了。百度蜘蛛最新名称为Baiduspider,我通过对网站日志的检查还发现了Baiduspider-image这个百度旗下蜘蛛,是抓取图片的蜘蛛。

常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。

2、谷歌蜘蛛:Googlebot

这个争议较少,但也有说是GoogleBot的,谷歌蜘蛛最新名称为“compatible;Googlebot/2.1;”,不过,我还在马海祥博客的日志中发现了Googlebot-Mobile,看名字是抓取wap内容的。

3、360蜘蛛:360Spider

它是一个很“勤奋抓爬”的蜘蛛。

4、SOSO蜘蛛:Sosospider

5、雅虎蜘蛛:“Yahoo!SlurpChina”或者Yahoo!

6、有道蜘蛛:YoudaoBot,YodaoBot

7、搜狗蜘蛛:SogouNewsSpider

  而如果消费者确实买到了假货,平台要如何处理?对此,胖虎和心上都有明确条款规定。其中,胖虎所有商品均由泰康投保。如若被权威鉴定中心鉴定为假货,消费者不仅可以全价退款,还可获得商品售价的赔付。心上平台所有认证商品均由人保财险承担产品责任险,买家如果在平台买到假货,平台以三倍出货价予以赔偿。目前,心上有万左右用户,其中是女性用户,是男性用户。

Tags:重庆seo

最新评论
发表评论
  • 点击我更换图片
广告位
图文推荐
热门TAG
seo推广 站群建设 站群域名 怎么做站群 垃圾站群 dz站群 站群管理软件 拼音泛站群 如何做站群 服务器站群 黑豹站群 西安seo 狂人站群 谷歌seo 站群教程 站群服务器 端口站群 好的站群 武汉seo公司 杀破狼站群 群晖回收站 重庆seo 网站群 泊君站群 seo监测 群工站 站群软件 d58站群 英文站群 SEO 快站群 熊猫站群 站群方法 站群推广 站群文章 泛站群排名 蜘蛛侠站群 站群是什么 seo经验分享 seo搜索优化 泊君超级站群 淘宝SEO 小偷站群 站群优化 侠客站群 站群管理 群站助手 站群工具 seo如何优化 seo服务 微信站街群 千百度站群 搅拌站微信群 站群软件哪个好 群力收费站 seo是什么 站群克隆 忍者站群 寄生虫站群 泛目录站群 广州seo公司 站群什么意思 站群链轮 香港站群服务器 网站seo优化 广东seo 站群链接 seo关键词优化 seo2 采集站群 seo软件 逆天者站群 365站群 seo公司 自动站群 易淘站群 seo培训 站群公司 站群破解版 站群服务器租用 泛站群域名 动易站群 二级域名站群 站群功能 vivi站群 seo平台 seo优化技术 武汉seo服务 泛站群 免费站群软件 广西seo优化 目录站群 新闻站群 帝国站群 seo点击软件 站群二级域名 cms站群 站群seo 站群asp 搅拌站群