聊聊网站爬虫

今天陈末不跟大家聊项目,拆解项目玩法,今天来说一说关于网站运营的一些小细节和问题,算是一篇随笔,随便扯一扯。

首先我们说一说网站运营过程中一般人都会遇到的问题,那就是爬虫问题。

做过网站或者正在做网站的一定知道什么是网站爬虫,网站爬虫就是各大搜索引擎的一种自动化程序,一天二十四小时都在互联网的世界中抓取各种网页,新网站在各搜索引擎的站长平台比如百度站长平台提交了网站域名后爬虫就会在接下来几天爬取你的网站。爬虫的爬取频率几乎决定了你网站的收录与排名,新网站前期会有少量爬虫爬取,而只要你坚持稳定且长久的更新那么爬虫的数量以及爬取频率会越来越高。

有时候网站的网页收录与否就是一共概率问题,只要蜘蛛爬取的频率足够高你们你的网站是一定会收录的,而且是可以有一个很好的排名的,这也就是为什么网站快排和蜘蛛池可以提升网站的权重与排名的原因。蜘蛛池也正是利用了这种规则成为了许多网站快速做起来的捷径。可能很多人还不了解什么是蜘蛛池,蜘蛛池简单来说就是很多网站形成一个站群,这些网站是用来吸引搜索引擎的爬虫的,可以做网站的快排。不过还是有一些技术含量的,我一般做权重站都是掏钱用开发好的现成的快排系统和蜘蛛池。

其实蜘蛛池和快排一直是百度的打击对象,甚至百度还曾经起诉过几家开发快排软件的相关公司,这也反映出百度的技术和算法还没有到可以打击所有快排的程度,毕竟百度的搜索引起算法只是机器算法而已。这个道理也和淘宝拼多多等电商平台的补单一样,虽然说官方严谨任何店铺刷信誉的行为,但是这个市场是不可能消失的,平台的巡查大部分只是机器,虽然淘宝一再降低订单量对店铺权重的影响,但是不可能取消订单影响排名的这种机制。所以说有时候技术的不完善恰恰为我们做项目提供了一些便利与捷径。

我们说搜索引擎的爬虫爬取网站频率越高就越好,但是也有例外的情况,那就是有很多无用的蜘蛛抓取网站的情况。要知道爬虫爬取网站是要占用网站的带宽和资源的,而很多垃圾爬虫会一天爬取几百甚至上千条网站链接,这浪费的网站资源是很多的,甚至会影响网站打开速度从而影响网站的收录与排名。

我在第一次运营网站的时候看到新站上线每一个星期就被抓取了几百条链接,一开始是很兴奋的,因为搜索引擎原来你们青睐我的网站,天天高频率的光顾我的网站,最后一查那些蜘蛛爬虫的名称发觉到了不对,百度和搜狗的蜘蛛每天最多抓了两天,其它几百条都是一些无用的垃圾蜘蛛。

目前一些垃圾蜘蛛应该就那么多,陈末在这里列出来:

AhrefsBot

SemrushBot

UBLEXBot

MJ12bot
如果网站有以下蜘蛛建议直接拦截,具体方法就是修改robot协议。明天分享一一些我常用的网站插件以及如何最简单的修改robot协议。

 


本篇文章来源于微信公众号: 陈末网创

免责声明:本站大部分下载资源收集于网络,只做学习和交流使用,版权归原作者所有,本站发布的内容若侵犯到您的权益,请联系站长删除,我们将及时处理!
安全观察-网赚平台 » 聊聊网站爬虫

发表评论

提供最优质的资源集合

立即查看 了解详情