网站一直不收录怎么回事?跟这个关系很大!官方已经实锤
你的网站抓取频次为什么那么低?网站一直不收录怎么回事?想必很多站长开发者面对这样的问题就开始使出自己的大招,比如301引蜘蛛,或者大量更新文章,那么这样做是对还是错?今天小编就来重点解读下网站收录以及网站抓取频次的相关问题,值得注意的是,以下观点为官方解读观点,所以可信度99.99%。
了解网站抓取之前,我们首先先了解下百度爬虫抓取原理。
一、百度蜘蛛是如何工作的?
百度蜘蛛程序运行的流程是怎样的呢?百度抓取器(蜘蛛程序)对你网站服务器进行交互,拿到首页后对你的页面进行理解,这个理解包含站点类型、价值的计算,此外会把网站所有超链接提取出来,这些提取出的链接称为后链,这个后链就是下一轮抓取的集合,然后等到下一轮抓取的时候,会从上一轮提取的后链中选择需要抓的数据中继续和网站交互,拿到页面进行提炼,形成一层层抓取循环和环路,对于新站来讲,经过几轮抓取后,基本可以把整个页面抓取完,之后就是抓取首页和老页面发现增量内容,保证新资源可以收录进来。
我们举个例子:
比如站点A,超链接有www.test.com/1.html、www.test.com/2.html、www.test.com/3.html..
那么第一次抓取链接是1.html,那么2.html、3.html...就属于后链,第二次抓取链接就从2、3、4..等抓取,直到抓完整个超文本链接。
二、蜘蛛抓取对URL有何规范?
url相当于网站的门牌号,所以百度官方介绍的url其实只有两点:主流、简单。我们可以拿实际例子做说明:
例:www.test.com/zhishi/1.html
例:www.test.com/chengyu/seo_123.html
实际工作中,有不少从业者在对url进行处理时,认为html前缀是随机就可以吸引蜘蛛抓取,其实这个观点是错误的,官方并没有说html前缀是英文要比id更有优势,但在url设计中,更倾向于目录结构的有利于蜘蛛抓取。所以建议大家在做URL的时候,保持URL规范性、简单性。
三、如何设计网站布局有利蜘蛛抓取?
其实大部分站点在设计初期都对蜘蛛不友好,也就是说,很多开发者在选择模板的时候,并没有考虑到模板的层级结构,常规的层级结构是这样的:
所以尽量选择模板的时候,依照这个布局选择模板或更改为这个层级结构,另外页面布局随机url,是有利于蜘蛛爬取的,这个已经在多个站点测试有效。
四、抓取频次与什么有关系?
事实上我之前也因为这个问题咨询过百度,百度给的结果是抓取频次和页面质量和用户需求有关系,而这次百度开发工程师直接说了抓取跟内容质量有关系,另外还提到了一点,新站如果内容质量高,经过一段时间,抓取会有提升,而老站则是通过更新频率提升抓取频次,换句话说,以前行业内提到的新站上线的时候,发布一些原创内容,然后过一个阶段后,定时定量采集内容也可以提升抓取频次,这样做是有道理的。
所以,你应该搞明白了一点,想提升抓取频次,就好好整内容吧,过一个阶段后(1个月后)可以定时定量更新内容了。
最后,想谈谈关于做新站的时候遇到的一些问题,很多人做新站的时候,认为老域名比新域名有优势,其实这是个误区,在初期可能有效果,但长久来看,老域名跟新域名的机会是平等的。另外我之前说的,现在百度对新站判断是基于ICP备案数据,事实上这个数据很好拿到,这点已经被百度实锤了,百度判断新站的时候,就考察的是站内容和ICP备案数据,那么做新站的开发者可以开心一波了,事实上百度对新站是有扶持的,这个扶持不确定是流量扶持还是抓取频次的扶持,但有扶持是百度确认的。(为什么我觉得新站也还是不容易起来?)
另外,关于域名领域的问题,比如这个域名领域是科技,后期改版成娱乐内容,事实上,百度会惩罚站点的,还不如来个新域名效果来的快。
以上内容全部来源于最新一期站长资源平台直播内容分析结果,如不认同其中内容,欢迎看完直播回放后深度交流,我们欢迎百花齐放,百家争鸣。