在前几日的百度站长平台中,百度官方表明页面长度过长也会导致页面不收录并解说了页面过长对于抓取的不利影响。早在本站的另一篇文章营销型网站建设时,首页设计应该注意什么?就有“首页的元素除了主体产品,其他部分尽量精简”的提示。
这篇文章我们借百度工程师对于页面过长造成的抓取不利来进行一下分析:
工程师分析1:网站针对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,网站页面长度达164k;
这里的网站页面长度指的是页面源代码的文本量。百度官方建议的页面文本量应控制在128k以内。
控制页面文本长度的几个有效措施:
1.css的外部调用,将css样式统一书写在一个文件中,通过网页内的源代码进行调用,可以有效的缩短文本长度。
工程师分析2:站点优化后将主体内容放于最后,图片却放于前面;
搜索引擎对于页面的抓取,考虑到搜索引擎服务器的负担,必定是针对不同站点有不同的策略的。一些大型权威站点的内容,搜索引擎可能会全部抓取,而对于一些权重低的站点,搜索引擎的抓取范围就会变得有选择性。
在书写页面代码以及进行页面布局时,我们应当让主体内容与经常更新的内容放到前面,让搜索引擎快速抓到该链接或内容。
对于图片,除了alt标签与页面内容本身的相关性,搜索引擎对于图片是不会像人类一样有自己的认知的。一大堆没有alt标签罗列的图片罗列在前只会让搜索引擎形成认知障碍,因为爬完了大半的页面后它并没有看到任何东西。
工程师分析3: 爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。
这个相当于对分析2的补充,或者说就是分析2造成的直接后果。页面内容过长+搜索引擎只抓取部分+抓取到的都是图片=空短页面。
空短页面的占比会直接影响到搜索引擎对网站的评分。当评分下降时,搜索引擎对页面的抓取程度将会更小,如果不及时进行更改,后续新添加的页面也会被认为是空短页面,形成恶性循环。
总结
如果发现网站内容优质但就是不被搜索引擎收录,那么可以尝试精简网页代码并且将主体内容展现在前,或许会有意外的收获。