第一种是蜘蛛通过网址列表抓取的URL;
第二种是蜘蛛在英特网上发现新的网址,对网站进行深入剖析并提取所有的URL,最后将这给网址添加到网址列表上。 其中方式一是蜘蛛用来提供搜索引擎检索的主要方式,这种方式能够让大量的蜘蛛在同一时间对多个站/副本进行抓取,其抓取的数度非常快,被抓取的页面会立刻出现在搜索引擎检索页面;
方法则是一个深度的抓取过程,大多数站点都从未被深度抓取过,站长们也并不期待深度抓取。达到深度抓取的条件其实是非常苛刻的,站点必须要有足够多的内容,以保证蜘蛛能够对一个站点进行长达数小时的抓取过程(通常一个快速抓取只要不到2秒的时间,因此想要达到数小时的抓取的站点所拥有的内容不是一般的多)。同时那些出现像400,404这样的错误的站点早在深度抓取之前就被告知而被排除深度抓取的行列之外。但需要注意的是,只有一个足够深入的抓取过程,站点中的全部链接才会被搜索引擎确定下来,链接的意义才能最大化。
因而一部分seo优化手段为了获得更好的抓取效果,而使用css加速代码,意图让蜘蛛的抓取变得慢下来。这样的做法就好像在HTML语言中添加一部分障碍,让蜘蛛很难快速的收录站点,但是这种方法会带来一个问题,就是一些不够高明手法不但没有让蜘蛛的抓取变得慢下来,反而让蜘蛛无法正常收录站点。通常的情况是蜘蛛为了让收录可以继续下去,而过滤掉一部分HTML代码,导致网页分析器错过一些文字以及链接。这就要求站长们在设计HTML代码的时候,需要优先保障文字的线性,防止由于蜘蛛的过滤功能滤掉一部分文字。