网站IIS日志301,404等代码分析?

发布时间:2010-05-20 发布者:新锐传媒 查阅 [2939] 评论 [0]

  从事网站优化的同行们相信都应该分析过网站IIS日志文件吧,虽然对于很多SEOer对于日志文件中出现的代码并不十分看重,但日志文件也是可以当做是在网站建设过程中,出现的很多小小的失误的反映。对于参考蜘蛛来抓取文件留下的路径或痕迹来说,只是一个方面。

  比较清楚详细的了解http状态码的具体含义,对于一个网站优化或网站站长来说,也是很有必要的基本条件。

  如果某项请求发送到您的服务器要求显示您网站上的某个网页(例如,用户通过浏览器访问您的网页或 Googlebot 抓取网页时),服务器将会返回 HTTP 状态码响应请求。

  此状态码提供关于请求状态的信息,告诉 搜索引擎蜘蛛关于您的网站和请求的网页的信息。

  其中,两个地方值得说明:

  一是代码中的200表示搜索引擎蜘蛛爬行后返回HTTP的状态代码,代表成功爬行并抓取。

  各个数字代码的具体意思参见如下:

  2xx 成功

  200 正常;请求已完成。

  201 正常;紧接 POST 命令。

  202 正常;已接受用于处理,但处理尚未完成。

  203 正常;部分信息 — 返回的信息只是一部分。

  204 正常;无响应 — 已接收请求,但不存在要回送的信息。

  3xx 重定向

  301 已移动 — 请求的数据具有新的位置且更改是永久的。

  302 已找到 — 请求的数据临时具有不同 URI。

  303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

  304 未修改 — 未按预期修改文档。

  305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

  306 未使用 — 不再使用;保留此代码以便将来使用。

  4xx 客户机中出现的错误

  400 错误请求 — 请求中有语法问题,或不能满足请求。

  401 未授权 — 未授权客户机访问数据。

  402 需要付款 — 表示计费系统已有效。

  403 禁止 — 即使有授权也不需要访问。

  404 找不到 — 服务器找不到给定的资源;文档不存在。

  407 代理认证请求 — 客户机首先必须使用代理认证自身。

  410 请求的网页不存在(永久);

  415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

  5xx 服务器中出现的错误

  500 内部错误 — 因为意外情况,服务器不能完成请求。

  501 未执行 — 服务器不支持请求的工具。

  502 错误网关 — 服务器接收到来自上游服务器的无效响应。

  503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

  二是各大搜索引擎爬虫(蜘蛛)的名称整理如下,大家可以对号入座:

  1. Google爬虫名称

  1) Googlebot:从Google的网站索引和新闻索引中抓取网页

  2) Googlebot-Mobile针对Google的移动索引抓取网页

  3) Googlebot-Image:针对Google的图片索引抓取网页

  4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。

  5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下,Google才会使用此漫游器。

  2. 百度(Baidu)爬虫名称:Baiduspider

  3. 雅虎(Yahoo)爬虫名称:Yahoo Slurp

  4. 有道(Yodao)蜘蛛名称:YodaoBot

  5. 搜狗(sogou)蜘蛛名称:sogou spider

  6. MSN的蜘蛛名称:Msnbot

  合理利用这些状态码,从日志返回的状态码来看网站的浏览页面和搜索引擎蜘蛛抓取情况,从而对有的问题及时发现和修改,必将会为你的网站带来更佳的浏览者体会,得到更加亲和的搜索引擎收录,得到更准确的搜索引擎切入,从而,为你的网站发展,网站优化奠定坚实的发展基础。

相关阅读:
       网站优化之网站排名因素全攻略
       对于最近谷歌收录减少原因的几点分析
       陌生词优化,提高网站流量的另类方法

      免责声明 | 新锐观点 | 网站运营 | 网站推广 | 联系我们 | 网站地图