旗下(xià)網站
s

互聯網新聞

報道公司事件 · 傳播行業動态

搜索引擎訪問網站返回碼最全解答(dá)

發布日期:2018-06-26    發布者:消息

  當搜索引擎蜘蛛抓取網站的(de)時(shí)候,每一次都會有一個(gè)返回碼,表示本條内容抓取的(de)狀态,我們可(kě)以通(tōng)過網站日志中查看這(zhè)些返回碼信息,來(lái)提升青島網站建設的(de)優化(huà)效果。

  你把IIS日志從空間下(xià)到自己電腦(nǎo),然後用(yòng)文本工具打開;

  2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

  分(fēn)析下(xià) 200 0 0組成部分(fēn) sc-status(協議(yì)狀态) sc-substatus(協議(yì)子狀态) sc-win32-status(Win32狀态碼)

  sc-status(協議(yì)狀态): 200 連接成功

  sc-substatus(協議(yì)子狀态) :0 成功

  sc-win32-status(Win32狀态碼):0 代表抓取成功并帶回數據庫 ; 64 指定的(de)網絡名不再可(kě)用(yòng)

  1: 在這(zhè)個(gè)訪問記錄裏面121.187.5.143是你服務器的(de)IP地址,220.181.7.74 是bd蜘蛛的(de)IP,/category-8-b0-min1100-max2200.html 爲蜘蛛訪問你的(de)頁面 80是端口 GET是打開方式 W3SVC1是記錄的(de)文件夾,這(zhè)裏說明(míng),bd蜘蛛已經訪問了(le)你的(de)category-8-b0-min1100-max2200.html 這(zhè)個(gè)頁面,那麽最重要的(de)是最後面的(de)這(zhè)個(gè)參數200 0 0。

  2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數據庫。這(zhè)個(gè)時(shí)候你就放心了(le),這(zhè)個(gè)頁面已經被bd收錄,但是還(hái)沒有釋放出來(lái),bd更新時(shí)就可(kě)能釋放出來(lái)。

  3:200 0 64 網絡上流傳著(zhe)這(zhè)麽三種解釋

  第164爲K站的(de)前兆。

  第264的(de)出現隻是64位操作系統。

  第三:網絡不可(kě)達,由于某種原因無法完全打開頁面,或者網絡不穩定這(zhè)些原因,導緻蜘蛛無法帶回頁面或者說不抓取該頁面,

  所以200 0 64的(de)解釋也(yě)應該爲:訪問了(le)該頁面,但并沒有任何抓取也(yě)沒有帶回數據庫。這(zhè)種原因多(duō)爲空間不穩定、服務器不穩定。

  或者說是蜘蛛訪問了(le)但快(kuài)照(zhào)不更新

  4:304 0 0這(zhè)個(gè)返回碼代表蜘蛛訪問的(de)頁面沒有更新,和(hé)他(tā)之前來(lái)的(de)時(shí)候是一樣的(de),所以看到這(zhè)個(gè)不要擔心,蜘蛛來(lái)過,隻不過你沒有更新,所以他(tā)也(yě)不願意帶走這(zhè)個(gè)頁面。

  5:404 0 0這(zhè)個(gè)是代表404頁面,但是有個(gè)很嚴重的(de)問題,這(zhè)個(gè)返回碼告訴我們,蜘蛛來(lái)到了(le)404頁面并把他(tā)帶走了(le)

  ,要是這(zhè)樣的(de)話(huà)基本上你要倒黴了(le),要你有太多(duō)的(de)404,那麽蜘蛛就會不斷是抓取,不斷的(de)帶走,這(zhè)樣會造成無數的(de)重複頁面,最終導緻K站或者降權,

  正确的(de)返回碼是404 0 64 這(zhè)就代表蜘蛛沒有抓取你這(zhè)個(gè)頁面。 (好像是内容有死鏈的(de)意思)

  6:500錯誤500錯誤是服務器内部錯誤,是由程序的(de)錯誤造成的(de),我不懂(dǒng)程序,但是500錯誤是會給你減分(fēn)的(de),這(zhè)點基本的(de)邏輯都可(kě)以想的(de)到,要發現500錯誤,馬上查看是哪個(gè)頁面的(de),然後去修正以下(xià)錯誤吧!

  7:302要在日志中發現302的(de)返回碼也(yě)是需要注意的(de),302爲臨時(shí)重定向,要你是長(cháng)期的(de)将這(zhè)個(gè)頁面重定向到另一個(gè)頁面,麻煩你使用(yòng)301永久重定向,要是302的(de)話(huà)bd蜘蛛下(xià)次來(lái)還(hái)會訪問這(zhè)個(gè)頁面,這(zhè)樣又會造成複制大(dà)量頁面的(de)問題,結果肯定是K,所以,抽空檢查以下(xià)。

  每個(gè)網絡蜘蛛都有自己的(de)名字,在抓取網頁的(de)時(shí)候,都會向網站标明(míng)自己的(de)身份。網絡蜘蛛在抓取網頁的(de)時(shí)候會發送一個(gè)請求,這(zhè)個(gè)請求中就有一個(gè)字段爲User-agent,用(yòng)于标識此網絡蜘蛛的(de)身份。例如Google網絡蜘蛛的(de)标識爲GoogleBot,Baidu網絡蜘蛛的(de)标識爲BaiDuSpider,Yahoo網絡蜘蛛的(de)标識爲Inktomi Slurp。

  返回碼大(dà)全:

  2xx 成功

  200 正常;請求已完成。

  201 正常;緊接 POST 命令。

  202 正常;已接受用(yòng)于處理(lǐ),但處理(lǐ)尚未完成。

  203 正常;部分(fēn)信息 — 返回的(de)信息隻是一部分(fēn)。

  204 正常;無響應 — 已接收請求,但不存在要回送的(de)信息。

  3xx 重定向

  301 已移動 — 請求的(de)數據具有新的(de)位置且更改是永久的(de)。

  302 已找到 — 請求的(de)數據臨時(shí)具有不同 URI。

  303 請參閱其它 — 可(kě)在另一 URI 下(xià)找到對(duì)請求的(de)響應,且應使用(yòng) GET 方法檢索此響應。

  304 未修改 — 未按預期修改文檔。

  305 使用(yòng)代理(lǐ) — 必須通(tōng)過位置字段中提供的(de)代理(lǐ)來(lái)訪問請求的(de)資源。

  306 未使用(yòng) — 不再使用(yòng);保留此代碼以便将來(lái)使用(yòng)。

  4xx 客戶機中出現的(de)錯誤

  400 錯誤請求 — 請求中有語法問題,或不能滿足請求。

  401 未授權 — 未授權客戶機訪問數據。

  402 需要付款 — 表示計費系統已有效。

  403 禁止 — 即使有授權也(yě)不需要訪問。

  404 找不到 — 服務器找不到給定的(de)資源;文檔不存在。

  407 代理(lǐ)認證請求 — 客戶機首先必須使用(yòng)代理(lǐ)認證自身。

  415 介質類型不受支持 — 服務器拒絕服務請求,因爲不支持請求實體的(de)格式。

  5xx 服務器中出現的(de)錯誤

  500 内部錯誤 — 因爲意外情況,服務器不能完成請求。

  501 未執行 — 服務器不支持請求的(de)工具。

  502 錯誤網關 — 服務器接收到來(lái)自上遊服務器的(de)無效響應。

  503 無法獲得(de)服務 — 由于臨時(shí)過載或維護,服務器無法處理(lǐ)請求。

  如果在網站上有訪問日志記錄,網站管理(lǐ)員(yuán)就能知道,哪些搜索引擎的(de)網絡蜘蛛過來(lái)過,什(shén)麽時(shí)候過來(lái)的(de),以及讀了(le)多(duō)少數據等等。

  根據不同的(de)IP我們可(kě)以分(fēn)析網站是個(gè)怎樣的(de)狀态.下(xià)面就按照(zhào)我IIS日記上的(de)百度蜘蛛IP爲例:

  123.125.68.*這(zhè)個(gè)蜘蛛經常來(lái),别的(de)來(lái)的(de)少,表示網站可(kě)能要進入沙盒了(le),或被者降權。

  220.181.68.*每天這(zhè)個(gè)IP 段隻增不減很有可(kě)能進沙盒或K站。

  220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你東西。

  121.14.89.*這(zhè)個(gè)ip段作爲度過新站考察期。

  203.208.60.*這(zhè)個(gè)ip段出現在新站及站點有不正常現象後。

  210.72.225.*這(zhè)個(gè)ip段不間斷巡邏各站。

  125.90.88.* 廣東茂名市電信也(yě)屬于百度蜘蛛IP 主要造成成分(fēn),是新上線站較多(duō),還(hái)有使用(yòng)過站長(cháng)工具,或SEO綜合檢測造成的(de)。

  220.181.108.95這(zhè)個(gè)是百度抓取首頁的(de)專用(yòng)IP,如是220.181.108段的(de)話(huà),基本來(lái)說你的(de)網站會天天隔夜快(kuài)照(zhào),絕對(duì)錯不了(le)的(de),我保證。

  220.181.108.92 同上98%抓取首頁,可(kě)能還(hái)會抓取其他(tā) (不是指内頁)220.181段屬于權重IP段此段爬過的(de)文章(zhāng)或首頁基本24小時(shí)放出來(lái)。

  123.125.71.106 抓取内頁收錄的(de),權重較低,爬過此段的(de)内頁文章(zhāng)不會很快(kuài)放出來(lái),因不是原創或采集文章(zhāng)。

  220.181.108.91屬于綜合的(de),主要抓取首頁和(hé)内頁或其他(tā),屬于權重IP 段,爬過的(de)文章(zhāng)或首頁基本24小時(shí)放出來(lái)。

  220.181.108.75重點抓取更新文章(zhāng)的(de)内頁達到90%,8%抓取首頁,2%其他(tā)。權重IP 段,爬過的(de)文章(zhāng)或首頁基本24小時(shí)放出來(lái)。

  220.181.108.86專用(yòng)抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  123.125.71.95 抓取内頁收錄的(de),權重較低,爬過此段的(de)内頁文章(zhāng)不會很快(kuài)放出來(lái),因不是原創或采集文章(zhāng)。

  123.125.71.97 抓取内頁收錄的(de),權重較低,爬過此段的(de)内頁文章(zhāng)不會很快(kuài)放出來(lái),因不是原創或采集文章(zhāng)。

  220.181.108.89專用(yòng)抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.94專用(yòng)抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.97專用(yòng)抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.80專用(yòng)抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.77 專用(yòng)抓首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  123.125.71.117 抓取内頁收錄的(de),權重較低,爬過此段的(de)内頁文章(zhāng)不會很快(kuài)放出來(lái),因不是原創或采集文章(zhāng)。

  220.181.108.83專用(yòng)抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  注:以上IP尾數還(hái)有很多(duō),但段位一樣的(de)123.125.71.*段IP 代表抓取内頁收錄的(de)權重比較低.可(kě)能由于你采集文章(zhāng)或拼文章(zhāng)暫時(shí)被收錄但不

  放出來(lái).(意思也(yě)就是說待定)。

  220.181.108.*段IP主要是抓取首頁占80%,内頁占30%,這(zhè)此爬過的(de)文章(zhāng)或首頁,絕對(duì)24小時(shí)内放出來(lái)和(hé)隔夜快(kuài)照(zhào)的(de),這(zhè)點我可(kě)以保證!

  一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網站沒更新,蜘蛛來(lái)過,如果是 200 0 64别擔心這(zhè)不是K站,可(kě)能是網站是動态的(de),

  所以返回就是這(zhè)個(gè)代碼。

Copyright 大(dà)連網龍科技 版權所有   html - txt -

電話(huà)
客服
目錄auth下(xià)缺少key.txt,請前往官網獲取授權