IIS日志分析作為網站運營人員必備技術能力,網站很多弊端不僅可以通過谷歌管理員工具發現,更多的錯誤還是從IIS日志中獲取,由于實戰型IIS日志分析網絡并沒形成一定的思路,鑒于今日電商圈 博客沖出沙盒為大家整理出一份有可鑒意義的日志分析報告!
首先先給大家介紹當前流行的搜索引擎在日志中顯示的代碼:
1,Sosospider+(+http://help.soso.com/webspider.htm)騰訊旗下搜索引擎,此蜘蛛樂此不彼相信很多觀察日志的同學和站長都很喜歡它,但是不知道騰訊的運營方式問題還是那個地方的問題,搜搜始終不能提高國內市場占有率。
2,Baiduspider+(+http://www.baidu.com/search/spider.htm ) 百度旗下搜索引擎,此蜘蛛可以說是很多站長的噩夢,由于百度在國內市場占據絕大部分份額,現在SEOER的傾向逐漸傾向于百度,所以大家在分析日志時候需要對Baiduspider反饋代碼進行認真分析。
3,Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 谷歌搜索引擎,此蜘蛛可以說在2005年-2010年在國內風靡一時,當時國內很多網絡公司依靠谷歌優化為生,當時谷歌的退出中國市場對此有很大打擊,但是此蜘蛛依然被列為被研究的首要對象。
4,Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 搜狗搜索引擎,此蜘蛛也是很勤奮,但是卻沒有一定的影響力,不過谷歌的PR有天離開站長的視線的時候,搜狗sr也可能作為網站參考價值之一。
5,Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )網易旗下搜索引擎,和搜狗一樣我們只作為參考價值。
6,Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)雅虎搜索,這個如果做日本客戶的朋友肯定是細心觀察,在這里不多做講解。
如果需要更多的了解iis日志簡單問題請查閱百度百科【iis日志】我們文章僅作為重點闡述。
第二:我們需要了解搜索引擎蜘蛛在服務器中爬行后返回代碼的意思
1xx(臨時響應)表示臨時響應并需要請求者繼續執行操作的狀態代碼。代碼 說明 100 (繼續) 請求者應當繼續提出請求。
2xx (成功)表示成功處理了請求的狀態代碼。代碼 說明 200 (成功)服務器已成功處理了請求。 通常,這表示服務器提供了請求的網頁。(200代碼說明網站已經處于正常狀態)
3xx (重定向) 表示要完成請求,需要進一步操作。通常,這些狀態代碼用來重定向。代碼 說明 300 (多種選擇) 針對請求,服務器可執行多種操作。
4xx(請求錯誤)這些狀態代碼表示請求可能出錯,妨礙了服務器的處理。代碼 說明 400 (錯誤請求) 服務器不理解請求的語法。(出現4xx錯誤代碼需要認真對其代碼進行分析然后結合網站技術對其網站進行改進)
5xx(服務器錯誤)這些狀態代碼表示服務器在嘗試處理請求時發生內部錯誤。這些錯誤可能是服務器本身的錯誤,而不是請求出錯。代碼 說明 500 (服務器內部錯誤) 服務器遇到錯誤,無法完成請求。
如果需要更多的了解狀態碼問題請查閱附件【IIS日志返回服務器代碼大全 】
第三:電商圈博客沙盒4月3-4月10號日志分析(鑒于本篇文章篇幅較長只針對Baiduspider 重要代碼進行分析)
eg:220.181.108.121 - - [06/Apr/2011:21:38:11 +0800] "GET /tag/\xe7\xac\xac\xe4\xb8\x80\xe5\x95\x86\xe5\x8a\xa1\xe7\xbd\x91 HTTP/1.1" 200 18228 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)此段日志是4月6號創建,也是1-10號日志中都存在的,也就是說明百度蜘蛛抓取了tag,并且進行了數據庫處理成功抓取。這個代碼的重要性也提示了大家百度對于TAG的重要性,也就是現在很多大站仍舊處于對TAG部分的處理,現在很多BLOG對TAG都有所處理,其中wordpress最好,本程序emblog處理差強人意。
eg:220.181.108.110 - - [06/Apr/2011:21:38:13 +0800] "GET /post/27 HTTP/1.1" 200 20156 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)此段日志說明百度蜘蛛4月6號成功抓取站內文章日志,并成功處理,所以新站處在沙盒時期,網站更新的過程請查閱IIS日志,可以確認百度蜘蛛的動向,采取手段及早沖出沙盒。
eg:220.181.108.104 - - [08/Apr/2011:21:03:56 +0800] "GET /?post=27 HTTP/1.1" 200 20158 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)此段蜘蛛可以說是本網站最大弊端,從這個代碼可以看出,百度蜘蛛對于靜態頁面和動態頁面重復收錄,所以在用emblog時候或是很多動態程序可以生成靜態頁面程序的時候屏蔽靜態頁面原始的動態頁面,這樣對蜘蛛是友好的。
上一篇:利用Facebook營銷5大誤區:簡單廣播內容乏味
下一篇:網絡營銷渠道策略