我們要學會如何分析網站日志,通過網站日志文件我們可以很清楚的看到有哪些搜索引擎蜘蛛光臨我們的網站,蜘蛛都爬取了哪些目錄以及通過日志我們還可以發現網站表面上看不到的問題,如404等,網站默認是允許所有蜘蛛進行抓取,大家可以通過根目錄下的robots.txt文件來控制蜘蛛的抓取目錄以及允許哪些蜘蛛過來,這里就robots.txt文件怎么寫就詳細說了,北京匯仁智杰網絡科技有限公司的權威講師就為大家簡單介紹一下如何分析網站日志:
1、各搜索引擎抓取本站的情況:
每個搜索引擎都有自己的蜘蛛名稱(機器人),通過網站日志可以看到哪些搜索引擎來光臨自己的網站,爬取了哪些目錄,以及蜘蛛過來的時間等,如百度蜘蛛是Baiduspider,我么可以Ctrl+F查找一下,查看百度是什么時間過來,抓取了哪些頁面,通過查看蜘蛛爬取目錄或頁面的頻率我們還能知道哪個目錄或頁面最吸引蜘蛛。
2、網站目錄抓取和收錄情況
一般網站的結構是樹形或扁平結構,蜘蛛按照網站結構目錄一層一層的抓取是合理的,如果發現某個目錄爬取頻率比較高,但是收錄的內容少,這時候就要注意這個目錄下頁面(內容)的質量了,就算寫不了原創,也要注意深度偽原創,千萬不要大量采集。
3、頁面的抓取時間
通過網站日志可以分析每個頁面的抓取次數和抓取時間,從而了解蜘蛛的喜好和抓取規律,包括哪個時間點來的比較頻繁,如果有新頁面想要搜索引擎盡快收錄,我們可以在搜索引擎蜘蛛爬取最頻繁的頁面上(如首頁)加入新頁面的入口,而且最好在蜘蛛來的最頻繁的那個時間點之前添加好新的內容。
4、頁面狀態碼
http狀態碼,SEO常見的有301,302和404,蜘蛛每爬取頁面都會返回一個狀態碼,如果是200代表正常,如果是301說明這個頁面是跳轉頁面,如果是302代表臨時跳轉,最重要的是404錯誤碼,如果發現某個抓取返回的是404,我們要趕快診斷一下說明原因返回404(誤刪還是移走了),網站最好都設置一個404的頁面,這樣才對蜘蛛顯得友好,遇到404的頁面鏈接,百度站長工具有提交死鏈的工具,也去提交一下,讓百度知道并處理。
其實分析網站日志很簡單,看一遍就知道規律了,ip+時間+蜘蛛名+返回碼+抓取目錄,一條記錄就這么多內容,沒什么繁雜看不懂的。