莱万特玛莎拉蒂报价
當前位置:廈門SEO > SEO優化 > 正文

搜索引擎如何通過蜘蛛對網頁抓取和收集?

龍騰SEO 2018-11-01 1024 0

做為一名SEO優化從業人員,長期要跟搜索引擎打交道,那么一定要了解搜索引擎的一些工作原理,比如是怎樣通過蜘蛛程序對網頁進行抓取和收集,其實這是搜索引擎工作的第一步,將抓取到的頁面存在了原始數據庫中,當我們了解了網頁的抓取機制,可以更好的做網站優化。

蜘蛛抓取網頁

那么什么是蜘蛛,是指按照指定的規則,在網絡上對網站的頁面代碼或者腳本進行自動抓取工作。而我們如果沒有對代碼中的鏈接進行屏蔽,那么蜘蛛(爬蟲)就可以通過該鏈接對站內或站外進行爬行和抓取。


由于網站的頁面鏈接結構多樣化,蜘蛛需要通過制定的爬行規則才能抓到更多頁面,比如深度抓取還有廣度抓取。深度是蜘蛛從當前頁開始,逐個鏈接的爬行下去,處理完后再進下一個頁面的爬行;廣度是蜘蛛會先將這個頁面中鏈接的所有網頁全部抓取,再選擇其中的一個網頁鏈接繼續抓取,這個方法可以使蜘蛛并行處理,增加了抓取的速度,所以是比較常用的方式。

而為了照顧到更多的網站,通常深度與廣度是混合使用的,在抓取中也會考慮網站的權重、規模、外鏈、內容更新等因素,另外為了提高抓取的速度,正常是多個蜘蛛并發分布去爬行頁面。我們根據這個原理,進行網站優化時要合理做內鏈優化,方便蜘蛛的順利爬行。

另外為什么我們要在高權重的網站做鏈接,原因是這些網站蜘蛛多,帶有導航性我們稱為種子站點,蜘蛛會將這些站做為起始站點,所以我們在這些高權網站添加了鏈接,會增加抓取的入口。
蜘蛛收集機制
最后講下搜索引擎的收集機制,當網站有定期定量在更新內容時,蜘蛛也會有規律的來網站抓取,所以這個抓取的頻率會受到更新周期的影響,也就是如果網站長期不更新,那么蜘蛛就不會經常來抓取,因為蜘蛛每次爬行會將頁面數據存儲起來,當多次爬行時發現頁面與之前收錄的完全一樣,沒有內容更新,那么就不會頻繁的來訪問,所以我們要保持定期定量的更新,并且內容要有質量,這樣當頁面有新的鏈接時也會被更快抓取。

轉載請注明來自廈門SEO,本文標題:搜索引擎如何通過蜘蛛對網頁抓取和收集?
本文地址:http://www.frjo.net/content/70.html

標簽:百度蜘蛛搜索引擎

本文暫時沒有評論,來添加一個吧(●'?'●)

歡迎 發表評論:

關于我

歡迎加我的微信號交流

文章代更新
熱門文章
隨機tag
SEM術語wordpress搬家浮動廣告代碼免費網盤博客優化企業SEO長尾關鍵詞加固服務器網站優化外包仿站百度負面SEO工具網站優化搭建云服務器微博營銷seo基礎建立博客營銷方案網站排名新聞營銷偽原創寫法網站權重網站死鏈cdn加速
莱万特玛莎拉蒂报价 全天北京pk10赛车计划 四川时时开奖结果走势图 重庆时时全天计划 北京时时02468漏洞 河北时时开奖视频直播 欢乐斗地主二人官方版 pk10精准稳定人工计划 网易彩票网 pk10全天人工计划网站 抢庄牛牛单机版 重庆时时彩一直跟34567 吉林快3投注图