SEO基礎:什么叫做網絡蜘蛛爬蟲?

SEO基礎 尹華峰 瀏覽 評論來源:aojiang4.cn

  一、網絡蜘蛛的定義

  網絡蜘蛛(又被稱為網絡爬蟲,網絡機器人)是一種按照一定的規則,自動地爬行抓取互聯網信息的程序或腳本。

  通俗解釋:互聯網類似于蜘蛛網,網絡爬蟲在其中不斷的爬行抓取,就像是蜘蛛通過蛛網進行捕食,每當發現新的資源蜘蛛立即出動并對其進行抓取并將抓取到的內容存入數據庫。

網絡蜘蛛

  二、網絡爬蟲的技術概述

  網絡爬蟲幫助搜索引擎從萬維網上下載網頁,是一個自動提取網頁信息的程序,因此網絡爬蟲也是搜索引擎的重要組成部分。已知的網絡爬蟲分為傳統爬蟲和聚焦爬蟲。

国产视频app   傳統爬蟲:就像蜘蛛在蛛網上爬行,網頁的URL就類似于相互關聯的蛛網,網頁蜘蛛從一些初始網頁的URL開始,獲得初始網頁上的URL,在爬蟲抓取網頁的過程中,又不斷從爬取到的頁面上重新抽取新的URL放入預抓取隊列,如此反復,直到滿足系統的停止條件,最終停止抓取。

  聚焦爬蟲:聚焦爬蟲的工作流程較傳統爬蟲更為復雜,它根據網頁分析算法過濾與初始抓取主題無關的URL,保留有用的鏈接放入預抓取隊列,如此反復,直到達到系統的某一條件時停止。

  三、為什么要有“蜘蛛”

  隨著網絡的迅速發展,互聯網成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。作為幫助用戶訪問互聯網的入口和指南,搜索引擎也存在著很多局限性。

国产视频app   1、通用搜索引擎的目標是將網絡覆蓋率盡可能做到最大化,因此有限的搜索引擎服務器資源與無限的網絡信息資源之間產生了巨大的矛盾。

国产视频app   2、通用搜索引擎所返回的結果過于寬泛,其中包含大量與用戶搜索目的不相關的網頁。

  3、互聯網數據形式和網絡技術的不斷發展,圖片、音頻、視頻等多種多媒體數據大量涌出,通用搜索引擎對這類信息不能很好的發現和獲取。

国产视频app   4、通用搜索引擎基于關鍵字搜索,不支持根據語義查詢。

  以上問題的出現也促使了定向抓取相關網頁資源的聚焦爬蟲的出現。聚焦爬蟲能夠自動下載網頁,它根據既定的抓取目標,有選擇的訪問互聯網上的網頁與相關的鏈接,從中收集需要的信息。與通用爬蟲不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網頁,為面向主題的用戶查詢準備數據資源。

国产视频app   了解搜索引擎的工作原理對于網站SEO優化起著重要的作用,很多的SEO技巧都是根據搜索引擎的工作原理而產生,因此對于搜索引擎工作原理的解讀是SEO工作者的重要基本功。

  獲取web頁面。每個獨立的搜索引擎都有自己的網絡爬蟲程序(Spider)。爬蟲沿著網頁中的超鏈接從這個網站爬到另個網站,并分析通過超鏈接分析獲取更多網頁的連續訪問。捕獲的web頁面稱為web快照。由于超鏈接在Internet中的應用非常普遍,理論上,從定范圍的web頁面開始,我們可以收集絕大多數的web頁面。

国产视频app   處理web頁面。捕獲網頁后,搜索引擎還需要做大量的預處理工作來提供檢索服務。其中重要的是提取關鍵字,建立索引庫和索引。其他包括刪除重復的網頁、分詞(中文)、確定網頁類型、分析超鏈接、計算網頁的重要性和豐富度等。

  提供檢索服務。用戶輸入檢索的關鍵字,搜索引擎找到與索引數據庫中關鍵字匹配的web頁面。為了便于用戶判斷,除了頁面標題和URL之外,還將提供web頁面的摘要和其他信息。搜索引擎的自動信息收集功能提交網站搜索。站長主動將網站提交給搜索引擎。它會在定時間內將爬蟲發送到您的網站,掃描您的網站并將信息存儲到數據庫中以供用戶使用。因為搜索引擎索引規則發生了很大變化相對于過去,主動提交的網站并不保證你的網站能進入搜索引擎數據庫,所以站長應加大網站的內容,讓搜索引擎有更多機會找到你并自動收集你的網站。

国产视频app   當用戶用關鍵詞搜索信息時,搜索引擎將在數據庫中搜索。如果你找到個網站,符合用戶要求的內容,個特殊的算法--通常根據網頁中關鍵詞的匹配程度,位置、頻率,鏈接質量,等等--計算網頁的相關性和排名。然后,根據關聯程度,將這些鏈接依次返回給用戶。