居民
專職SEO與LAMP工作
|
百度百科知識:網絡蜘蛛
當“蜘蛛”程序出現時,現代意義上的搜索引擎才初露端倪。它實際上是一種電腦“機器人”(Computer Robot),電腦“機器人”是指某個能以人類無法達到的速度不間斷地執行某項任務的軟件程序。由於專門用於檢索信息的“機器人”程序就象蜘蛛一樣在網絡間爬來爬去,反反復復,不知疲倦。所以,搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。
關鍵詞:網絡蜘蛛 起源 原理 優化
簡介
概述
網絡蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那麽Spider就是在網上爬來爬去的蜘蛛。
作用
網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從 網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網 站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那麽網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
這樣看來,網絡蜘蛛就是一個爬行程序,一個抓取網頁的程序。
起源
概述
要說網絡蜘蛛的起源,我們還得從搜索引擎說起,什麽是搜索引擎呢?搜索引擎的起源是什麽,這和網絡蜘蛛的起源密切相關。
搜索引擎指自動從因特網搜集信息,經過一定整理以後,提供給用戶進行查詢的系統。因特網上的信息浩瀚萬千,而且毫無秩序,所有的信息像汪洋上的一個個小島,網頁鏈接是這些小島之間縱橫交錯的橋梁,而搜索引擎,則為你繪制一幅一目了然的信息地圖,供你隨時查閱。
搜索引擎從1990年原型初顯,到現在成為人們生活中必不可少的一部分,它經歷了太多技術和觀念的變革。
1994年的1月份,第一個既可搜索又可瀏覽的分類目錄EINetGalaxy上線了。在它之後才出現了雅虎,直至我們現在熟知的Google、百度。但是他們都不是第一個吃搜索引擎這個螃蟹的第一人。從搜索FTP上的文件開始,搜索引擎的原型就出現了,那時還未有萬維網,當時人們先用手工後用蜘蛛程序搜索網頁,但隨著互聯網的不斷壯大,怎樣能夠搜集到的網頁數量更多、時間更短成為了當時的難點和重點,成為人們研究的重點。
搜索引擎原型初顯
如果要追溯的話,搜索引擎的歷史比WorldWideWeb 還要長。早在Web出現之前,互聯網上就已經存在許多旨在讓人們共享的信息資源了。這些資源當時主要存在於各種允許匿名訪問的FTP 站點。為了便於人們在分散的FTP資源中找到所需的東西,1990年,加拿大麥吉爾大學(McGillUniversity)的幾個大學生開發了一個軟件Archie。它是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然後Archie會告訴用戶哪一個FTP地址可以下載這個文件。Archie實際上是一個大型的數據庫,再加上與這個大型數據庫相關聯的一套檢索方法。Archie雖然還不是搜索引擎,但是從它的工作原理上看,它是所有搜索引擎的祖先。
當萬維網(WorldWideWeb)出現後,人們可以通過 html傳播網頁信息,網絡上的信息開始成倍增長。人們紛紛使用各種方法將網絡上的信息搜集來,進行分類、整理,以方便查找。現在人們很熟悉的網站雅虎(Yahoo)就是在這個環境下誕生的。還在Stanford大學讀書的美籍華人楊致遠和他的同學迷上了互聯網。他們將互聯網上有趣的網頁搜集過來,與同學一起分享。後來,1994年4月,他們倆共同辦了雅虎。隨著訪問量和收錄鏈接數的增長,雅虎目錄開始支持簡單的數據庫搜索。但是因為雅虎的數據是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是一個可搜索的目錄。
當“蜘蛛”程序出現時,現代意義上的搜索引擎才初露端倪。它實際上是一種電腦“機器人”(Computer Robot),電腦“機器人”是指某個能以人類無法達到的速度不間斷地執行某項任務的軟件程序。由於專門用於檢索信息的“機器人”程序就象蜘蛛一樣在網絡間爬來爬去,反反復復,不知疲倦。所以,搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。
這種程序實際是利用html文檔之間的鏈接關系,在Web上一個網頁一個網頁的爬取(crawl),將這些網頁抓到系統來進行分析,並放入數據庫中。第一個開發出“蜘蛛”程序的是Matthew Gray,他於1993年開發了World Wide Web Wanderer,它最初建立時是為了統計互聯網上的服務器數量,到後來發展到能夠捕獲網址。現代搜索引擎的思路就來源於Wanderer,後來很多人在此基礎上對蜘蛛程序進行了改進。
懶得貼了,要看全文請點擊進去吧
http://baike.baidu.com/view/19137.htm
作者:百度百科@南天網 - SEO與網站營銷交流
南天SEO - 全面知識,免費分享
文章名稱:百度百科知識:網絡蜘蛛,百度百科版權所有
|
|