如何查看網站結構層數_Web Spider網路蜘蛛是什麼意思

⑴ 求一個可以看各種建築平面圖的網站

拿到一份圖紙後，先看什麼圖，後看什麼圖，應該有主有次，一般是按如下順序進行：版

1、首先仔細閱讀設計權說明，了解建築物的概況、位置、標高、材料要求、質量標准、施工注意事項以及一些特殊的技術要求，在思想上形成一個初步印象；

2、接著要看平面圖，了解房屋的平面形狀、開間、進深、柱網尺寸，各種房間的安排和交通布置，以及門窗位置，對建築物形成一個平面概念，為看立面圖、剖面圖打好基礎；

3、看立面圖，以了解建築物的朝向、層數和層高的變化，以及門窗、外裝飾的要求等；

4、看剖面圖，以大體了解剖面部分的各部位標高變化和室內情況；

5、最後看結構圖，以了解平面圖、立面圖、剖面圖等建築圖與結構圖之間的關系，加深對整個工程的理解；

6、另外，還必須根據平面圖、立面圖、剖面圖等中的索引符號，詳細閱讀所指的大樣圖或節點圖，做到粗細結合，大小交圈。

只有循序漸進，才能理解設計意圖，看懂設計圖紙，也就是說一般應做到「先看說明後看圖；順序最好為平、立、剖；查對節點和大樣；建築結構對照讀，這樣才能收到事半功倍的效果。
樓主可以先去買一本相關的入門書看看，如果是你連基本圖中的字母表示什麼都不知道的話去網站上看了也是白看希望能幫助

⑵ 網站優化主要在哪幾個方面。

網站的優化是一個長期堅持的過程，三天打魚兩天曬網是不行的，做站前期需要注意的幾個SEO技巧。
一、關鍵詞布局
首先要知道自己要做哪些關鍵詞，找到行業關鍵詞的方法可以是參考競爭對手和用網路鳳巢系統。當然市面上的工具很多，站長工具、愛站工具、金花詞等都是很好的關鍵詞挖掘工具。找好了關鍵詞接下來就是合理布局在網站的各個頁面。在布局之前應當分析關鍵詞的競爭度，主要參考點有關鍵詞指數、搜索量、排名首頁的網站頁面類型和外鏈、域名年齡等因素。
把關鍵詞競爭度分為三個等級，分別為難、中、易。難的關鍵詞布局在首頁，中等的放在列表頁或二級欄目頁，容易的則用內容頁去做。
二、網址規范化
除了網站結構，網址長的怎麼樣也很重要。如果說網址結構是人的衣服，那麼網址形式就是人的相貌，長的丑也會不受蜘蛛待見。不要用動態網址，尤其不要用參數過多的，網址用拼音更佳。許多網站上線前網址問題都沒解決，常見的有多個網址訪問同一內容，例如帶斜杠和不帶斜杠，首頁帶個index.php的尾子，首頁帶www 不帶www等問題。
三、扁平化結構
在走進搜索引擎這本書里，作者講到萬維網半徑不超過17層，這和六度人脈理論不謀而合。搜索引擎在抓取網頁的時候主要採取寬度優先的原則，因此網站的層次不應太深，一般不要超過三層，這樣才利於蜘蛛抓取。
四、網站內容
內容為王永不過時，網站初期做好內容是最重要的，以用戶需求為中心堅持原創，不抄襲也不要被抄襲，新站權重低，要做好版權措施。
五、避免標題重復問題
確保每個頁面有唯一的meta標簽，主要有標題、描述、關鍵詞標簽。這里容易出問題的地方在列表分頁，還有第一頁和列表首頁內容重復問題。
六、404頁面
一個好的404頁面可以更好的引導用戶，增加網站pv，提高用戶體驗。確保404頁面返回正確代碼，不要用任何跳轉。
七、網站速度和伺服器穩定性
如果網頁載入時間過長，用戶的跳出率大大增加，用戶體驗就會大大降低。除速度外，伺服器穩定性也要保證。畢竟三天兩頭打不開的網站搜索引擎和用戶都不會喜歡。

⑶ Web Spider網路蜘蛛，是什麼意思

[摘要]當「蜘蛛」程序出現時，現代意義上的搜索引擎才初露端倪。它實際上是一種電腦「機器人」（Computer Robot），電腦「機器人」是指某個能以人類無法達到的速度不間斷地執行某項任務的軟體程序。由於專門用於檢索信息的「機器人」程序就象蜘蛛一樣在網路間爬來爬去，反反復復，不知疲倦。所以，搜索引擎的「機器人」程序就被稱為「蜘蛛」程序。

關鍵詞：網路蜘蛛起源原理優化

目錄

什麼是網路蜘蛛

網路蜘蛛的起源

網路蜘蛛的工作原理

正文開始

1、什麼是網路蜘蛛

----什麼是網路蜘蛛呢？網路蜘蛛即Web Spider，是一個很形象的名字。把互聯網比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然後通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站，那麼網路蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

----這樣看來，網路蜘蛛就是一個爬行程序，一個抓取網頁的程序。

2、網路蜘蛛的起源

----要說網路蜘蛛的起源，我們還得從搜索引擎說起，什麼是搜索引擎呢？搜索引擎的起源是什麼，這和網路蜘蛛的起源密切相關。

----搜索引擎指自動從英特網搜集信息，經過一定整理以後，提供給用戶進行查詢的系統。英特網上的信息浩瀚萬千，而且毫無秩序，所有的信息象汪洋上的一個個小島，網頁鏈接是這些小島之間縱橫交錯的橋梁，而搜索引擎，則為你繪制一幅一目瞭然的信息地圖，供你隨時查閱。

----搜索引擎從1990年原型初顯，到現在成為人們生活中必不可少的一部分，它經歷了太多技術和觀念的變革。
----十四年前1994年的一月份，第一個既可搜索又可瀏覽的分類目錄EINetGalaxy上線了。在它之後才出現了雅虎，直至我們現在熟知的Google、網路。但是他們都不是第一個吃搜索引擎這個螃蟹的第一人。從搜索FTP上的文件開始，搜索引擎的原型就出現了，那時還未有萬維網，當時人們先用手工後用蜘蛛程序搜索網頁，但隨著互聯網的不斷壯大，怎樣能夠搜集到的網頁數量更多、時間更短成為了當時的難點和重點，成為人們研究的重點。

----搜索引擎原型初顯

----如果要追溯的話，搜索引擎的歷史比WorldWideWeb 還要長。早在Web出現之前，互聯網上就已經存在許多旨在讓人們共享的信息資源了。這些資源當時主要存在於各種允許匿名訪問的FTP 站點。為了便於人們在分散的FTP資源中找到所需的東西，1990年，加拿大麥吉爾大學（McGillUniversity）的幾個大學生開發了一個軟體Archie。它是一個可搜索的FTP文件名列表，用戶必須輸入精確的文件名搜索，然後Archie會告訴用戶哪一個FTP地址可以下載這個文件。Archie實際上是一個大型的資料庫，再加上與這個大型資料庫相關聯的一套檢索方法。Archie雖然還不是搜索引擎,但是從它的工作原理上看，它是所有搜索引擎的祖先。

----當萬維網（WorldWideWeb）出現後，人們可以通過 html傳播網頁信息，網路上的信息開始成倍增長。人們紛紛使用各種方法將網路上的信息搜集來，進行分類、整理，以方便查找。現在人們很熟悉的網站雅虎（Yahoo）就是在這個環境下誕生的。還在Stanford大學讀書的美籍華人楊致遠和他的同學迷上了互聯網。他們將互聯網上有趣的網頁搜集過來，與同學一起分享。後來，1994年4月，他們倆共同辦了雅虎。隨著訪問量和收錄鏈接數的增長，雅虎目錄開始支持簡單的資料庫搜索。但是因為雅虎的數據是手工輸入的，所以不能真正被歸為搜索引擎，事實上只是一個可搜索的目錄。

----當「蜘蛛」程序出現時，現代意義上的搜索引擎才初露端倪。它實際上是一種電腦「機器人」（Computer Robot），電腦「機器人」是指某個能以人類無法達到的速度不間斷地執行某項任務的軟體程序。由於專門用於檢索信息的「機器人」程序就象蜘蛛一樣在網路間爬來爬去，反反復復，不知疲倦。所以，搜索引擎的「機器人」程序就被稱為「蜘蛛」程序。

----這種程序實際是利用html文檔之間的鏈接關系，在Web上一個網頁一個網頁的爬取（crawl），將這些網頁抓到系統來進行分析，並放入資料庫中。第一個開發出「蜘蛛」程序的是Matthew Gray，他於1993年開發了World Wide Web Wanderer，它最初建立時是為了統計互聯網上的伺服器數量，到後來發展到能夠捕獲網址。現代搜索引擎的思路就來源於Wanderer，後來很多人在此基礎上對蜘蛛程序進行了改進。

----1994年7月20日發布的Lycos網站第一個將「蜘蛛」程序接入到其索引程序中。引入「蜘蛛」後給其帶來的最大優勢就在於其遠勝於其它搜索引擎的數據量。自此之後幾乎所有占據主導地位的搜索引擎中，都靠「蜘蛛」來搜集網頁信息。Infoseek是另一個重要的搜索引擎，於1994年年底才與公眾見面。起初，Infoseek只是一個不起眼的搜索引擎，它沿襲Yahoo!和Lycos的概念，並沒有什麼獨特的革新。但是它友善的用戶界面、大量附加服務使它在用戶中贏得了口碑。1995年12月，它與Netscape的戰略性協議，使它成為一個強勢搜索引擎：當用戶點擊Netscape瀏覽器上的搜索按鈕時，彈出Infoseek的搜索服務，而此前由Yahoo!提供該服務。 1995年12月15日，Alta Vista正式上線。它是第一個支持高級搜索語法的搜索引擎，成功地整合了此前人類所有的信息檢索技術，解決了包括字根處理、關鍵詞檢索、布爾邏輯，以及通過向量空間模型的查詢排名等關鍵問題。正式公開之前，Alta Vista就已經擁有20萬訪問用戶，在短短三個星期之內，到訪人數由每天30萬次增加到200萬次。它的成功在於滿足了用戶三個方面的需求：網上索引范圍超過了此前任何一家搜索引擎；短短幾秒鍾內便可從龐大的資料庫中為用戶返回搜索結果；Alta Vista小組從一開始就採用了一種模塊設計技術，能夠跟蹤網站的流行趨勢，同時不斷擴大處理能力。在當時許多搜索引擎之中，Alta Vista脫穎而出，成為網路搜索的代名詞。Google就是站在這樣的巨人的肩膀上顛覆並創造著。「上網即搜索」改變了人們上網方式的，就是現在鼎鼎大名的Google。Google並不是搜索引擎的發明者，甚至有點落後，但是它卻讓人們愛上了搜索。

----1998年9月，在佩奇和布林創建Google之時，業界對互聯網搜索功能的理解是：某個關鍵詞在一個文檔中出現的頻率越高，該文檔在搜索結果中的排列位置就要越顯著。這就引出了這樣一個問題，如果一個頁面充斥著某一個關鍵字的話，那麼它將排在很顯著的位置，但這樣一個頁面對於用戶來說，卻沒有任何意義。佩奇和布林發明了「網頁級別」（PageRank）技術，來排列搜索結果。即考察該頁面在網上被鏈接的頻率和重要性來排列，互聯網上指向這一頁面的重要網站越多，該頁面的位次也就越高。當從網頁A鏈接到網頁B時，Google 就認為「網頁A投了網頁B一票」。Google根據網頁的得票數評定其重要性。然而，除了考慮網頁得票數的純數量之外，Google還要分析投票的網頁，「重要」的網頁所投出的票就會有更高的權重，並且有助於提高其他網頁的「重要性」。 Google以其復雜而全自動的搜索方法排除了任何人為因素對搜索結果的影響。沒人能花錢買到更高的網頁級別，從而保證了網頁排名的客觀公正。除此之外，動態摘要、網頁快照、多文檔格式支持、地圖股票詞典尋人等集成搜索也都深得網民的喜愛。其他眾多搜索引擎也都緊跟Google，推出這些服務。Fast（Alltheweb）公司發布的搜索引擎AllTheWeb，總部位於挪威，其在海外的風頭直逼Google。Alltheweb的網頁搜索支持Flash和pdf搜索，支持多語言搜索，還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索，擁有極其強大的高級搜索功能。而中國的網路更是憑借「更懂中文」而吸引著中國的網路受眾，它擁有超過10億的中文網頁資料庫，並且，這些網頁的數量每天正以千萬級的速度在增長。

----搜索引擎越來越成為人們生活中重要的一部分，找資料、查地圖、聽音樂，只有想不到的，沒有搜索不到的。
----搜索引擎的三個基本原理

----1．利用蜘蛛系統程序，自動訪問互聯網，並沿著任何網頁中的所有URL爬到其它網頁，重復這過程，並把爬過的所有網頁收集回來。

----2.由分析索引系統程序對收集回來的網頁進行分析，提取相關網頁信息，根據一定的相關度演算法進行大量復雜計算，得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度（或重要性），然後用這些相關信息建立網頁索引資料庫。

----3.當用戶輸入關鍵詞搜索後，由搜索系統程序從網頁索引資料庫中找到符合該關鍵詞的所有相關網頁。相關度數值排序，相關度越高，排名越靠前。最後，由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。

----說到這里，你可能對搜索引擎和網路蜘蛛有了一個初步的了解了吧！
3、網路蜘蛛的工作原理

----對於搜索引擎來說，要抓取互聯網上所有的網頁幾乎是不可能的，從目前公布的數據來看，容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸，無法遍歷所有的網頁，有許多網頁無法從其它網頁的鏈接中找到；另一個原因是存儲技術和處理技術的問題，如果按照每個頁面的平均大小為20K計算（包含圖片），100億網頁的容量是100×2000G位元組，即使能夠存儲，下載也存在問題（按照一台機器每秒下載20K計算，需要340台機器不停的下載一年時間，才能把所有網頁下載完畢）。同時，由於數據量太大，在提供搜索時也會有效率方面的影響。因此，許多搜索引擎的網路蜘蛛只是抓取那些重要的網頁，而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。

----在抓取網頁的時候，網路蜘蛛一般有兩種策略：廣度優先和深度優先（如下圖所示）。

----廣度優先是指網路蜘蛛會先抓取起始網頁中鏈接的所有網頁，然後再選擇其中的一個鏈接網頁，繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式，因為這個方法可以讓網路蜘蛛並行處理，提高其抓取速度。深度優先是指網路蜘蛛會從起始頁開始，一個鏈接一個鏈接跟蹤下去，處理完這條線路之後再轉入下一個起始頁，繼續跟蹤鏈接。這個方法有個優點是網路蜘蛛在設計的時候比較容易。兩種策略的區別，下圖的說明會更加明確。

----由於不可能抓取所有的網頁，有些網路蜘蛛對一些不太重要的網站，設置了訪問的層數。例如，在上圖中，A為起始網頁，屬於0層，B、C、D、E、F屬於第1 層，G、H屬於第2層，I屬於第3層。如果網路蜘蛛設置的訪問層數為2的話，網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索到，另外一部分不能被搜索到。對於網站設計者來說，扁平化的網站結構設計有助於搜索引擎抓取其更多的網頁。
----網路蜘蛛在訪問網站網頁的時候，經常會遇到加密數據和網頁許可權的問題，有些網頁是需要會員許可權才能訪問。當然，網站的所有者可以通過協議讓網路蜘蛛不去抓取（下小節會介紹），但對於一些出售報告的網站，他們希望搜索引擎能搜索到他們的報告，但又不能完全免費的讓搜索者查看，這樣就需要給網路蜘蛛提供相應的用戶名和密碼。網路蜘蛛可以通過所給的許可權對這些網頁進行網頁抓取，從而提供搜索。而當搜索者點擊查看該網頁的時候，同樣需要搜索者提供相應的許可權驗證。

----每個網路蜘蛛都有自己的名字，在抓取網頁的時候，都會向網站標明自己的身份。網路蜘蛛在抓取網頁的時候會發送一個請求，這個請求中就有一個欄位為User －agent，用於標識此網路蜘蛛的身份。例如Google網路蜘蛛的標識為GoogleBot，Bai網路蜘蛛的標識為BaiDuSpider， Yahoo網路蜘蛛的標識為Inktomi Slurp。如果在網站上有訪問日誌記錄，網站管理員就能知道，哪些搜索引擎的網路蜘蛛過來過，什麼時候過來的，以及讀了多少數據等等。如果網站管理員發現某個蜘蛛有問題，就通過其標識來和其所有者聯系。

----網路蜘蛛進入一個網站，一般會訪問一個特殊的文本文件Robots.txt，這個文件一般放在網站伺服器的根目錄下，如：[url][/url]。網站管理員可以通過robots.txt來定義哪些目錄網路蜘蛛不能訪問，或者哪些目錄對於某些特定的網路蜘蛛不能訪問。例如有些網站的可執行文件目錄和臨時文件目錄不希望被搜索引擎搜索到，那麼網站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單，例如如果對目錄沒有任何限制，可以用以下兩行來描述： User-agent: *
Disallow:

----當然，Robots.txt只是一個協議，如果網路蜘蛛的設計者不遵循這個協議，網站管理員也無法阻止網路蜘蛛對於某些頁面的訪問，但一般的網路蜘蛛都會遵循這些協議，而且網站管理員還可以通過其它方式來拒絕網路蜘蛛對某些網頁的抓取。

---- 網路蜘蛛在下載網頁的時候，會去識別網頁的HTML代碼，在其代碼的部分，會有META標識。通過這些標識，可以告訴網路蜘蛛本網頁是否需要被抓取，還可以告訴網路蜘蛛本網頁中的鏈接是否需要被繼續跟蹤。例如：表示本網頁不需要被抓取，但是網頁內的鏈接需要被跟蹤。

---- 搜索引擎建立網頁索引，處理的對象是文本文件。對於網路蜘蛛來說，抓取下來網頁包括各種格式，包括html、圖片、doc、pdf、多媒體、動態網頁及其它格式等。這些文件抓取下來後，需要把這些文件中的文本信息提取出來。准確提取這些文檔的信息，一方面對搜索引擎的搜索准確性有重要作用，另一方面對於網絡蜘蛛正確跟蹤其它鏈接有一定影響。對於doc、pdf等文檔，這種由專業廠商提供的軟體生成的文檔，廠商都會提供相應的文本提取介面。網路蜘蛛只需要調用這些插件的介面，就可以輕松的提取文檔中的文本信息和文件其它相關的信息。但HTML等文檔不一樣，HTML有一套自己的語法，通過不同的命令標識符來表示不同的字體、顏色、位置等版式，如：、、等，提取文本信息時需要把這些標識符都過濾掉。過濾標識符並非難事，因為這些標識符都有一定的規則，只要按照不同的標識符取得相應的信息即可。但在識別這些信息的時候，需要同步記錄許多版式信息，例如文字的字體大小、是否是標題、是否是加粗顯示、是否是頁面的關鍵詞等，這些信息有助於計算單詞在網頁中的重要程度。同時，對於HTML網頁來說，除了標題和正文以外，會有許多廣告鏈接以及公共的頻道鏈接，這些鏈接和文本正文一點關系也沒有，在提取網頁內容的時候，也需要過濾這些無用的鏈接。例如某個網站有「產品介紹」頻道，因為導航條在網站內每個網頁都有，若不過濾導航條鏈接，在搜索「產品介紹」的時候，則網站內每個網頁都會搜索到，無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統計大量的網頁結構規律，抽取一些共性，統一過濾；對於一些重要而結果特殊的網站，還需要個別處理。這就需要網路蜘蛛的設計有一定的擴展性。

---- 對於多媒體、圖片等文件，一般是通過鏈接的錨文本（即，鏈接文本）和相關的文件注釋來判斷這些文件的內容。例如有一個鏈接文字為「張曼玉照片」，其鏈接指向一張bmp格式的圖片，那麼網路蜘蛛就知道這張圖片的內容是「張曼玉的照片」。這樣，在搜索「張曼玉」和「照片」的時候都能讓搜索引擎找到這張圖片。另外，許多多媒體文件中有文件屬性，考慮這些屬性也可以更好的了解文件的內容。

---- 動態網頁一直是網路蜘蛛面臨的難題。所謂動態網頁，是相對於靜態網頁而言，是由程序自動生成的頁面，這樣的好處是可以快速統一更改網頁風格，也可以減少網頁所佔伺服器的空間，但同樣給網路蜘蛛的抓取帶來一些麻煩。由於開發語言不斷的增多，動態網頁的類型也越來越多，如：asp、jsp、php等。這些類型的網頁對於網路蜘蛛來說，可能還稍微容易一些。網路蜘蛛比較難於處理的是一些腳本語言（如VBScript和JavaScript）生成的網頁，如果要完善的處理好這些網頁，網路蜘蛛需要有自己的腳本解釋程序。對於許多數據是放在資料庫的網站，需要通過本網站的資料庫搜索才能獲得信息，這些給網路蜘蛛的抓取帶來很大的困難。對於這類網站，如果網站設計者希望這些數據能被搜索引擎搜索，則需要提供一種可以遍歷整個資料庫內容的方法。

對於網頁內容的提取，一直是網路蜘蛛中重要的技術。整個系統一般採用插件的形式，通過一個插件管理服務程序，遇到不同格式的網頁採用不同的插件處理。這種方式的好處在於擴充性好，以後每發現一種新的類型，就可以把其處理方式做成一個插件補充到插件管理服務程序之中。

---- 由於網站的內容經常在變化，因此網路蜘蛛也需不斷的更新其抓取網頁的內容，這就需要網路蜘蛛按照一定的周期去掃描網站，查看哪些頁面是需要更新的頁面，哪些頁面是新增頁面，哪些頁面是已經過期的死鏈接。

---- 搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長，則總會有一部分新生成的網頁搜索不到；周期過短，技術實現會有一定難度，而且會對帶寬、伺服器的資源都有浪費。搜索引擎的網路蜘蛛並不是所有的網站都採用同一個周期進行更新，對於一些重要的更新量大的網站，更新的周期短，如有些新聞網站，幾個小時就更新一次；相反對於一些不重要的網站，更新的周期就長，可能一兩個月才更新一次。

---- 一般來說，網路蜘蛛在更新網站內容的時候，不用把網站網頁重新抓取一遍，對於大部分的網頁，只需要判斷網頁的屬性（主要是日期），把得到的屬性和上次抓取的屬性相比較，如果一樣則不用更新。

---- 現在大家對網路蜘蛛的工作原理有了初步的了解了吧，了解後就要在以後的網站製作中考慮蜘蛛的爬行規律，比如製作網站地圖就很重要，好了，如果你有更好的見解，請到這里發表，火鳥非常願意與你交流，共同研究網站製作技巧，盡量將自己的網站製作的符合標准，符合用戶的習慣！

導航:首頁 > 網路信息 > 如何查看網站結構層數

如何查看網站結構層數

與如何查看網站結構層數相關的資料

友情鏈接