A. 如何規劃數據中心,構建優化操作
我們公司的一些想法和經驗,今天的主要內容是關於如何定位數據中心基礎設施的管理。傳統意義上的數據中心通常會和IT隔離出來,在雲計算時代,我們會認為數據中心所有服務的東西都應該作為一個基礎設施來看待,就像微軟的集裝箱,這裡面已經擁有了IT技術的中心,在這個層面上就可以展開了,我們IT只能拿到我們的網路,我們的伺服器。因此意味著我們把跟IT架構的環境和整個環境作為一個統一的對象來考慮,並且考慮到之間的相互管理,這點對我們傳統意義上的數據中心是不太一樣的。
在數據中心的生命周期角度來講,從設計開始,會經過實施運營持續的勾畫,我們會發現這是一個數據的管理,在設計階段,我們可以看到作為基礎設施來說,IT部門不是具體到伺服器的一個數量,這個時候我們需要考慮的是運算的能力,就是數據中心到底能夠支撐多少運算的能力,從能力這個層面上考慮的,因此數據中心的要有這樣的能力,這個能力不能一估就10年,但是我們通常是10年、20年來預估的。整個IT預估的過程起碼是1一3年。在設計完整以後,我們進行實施,實施其實是部署的一個過程,部署完成了以後,就接著是一個運營,運營過程要解決一個很大的問題,解決實際運行的情況及跟我們當初設計的情況是否吻合,如果不吻合我們就進行調整,包括做更大動作的調整整改,假設一下,如果現在的實際情況和預想的情況是一致的,在運營層面就不用做太多的工作,現在IT的情況越來越復雜,從IT來說,投入的成本大於我們當初預算的成本,最後一個階段是優化階段,我們不斷的調整,需求在不斷的變化,我們需要進行優化,優化的結果是下一個數據中心的模式的設計,這就變成一個循環。從數據中心的基礎設施來講,IT有五個物理需求,包括攻堅、製冷、空間、安防、布線。我們采購IT設備的標准也必須是統一的,如果這些標准主要反映到我們剛才提煉的五個物理需求上,所以在設計的階段,我們要注意這五個方面,但是現在的數據中心來說,用戶往往會考慮得很周到,更多的是考慮供電和製冷,因為這有一個計算能力的需求,所有的伺服器用電90%的用電量會進行排放,所以製冷是一個很重要的因素。在管理的層面上有三個非常重要的地方,第一,保證IT的可控性,我們一般把IT分為三個層面,對底層的是基礎設施,上去是IT,IT上去是業務應用,比如說IT層面像業務層面提供服務的,如果業務層面不可用的話,說明IT存在的必要性會受到一個挑戰,因此,保證可用性是第一位的,再滿足第一位的情況下,我們可以降低運營的成本。對於數據中心的運營來說,我們可以拆散為幾個階段,第一個階段是部署,也就是支撐IT運營的過程,第二個是IT業務系統的上線,業務開始運作了,我們各種OA都可以運用,第三是對監控系統,發現問題後,我們可以採取相應的行動,確保業務系統的正常運作。第四,確保業務可用的情況下,我們可以用一些技術或者是雲的技術新一代的技術實現綠色的優化,降低運行的成本。在數據中心,基礎設施目前面臨的挑戰可以有五點。第一點是可用性,這也是我們存在必要性一個很重要的地方,後面兩點是我們在雲時代繼續生存的要素,包括在生命周期內的可適應性和可擴展性。最後兩點的可管理性和可維護性/服務型做到,這五點他們是相互依託的。
回到最初的設計階段,看上去跟IT沒有很大的關系,因為在我們公司的設計階段,IT基本上是不存在的,只是一個概要的需求,當數據中心運行起來以後,我們可以通過這個圖展示數據運行的情況,發現機位是不是過熱,供電是不是足夠的情況,因為我們設想跟實際情況是有差異的,所以我們要對這個數據進行管理。我們盡可能的縮小實際跟設計之間巨大的差距,當然縮小是不可能最小化的,不然的話,我們的業務就沒有發展,到了差距沒有辦法縮小的時候,我們應該增加一個模塊實現擴充,這也是數據中心模塊化的定義,當前可以從兩個方面縮小差異,一是構建支持硬的基礎設施,包括通過可調整模塊化的基礎設施,比如說,模塊化的UPS,模塊化的供電,模塊化的空調實現基礎設施的設計,另外我們可以通過配電和容量管理系統幫助我們掌握基礎設施的消化的趨勢,我們可以通過了解未來IT的發展趨勢,包括雲計算這些新的技術,便於我們在數據中心採取更好的技術,使這個數據中心有更強的生命力。
第二塊,通過優化基礎設施的使用,做一些全面、細致和精準地了解,通過規劃地使用基礎設施,通過這些延長數據中心的使用,實時檢測基礎設施,排除異常的情況,從而使基礎設施能夠得到很好的使用。
假設我們現在是維護一個好的數據中心,其實非常重要的一點是在於挖掘,我們經常說我們的網路是不可管理的,目前大多數的基礎設施是可以管的,我們面對新的數據中心的時候,或者是對數據中心進行調整的時候,第一步是對原有投資過的一些功能給挖掘出來,比如說以前的製冷的UPS,把可管理的功能挖掘出來了以後,可以整合到新的平台裡面,這是非常重要的一步,這裡面涉及到局限性,主要是在於數據的兼容性和管理的細化,可以這樣講,對於一個管理介面,管理的力度決定了可以管理的深度,因此在設計階段,我們決定自己管理的深度和可管理的光度,在這個層面上決定我們需要購買哪些設備,如果我們投資很多的錢買一個功能豐富的設備,但是發現我們管理上是達不到這個水平的,實際上這也是一種浪費。在基礎設施的管理方面,我們很少說管理這個詞,大多的時候是使用監控這兩個字,在中國的詞彙裡面,監控有兩個方面的含義,檢是代表檢測、採集和收集大量的數據,控是做一些反饋,調整運行狀態,怎麼根據收集上來的運行數據決定策略對於大多數的用戶來講,絕大多數都放在檢測上,對於監控是一個自化性的,或者是本能執行的手段。如果這是一個雲的數據中心,我們就可能在依據手動的方式進行調整,而是根據收集上來的數據進行判斷,再根據業務進行混合決定如何控。這個控的過程也是自動的,這樣的話,響應的速度才能足夠的快,才能滿足雲計算的要求,同時,這也意味著檢測的時候,我們決定著設備採集的信息量的大小。在整個過程裡面,我們需要消費我們收集上來的檢測數據,加上我們本身對這個數據的知識庫,最後形成了一個控制的結果,這也是管理裡面最核心的地方。