A. 雲計算時代大數據遇到哪些困難
現階斷大數據的困難主要在如下幾點:
1、信息壁壘降低了大數據產業專資源配置效率。大數據屬產業發展必須實現數據信息的自由流動和共享,如果數據不開放、不共享,數據整合就不能實現,數據價值也會大大降低。
2、 政府部門是社會信息的主要控制者,其信息又分別被不同部門和區域控制,而不同部門和區域間的數據標准各異,信息資源也就難以實現共享。
3、數據安全管理薄弱增加了大數據產業的發展風險。
數據安全和隱私保護是大數據產業發展的世界性難題,這主要體現在三個方面:其一,數據的海量存儲增加了數據安防的難度,可能造成大量數據損壞或丟失,造成難以想像的後果;其二,在大數據時代,數據的多元性和復雜性要求人們形成更強的安全意識,但現實中不論企業還是個人的安全意識還沒有從傳統的非信息時代轉變過來,存在巨大潛在風險;其三,網路攻擊帶來了數據安全風險,隨著大數據在政府、金融、公共事業等領域的廣泛運用,數據泄露帶來的損失遠遠超出行業范疇,而是全局性的國家安全問題。
B. 大數據的七大核心價值
大數據的七大核心價值
隨著移動互聯網的飛速發展,信息的傳輸日益方便快捷,端到端的需求也日益突出,縱觀整個移動互聯網領域,數據已被認為是繼雲計算、物聯網之後的又一大顛覆性的技術性革命,毋庸置疑,大數據市場是待挖掘的金礦,其價值不言而喻。可以說誰能掌握和合理運用用戶大數據的核心資源,誰就能在接下來的技術變革中進一步發展壯大。
大數據,可以說是史上第一次將各行各業的用戶、方案提供商、服務商、運營商以及整個生態鏈上游廠商,融入到一個大的環境中,無論是企業級市場還是消費級市場,亦或政府公共服務,都正或將要與大數據發生千絲萬縷的聯系。
近期有不少文章暢談大數據的價值,以及其價值主要凸顯在哪些方面,這里我們對大數據的核心具體價值進行了分門別類的梳理匯總,希望能幫助讀者更好的獲悉大數據的大價值。
核心價值究其用戶到底是誰?
談及價值,首先必須要弄清楚其用戶到底是誰?有針對企業數據市場的,還有針對終端消費者的,還有針對政府公共服務的;其次要弄清楚大數據核心價值的表現形式、價值的體現過程以及最後呈現的結果。
商業的發展天生就依賴於大量的數據分析來做決策,對於企業用戶,更關心的還是決策需求,其實早在BI時代這就被推上了日程,經過十餘年的探索,如今已形成了數據管理、數據可視化等細分領域,來加強對決策者的影響,達到決策支持的效果。還有企業營銷需求,從本質上來說,主要聚焦在針對消費者市場的精準營銷。
對於消費者用戶,他們對大數據的需求主要體現在信息能按需搜索,並能提供友好、可信的信息推薦,其次是提供高階服務,例如智能信息的提供、用戶體驗更快捷等等。
還有,大數據也不斷被應用到政府日常管理和為民服務中,並成為推動政府政務公開、完善服務、依法行政的重要力量。從戶籍制度改革,到不動產登記制度改革,再到徵信體系建設等等都對資料庫建設提出了更高的目標要求,而此時的資料庫更是以大數據為基礎的,可見,大數據已成為政府改革和轉型的技術支撐杠桿。
數據,除了它第一次被使用時提供的價值以外,那些積累下來的數據海洋並不是無用的廢物,它還有著無窮無盡的「剩餘價值」,關於這一點,人們已經有了越來越多的認識。事實上,大數據已經開始並將繼續影響我們的生活,接下來讓我們共同探索大數據的核心價值吧!當然這是需要藉助於一些具體的應用模式和場景才能得到集中體現的。
《大數據時代》一書作者維克托認為大數據時代有三大轉變:「第一,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不是依賴於隨機采樣。更高的精確性可使我們發現更多的細節。第二,研究數據如此之多,以至於我們不再熱衷於追求精確度。適當忽略微觀層面的精確度,將帶來更好的洞察力和更大的商業利益。第三,不再熱衷於尋找因果關系,而是事物之間的相關關系。例如,不去探究機票價格變動的原因,但是關注買機票的最佳時機。」大數據打破了企業傳統數據的邊界,改變了過去商業智能僅僅依靠企業內部業務數據的局面,而大數據則使數據來源更加多樣化,不僅包括企業內部數據,也包括企業外部數據,尤其是和消費者相關的數據。
隨著大數據的發展,企業也越來越重視數據相關的開發和應用,從而獲取更多的市場機會。
一方面,大數據能夠明顯提升企業數據的准確性和及時性;此外還能夠降低企業的交易摩擦成本;更為關鍵的是,大數據能夠幫助企業分析大量數據而進一步挖掘細分市場的機會,最終能夠縮短企業產品研發時間、提升企業在商業模式、產品和服務上的創新力,大幅提升企業的商業決策水平,降低了企業經營的風險。
一、大數據助企業挖掘市場機會探尋細分市場
大數據能夠幫助企業分析大量數據而進一步挖掘市場機會和細分市場,然後對每個群體量體裁衣般的採取獨特的行動。獲得好的產品概念和創意,關鍵在於我們到底如何去搜集消費者相關的信息,如何獲得趨勢,挖掘出人們頭腦中未來會可能消費的產品概念。用創新的方法解構消費者的生活方式,剖析消費者的生活密碼,才能讓吻合消費者未來生活方式的產品研發不再成為問題,如果你了解了消費者的密碼,就知道其潛藏在背後的真正需求。大數據分析是發現新客戶群體、確定最優供應商、創新產品、理解銷售季節性等問題的最好方法。
在數字革命的背景下,對企業營銷者的挑戰是從如何找到企業產品需求的人到如何找到這些人在不同時間和空間中的需求;從過去以單一或分散的方式去形成和這群人的溝通信息和溝通方式,到現在如何和這群人即時溝通、即時響應、即時解決他們的需求,同時在產品和消費者的買賣關系以外,建立更深層次的夥伴間的互信、雙贏和可信賴的關系。
大數據進行高密度分析,能夠明顯提升企業數據的准確性和及時性;大數據能夠幫助企業分析大量數據而進一步挖掘細分市場的機會,最終能夠縮短企業產品研發時間、提升企業在商業模式、產品和服務上的創新力,大幅提升企業的商業決策水平。因此,大數據有利於企業發掘和開拓新的市場機會;有利於企業將各種資源合理利用到目標市場;有利於制定精準的經銷策略;有利於調整市場的營銷策略,大大降低企業經營的風險。
企業利用用戶在互聯網上的訪問行為偏好能為每個用戶勾勒出一副「數字剪影」,為具有相似特徵的用戶組提供精確服務滿足用戶需求,甚至為每個客戶量身定製。這一變革將大大縮減企業產品與最終用戶的溝通成本。例如:一家航空公司對從未乘過飛機的人很感興趣(細分標準是顧客的體驗)。而從未乘過飛機的人又可以細分為害怕飛機的人,對乘飛機無所謂的人以及對乘飛機持肯定態度的人(細分標準是態度)。在持肯定態度的人中,又包括高收入有能力乘飛機的人(細分標準是收入能力)。於是這家航空公司就把力量集中在開拓那些對乘飛機持肯定態度,只是還沒有乘過飛機的高收入群體。通過對這些人進行量身定製、精準營銷取得了很好的效果。
二、大數據提高決策能力
當前,企業管理者還是更多依賴個人經驗和直覺做決策,而不是基於數據。在信息有限、獲取成本高昂,而且沒有被數字化的時代,讓身居高位的人做決策是情有可原的,但是大數據時代,就必須要讓數據說話。
大數據能夠有效的幫助各個行業用戶做出更為准確的商業決策,從而實現更大的商業價值,它從誕生開始就是站在決策的角度出發。雖然不同行業的業務不同,所產生的數據及其所支撐的管理形態也千差萬別,但從數據的獲取,數據的整合,數據的加工,數據的綜合應用,數據的服務和推廣,數據處理的生命線流程來分析,所有行業的模式是一致的。
這種基於大數據決策的特點是:一是量變到質變,由於數據被廣泛挖掘,決策所依據的信息完整性越來越高,有信息的理性決策在迅速擴大,拍腦袋的盲目決策在急劇縮小。二是決策技術含量、知識含量大幅度提高。由於雲計算出現,人類沒有被海量數據所淹沒,能夠高效率駕御海量數據,生產有價值的決策信息。三是大數據決策催生了很多過去難以想像的重大解決方案。如某些葯物的療效和毒副作用,無法通過技術和簡單樣本驗證,需要幾十年海量病歷數據分析得出結果;做宏觀經濟計量模型,需要獲得所有企業、居民以及政府的決策和行為海量數據,才能得出減稅政策最佳方案;反腐倡廉,人類幾千年歷史都沒解決,最近通過微博和人肉搜索,貪官在大數據的海洋中無處可藏,人們看到根治的希望等等。
如果在不同行業的業務和管理層之間,增加數據資源體系,通過數據資源體系的數據加工,把今天的數據和歷史數據對接,把現在的數據和領導和企業機構關心的指標關聯起來,把面向業務的數據轉換成面向管理的數據,輔助於領導層的決策,真正實現了從數據到知識的轉變,這樣的數據資源體系是非常適合管理和決策使用的。
在宏觀層面,大數據使經濟決策部門可以更敏銳地把握經濟走向,制定並實施科學的經濟政策;而在微觀方面,大數據可以提高企業經營決策水平和效率,推動創新,給企業、行業領域帶來價值。
三、大數據創新企業管理模式,挖掘管理潛力
當下,有多少企業還會要求員工像士兵一樣無條件服從上級的指示?還在通過大量的中層管理者來承擔管理下屬和傳遞信息的職責?還在禁止員工之間談論薪酬等信息?《華爾街日報》曾有一篇文章就說,NO。這一切已經過時了,嚴格控制,內部猜測和小道消息無疑更會降低企業效率。一個管理學者曾經將企業內部關系比喻為成本和消耗中心,如果內部都難以協作或者有效降低管理成本和消耗,你又如何指望在今天瞬息萬變的市場和競爭環境下生存、創新和發展呢?
我們試著想想,當購物、教育、醫療都已經要求在大數據、移動網路支持下的個性化的時代,創新已經成為企業的生命之源,我們還有什麼理由還要求企業員工遵循工業時代的規則,強調那種命令式集中管理、封閉的層級體系和決策體制嗎?當個體的人都可以通過佩戴各種感測器,搜集各種來自身體的信號來判斷健康狀態,那樣企業也同樣需要配備這樣的感測系統,來實時判斷其健康狀態的變化情況。
今天信息時代機器的性能,更多決定於晶元,大腦的存儲和處理能力,程序的有效性。因而管理從注重系統大小、完善和配合,到注重人,或者腦力的運用,信息流程和創造性,以及職工個性滿足、創造力的激發。
在企業管理的核心因素中,大數據技術與其高度契合。管理最核心的因素之一是信息搜集與傳遞,而大數據的內涵和實質在於大數據內部信息的關聯、挖掘,由此發現新知識、創造新價值。兩者在這一特徵上具有高度契合性,甚至可以標稱大數據就是企業管理的又一種工具。因為對於任何企業,信息即財富,從企業戰略著眼,利用大數據,充分發揮其輔助決策的潛力,可以更好地服務企業發展戰略。
大數據時代,數據在各行各業滲透著,並漸漸成為企業的戰略資產。數據分析挖掘不僅本身能幫企業降低成本:比如庫存或物流,改善產品和決策流程,尋找到並更好的維護客戶,還可以通過挖掘業務流程各環節的中間數據和結果數據,發現流程中的瓶頸因素,找到改善流程效率,降低成本的關鍵點,從而優化流程,提高服務水平。大數據成果在各相關部門傳遞分享,還可以提高整個管理鏈條和產業鏈條的投入回報率。
四、大數據變革商業模式催生產品和服務的創新
在大數據時代,以利用數據價值為核心,新型商業模式正在不斷涌現。能夠把握市場機遇、迅速實現大數據商業模式創新的企業,將在IT發展史上書寫出新的傳奇。
大數據讓企業能夠創造新產品和服務,改善現有產品和服務,以及發明全新的業務模式。回顧IT歷史,似乎每一輪IT概念和技術的變革,都伴隨著新商業模式的產生。如個人電腦時代微軟憑借操作系統獲取了巨大財富,互聯網時代谷歌抓住了互聯網廣告的機遇,移動互聯網時代蘋果則通過終端產品的銷售和應用商店獲取了高額利潤。
縱觀國內,以金融業務模式為例,阿里金融基於海量的客戶信用數據和行為數據,建立了網路數據模型和一套信用體系,打破了傳統的金融模式,使貸款不再需要抵押品和擔保,而僅依賴於數據,使企業能夠迅速獲得所需要的資金。阿里金融的大數據應用和業務創新,變革了傳統的商業模式,對傳統銀行業帶來了挑戰。
還有,大數據技術可以有效的幫助企業整合、挖掘、分析其所掌握的龐大數據信息,構建系統化的數據體系,從而完善企業自身的結構和管理機制;同時,伴隨消費者個性化需求的增長,大數據在各個領域的應用開始逐步顯現,已經開始並正在改變著大多數企業的發展途徑及商業模式。如大數據可以完善基於柔性製造技術的個性化定製生產路徑,推動製造業企業的升級改造;依託大數據技術可以建立現代物流體系,其效率遠超傳統物流企業;利用大數據技術可多維度評價企業信用,提高金融業資金使用率,改變傳統金融企業的運營模式等。
過去,小企業想把商品賣到國外要經過國內出口商、國外進口商、批發商、商場,最終才能到達用戶手中,而現在,通過大數據平台可以直接從工廠送達到用戶手中,交易成本只是過去的十分之一。以我們熟悉的網購平台淘寶為例,每天有數以萬計的交易在淘寶上進行,與此同時相應的交易時間、商品價格、購買數量會被記錄,更重要的是,這些信息可以與買方和賣方的年齡、性別、地址、甚至興趣愛好等個人特徵信息相匹配。運用匹配的數據,淘寶可以進行更優化的店鋪排名和用戶推薦;商家可以根據以往的銷售信息和淘寶指數進行指導產品供應、生產和設計,經營活動成本和收益實現了可視化,大大降低了風險,賺取更多的錢;而與此同時,更多的消費者也能以更優惠的價格買到了更心儀的產品。
維克托曾預言2020年,大數據時代就會真正來臨。在那個時候,最經常會用到的應用就是個性化生活所需要的,尤其是智能手機的應用。
五、大數據讓每個人更加有個性
對個體而言,大數據可以為個人提供個性化的醫療服務。比如,我們的身體功能可能會通過手機、移動網路進行監控,一旦有什麼感染,或身體有什麼不適,我們都可以通過手機得到警示,接著信息會和手機庫進行對接或者咨詢相關專家,從而獲得正確的用葯和其他治療。
過去我們去看病,醫生只能對我們的當下身體情況做出判斷,而在大數據的幫助下,將來的診療可以對一個患者的累計歷史數據進行分析,並結合遺傳變異、對特定疾病的易感性和對特殊葯物的反應等關系,實現個性化的醫療。還可以在患者發生疾病症狀前,提供早期的檢測和診斷。早期發現和治療可以顯著降低肺癌給衛生系統造成的負擔,因為早期的手術費用是後期治療費用的一半。
還有,在傳統的教育模式下,分數就是一切,一個班上幾十個人,使用同樣的教材,同一個老師上課,課後布置同樣的作業。然而,學生是千差萬別的,在這個模式下,不可能真正做到「因材施教」。
如一個學生考了90分,這個分數僅僅是一個數字,它能代表什麼呢?90分背後是家庭背景、努力程度、學習態度、智力水平等,把它們和90分聯系在一起,這就成了數據。大數據因其數據來源的廣度,有能力去關注每一個個體學生的微觀表現:如他在什麼時候開始看書,在什麼樣的講課方式下效果最好,在什麼時候學習什麼科目效果最好,在不同類型的題目上停留多久等等。當然,這些數據對其他個體都沒有意義,是高度個性化表現特徵的體現。同時,這些數據的產生完全是過程性的:課堂的過程,作業的情況,師生或同學的互動情景……而最有價值的是,這些數據完全是在學生不自知的情況下被觀察、收集的,只需要一定的觀測技術與設備的輔助,而不影響學生任何的日常學習與生活,因此它的採集也非常的自然、真實。
在大數據的支持下,教育將呈現另外的特徵:彈性學制、個性化輔導、社區和家庭學習、每個人的成功……大數據支撐下的教育,就是要根據每一個人的特點,釋放每一個人本來就有的學習能力和天分。
此外,維克托還建議中國政府要進一步補錄資料庫。政府以前提供財政補貼,現在可以提供資料庫,打造創意服務。在美國就有完全基於政府提供的資料庫,如為企業提供機場、高速公路的數據,提供航班可能發生延誤的概率,這種服務這可以幫助個人、消費者更好地預測行程,這種類型的創新,就得益於公共的大數據。
六、智慧驅動下的和諧社會
美國作為全球大數據領域的先行者,在運用大數據手段提升社會治理水平、維護社會和諧穩定方面已先行實踐並取得顯著成效。
近年來,在國內,「智慧城市」建設也在如火如荼的開展。截止去年底,我國的國家智慧城市試點已達193個,而公開宣布建設智慧城市的城市超過400個。智慧城市的概念包含了智能安防、智能電網、智慧交通、智慧醫療、智慧環保等多領域的應用,而這些都要依託於大數據,可以說大數據是「智慧」的源泉。
在治安領域,大數據已用於信息的監控管理與實時分析、犯罪模式分析與犯罪趨勢預測,北京、臨沂等市已經開始實踐利用大數據技術進行研判分析,打擊犯罪。
在交通領域,大數據可通過對公交地鐵刷卡、停車收費站、視頻攝像頭等信息的收集,分析預測出行交通規律,指導公交線路的設計、調整車輛派遣密度,進行車流指揮控制,及時做到梳理擁堵,合理緩解城市交通負擔。
在醫療領域,部分省市正在實施病歷檔案的數字化,配合臨床醫療數據與病人體征數據的收集分析,可以用於遠程診療、醫療研發,甚至可以結合保險數據分析用於商業及公共政策制定等等。
伴隨著智慧城市建設的火熱進行,政府大數據應用已進入實質性的建設階段,有效拉動了大數據的市場需求,帶動了當地大數據產業的發展,大數據在各個領域的應用價值已得到初顯。
七、大數據如何預言未來?
著名的瑪雅預言,盡管背後有著一定的天文知識基礎,但除催生了一部很火的電影《2012》外,其實很多人的生活尚未受到太大的影響。現在基於人類地球上的各種能源存量,以及大氣受污染、冰川融化的程度,我們獲取真的可以推算出按照目前這種工業生產、生活的方式,人類在地球上可以存活的年數。《第三次工業革命》中對這方面有很深入的解釋,基於精準預測,發現現有模式是死路一條後,人類就可以進行一些改變,這其實就是一種系統優化。
這種結合之前情景研究,不斷進行系統優化的過程,將賦予系統生命力,而大數據就是其中的血液和神經系統。通過對大數據的深入挖掘,我們將會了解系統的不同機體是如何相互協調運作的,同樣也可以通過對他們的了解去控制機體的下一個操作,甚至長遠的維護和優化。從這個角度講,基於網路的大數據可以看作是人類社會的神經中樞,因為有了網路和大數據人類社會才開始靈活起來,而不像以前那麼死板。基於大數據,個體之間相互連接有了基礎,相互的交互過程得到了簡化,各種交易的成本減少很多。廠家等服務提供方可以基於大數據研發出更符合消費者需求的服務,機構內部的管理也更為細致,有了血液和神經系統的社會才真的擁有生命活力。
結語
透過以上這些行業典型的大數據應用案例和場景,不難悟出大數據的典型的核心價值。大數據是看待現實的新角度,不僅改變了市場營銷、生產製造,同時也改變了商業模式。數據本身就是價值來源,這也就意味著新的商業機會,沒有哪一個行業能對大數據產生免疫能力,適應大數據才能在這場變革中繼續生存下去。
當下,正處於數據大爆發的時代,如何獲取這些數據並對這些數據進行有效分析就顯得尤為重要。各種企業機構之間的競爭非常殘酷。如何基於以往的運行數據,對未來的運行模式進行預測,從而提前進行准備或者加以利用、調整,對很多企業機構其實是一種生死存亡的問題。這樣一種情況同樣適用於國家級別。正因為這一點,目前無論是在企業級別還是國家級別都開始研究、部署大數據。
可見,大數據應用已經凸顯出了巨大的商業價值,觸角已延伸到零售、金融、教育、醫療、體育、製造、影視、政府等各行各業。你可能會問這些具體價值實現的推動者有哪些呢?就是所謂的大數據綜合服務提供商,從實踐情況看,主要包括大數據解決方案提供商、大數據處理服務提供商和數據資源提供商三個角色,分別向大數據的應用者提供大數據服務、解決方案和數據資源。
未來大數據還將徹底改變人類的思考模式、生活習慣和商業法則,將引發社會發展的深刻變革,同時也是未來最重要的國家戰略之一。
以上是小編為大家分享的關於大數據的七大核心價值的相關內容,更多信息可以關注環球青藤分享更多干貨
C. 大數據雲計算在這個新時代怎麼樣
大數據和雲計算未來的發展前景還是被廣泛看好的。
大數據與雲計算之間的關系非常緊密,可以說是一種「伴生」關系,雲計算中涉及到的分布式存儲和分布式計算也正是大數據所關注的核心問題。但是雲計算的核心是服務,而大數據的核心則是數據價值化,所以雲計算和大數據在定位上還是有明顯區別的。
其次,大數據和雲計算的應用價值決定了其廣泛的應用液困羨場景。雲計算通過互聯網為用戶提供極其廉價的計算資源,可以說雲計算降低了尺答企業的成本,同時雲計算整合了眾多的服務資源,為開發者節省了大量的成本,所以雲計算對企業來說有非常大的實際應用價值。這個應用的價值促使了雲計算目前被廣泛使用,尤其是中小型企業。
大數據的應用價值則體現在場景分析及應用上,目前大數據的價值主要還是在大數據場景分析上,目標主體是人,未來大數據的一個重要應用將會是各種「智能體」,大數據為智能體提供決策的數據支撐,這是大數據的一個重要的價值。
目鬧拍前大數據的應用還處在初期階段,產業鏈也正在逐漸形成,未來隨著大數據的逐漸落地,大數據領域將爆發出更多的崗位需求。
D. 雲計算的核心技術是什麼
雲計算系統核心技術:並行計算。並行計算(Parallel Computing)是指同時使用多種計算資源解決計算問題的過程,是提高計算機系統計算速度和處理能力的一種有效手段。它的基本思想是用多個處理器來協同求解同一問題,即將被求解的問題分解成念友若干個部分,各部分均由一個獨立的處理灶高困機來並行計算。並行計算系統既可以是專門設計的、含有多個處理器的超級計算機,也可以是以某種方式互連的若乾颱的獨立計算機構成的集群。通過並行計算集群完成數據的處理,隱念再將處理的結果返回給用戶。
E. 雲計算與大數據存在何種安全隱患,如何避免
虛擬化安全問題
利用虛擬化帶來的可擴展性有利於加強在基礎設施平台軟體層面提供多租戶雲服務的能力但虛擬化技術也會帶來以下安全問題
如果物理主機受到破壞其所管理的虛擬伺服器由於存在和物理主機的交流有可能被攻克若物理主機和虛擬機不交流則可能存在虛擬機逃逸
如果物理主機上的虛擬網路受到破壞由於存在物理主機和虛擬機的交流以及一台虛擬機監控另一台虛擬機的場景導致虛擬機也會受到損害
雲計算環境也存在用戶到用戶的攻擊虛擬機和物理主機的共享漏洞有可能被不法之徒利用
如果物理主機存在安全問題那麼其上的所有虛擬機都可能存在安全問題
數據集中的安全問題
用戶的數據存儲處理網路傳輸等都與雲計算系統有關包括如何有效存儲數據以避免數據丟失或損壞如何避免數據被非法訪問和篡改如何對多租戶應用進行數據隔離如何避免數據服務被阻塞如何確保雲端退役數據的妥善保管或銷毀等
雲平台可用性問題
用戶的數據和業務應用處於雲平台遭受攻擊的問題系統中其業務流程將依賴於雲平台服務連續性SLA和IT流程安全策略事件處理和分析等提出了挑戰另外當發生系統故障時如何保證用戶數據的快速恢復也成為一個重要問題
雲平台遭受攻擊的問題
雲計算平台由於其用戶信息資源的高度集中容易成為黑客攻擊的目標由此拒絕服務造成的後果和破壞性將會明顯超過傳統的企業網應用環境
法律風險
雲計算應用地域弱信息流動性大信息服務或用戶數據可能分布在不同地區甚至是不同國家在政府信息安全監管等方面存在法律差異與糾紛同時由於虛擬化等技術引起的用戶間物理界限模糊可能導致的司法取證問題也不容忽視
雲計算使得數據本身遭遇很多不同的安全威脅,因此不但要從正面進行防禦,如安裝安全軟體和防火牆等等,更要對於數據本身進行加密。這是因為加密防護不因環境改變而失效的特性所決定,即使黑客費力攻破了防禦讀取了數據,看到的也是加密過的亂碼。
F. 大數據時代的核心是什麼
大數據時代的核心是分析。
最早提出大數據時代讓兆到來的是全球知名咨詢公司麥肯錫,大數據在物理學、生物學、環坦輪租境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。大數據作為雲計算、互聯網之後又IT行業又一大顛覆性的技術革命。雲計算主要為數據資產提供了保管、訪問的場所和渠道,而數據才是真正有價值的資產。企業內部的經營信息、互聯網世界中的商品物流信息,互聯網世界中的人與人交互信息、位置信息等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。如何盤活這些數據資產,使其為國家治理、桐搭企業決策乃至個人生活服務,是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。
G. 大數據核心技術有哪些
大數據技術的體系龐大且復雜,基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數據處理框架,主要分為下面幾個方面:數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。
一、數據採集與預處理
對於各種來源的數據,包括移動互聯網數據、社交網路的數據等,這些結構化和非結構化的海量數據是零散的,也就是所謂的數據孤島,此時的這些數據並沒有什麼意義,數據採集就是將這些數據寫入數據倉庫中,把零散的數據整合在一起,對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、資料庫日誌的採集、關系型資料庫的接入和應用程序的接入等。在數據量比較小的時候,可以寫個定時的腳本將日誌寫入存儲系統,但隨著數據量的增長,這些方法無法提供數據安全保障,並且運維困難,需要更強壯的解決方案。
Flume NG作為實時日誌收集系統,支持在日誌系統中定製各類數據發送方,用於收集數據,同時,對數據進行簡單處理,並寫到各種數據接收方(比如文本,HDFS,Hbase等)。Flume NG採用的是三層架構:Agent層,Collector層和Store層,每一層均可水平拓展。其中Agent包含Source,Channel和 Sink,source用來消費(收集)數據源到channel組件中,channel作為中間臨時存儲,保存所有source的組件信息,sink從channel中讀取數據,讀取成功之後會刪除channel中的信息。
NDC,Netease Data Canal,直譯為網易數據運河系統,是網易針對結構化資料庫的數據實時遷移、同步和訂閱的平台化解決方案。它整合了網易過去在數據傳輸領域的各種工具和經驗,將單機資料庫、分布式資料庫、OLAP系統以及下游應用通過數據鏈路串在一起。除了保障高效的數據傳輸外,NDC的設計遵循了單元化和平台化的設計哲學。
Logstash是開源的伺服器端數據處理管道,能夠同時從多個來源採集數據、轉換數據,然後將數據發送到您最喜歡的 「存儲庫」 中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇,可以在同一時間從眾多常用的數據來源捕捉事件,能夠以連續的流式傳輸方式,輕松地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。
Sqoop,用來將關系型資料庫和Hadoop中的數據進行相互轉移的工具,可以將一個關系型資料庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中,也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapRece 作業(極其容錯的分布式並行計算)來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。
流式計算是行業研究的一個熱點,流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析,可以對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋,目前大數據流分析工具有很多,比如開源的strom,spark streaming等。
Strom集群結構是有一個主節點(nimbus)和多個工作節點(supervisor)組成的主從結構,主節點通過配置靜態指定或者在運行時動態選舉,nimbus與supervisor都是Storm提供的後台守護進程,之間的通信是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集群上運行的topology(包括topology的發布、任務指派、事件處理時重新指派任務等)。supervisor進程等待nimbus分配任務後生成並監控worker(jvm進程)執行任務。supervisor與worker運行在不同的jvm上,如果由supervisor啟動的某個worker因為錯誤異常退出(或被kill掉),supervisor會嘗試重新生成新的worker進程。
當使用上游模塊的數據進行計算、統計、分析時,就可以使用消息系統,尤其是分布式消息系統。Kafka使用Scala進行編寫,是一種分布式的、基於發布/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將數據實時備份到另一個數據中心,Kafka可以有許多的生產者和消費者分享多個主題,將消息以topic為單位進行歸納;Kafka發布消息的程序稱為procer,也叫生產者,預訂topics並消費消息的程序稱為consumer,也叫消費者;當Kafka以集群的方式運行時,可以由一個服務或者多個服務組成,每個服務叫做一個broker,運行過程中procer通過網路將消息發送到Kafka集群,集群向消費者提供消息。Kafka通過Zookeeper管理集群配置,選舉leader,以及在Consumer Group發生變化時進行rebalance。Procer使用push模式將消息發布到broker,Consumer使用pull模式從broker訂閱並消費消息。Kafka可以和Flume一起工作,如果需要將流式數據從Kafka轉移到hadoop,可以使用Flume代理agent,將Kafka當做一個來源source,這樣可以從Kafka讀取數據到Hadoop。
Zookeeper是一個分布式的,開放源碼的分布式應用程序協調服務,提供數據同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置,那麼對這個地方的配置感興趣的所有的都可以獲得變更,省去了手動拷貝配置的繁瑣,還很好的保證了數據的可靠和一致性,同時它可以通過名字來獲取資源或者服務的地址等信息,可以監控集群中機器的變化,實現了類似於心跳機制的功能。
二、數據存儲
Hadoop作為一個開源的框架,專為離線和大規模數據分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用於數據存儲。
HBase,是一個分布式的、面向列的開源資料庫,可以認為是hdfs的封裝,本質是數據存儲、NoSQL資料庫。HBase是一種Key/Value系統,部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用伺服器,來增加計算和存儲能力。
Phoenix,相當於一個Java中間件,幫助開發工程師能夠像使用JDBC訪問關系型資料庫一樣訪問NoSQL資料庫HBase。
Yarn是一種Hadoop資源管理器,可為上層應用提供統一的資源管理和調度,它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成:一個全局的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。
Mesos是一款開源的集群管理軟體,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。
Redis是一種速度非常快的非關系資料庫,可以存儲鍵與5種不同類型的值之間的映射,可以將存儲在內存的鍵值對數據持久化到硬碟中,使用復制特性來擴展性能,還可以使用客戶端分片來擴展寫性能。
Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來,Atlas相當於連接它的客戶端,在前端應用看來,Atlas相當於一個DB。Atlas作為服務端與應用程序通訊,它實現了MySQL的客戶端和服務端協議,同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節,同時為了降低MySQL負擔,它還維護了連接池。Atlas啟動後會創建多個線程,其中一個為主線程,其餘為工作線程。主線程負責監聽所有的客戶端連接請求,工作線程只監聽主線程的命令請求。
Ku是圍繞Hadoop生態圈建立的存儲引擎,Ku擁有和Hadoop生態圈共同的設計理念,它運行在普通的伺服器上、可分布式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎,可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Ku不但提供了行級的插入、更新、刪除API,同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲,既可以進行隨機讀寫,也可以滿足數據分析的要求。Ku的應用場景很廣泛,比如可以進行實時的數據分析,用於數據可能會存在變化的時序數據應用等。
在數據存儲過程中,涉及到的數據表都是成千上百列,包含各種復雜的Query,推薦使用列式存儲方法,比如parquent,ORC等對數據進行壓縮。Parquet 可以支持靈活的壓縮選項,顯著減少磁碟上的存儲。
三、數據清洗
MapRece作為Hadoop的查詢引擎,用於大規模數據集的並行計算,」Map(映射)」和」Rece(歸約)」,是它的主要思想。它極大的方便了編程人員在不會分布式並行編程的情況下,將自己的程序運行在分布式系統中。
隨著業務數據量的增多,需要進行訓練和清洗的數據會變得越來越復雜,這個時候就需要任務調度系統,比如oozie或者azkaban,對關鍵任務進行調度和監控。
Oozie是用於Hadoop平台的一種工作流調度引擎,提供了RESTful API介面來接受用戶的提交請求(提交工作流作業),當提交了workflow後,由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業),然後向Oozie提交Workflow,Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當調用Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因,用戶程序不必等待作業執行完成(因為有些大作業可能會執行很久(幾個小時甚至幾天))。Oozie在後台以非同步方式,再將workflow對應的Action提交給hadoop執行。
Azkaban也是一種工作流的控制引擎,可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、認證、調度以及對工作流執行過程中的監控等;Azkaban Executor Server用來調度工作流和任務,記錄工作流或者任務的日誌。
流計算任務的處理平台Sloth,是網易首個自研流計算平台,旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平台,其特點是易用、實時、可靠,為用戶節省技術方面(開發、運維)的投入,幫助用戶專注於解決產品本身的流計算需求。
四、數據查詢分析
Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結構化的數據映射為一張資料庫表,並提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數據,它完全依賴於HDFS和MapRece。可以將Hive理解為一個客戶端工具,將SQL操作轉換為相應的MapRece jobs,然後在hadoop上面運行。Hive支持標準的SQL語法,免去了用戶編寫MapRece程序的過程,它的出現可以讓那些精通SQL技能、但是不熟悉MapRece 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規模數據集上很方便地利用SQL 語言查詢、匯總、分析數據。
Hive是為大數據批量處理而生的,Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大數據處理上的瓶頸 。Hive 將執行計劃分成map->shuffle->rece->map->shuffle->rece…的模型。如果一個Query會被編譯成多輪MapRece,則會有更多的寫中間結果。由於MapRece執行框架本身的特點,過多的中間過程會增加整個Query的執行時間。在Hive的運行過程中,用戶只需要創建表,導入數據,編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。
Impala是對Hive的一個補充,可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop,用來進行大數據實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大數據,同時數據也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapRece批處理,而是通過使用與商用並行關系資料庫中類似的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據,從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹,而不是一連串的MapRece任務,相比Hive沒了MapRece啟動時間。
Hive 適合於長時間的批處理查詢分析,而Impala適合於實時互動式SQL查詢,Impala給數據人員提供了快速實驗,驗證想法的大數據分析工具,可以先使用Hive進行數據轉換處理,之後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來說:Impala把執行計劃表現為一棵完整的執行計劃樹,可以更自然地分發執行計劃到各個Impalad執行查詢,而不用像Hive那樣把它組合成管道型的map->rece模式,以此保證Impala有更好的並發性和避免不必要的中間sort與shuffle。但是Impala不支持UDF,能處理的問題有一定的限制。
Spark擁有Hadoop MapRece所具有的特點,它將Job中間輸出結果保存在內存中,從而不需要讀取HDFS。Spark 啟用了內存分布數據集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬蟲。
Solr用Java編寫、運行在Servlet容器(如Apache Tomcat或Jetty)的一個獨立的企業級搜索應用的全文搜索伺服器。它對外提供類似於Web-service的API介面,用戶可以通過http請求,向搜索引擎伺服器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請求,並得到XML格式的返回結果。
Elasticsearch是一個開源的全文搜索引擎,基於Lucene的搜索伺服器,可以快速的儲存、搜索和分析海量的數據。設計用於雲計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。
還涉及到一些機器學習語言,比如,Mahout主要目標是創建一些可伸縮的機器學習演算法,供開發人員在Apache的許可下免費使用;深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟體庫TensorFlow等,常用的機器學習演算法比如,貝葉斯、邏輯回歸、決策樹、神經網路、協同過濾等。
五、數據可視化
對接一些BI平台,將分析得到的數據進行可視化,用於指導決策服務。主流的BI平台比如,國外的敏捷BI Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數(可點擊這里免費試用)等。
在上面的每一個階段,保障數據的安全是不可忽視的問題。
基於網路身份認證的協議Kerberos,用來在非安全網路中,對個人通信以安全的手段進行身份認證,它允許某實體在非安全網路環境下通信,向另一個實體以一種安全的方式證明自己的身份。
控制許可權的ranger是一個Hadoop集群許可權框架,提供操作、監控、管理復雜的數據許可權,它提供一個集中的管理機制,管理基於yarn的Hadoop生態圈的所有數據許可權。可以對Hadoop生態的組件如Hive,Hbase進行細粒度的數據訪問控制。通過操作Ranger控制台,管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、資料庫、表、欄位許可權。這些策略可以為不同的用戶和組來設置,同時許可權可與hadoop無縫對接。
H. 大數據和雲計算關系
大數據和雲計算關系
關於大數據和雲計算的關系人們通常會有誤解。而且也會把它們混起來說,分別做一句話直白解釋就是:雲計算就是硬體資源的虛擬化;大數據就是海量數據的高效處理。
雖然上面的一句話解釋不是非常的貼切,但是可以幫助你簡單的理解二者的區別。另外,如果做一個更形象的解釋,雲計算相當於我們的計算機和操作系統,將大量的硬體資源虛擬化之後再進行分配使用,在雲計算領域目前的老大應該算是Amazon,可以說為雲計算提供了商業化的標准,另外值得關注的還有VMware(其實從這一點可以幫助你理解雲計算和虛擬化的關系),開源的雲平台最有活力的就是Openstack了;
大數據相當於海量數據的「資料庫」,而且通觀大數據領域的發展也能看出,當前的大數據處理一直在向著近似於傳統資料庫體驗的方向發展,Hadoop的產生使我們能夠用普通機器建立穩定的處理TB級數據的集群,把傳統而昂貴的並行計算等概念一下就拉到了我們的面前,但是其不適合數據分析人員使用(因為MapRece開發復雜),所以PigLatin和Hive出現了(分別是Yahoo!和facebook發起的項目,說到這補充一下,在大數據領域Google、facebook、twitter等前沿的互聯網公司作出了很積極和強大的貢獻),為我們帶來了類SQL的操作,到這里操作方式像SQL了,但是處理效率很慢,絕對和傳統的資料庫的處理效率有天壤之別,所以人們又在想怎樣在大數據處理上不只是操作方式類SQL,而處理速度也能「類SQL」,Google為我們帶來了Dremel/PowerDrill等技術,Cloudera(Hadoop商業化最強的公司,Hadoop之父cutting就在這里負責技術領導)的Impala也出現了。
整體來看,未來的趨勢是,雲計算作為計算資源的底層,支撐著上層的大數據處理,而大數據的發展趨勢是,實時互動式的查詢效率和分析能力,借用Google一篇技術論文中的話,「動一下滑鼠就可以在秒級操作PB級別的數據」難道不讓人興奮嗎?(田原)
在談大數據的時候,首先談到的就是大數據的4V特性,即類型復雜,海量,快速和價值。IBM原來談大數據的時候談3V,沒有價值這個V。而實際我們來看4V更加恰當,價值才是大數據問題解決的最終目標,其它3V都是為價值目標服務。在有了4V的概念後,就很容易簡化的來理解大數據的核心,即大數據的總體架構包括三層,數據存儲,數據處理和數據分析。類型復雜和海量由數據存儲層解決,快速和時效性要求由數據處理層解決,價值由數據分析層解決。
數據先要通過存儲層存儲下來,然後根據數據需求和目標來建立相應的數據模型和數據分析指標體系對數據進行分析產生價值。而中間的時效性又通過中間數據處理層提供的強大的並行計算和分布式計算能力來完成。三層相互配合,讓大數據最終產生價值。
數據存儲層
數據有很多分法,有結構化,半結構化,非結構化;也有元數據,主數據,業務數據;還可以分為GIS,視頻,文件,語音,業務交易類各種數據。傳統的結構化資料庫已經無法滿足數據多樣性的存儲要求,因此在RDBMS基礎上增加了兩種類型,一種是hdfs可以直接應用於非結構化文件存儲,一種是nosql類資料庫,可以應用於結構化和半結構化數據存儲。
從存儲層的搭建來說,關系型資料庫,NoSQL資料庫和hdfs分布式文件系統三種存儲方式都需要。業務應用根據實際的情況選擇不同的存儲模式,但是為了業務的存儲和讀取方便性,我們可以對存儲層進一步的封裝,形成一個統一的共享存儲服務層,簡化這種操作。從用戶來講並不關心底層存儲細節,只關心數據的存儲和讀取的方便性,通過共享數據存儲層可以實現在存儲上的應用和存儲基礎設置的徹底解耦。
數據處理層
數據處理層核心解決問題在於數據存儲出現分布式後帶來的數據處理上的復雜度,海量存儲後帶來了數據處理上的時效性要求,這些都是數據處理層要解決的問題。
在傳統的雲相關技術架構上,可以將hive,pig和hadoop-maprece框架相關的技術內容全部劃入到數據處理層的能力。原來我思考的是將hive劃入到數據分析層能力不合適,因為hive重點還是在真正處理下的復雜查詢的拆分,查詢結果的重新聚合,而maprece本身又實現真正的分布式處理能力。
maprece只是實現了一個分布式計算的框架和邏輯,而真正的分析需求的拆分,分析結果的匯總和合並還是需要hive層的能力整合。最終的目的很簡單,即支持分布式架構下的時效性要求。
數據分析層
最後回到分析層,分析層重點是真正挖掘大數據的價值所在,而價值的挖掘核心又在於數據分析和挖掘。那麼數據分析層核心仍然在於傳統的BI分析的內容。包括數據的維度分析,數據的切片,數據的上鑽和下鑽,cube等。
數據分析我只關注兩個內容,一個就是傳統數據倉庫下的數據建模,在該數據模型下需要支持上面各種分析方法和分析策略;其次是根據業務目標和業務需求建立的KPI指標體系,對應指標體系的分析模型和分析方法。解決這兩個問題基本解決數據分析的問題。
傳統的BI分析通過大量的ETL數據抽取和集中化,形成一個完整的數據倉庫,而基於大數據的BI分析,可能並沒有一個集中化的數據倉庫,或者將數據倉庫本身也是分布式的了,BI分析的基本方法和思路並沒有變化,但是落地到執行的數據存儲和數據處理方法卻發生了大變化。
談了這么多,核心還是想說明大數據兩大核心為雲技術和BI,離開雲技術大數據沒有根基和落地可能,離開BI和價值,大數據又變化為捨本逐末,丟棄關鍵目標。簡單總結就是大數據目標驅動是BI,大數據實施落地式雲技術。
I. 雲計算的核心是什麼
雲計算(Cloud computing),是指基於互聯網的超級計算模式。即把存儲於個人電腦、行動電話和其他設備上的大量信息和處理器資源集中在一起,協同工作。它是一種新興的共享基礎架構的方法,可以將巨大的系統池連接在一起以提供各種IT服務。很多因素推動了對這類環境的需求,其中包括連接設備、實時數據流、SOA的採用以及搜索、開放協作、社會網路和移動商務等這樣的Web 2.0應用的急劇增長。 另外,數字元器件性能的提升也使IT環境的規模大幅度提高,從而進一步加強了對一個由統一的雲進行管理的需求。
雲計算的基本原理是,通過使計算分布在大量的分布式計算機上,而非本地計算機或遠程伺服器中,企業數據中心的運行將更與互聯網相似。這使得企業能夠將資源切換到需要的應用上,根據需求訪問計算機和存儲系統。這可是一種革命性的舉措,打個比方,這就好比是從古老的單台發電機模式轉向了電廠集中供電的模式。它意味著計算能力也可以作為一種商品進行流通,就像煤氣、水電一樣,取用方便,費用低廉。最大的不同在於,它是通過互聯網進行傳輸的。雲計算的藍圖已經呼之欲出:在未來,只需要一台筆記本或者一個手機,就可以通過網路服務來實現我們需要的一切,甚至包括超級計算這樣的任務。從這個角度而言,最終用戶才是雲計算的真正擁有者。雲計算的應用包含這樣的一種思想,把力量聯合起來,給其中的每一個成員使用。 1、狹義雲計算首旁燃晌狹義雲計算是指IT基礎設施的交付和使用模式,指通過網路以按需、易擴展的方式獲得所需的資源(硬體、平台、軟體)。提供資源的網路被稱為「雲」。「雲」中的資源在使用者看來是可以無限擴展的,並且可以隨時獲取,按需使用,隨時擴展,按使用付費。這種特性經常被稱為像水電一樣使用IT基礎設施。 2、廣義雲計算廣義雲計算是指服務的交付和使用模式,指通過網路以按需、易擴展的方式獲得所需的服務。這種服務可以是IT和軟體、互聯網相關的,也可以是任意其他的服務。
解釋:
這種資源池稱為「雲」。「雲」是一些可以自我維護和管理的虛擬計算資源,通常為一些大型伺服器集群,包括計算伺服器、存儲伺服器、寬頻資源等等。雲計算將所有的計算資源集中起來,並由軟體實現自動管理,無需人為參與。這使得應用提供者無需為繁瑣的細節而煩惱,能夠者段橡更加專注於自己的業務,有利於創新和降低成本。
有人打了個比方:這就好比是從古老的單台發電機模式轉向了電廠集中供電的模式。它意味著計算能力也可以作為一種商品進行流通,就像煤氣、水電一樣,取用方便,費用低廉。最大的不同在於,它是通過互聯網進行傳輸的。
雲計算是並行計算(Parallel Computing)、分布式計算(Distributed Computing)和網格計算(Grid Computing)的發展,或者說是這些計算機科學概念的商業實現。雲計算是虛擬化(Virtualization)、效用計算(Utility Computing)、IaaS(基礎設施即服務)、PaaS(平台即服務)、SaaS(軟體即服務)等概念混合演進並躍升的結果。
總的來說,雲計算可以算作是網格計算的一個商業演化版。早在2002年,我國劉鵬就針對傳統網格計算思路存在不實用問題,提出計算池的概念:「把分散在各地的高性能計算機用高速網路連接起來,用專門設計的中間件軟體有機地粘合在一起,以Web界面接受各地科學工作者提出的計算請求,並將之分配到合適的結點上運行。計算池能大大提高資源的服務質量和利用率,同時避免跨結點劃分應用程序所帶來的低效性和復雜性,能夠在目前條件下達到實用化要求。」如果將文中的「高性能計算機」換成「伺服器集群」,將「科學工作者」換成「商業用戶」,就與當前的雲計算非常接近了。雲計算是個2007年第4季度才興起的新名詞。對它的定義和內涵眾說紛紜,我們至少可以在網上找到100種說法,但目前還沒有公認的定義。本文試圖綜合各家說法的優點,提出雲計算定義和特點與大家商榷。對這個定義的要求:能夠用最精煉的語言描述,抓住雲計算的本質,覆蓋當今流行的典型雲計算解決方案(包括Google雲計算 、Amazon雲計算、Salesforce雲計算、雲安全等),但又能區別其它相關概念(如網格計算、並行計算等)。
定義:雲計算(Cloud Computing)是一種新興的商業計算模型。它將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算力、存儲空間和各種軟體服務。
描述:
這種資源池稱為「雲」。「雲」是一些可以自我維護和管理的虛擬計算資源,通常為一些大型伺服器集群,包括計算伺服器、存儲伺服器、寬頻資源等等。雲計算將所有的計算資源集中起來,並由軟體實現自動管理,無需人為參與。這使得應用提供者無需為繁瑣的細節而煩惱,能夠更加專注於自己的業務,有利於創新和降低成本。
有人打了個比方:這就好比是從古老的單台發電機模式轉向了電廠集中供電的模式。它意味著計算能力也可以作為一種商品進行流通,就像煤氣、水電一樣,取用方便,費用低廉。最大的不同在於,它是通過互聯網進行傳輸的。
雲計算是並行計算(Parallel Computing)、分布式計算(Distributed Computing)和網格計算(Grid Computing)的發展,或者說是這些計算機科學概念的商業實現。雲計算是虛擬化(Virtualization)、效用計算(Utility Computing)、IaaS(基礎設施即服務)、PaaS(平台即服務)、SaaS(軟體即服務)等概念混合演進並躍升的結果。
早在2002年,劉鵬就針對傳統網格計算思路存在不實用問題,提出計算池的概念:「它把分散在各地的高性能計算機用高速網路連接起來,用專門設計的中間件軟體有機地粘合在一起,以Web界面接受各地科學工作者提出的計算請求,並將之分配到合適的結點上運行。計算池能大大提高資源的服務質量和利用率,同時避免跨結點劃分應用程序所帶來的低效性和復雜性,能夠在目前條件下達到實用化要求。」如果將文中的「高性能計算機」換成「伺服器集群」,將「科學工作者」換成「商業用戶」,就與當前的雲計算非常接近了。