① 哪位大哥能解釋大數據與數據倉庫之間的關系(求告知)
相較而言,大數據數據量和一般數據倉庫數據量不在一個量級;大數據的數據類型偏多,任何的信息都能成為數據;
大數據中存在的價值較高,但如果沒有準確的分析挖掘,還是白扯
② 數據倉庫,大數據和雲計算有什麼區別和聯系
您好,上海藍盟為您解答。
首先簡單的看一下雲計算與大數據的概念.
1)雲計算:雲計算本質上是一種計算資源集中分布和充分共享的效用計算模式,其中集中是為了計算資源的集約化管理,分布是便於擴展計算能力.集中分布式是針對雲服務提供商的,充分共享是針對用戶,在雲計算中,雖然對於每個雲用戶來說都擁有一台超級計算機,但本質上,這些用戶是充分共享了雲服務商所提供的計算服務.而效用計算更多的是一種商業模式,就是用戶按所需服務來付費.
2)在前面的博文中,對大數據有個討論,簡單的說,大數據的特點就是數據量大(雖然很多人都把大數據定義在T級別以上,其實我覺得這是有問題的,大數據的大其實應該是個相對概念,是相對於當前的存儲技術和計算能力的),數據應用需求大,計算量大.數據量大是最基本的,需求大其實包含了需求的數量、多樣性和實時性.計算量大是因為數據量大和需求量大和演算法復雜(檢索,推薦,模式識別)所致.大數據的這種特點使得我們很難找到通用的處理模式來解決大數據所面臨的問題,我們只能針對不同的需求採用不同的處理方法,這也是大數據處理比較困難的症結所在。無論是傳統的資料庫還是最近興起的NoSQL資料庫,在大數據存儲和處理方面其實都是有非常大的局限性的,所以分布式計算才在大數據處理中大興其道。Hadoop雖然提供了比較完整的一套處理模式,但相對於大數據所面臨的應用需求的多樣性而言,能處理的問題域也是十分有限的。
資料庫和數據倉庫的概念,大家google一下就可以了,接下來,我們看看它們之間的關系:
1)資料庫和數據倉庫都是數據的一種存儲方式,大數據處理更多的是一種需求(問題),而雲計算是一種比較綜合的需求(問題)解決方案。
2)由於雲計算本身的特性,天生就面臨大數據處理(存儲、計算等)問題,因為雲計算的基本架構模式是C/S模式,其中S相對集中,而C是廣泛分布。所有用戶的數據和絕大部分的計算都是在S端完成的(數據量大,計算量大),加上用戶也天然具有多樣性(地域,文化,需求,個性化等),因此需求(也包括計算量)就非常大。
3)雲計算當然會涉及到數據的存儲技術,但資料庫技術對於雲計算來說要視具體的情況來分析:
A)對於IaaS而言,資料庫技術不是必需的,也不是必備的功能;
B)對於PaaS來說,資料庫功能應該是必備的功能
C)對於SaaS而言,必然會用到資料庫技術(包括傳統關系資料庫和NoSQL資料庫)。
而對於數據倉庫技術,並不是雲計算所必需的,但由於雲數據的信息價值極大,類似一座金礦,我想雲服務商是不可能放過從這些金礦中提取金子的.
4)大數據首先所面臨的問題就是大數據的存儲問題,一般都會綜合運用各種存儲技術(文件存儲,資料庫存儲),當然,你完全用文件存儲或者資料庫存儲來解決,也是沒問題的。與雲計算類似,數據倉庫技術不是必需的,但對於數據倉庫技術對於結構化數據進行淘金還是非常有用的,當然,你不用數據倉庫技術也可以,比如Hadoop模式。
在雲計算和大數據處理中,最基礎的技術其實是分布式計算技術。而對於構建分布式計算而言,多線程,同步,遠程調用(RPC,RMI等),進程管理與通信是其基本技術點。分布式計算編程是一種綜合性應用編程,不僅需要有基本的技術點,還需要一定的組織管理知識。
就目前來說,雲計算和大數據處理其實都沒有形成一個統一的標准和定義。希望我的回復對您有所幫助。
③ 大數據倉儲系統是什麼
什麼才是大數據
大數據相關的技術和工具非常多,給企業提供了很多的選擇。在未來,還會繼續出現新的技術和工具,如Hadoop分發、下一代數據倉庫等,這也是大數據領域的創新熱點。但是什麼才是大數據可能很多人會認為數據量大就是大數據,其實不然所謂大數據是結合數據的條數+單個數據文件的大小綜合衡量得出,而這其中則包括如何快速精準定位到單條數據和快速傳輸數據等多項相關技術。
那麼我們企業到底該選用什麼技術?才能保證我們的系統或者軟體擺脫大數據的瓶頸呢?
可能大家都知道TDWI(數據倉庫研究所)對現有的大部分技術和工具進行了調查,以現在及未來三年內企業接受度和增長率兩個維度進行劃分,這些技術和工具可分成四類。
從中分析得出企業最需要關注的是第1類中的技術和工具,它們最有可能成為最佳的實施工具,有很多人認為這代表了大數據技術的發展方向。我們認為這是一個誤區。
對於我們真實使用及使用過程中,只有基於雲的數據分析及分布式平台進行數據處理才能趨於完善。
很多企業越來越希望能將自己的各類應用程序及基礎設施轉移到雲平台上。就像其他IT系統那樣,大數據的分析工具和資料庫也將走向雲計算。雲計算不單單是硬體的疊加,它必須結合分布式內核調用和內存計算,同時如果你想更快速的定位那就需要將演算法遷入其中。
雲計算能為大數據帶來哪些變化呢?
首先雲計算為大數據提供了可以彈性擴展、相對便宜的存儲空間和計算資源(請記住這不單單說的是硬體的疊加,我們的要考慮的是軟體層面的控制和管理,線程池/內存鎖/域空間/層級都是必可少的考慮因素),使得中小企業也可以像亞馬遜一樣通過雲計算來完成大數據分析。
其次,雲計算IT資源龐大、分布較為廣泛,是異構系統較多的企業及時准確處理數據的有力方式,甚至是唯一的方式。(此時的傳輸效率就會成為我們應該去考慮的問題,量子數據傳輸系統為我么提供了非常好的解決方案)
當然,大數據要走向雲計算,還有賴於數據通信帶寬的提高和雲資源池的建設,需要確保原始數據能遷移到雲環境以及資源池可以隨需彈性擴展。
數據分析集逐步擴大,企業級數據倉庫將成為主流如現有的NOSQL,內存性資料庫等,更加便宜和迅速,成為企業業務經營的好助手,甚至可以改變許多行業的經營方式。
輿情早報網大數據的商業模式與架構
我們不得不承認雲計算及其分布式結構是重要途徑大數據處理技術正在改變目前計算機的運行模式,正在改變著這個世界:它能處理幾乎各種類型的海量數據,無論是微博、文章、電子郵件、文檔、音頻、視頻,還是其它形態的數據;它工作的速度非常快速:實際上幾乎實時;它具有普及性:因為它所用的都是最普通低成本的硬體,而雲計算它將計算任務分布在大量計算機構成的資源池上,使用戶能夠按需獲取計算力、存儲空間和信息服務。雲計算及其技術給了人們廉價獲取巨量計算和存儲的能力,雲計算分布式架構能夠很好地支持大數據存儲和處理需求。這樣的低成本硬體+低成本軟體+低成本運維,更加經濟和實用,使得大數據處理和利用成為可能。但這只是從投入來說我們可以有更多的彈性。
大數據的存儲和管理----雲資料庫的必然
很多人認為NoSQL就是雲資料庫,因為其處理數據的模式完全是分布於各種低成本伺服器和存儲磁碟,因此它可以幫助網頁和各種交互性應用快速處理過程中的海量數據。
它採用分布式技術結合了一系列技術,可以對海量數據進行實時分析,滿足了大數據環境下一部分業務需求。
但我說這是一個錯誤,至少不是完整的,不能或無法徹底解決大數據存儲管理需求。不可否認雲計算對關系型資料庫的發展將產生巨大的影響,而絕大多數大型業務系統(如銀行、證券交易等)、電子商務系統所使用的資料庫還是基於關系型的資料庫,隨著雲計算的大量應用,勢必對這些系統的構建產生影響,進而影響整個業務系統及電子商務技術的發展和系統的運行模式。
而基於關系型資料庫服務的雲資料庫產品將是雲資料庫的主要發展方向,雲資料庫(CiiDB),提供了海量數據的並行處理能力和良好的可伸縮性等特性,提供同時支持在在線分析處理( CRD)和在線事務處理(CRD) 能力,提供了超強性能的資料庫雲服務,並成為集群環境和雲計算環境的理想平台。它是一個高度可擴展、安全和可容錯的軟體系統,客戶能通過整合降低IT成本,管理位於多個數據,提高所有應用程序的性能和實時性做出更好的業務決策服務。
我們認為CII分布式結構粒度數據結構數據倉庫才是大數據處理的未來。它包含量子數據傳輸系統(有效解決數據傳輸的瓶頸)/高效壓縮系統(壓縮比例128:1)/雲智能粒度層級分布式系統。
當人們從大數據分析中嘗到甜頭以後,數據分析集就會逐步擴大。目前大部分的企業所分析的數據量一般以TB為單位。按照目前數據的發展速度,很快將會進入PB時代。特別是目前在100-500TB和500+TB范圍的分析數據集的數量會呈3倍或4倍增長。
隨著數據分析集的擴大,以前部門層級的數據集市將不能滿足大數據分析的需求,它們將成為企業級資料庫(EDW)的一個子集。有一部分用戶已經在使用企業級數據倉庫,未來這一佔比將會更高。傳統分析資料庫可以正常持續,但是會有一些變化,一方面,數據集市和操作性數據存儲(ODS)的數量會減少,另一方面,傳統的資料庫廠商會提升它們產品的數據容量,細目數據和數據類型,以滿足大數據分析的需要。
這就是我們所說的分布式結構粒度數據結構數據倉庫,而如何做好大數據處理,輿情早報網已經做到了。