㈠ 大數據技術Hadoop筆試題
大數據技術Hadoop筆試題
導讀:Hadoop有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上。以下是由我J.L為您整理推薦的面試筆試題目和經驗,歡迎參考閱讀。
單項選擇題
1. 下面哪個程序負責 HDFS 數據存儲。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2. HDfS 中的 block 默認保存幾份?
a)3 份
b)2 份
c)1 份
d)不確定
3. 下列哪個程序通常與 NameNode 在一個節點啟動?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
4. Hadoop 作者
a)Martin Fowler
b)Kent Beck
c)Doug cutting
5. HDFS 默認 Block Size
a)32MB
b)64MB
c)128MB
6. 下列哪項通常是集群的最主要瓶頸
a)CPU
b)網路
c)磁碟
d)內存
7. 關於 SecondaryNameNode 哪項是正確的?
a)它是 NameNode 的熱備
b)它對內存沒有要求
c)它的目的是幫助 NameNode 合並編輯日誌,減少 NameNode 啟動時間
d)SecondaryNameNode 應與 NameNode 部署到一個節點
多選題
8. 下列哪項可以作為集群的管理工具
a)Puppet
b)Pdsh
c)Cloudera Manager
d)d)Zookeeper
9. 配置機架感知的下面哪項正確
a)如果一個機架出問題,不會影響數據讀寫
b)寫入數據的時候會寫到不同機架的 DataNode 中
c)MapRece 會根據機架獲取離自己比較近的網路數據
10. Client 端上傳文件的時候下列哪項正確
a)數據經過 NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block,依次上傳
c)Client 只上傳數據到一台 DataNode,然後由 NameNode 負責 Block 復制工作
11. 下列哪個是 Hadoop 運行的模式
a)單機版
b)偽分布式
c)分布式
12. Cloudera 提供哪幾種安裝 CDH 的方法
a)Cloudera manager
b)Tar ball
c)Yum d)Rpm
判斷題
13. Ganglia 不僅可以進行監控,也可以進行告警。( )
14. Block Size 是不可以修改的。( )
15. Nagios 不可以監控 Hadoop 集群,因為它不提供 Hadoop 支持。( )
16. 如果 NameNode 意外終止,SecondaryNameNode 會接替它使集群繼續工作。( )
17. Cloudera CDH 是需要付費使用的。( )
18. Hadoop 是 Java 開發的,所以 MapRece 只支持 Java 語言編寫。( )
19. Hadoop 支持數據的隨機讀寫。( )
20. NameNode 負責管理 metadata,client 端每次讀寫請求,它都會從磁碟中讀取或則會寫入 metadata 信息並反饋 client 端。( )
21. NameNode 本地磁碟保存了 Block 的位置信息。( )
22. DataNode 通過長連接與 NameNode 保持通信。( )
23. Hadoop 自身具有嚴格的許可權管理和安全措施保障集群正常運行。( )
24. Slave 節點要存儲數據,所以它的磁碟越大越好。( )
25. hadoop dfsadmin –report 命令用於檢測 HDFS 損壞塊。( )
26. Hadoop 默認調度器策略為 FIFO( )
27. 集群內每個節點都應該配 RAID,這樣避免單磁碟損壞,影響整個節點運行。( )
28. 因為 HDFS 有多個副本,所以 NameNode 是不存在單點問題的。( )
29. 每個 map 槽就是一個線程。( )
30. Maprece 的 input split 就是一個 block。( )
31. NameNode 的 Web UI 埠是 50030,它通過 jetty 啟動的 Web 服務。( )
32. Hadoop 環境變數中的 HADOOP_HEAPSIZE 用於設置所有 Hadoop 守護線程的內存。它默認是 200 GB。( )
33. DataNode 首次加入 cluster 的時候,如果 log 中報告不兼容文件版本,那需要 NameNode執行“Hadoop namenode -format”操作格式化磁碟。( )
別走開,答案在後面哦!
1. 下面哪個程序負責 HDFS 數據存儲。答案C datanode
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2. HDfS 中的 block 默認保存幾份? 答案A默認3分
a)3 份
b)2 份
c)1 份
d)不確定
3. 下列哪個程序通常與 NameNode 在一個節點啟動?答案D
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
此題分析:
hadoop的集群是基於master/slave模式,namenode和jobtracker屬於master,datanode和 tasktracker屬於slave,master只有一個,而slave有多個SecondaryNameNode內存需求和NameNode在一個數量級上,所以通常secondary NameNode(運行在單獨的物理機器上)和NameNode運行在不同的機器上。
JobTracker和TaskTracker
JobTracker 對應於 NameNode
TaskTracker 對應於 DataNode
DataNode 和NameNode 是針對數據存放來而言的
JobTracker和TaskTracker是對於MapRece執行而言的
maprece中幾個主要概念,maprece整體上可以分為這么幾條執行線索:obclient,JobTracker與TaskTracker。
1、JobClient會在用戶端通過JobClient類將應用已經配置參數打包成jar文件存儲到hdfs,並把路徑提交到Jobtracker, 然後由JobTracker創建每一個Task(即MapTask和ReceTask)並將它們分發到各個TaskTracker服務中去執行。
2、JobTracker是一個master服務,軟體啟動之後JobTracker接收Job,負責調度Job的每一個子任務task運行於 TaskTracker上,並監控它們,如果發現有失敗的task就重新運行它。一般情況應該把JobTracker部署在單獨的機器上。
3、TaskTracker是運行在多個節點上的slaver服務。TaskTracker主動與JobTracker通信,接收作業,並負責直接執行每一個任務。TaskTracker都需要運行在HDFS的DataNode上。
4. Hadoop 作者 答案C Doug cutting
a)Martin Fowler
b)Kent Beck
c)Doug cutting
5. HDFS 默認 Block Size 答案:B
a)32MB
b)64MB
c)128MB
(因為版本更換較快,這里答案只供參考)
6. 下列哪項通常是集群的最主要瓶頸:答案:C磁碟
a)CPU
b)網路
c)磁碟IO
d)內存
該題解析:
首先集群的目的是為了節省成本,用廉價的pc機,取代小型機及大型機。小型機和大型機有什麼特點?
1.cpu處理能力強
2.內存夠大
所以集群的瓶頸不可能是a和d
3.網路是一種稀缺資源,但是並不是瓶頸。
4.由於大數據面臨海量數據,讀寫數據都需要io,然後還要冗餘數據,hadoop一般備3份數據,所以IO就會打折扣。
7. 關於 SecondaryNameNode 哪項是正確的?答案C
a)它是 NameNode 的熱備
b)它對內存沒有要求
c)它的目的是幫助 NameNode 合並編輯日誌,減少 NameNode 啟動時間
d)SecondaryNameNode 應與 NameNode 部署到一個節點。
多選題:
8. 下列哪項可以作為集群的管理?答案:ABD
a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper
9. 配置機架感知的下面哪項正確:答案ABC
a)如果一個機架出問題,不會影響數據讀寫
b)寫入數據的時候會寫到不同機架的 DataNode 中
c)MapRece 會根據機架獲取離自己比較近的網路數據
10. Client 端上傳文件的時候下列哪項正確?答案B
a)數據經過 NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block,依次上傳
c)Client 只上傳數據到一台 DataNode,然後由 NameNode 負責 Block 復制工作
該題分析:
Client向NameNode發起文件寫入的請求。
NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。
Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。
11. 下列哪個是 Hadoop 運行的模式:答案ABC
a)單機版
b)偽分布式
c)分布式
12. Cloudera 提供哪幾種安裝 CDH 的方法?答案:ABCD
a)Cloudera manager
b)Tarball
c)Yum
d)Rpm
判斷題:
13. Ganglia 不僅可以進行監控,也可以進行告警。( 正確)
分析:此題的目的是考Ganglia的'了解。嚴格意義上來講是正確。ganglia作為一款最常用的Linux環境中的監控軟體,它擅長的的是從節點中按照用戶的需求以較低的代價採集數據。但是ganglia在預警以及發生事件後通知用戶上並不擅長。最新的ganglia已經有了部分這方面的功能。但是更擅長做警告的還有Nagios。Nagios,就是一款精於預警、通知的軟體。通過將Ganglia和Nagios組合起來,把Ganglia採集的數據作為Nagios的數據源,然後利用Nagios來發送預警通知,可以完美的實現一整套監控管理的系統。
14. Block Size 是不可以修改的。(錯誤 )
分析:它是可以被修改的Hadoop的基礎配置文件是hadoop-default.xml,默認建立一個Job的時候會建立Job的Config,Config首先讀入hadoop-default.xml的配置,然後再讀入hadoop- site.xml的配置(這個文件初始的時候配置為空),hadoop-site.xml中主要配置需要覆蓋的hadoop-default.xml的系統級配置。
15. Nagios 不可以監控 Hadoop 集群,因為它不提供 Hadoop 支持。(錯誤 )
分析:Nagios是集群監控工具,而且是雲計算三大利器之一
16. 如果 NameNode 意外終止,SecondaryNameNode 會接替它使集群繼續工作。(錯誤 )
分析:SecondaryNameNode是幫助恢復,而不是替代,如何恢復,可以查看
17. Cloudera CDH 是需要付費使用的。(錯誤 )
分析:第一套付費產品是Cloudera Enterpris,Cloudera Enterprise在美國加州舉行的 Hadoop 大會 (Hadoop Summit) 上公開,以若干私有管理、監控、運作工具加強 Hadoop 的功能。收費採取合約訂購方式,價格隨用的 Hadoop 叢集大小變動。
18. Hadoop 是 Java 開發的,所以 MapRece 只支持 Java 語言編寫。(錯誤 )
分析:rhadoop是用R語言開發的,MapRece是一個框架,可以理解是一種思想,可以使用其他語言開發。
19. Hadoop 支持數據的隨機讀寫。(錯 )
分析:lucene是支持隨機讀寫的,而hdfs只支持隨機讀。但是HBase可以來補救。HBase提供隨機讀寫,來解決Hadoop不能處理的問題。HBase自底層設計開始即聚焦於各種可伸縮性問題:表可以很“高”,有數十億個數據行;也可以很“寬”,有數百萬個列;水平分區並在上千個普通商用機節點上自動復制。表的模式是物理存儲的直接反映,使系統有可能提高高效的數據結構的序列化、存儲和檢索。
20. NameNode 負責管理 metadata,client 端每次讀寫請求,它都會從磁碟中讀取或則會寫入 metadata 信息並反饋 client 端。(錯誤)
此題分析:
NameNode 不需要從磁碟讀取 metadata,所有數據都在內存中,硬碟上的只是序列化的結果,只有每次 namenode 啟動的時候才會讀取。
1)文件寫入
Client向NameNode發起文件寫入的請求。
NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。
Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。
2)文件讀取
Client向NameNode發起文件讀取的請求。
21. NameNode 本地磁碟保存了 Block 的位置信息。( 個人認為正確,歡迎提出其它意見)
分析:DataNode是文件存儲的基本單元,它將Block存儲在本地文件系統中,保存了Block的Meta-data,同時周期性地將所有存在的Block信息發送給NameNode。NameNode返迴文件存儲的DataNode的信息。
Client讀取文件信息。
22. DataNode 通過長連接與 NameNode 保持通信。( )
這個有分歧:具體正在找這方面的有利資料。下面提供資料可參考。
首先明確一下概念:
(1).長連接
Client方與Server方先建立通訊連接,連接建立後不斷開,然後再進行報文發送和接收。這種方式下由於通訊連接一直存在,此種方式常用於點對點通訊。
(2).短連接
Client方與Server每進行一次報文收發交易時才進行通訊連接,交易完畢後立即斷開連接。此種方式常用於一點對多點通訊,比如多個Client連接一個Server.
23. Hadoop 自身具有嚴格的許可權管理和安全措施保障集群正常運行。(錯誤 )
hadoop只能阻止好人犯錯,但是不能阻止壞人干壞事
24. Slave 節點要存儲數據,所以它的磁碟越大越好。( 錯誤)
分析:一旦Slave節點宕機,數據恢復是一個難題
25. hadoop dfsadmin –report 命令用於檢測 HDFS 損壞塊。(錯誤 )
26. Hadoop 默認調度器策略為 FIFO(正確 )
27. 集群內每個節點都應該配 RAID,這樣避免單磁碟損壞,影響整個節點運行。(錯誤 )
分析:首先明白什麼是RAID,可以參考網路磁碟陣列。這句話錯誤的地方在於太絕對,具體情況具體分析。題目不是重點,知識才是最重要的。因為hadoop本身就具有冗餘能力,所以如果不是很嚴格不需要都配備RAID。具體參考第二題。
28. 因為 HDFS 有多個副本,所以 NameNode 是不存在單點問題的。(錯誤 )
29. 每個 map 槽就是一個線程。(錯誤 )
分析:首先我們知道什麼是map 槽,map 槽->map slotmap slot 只是一個邏輯值 ( org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots ),而不是對應著一個線程或者進程
30. Maprece 的 input split 就是一個 block。(錯誤 )
31. NameNode 的 Web UI 埠是 50030,它通過 jetty 啟動的 Web 服務。(錯誤 )
32. Hadoop 環境變數中的 HADOOP_HEAPSIZE 用於設置所有 Hadoop 守護線程的內存。它默認是 200 GB。( 錯誤)
hadoop為各個守護進程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)統一分配的內存在hadoop-env.sh中設置,參數為HADOOP_HEAPSIZE,默認為1000M。
33. DataNode 首次加入 cluster 的時候,如果 log 中報告不兼容文件版本,那需要 NameNode執行“Hadoop namenode -format”操作格式化磁碟。(錯誤 )
分析:
首先明白介紹,什麼ClusterID
ClusterID
添加了一個新的標識符ClusterID用於標識集群中所有的節點。當格式化一個Namenode,需要提供這個標識符或者自動生成。這個ID可以被用來格式化加入集群的其他Namenode。
二次整理
有的同學問題的重點不是上面分析內容:內容如下:
這個報錯是說明 DataNode 所裝的Hadoop版本和其它節點不一致,應該檢查DataNode的Hadoop版本
;㈡ 大數據在雲計算中轉換的4個步驟
大數據在雲計算中轉換的4個步驟
如今的企業必須向顧客提供始終如一的高價值體驗,否則會失去顧客。他們正在求助於大數據技術。通過大數據分析,組織可以更好地了解他們的客戶,了解他們的習慣,並預測他們的需求,以提供更好的客戶體驗。但是,大數據轉換的路徑並不簡單。傳統資料庫管理和數據倉庫設備變得過於昂貴,難以維護和規模化。此外,他們無法應對當今面臨的挑戰,其中包括非結構化數據,物聯網(IoT),流數據,以及數字轉型相結合的其他技術。大數據轉換的答案是雲計算。參與大數據決策的IT專業人士中有64%的人表示已將技術堆棧轉移到雲端,或正在擴大其實施。根據調研機構Forrester公司的研究,另外23%的企業計劃在未來12個月內轉向雲端。利用雲計算的好處是顯著的。調查對象最常引用的優勢是IT成本較低;競爭優勢;開拓新見解的能力;建立新客戶應用程序的能力;易於整合;有限的安全風險;並減少時間。大數據在雲端的挑戰雖然雲計算的好處是巨大的,但轉移大數據可能會帶來一些挑戰:具體來說:數據集成:66%的IT專業人士表示,數據集成在公共雲中變得更為復雜。安全性:61%表示關注數據訪問和存儲。傳統設施:64%的人表示從傳統基礎設施/系統過渡過於復雜。技能:67%的人表示擔心大數據所需技能和建設基礎設施的技能。克服雲計算挑戰的4個步驟 組織如何克服這些挑戰並將其轉化為機會?以下是利用雲計算進行大數據轉換的四個關鍵步驟:(1)數據集成如果組織具有多樣化且復雜的數據生態系統,那麼並非所有的雲或大數據技術都可以無縫地集成數據。選擇需要復雜數據轉換的目標技術可能並不理想。在選擇任何技術之前完成數據管道分析。這樣可以降低創建不連貫數據和不兼容系統的風險。(2)安全性如果組織的數據是機密和專有的,或者需要解決嚴格的安全和合規性要求,則可能會對數據放在雲端有所擔心。在這種情況下,具有高度自定義網路和加密功能的單租戶的私有雲解決方案可以為組織提供所需的大數據功能,以及專用環境的安全性。另外,請記住,公共雲並不意味著「不安全」。AWS和微軟Azure等領先供應商提供雲原生安全認證解決方案,並提供包括磁碟級加密和嚴格的授權,以及認證技術的選項。雲計算中的數據安全性正在快速成熟。許多具有嚴格的安全和合規要求的組織已經成功地利用公共雲上的大數據技術。(3)原有傳統系統從原來的傳統基礎架構的轉型總是涉及到數據遷移,通常會涉及這三個路徑的其中一個: ·提升和轉移:將現有工作負載轉移到雲基礎設施即服務,只是利用雲計算,存儲和網路功能,無需復雜的應用程序重寫,同時提供可擴展基礎架構的優勢。·隨著時間的推移,停用原有系統的數據:將現有數據保留在舊系統上,並將新數據直接發送到基於雲計算的新平台,無需數據遷移。新功能和功能被設計為雲就緒。·復雜的數據轉換:這涉及數據驅動應用程序的現代化,最適用於應用程序接近生命周期。其示例包括從大型機,AS / 400和較舊的關系資料庫管理系統轉移到新的資料庫,如Hive,Hadoop和HBase。(4)技能大數據實現取決於不同的技能,包括開發人員,管理人員,雲計算和大型數據架構師。市場對這些專家供不應求,所以組織經常要求內部人員或合同人員超越其核心能力進行工作,這會減慢實現的速度。選擇以交鑰匙為基礎提供這些功能的供應商是更為經濟的。確保它在專用環境和公其雲上大規模管理多個復雜的大數據環境。結論大數據的應用已經成為許多行業的巨大差異。成功開展業務的公司已經在行業中脫穎而出,這些公司不能面對落後的風險。雲計算提供了最快,最安全,最具前途的大數據轉換途徑。 不要擔心數據集成,安全性,傳統系統或技能阻止組織進行正確的移動。這些都比人們想像的要容易得多。
㈢ 華為大數據解決方案是什麼
現在有好多公司在做大數據,不僅僅只有華為。比如北京開運聯合信息技術股份有限公司大數據解決方案是要根據您所需要的行業,來定製的。
㈣ 大數據時代 如何成為「煤老闆」
大數據時代 如何成為「煤老闆」_數據分析師考試
在大數據時代下,數據挖掘基於資料庫理論,機器學習,人工智慧,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的演算法,源於機器學習的神經網路,決策樹,也有基於統計學習理論的支持向量機,分類回歸樹,和關聯分析的諸多演算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。
數據挖掘
大數據是最近兩年提出來,也是媒體忽悠的一個概念。有三個重要的特徵:數據量大,結構復雜,數據更新速度很快。由於Web技術的發展,web用戶產生的數據自動保存、感測器也在不斷收集數據,以及移動互聯網的發展,數據自動收集、存儲的速度在加快,全世界的數據量在不斷膨脹,數據的存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數據挖掘技術的實施提出了挑戰(一般而言,數據挖掘的實施基於一台小型機或大型機,也可以進行並行計算)。Google提出了分布式存儲文件系統,發展出後來的雲存儲和雲計算的概念。
大數據需要映射為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-rece演算法框架。在單個計算機上進行的計算仍然需要採用一些數據挖掘技術,區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-rece 框架中,有些演算法需要調整。
此外,大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上,而在大數據時代,可能得到的是總體,而不再是總體的不放回抽樣。
以山西開礦的煤老闆為例:
開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。
之後是挖礦,要把這些埋在地下的礦挖出來,需要挖礦工,挖礦機,運輸機。
之後是加工,洗煤,煉丹,等等。
最後才是轉化為銀子。
數據行業十分類似:
挖掘數據的前提是有數據,包括數據的儲藏量,儲藏深度,數據的成色。
之後是數據挖掘,要把這些埋藏的數據挖掘出來。
之後是數據分析輸出,要把這些數據可視化輸出,指導分析、商業實踐。
直到這一步,才創造了價值。
所謂的大數據,大約就是說現在有座正在形成的巨型礦山,快去搶占成為煤老闆吧,下一個蓋茨興許將在這里誕生。
接下來好好說。如果說硬要說相似度的話,那麼重合度的確是有很高。因為大數據乾的事情其實就是數據挖掘做的事情。
數據挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那麼說,這個東西是啥時候提出來的?上個世紀。大數據啥時候提出來的?也就這幾年的事情吧。所以說,大數據很大程度上是數據挖掘的一個好聽的名字。
以上是小編為大家分享的關於大數據時代 如何成為「煤老闆」的相關內容,更多信息可以關注環球青藤分享更多干貨
㈤ 數據中心基礎設施是大數據戰略成敗的關鍵
數據中心基礎設施是大數據戰略成敗的關鍵
為了成功實施大數據戰略,企業數據中心基礎設施的建設應當從圍繞雲計算,過渡到圍繞大數據展開,這需要數據中心基礎架構為大數據作出五大改變。
以下內容轉自機房360:
為大數據選擇新的硬體、存儲和其它數據中心基礎設施,這是IT專業人員們所面臨的新挑戰。
大數據是具備空前規模和形式的非結構化信息。它包括視頻、圖像,以及半結構化的數據(例如在Web上常見的電子郵件和文本)。隨著基於感測器的移動Web監視設備和輸出數據越來越多,可用的數據量將繼續呈指數級增長。
推行大數據戰略的壓力往往來自高層,因為管理者相信,能有效運用數據的企業將比落後者具備更大優勢。大數據戰略需要數據中心基礎架構作出的改變主要有五點:
一、支持大數據的硬體
大數據導致的存儲需求量每年都將增長60%至80%,鑒於這種快速增長和當前的成本限制,IT采購者應選擇在可擴展性和存儲速度上最具成本效益的硬體。類似大型機的向上擴展體系結構重新興起,因為它們能夠經濟高效地擴展,降低總體擁有成本。同樣,在提升性能方面,固態硬碟(SSD)和固態卡帶都比傳統磁碟做得更好。
類似IBM Netezza和Oracle Exadata的硬體裝置已被證實能有效兼顧可擴展性和性能。考慮採用硬體裝置來支持關鍵大數據業務,但也應確認設備的架構能在未來提供快速性能升級。
二、圍繞大數據選擇存儲
在成功的大數據策略下,企業可以將來自內部的高質量數據與Hadoop挖掘自多個雲供應商的低質量數據進行整合。這也就改善了業務相關數據的質量,讓分散在各地的數據能組織成為具備一致和及時性的大數據資源。
大數據正在改變中央數據倉儲和松耦合數據集市的決策基礎,後者的存儲庫規模要小得多,既可以替代中央數據倉庫,也可以成為中央數據倉庫的數據源。隨著各地辦事機構或者國際子公司的增加,中央管理層在業務線擴大的同時更需要高質量的數據來維持管控力度,避免權力的分散。
新的軟體技術承擔了繁重的存儲相關處理工作。由Composite Software(剛剛被Cisco收購)和Denodo提供的數據虛擬化軟體能自動發現數據源並提取數據充實全局元數據存儲庫,為整個組織提供跨越內部和外部的所有數據的公共資料庫外觀和體驗。主數據管理軟體通過創建公用主記錄提高了數據質量,消除了費時的數據倉庫檢索。
企業Web外鏈需求加深了對公眾和混合雲的依賴。許多大型企業發現他們需要來自於多個雲供應商的大數據,卻不能指望供雲應商會負責整合這些數據。企業只能從數據虛擬化供應商尋求工具來跨多個雲整合大數據。
三、利用SSD的存儲分層策略
存儲成本很高,而且越快的存儲也就越昂貴。最重要的是,大數據要求存儲同時提供大容量和「大」性能。存儲分層在存儲資源池中提供多種成本/性能選項,從昂貴的高性能固態存儲到傳統的串列SCSI(SAS)磁碟存儲,這些選項的組合降低了總擁有成本。在主內存和磁碟之間增加一個固態層將有助於將大數據任務的性能維持在高位,而且不會引起存儲成本失控。
SSD的用量應遵從「90-10」的存儲分層規則:成本和速度的最佳組合比例是:使用大約10%的SSD和90%的機械硬碟。這一策略讓IT公司用僅增加10%成本的代價就能獲得90%以上的性能提升。主內存和SSD的容量比例也遵從同樣的規則。
由於SSD的性能價格比的提升速度超過傳統磁碟(容量提升,價格降低),預計在不久的將來傳統磁碟和SSD的配置比例會變為遵循80-20的規則。
IBM BLU Acceleration這類最新的縱列和內存資料庫設施能利用SSD獲得遠超傳統磁碟的性能,它們的設計能夠有效發揮SSD這類「扁平化磁碟」的優勢。
四、大數據分析和報告能力
雖然嵌入式分析工具已經可以利用報告和自動優化功能改善業務流程,但大數據再次改變了分析規則。例如,和傳統上對單個客戶進行主要行為分析洞察相比,大數據戰略能為每個客戶創建一個迭代和洞察分析線程,讓公司能跟蹤客戶並更好地維持與所有客戶的長期關系。
典型的大數據分析從業人員被稱為數據科學家,和常規的IT主管不同,他們更可能同時擔任CMO(營銷總監)。然而,IT專業人員必須明白他們公司的大數據策略對數據科學家的工作產生的影響。
這意味著需要在自動化的報告和嵌入分析之外人工添加第三方審議內容:專設和鬆散耦合分析。支持專設查詢的分析和統計工具是必要的軟體前提。許多傳統IT供應商以及雲供應商——如IBM、Cognos和Birst——正在擴充這些功能。
五、企業中的Hadoop
Hadoop為數據密集型應用提供「緊貼著」MapRece文件系統處理程序框架的分布式文件系統。此文件系統支持針對富文本數據的並行事務擴展,例如社交媒體數據。
許多IT公司通過在企業內創建自己的Hadoop版本來解決從Web獲取Hadoop數據源的問題。然而,缺乏專業知識是一種挑戰:精通這種發展中的Web數據管理框架的專業和藝術的IT管理人員猶如鳳毛麟角。
組織開發他們自己的數據管理工具時應該留意,如IBM、Oracle和EMC的這些主要供應商,往往既提供專有產品用於訪問Hadoop數據,也可進行定製開發,讓IT公司不需要專門的數據歸納措施就能訪問需要的數據。如果您決定搭建自己的數據平台,供應商也提供整合服務,使Hadoop更貼合現有IT資源來高效運作。
每個公司圍繞大數據的相關決策都會有所不同。請記住,隨著圍繞大數據的技術演變,大數據戰略也應當及時調整,與時俱進。
㈥ 那些年,對「大數據」的預言
"那些年,對「大數據」的預言
隨著信息與網路技術的飛速發展,我們已經進入一個「大數據」時代。大數據驅動著科學研究進入嶄新的階段,也推進了各行各業的發展。例如,精準的天氣和空氣質量預測依賴於機器學習和大數據分析技術的發展;各大銀行通過大數據分析客戶的經濟能力;公安部門通過大數據分析各地區和各種人群的犯罪率,進而提前布控進行應對等等。
如今,大數據早已不再局限於科學和經濟范疇內的使用,它已經進入人類生活的各個領域,對社會的方方面面都產生著積極、有效的影響。未來,以互聯網和物聯網大數據以及機器學習等為基礎的人工智慧技術,可能會引發一場新的工業革命。
而這種以數據分析為核心的計算模式,早在十年前,由微軟亞洲研究院主辦的「二十一世紀的計算」國際學術研討會就對其進行了展望和預言。在那個Wintel聯盟掌握信息技術世界、諾基亞和摩托羅拉是手機行業對峙競爭雙雄的年代,移動互聯網僅為雛形,但2005年的
「二十一世紀的計算」大會就以「無『數』不在的計算」為主題,將未來計算的核心鎖定在了「數據」上:
l
「以數據為核心的計算」正在改變著全球數億計算機用戶的體驗。個人電腦、互聯網上,「數據」無處不在。任何一種應用(服務)都是將「原始數據」處理為有價值的資訊。
l
計算機從巨型機、大型機到小型機,再到個人電腦和形形色色的攜帶型計算設備,「以應用為核心的計算」已趨向「以數據為核心的計算」的演進。用戶關心的將是「如何提取和應用數據中有用的信息」,而不是「數據背後運行著何種應用程序」。「應用」隱於後台、「數據」處在核心,「以數據為核心的計算」已是大勢所趨。
l
受制於有限的數據資源和軟、硬體平台的性能,「以數據為核心的計算」僅僅停留在夢想的層面。而互聯網上海量的、多樣化的數據資源,高性能計算機、並行計算的主流化終將令夢想成真。在可以預見的未來,基於「以數據為核心的計算」,無論是生命科學,又或是互聯網搜索、高信度計算,都將取得更大的突破和令人難以想像的發展。
身處十年後的今天,回頭來看這些大會結論能發現,這些都是對時下火熱的大數據計算的精確預見。隨著互聯網尤其是移動互聯網的快速發展,無論是企業機構還是個人的數據,都實現了更加直接、便捷的獲取,這使得數據量變得空前龐大且與時俱增,而得益於計算機技術的不斷進步,在處理和分析海量數據時的技術門檻卻變得越來越低——這一現狀,與十年前大會上提到的「多樣化的數據資源,高性能計算機」如出一轍。
大數據分析的發展,也推動了尖端計算機技術的演進。目前炙手可熱的人工智慧技術,就建立在大數據分析的基礎之上——此前,人工智慧相關研究遭遇的最大瓶頸是,人的邏輯思考模式幾乎無法復制給機器,無論是將低階的聲音、影像、氣味等信號升華到認知,還是把有共性的現象抽煉成規律,都不是機器所能掌握的技能——機器學習與大數據讓人工智慧研究者們看到了新的希望,更大規模的數據量和更少的假設、限制可以讓機器用自己擅長的方式(數據存儲、挖掘、分析)「思考」和成長,從而在實用化路途上走得更快更遠;與此同時,藉助機器的力量,人們可以在持續激增的大數據海洋里更快地由現象抽取出規律,由規律推導出結論。人工智慧和大數據的結合將會越來越緊密,不久的未來,初步擁有了看、聽、連接能力的多元化設備會反過來推動人工智慧研究的躍進,因為更多的數據會讓機器不斷發現更准確的規律和更貼近事實的因果。
當然,曾經在「二十一世紀的計算」大會上被准確預言的計算機技術前景還有很多,因此今年以「人工智慧無限可能」為主題的「二十一世紀的計算」國際學術研討會也格外令人期待。大數據和機器學習技術的發展到底還能為人工智慧研究帶來怎樣的變化,讓我們期待全球頂尖科學家們所給出的精彩「預言」吧!
以上是小編為大家分享的關於那些年,對「大數據」的預言的相關內容,更多信息可以關注環球青藤分享更多干貨
㈦ 再談大數據行業里的兩大誤區
再談大數據行業里的兩大誤區
大數據這個詞,恐怕是近兩年IT界炒的最熱的詞彙之一了,各種論壇、會議,言必談大數據,「大數據」這個詞,在IT界已經成了某果一樣的「街機」或者叫「街詞」,不跟風說兩句「大數據長,大數據短」都不好意思跟人說自己是搞IT的。從某種程度來講,大數據這個「圈」太亂了,一點不比「貴圈」好。
先從概念上來說,大數據是什麼?其實數據處理從人類誕生時期就有了,古人結繩記事就是基本的統計,統計自己吃了幾頓飯打了幾次獵等等;再往近說,皇帝每晚翻嬪妃的牌子也是數據處理,在翻牌子之前,要從一大堆牌子里分析「方便」、「熱度高」、「新鮮度」等指標;更近的說,數據倉庫早在大數據這個詞出現前就已經成熟發展了好幾十年了。所以說,大數據並不新鮮,只是某些技術如Hadoop、MR、Storm、Spark發展到一定階段,順應這些技術炒出來的概念,但是這些概念都基於一個基本的理念「開源」,這個理念是之前任何階段都沒有過,可以節省費用提高效率,所以大家才都往這個行業里扔火柴(話說現在很多人跟風亂吵,個人認為也不是壞事)。誤區一:只有搞大數據技術開發的,才是真正「圈內人」。筆者曾經參加過若干會議,70%是偏技術的,在場的都是國內各個數據相關項目經理和技術帶頭人,大家討論的話題都是在升級CDH版本的時候有什麼問題,在處理Hive作業的時候哪種方式更好,在Storm、Kafka匹配時如何效率更高,在Spark應用時內存如何釋放這些問題。參會者都一個態度:不懂大數據技術的人沒資格評論大數據,您要不懂Hadoop 2.0中的資源配置,不懂Spark在內存的駐留時間調優,不懂Kafka採集就別參加這個會!對了,最近Google完全拋棄MR只用Dataflow了,您懂嗎?不懂滾粗!在這里我想說,技術的進步都是由業務驅動的,某寶去了IOE才能叫大數據嗎,我作為一個聾啞人按摩師用結繩記事完成了對於不同體型的人,用什麼按摩手法進行全流程治療,就不叫大數據分析了嗎?技術發展到什麼程度,只有一小部分是由科學家追求極致的精神驅動,大部分原因是因為業務發展到一定程度,要求技術必須做出進步才能達成目標的。所以,真正的大數據「圈內人」至少要包含以下幾種人:一、業務運營人員。比如互聯網的產品經理要求技術人員,必須在用戶到達網站的時候就算出他今天的心情指數,而且要實現動態監測,這時候只能用Storm或者Spark來處理了;比如電信運營商要求做到實時營銷,用戶進入營業廳的時候,必須馬上推送簡訊給用戶,提示他本營業廳有一個特別適合他的相親對象(呈現身高、三圍、體重等指標),但是見面前要先購買4G手機;再比如病人來到銀行開戶,銀行了解到用戶最近1周曾經去醫院門診過兩次,出國旅遊過3次,帶孩子游泳兩次,馬上客戶經理就給客戶推薦相關的銀行保險+理財產品。這些業務人員,往往是驅動技術進步的核心原因。二、架構師。架構師有多麼重要,當一個業務人員和一個工程師,一個說著業務語言,一個說著技術術語在那裡討論問題的時候,工程師往往想著用什麼樣的代碼能馬上讓他閉嘴,而架構師往往會跳出來說「不,不能那樣,你這樣寫只能解決一個問題並且會製造後續的若干問題,按照我這個方案來,可以解決後續的若干問題!」一個非技術企業的IT系統水平,往往有70%以上的標准掌握在架構設計人員手裡,盡快很多優秀的架構師都是從工程師慢慢發展學習而來的,IT架構的重要性,很多企業都意識到了,這就是很多企業有CTO和CIO兩個職位,同樣重要!架構之美,當IT系統平穩運行的時候沒人能感受到,但是在一個煙囪林立、架構混亂的環境中走過的人眼中,IT開發一定要架構現行,開發在後!三、投資人。老闆,不用說了,老闆給你吃穿,你給老闆賣命,天生的基礎資料提供者,老闆說要有山便有了山,老闆說要做實時數據處理分析,便有了Storm,老闆說要做開源,便有了Hadoop,老闆還說要做迭代挖掘,便有了Spark……四、科學家。他們是別人眼中的Geek,他們是別人眼中的高大上,他們是類似於霍金一樣的神秘的早出晚歸晝伏夜出的眼睛男女,他們是驅動世界技術進步的核心力量。除了世界頂級的IT公司(往往世界技術方向掌握在他們手中),其他公司一般需要1-2個科學家足以,他們是真正投身於科學的人,不要讓他們去考慮業務場景,不要讓他們去考慮業務流程,不要讓他們去計算成本,不要讓他們去考慮項目進度,他們唯一需要考慮的就是如何在某個指標上擊敗對手,在某個指標上提高0.1%已經讓他們可以連續奮戰,不眠不休,讓我們都為這些科學家喝彩和歡呼吧。在中國,我認為真正的大數據科學家不超過百人……五、工程師。工程師是這樣一群可愛的人,他們年輕,沖動,有理想,又被人尊稱為「屌絲」「鍵盤黨」,他們孜孜不倦的為自己的理想而拼搏,每次自己取得一點點進步的時候,都在考慮是不是地鐵口的雞蛋灌餅又漲了五毛錢。他們敏感,自負,從來不屑於和業務人員去爭論。工程師和科學家的不同點在於,工程師需要頻繁改動代碼,頻繁測試程序,頻繁上線,但是最後的系統是由若干工程師的代碼組合起來的。每個自負的工程師看到系統的歷史代碼都會鄙視的發出一聲「哼,這垃圾代碼」,之後便投入到被後人繼續鄙視的代碼編寫工作中去。六、跟風者。他們中有些是培訓師,有些是殺馬特洗剪吹,有些是煤老闆有些是失足少女。他們的特點就是炒,和炒房者唯一不同的就是,他們不用付出金錢,他們認為只要和數據沾邊就叫大數據,他們有些人甚至從來沒碰過IT系統,他們是渾水摸魚、濫竽充數的高手,他們是被前幾種人鄙視的隱形人。不過我想說,歡迎來炒,一個行業炒的越凶,真正有價值的人就更能發揮自己的作用。誤區二:只有大數據才能拯救世界大數據目前的技術和應用都是在數據分析、數據倉庫等方面,主要針對OLAP(Online Analytical System),從技術角度來說,包含我總結的兩條腿:一條腿是批量數據處理(包括MR、MPP等),另一條腿實時數據流處理(Storm、內存資料庫等)。在此基礎上,部分場景又發現MR框架或實時框架不能很好的滿足近線、迭代的挖掘需要,故又產生了目前非常火的基於內存數據處理Spark框架。很多企業目前的大數據框架是,一方面以Hadoop 2.0之上的Hive、Pig框架處理底層的數據加工和處理,把按照業務邏輯處理完的數據直接送入到應用資料庫中;另一方面以Storm流處理引擎處理實時的數據,根據業務營銷的規則觸發相應的營銷場景。同時,用基於Spark處理技術集群滿足對於實時數據加工、挖掘的需求。以上描述可以看出,大數據說白了就是還沒有進入真正的交易系統,沒有在OLTP(Online Transaction system)方面做出太大的貢獻。至於很多文章把大數據和物聯網、泛在網、智慧城市都聯系在一起,我認為大數據不過是條件之一,其餘的OLTP系統是否具備,物理網路甚至組織架構都是重要因素。最後還想說,大數據處理技術,再炫如Google的Dataflow或成熟如Hadoop 2.0、數據倉庫、Storm等,本質上都是數據加工工具,對於很多工程師來說,只需要把數據處理流程搞清楚就可以了,在這個平台上可以用固定的模版和腳本進行數據加工已經足夠。畢竟數據的價值70%以上是對業務應用而言的,一個炫詞對於業務如果沒有幫助,終將只是屠龍之術。任何技術、IT架構都要符合業務規劃、符合業務發展的要求,否則技術只會妨礙業務和生產力的發展。
隨著時代變遷,大浪淘沙,作為數據行業的一員,我們每個人都在不同的角色之間轉換,今天你可能是科學家,明天就會變成架構師,今天的工程師也會變成幾年後的科學家,部分人還終將步入跟風者的行列。誤區三:數據量特別大才叫大數據在「數據界」存在這樣有一波人,他們認為「只有Peta級以上的才叫大數據,甚至到了Zeta以上才叫大數據,目前還沒有到真正的大數據時代!」,每次聽到這樣的話,我就知道這些人受IOE某巨頭的4V理論中的「容量」影響太巨大了。對此,我想說的第一句話是「盡信書不如無書,盡信巨頭不如去IOE」,去IOE不只是要從硬體做起,還要從思想上敢於挑戰巨頭做起,盡管很多IT界的經典理論都是傳統巨頭提出的,但是隨著挑戰者的出現,萌發了新的思想和技術後,傳統巨頭會被慢慢顛覆,這也是我們人類前進向前的一個重要因素。如果我們還停留在迷信巨頭的時代,如此刻板教條的去追求一個概念,那麼就不會有現在的Hadoop,不會有現在的Spark,不會有現在的特斯拉,不會有機器學習人工智慧,更不會有未來的第N次工業革命。首先我想強調,大數據技術真的不是一個新鮮詞,在之前的文章中我已經說過,大數據的本質還是數據,數據這個行業已經發展了若干年,而數據量的規模永遠是超出該時代的想像的,比如十幾年前,一張軟盤的數據量也就1.44M,當時的數據如果達到1T都讓旁人咂舌。那麼按數據量的標准,當時如果有人收集了1T數據就已經進入大數據時代了嗎?顯然不是!所以我想說,數據量的大小並不是衡量大數據的標准,如果按數據量去判斷是否大數據的話,那麼「大數據」這個詞真的是一個偽命題,就如同「老虎比如是老的,小伙必須是小的,巨頭必須是腦袋大的,飛人必須是長翅膀的」這種純粹字面意思去定義的話題一樣。那麼再回過來說,大數據的概念是什麼?首先,大數據是一個完整的生態體系,從數據的產生、採集、加工、匯總、展現、挖掘、推送等方面形成了一個閉環的價值鏈,並且通過每個環節的多種技術處理後,為所在業務場景提供有價值的應用和服務。其次,大數據的核心是什麼?一方面是開源,一方面是節流,目前大數據技術的核心目標都是通過低成本的技術更好的滿足對數據的需求(尤其是處理近年來更多的非結構化數據),並在在滿足需求的基礎上盡可能多的為企業節省投資。說一千道一萬,大數據的核心理念還是滿足應用需求,有明確目標的技術叫生產力,沒有業務目標的技術叫「浪費生命力」。誤區四:為了大數據而大數據這個誤區我認為是目前最嚴重的。在部分企業中,追求技術一定要最新、最好、最炫,一定要拿到國際先進、世界一流才行。所有的企業,不分行業不分性質不分地域不分年代,一律高喊「趕超BAT,大數據助力**企業達到**目標」,接下來就是先去IOE,然後投資買集群,把之前的各種高性能小型機大型機都不用了,之前買的O記授權全部停了,之前的幾十年投資一夜之間作廢,又投入了更多的資源去追趕「大數據」。同學們,這種勞民傷財的事情相信大家每天都會聽到或者親眼看到,很多企業不計成本就是為了博領導一笑,這得是多麼大的誤區啊。對此我想說:第一,從技術上來說,比如BAT或者很多互聯網企業去追求大數據,是因為業務發展的需要。任何一個互聯網企業一出生就是為了流量和點擊而活著,這就意味這大量的非結構化數據需要進行快速處理,這時候就決定了互聯網企業只能通過一些並發手段去分解底層的數據,然後進行快速加工,並滿足其服務用戶和市場的需要。互聯網企業的業務流程和業務模型就決定了必須得採用大數據技術。反之,很多企業根本用不著這些技術,有些企業簡單的一兩個Excel文件裡面做幾個公式就可以滿足它的發展,而且數據的周期還是按月處理的,根本不需要運用這些技術。第二,從投資上來說,互聯網企業出生都是平民,根本買不起大型設備,就算一夜暴富後,也沒有一個傳統的小型機大型機可以更好的滿足它們的發展,故只能另闢蹊徑創造價值鏈和標准了,在之前的低投資、輕量級架構上,不斷進行小量的線性硬體投資滿足業務的發展。反倒是一些傳統企業,甚至是巨無霸,其投資計劃已經在一年前明確,而且在原來的基礎上投資會更有ROI(投資回報率),現在反倒為了追求大數據的口號,犧牲了之前的大量投資,除了「得不償失」,剩下的只能是滿地的節操了。大數據技術甚至任何一種技術都是為了滿足特定的業務目標而生的,在具備了明確的業務目的後,順勢設計符合自身業務架構的技術架構,才是一種科學的健康的發展觀。如果您是一位老闆、CEO或者投資人,千萬要明白,大數據技術對於企業來說,有時候像水,而企業的業務目標就是那艘船,「水能載舟,亦能覆舟」。隨著生產關系的不斷調整,又會出現若干輪生產力的不斷進步,大數據之後的技術也會日新月異的進步著,比如現在開始潮流涌現的「機器學習、深度學習」等諸多的人工智慧方面的技術,也出現了比如「小數據」、「微數據」等更細方向技術的細分,在技術的洪流到來時,只要保持清晰的以滿足業務為導向的頭腦,根據自身的業務需要設計自身的技術架構,就不會被各種流派,各種概念淹沒。