大數據架構師面試_大數據時代如何確定學習方向

⑴ 面試想吊打面試官阿里架構師教你吃透Spring(Boot、Cloud、MVC)

作為一名Java程序員，我想沒人敢小覷 Spring的重要性，現在出去面試，無論多小的公司 or 項目，都要跟你扯一扯 Spring，扯一扯微服務，如果啃不下來，很可能就與大廠失之交臂。

精通Spring的原理實現的話，可以幫助你更好地職業進階，學習前輩優秀的架構設計思想，總結出最優使用方案，繞過工作中遇到的很多坑。

一個框架的源碼也是最大的知識庫，源碼是一層一層嵌套的，光靠文字說明會比較難以理解，最好是在IDE環境下跟著一步一步跟著點下去。

如果要學習源碼，最合適的就是Spring，理由如下：

面試常問Spring、Spring Boot、Spring Cloud、Spring MVC面試題解析

針對Spring、Spring Boot、Spring Cloud、Spring MVC，筆者這邊整理了幾份學習PDF，這些PDF是可以免費分享的！

收集整理不易有需要的朋友幫忙轉發一下，然後【點擊這里】獲取免費領取方式！

需要此PDF文檔的朋友們記得轉發一下；然後【點擊這里】獲取免費領取方式！

⑵ 大數據具體學什麼

大數據分析挖掘與處理、移動開發與架構、軟體開發、雲計算等前沿技術等。

主修課程：面向對象程序設計、Hadoop實用技術、數據挖掘、機器學習、數據統計分析、高等數學、Python編程、JAVA編程、資料庫技術、Web開發、Linux操作系統、大數據平台搭建及運維、大數據應用開發、可視化設計與開發等。

大數據旨在培養學生系統掌握數據管理及數據挖掘方法，成為具備大數據分析處理、數據倉庫管理、大數據平台綜合部署、大數據平台應用軟體開發和數據產品的可視化展現與分析能力的高級專業大數據技術人才。

大數據崗位：

1、大數據系統架構師

大數據平台搭建、系統設計、基礎設施。

技能：計算機體系結構、網路架構、編程範式、文件系統、分布並行處理等。

2、大數據系統分析師

面向實際行業領域，利用大數據技術進行數據安全生命周期管理、分析和應用。

技能：人工智慧、機器學習、數理統計、矩陣計算、優化方法。

3、hadoop開發工程師

解決大數據存儲問題。

4、數據分析師

不同行業中，專門從事行業數據搜集、整理、分析，並依據數據做出行業研究、評估和預測的專業人員，在工作中通過運用工具，提取、分析、呈現數據，實現數據的商業意義。

5、數據挖掘工程師

做數據挖掘要從海量數據中發現規律，這就需要一定的數學知識，最基本的比如線性代數、高等代數、凸優化、概率論等，經常會用到的語言包括Python、Java、C或者C++。

⑶ 美國大數據工程師面試攻略

項目數據分析師分享：美國大數據工程師面試攻略
方法/步驟
先做一個自我介紹，本科南開後，加入了一個創業公司kuxun，做實時信息檢索，後來進入網路基礎架構組，搭建了Bai App Engine的早期版本，隨後去Duke大學留學，在攻讀碩士期間，做跟Hadoop大數據相關的研究項目Starfish，之後在Amazon EC2部門實習，了解它們的內部架構，畢業後加入Linkedin，做廣告組的架構，涉及Hadoop調優，Data Pipeline, Offline/Online, 實時系統。最新是在Coursera從事數據工程師工作。在多年工作中，除了對技術的不懈追求，也積累了大量的面試經驗，從國內的一線互聯網網路，阿里巴巴，奇虎，人人，到美國一線公司Facebook，Google，Linkedin，Twitter，Amazon，到熱門Startup，Uber，Pinterest，Airbnb，Box，Dropbox，Snapchat，Houzz，拿到10+ offer，並且在Linkedin期間也面試過100+候選人，參與面試題制定，樂於分享並幫助很多人成功求職，實現目標。
我們看一下這張矽谷地圖，它坐落於美國加州，從聖何塞到舊金山的狹長地帶，中間是San francisco bay，簡稱灣區。它的由來是這邊有計算機核心處理器中離不開的硅，30年來，矽谷就發展成為無數技術性創業公司的搖籃。在20多年前，就有很多硬體公司的輝煌Intel，Oracle，Apple，Cisco成功上市，10年前，互聯網的興起，造就了Yahoo，Google，Ebay的神奇，而如今Tesla，Facebook，Twitter，Linkedin正扶搖直上，成為美股高科技股的領頭羊。這些公司的市值從幾十billion到幾百billion，PE從負數到上千。瘋狂的估值背後也改變了世界。
如果說矽谷成功是有原因的，我覺得有兩點。地理位置是得天獨厚吸引大量人才，這里有Stanford和加州州立高校提供智力庫的支持，在矽谷可以看到來自全世界的最聰明的人，中國人，印度人，猶太人構成這些Engineer的主力。雖然國內做技術自嘲為碼農，但在矽谷成為一個優秀工程師還是收獲頗豐。另一方面創業是一個永恆的話題，在Stanford有個說法空氣中都飄揚中創業的味道，一些早期員工通過上市套現又積累經驗成了天使投資，Y Combinator，各種技術forum，meetup，創業導師，都很活躍。資本的力量功不可沒，早年VC通過投資，收購，上市放大形成一個雪球效應。大家總喜歡問什麼是next big thing，哪一個是下一個facebook，下一個musk，根據統計10年能成就一個千億以上的公司，目前這個進程正在縮短。
我就拿Linkedin作為例子，介紹高科技公司（FLG）是什麼樣子。它是成立2003年的職業社交網站。在10年的發展中，也不是一下子爆發的，目前有3億的全球用戶，雖然跟Facebook，Google 10億＋用戶沒法比，但是它有很好的護城河，用戶定位高端精準，單位價值高。這張照片中左邊這位是創始人Reid Hoffman，是Paypal黑幫成員，在矽谷也是呼風喚雨的大佬，目前是董事和投資人。中間這位是CEO Jeff，2013年被Glassdoor評為最佳CEO，作為職業經理人，成功幫助linkedin高速成長，他最喜歡提到transformation，希望我們每個員工能挑戰自我，在各自崗位上進化。Linkedin提供了員工很好的福利，有號稱灣區最佳的免費食堂，每個月一次的in day，hack day, 幫助員工內部創業的incumbator計劃。它特點是數據驅動的開發產品，比如 People you may know, Job you may be interested, 我做過Sponroed Ads 都是需要很強數據背景和data scientist的支持。它的Biz model也很獨特，有3個line，面向公司的招聘服務，面向廣告商的市場服務，面向個人的訂閱服務，還有最新Sales Solution，因為這么多可能性，成為華爾街的寵兒。
說矽谷，除了那些已經成功的大公司，不得不說現在最新的創業動向，這些代表了未來下一個FLG。我總結了一些領域和代表公司：雲計算(box, dropbox)，大數據(cloudera)，消費互聯網(pinterest)，健康(fitbit)，通訊(snapchat)，支付(square)，生活(uber)。這里是華爾街網站更新的最新融資規模，比如Uber就達到18Billion的估值，我當時拿到offer沒去，還是覺得很瘋狂，如果細看這張表，大家可以看到矽谷（藍色）尤其是舊金山它們的融資規模遠遠大於其他地區，還是地理決定論。而在國內的兩家xiaomi，jingdong都是在北京，而最近大家看到一些泡沫論，說什麼阿里巴巴上市是否美股到頂，經緯VC創始人也提醒我們泡沫的風險，我無法判斷。如果能參與到下一波浪潮裡面去是很過癮的。我推薦大家去看看 <浪潮之巔>，<奇點臨近>，我還是很期待未來20年的技術革命。
我個人熱愛大數據，在矽谷這也是大家津津樂道的，有個笑話，big data is like teenage talking about sex, nobody know how to do it. 其實大家還是興趣驅動就好，不要那麼功利，大數據技術涉及太多，平常工作中也是慢慢積累，有無數的坑和技術細節需要克服。並不是說那個技術最熱就要用哪個，如果你用不好，你的壓力很大的，舉個例子，你用某個開源資料庫，發現它偶爾有數據丟失怎麼辦，如果這是線上服務，你不斷收到報警，這時候你當時選用它的優點 scalable，容錯性都沒意義了。接著說大數據，這裡面Hadoop作為行業標准，我面過的除了Google，微軟不用，幾乎所有的公司都在用，建議大家利用這個機會。這裡面有三巨頭，cloudera是老牌Hadoop咨詢公司，Hadoop的創始人做CTO，Hortonworks也是很多Hadoop的committee，MapR是提出hdfs的erasure 編碼方式高效而著名，它們都是融了巨資，模式也很像，先推出社區免費版，但有個商業版提供更好的管理。而今年出現一匹黑馬，Spark，簡單說就是內存級別的計算，比Hadoop框架里能節約IO，利用緩存，能適應批處理，迭代，流式計算。
這里看一下它的生態系統，如何學Hadoop是個循序漸進過程，先要理解學習它的core系統，HDFS, MapRece, Common，在外圍有無數的系統工具方便開發，我個人用過的是 Avro作為數據格式，Zookeeper作為選主的高可靠性的組件，Solr作為搜索介面，Pig搭建工作流，Hive 數據倉庫查詢，Oozie管理工作流，HBase 作為KV 分布式存儲，mahout數據挖掘的庫，Cassandra nosql 資料庫。我建議初學的考慮Chinahadoop的課程。
而Hadoop本身也是個進化過程，幾年前0.19版本，到0.20, 0.23分流成Yarn架構最後進化成Hadoop2.0, Hadoop1.0 和 2.0 它們的介面和組件是完全不同的，但總體上Hadoop 2.0 是趨勢，因為它有Yarn這樣分離的資源管理平台，可以以插件的方式開發上面的Application，解放了生產力，而像Spark，Storm這些新型處理器也是支持Hadoop 2.0的。這里是Hortonworks它們提出來的社區版本架構，可以說標準的制定者，一流的公司制定標准，其他的公司一般用只能用它們提供的穩定版，沒有多少話語權。但從事大數據，並不見得是要去這些制定標準的公司，大量的應用也是非常考驗架構的靈活性。並且能看到實際的產品，很有成就感。
說到今年火的，還是要看Spark。從去年至今，已經開了2屆Spark大會，上千人的規模，無數人對比Hadoop 100倍的性能提升而興奮。這里說它的背景是誕生於Berkeley的Amplab，它們有個很有名的BDAS(Berkeley Data Analytics Stack)，目前Spark已經成為Apache的頂級項目。去年這個實驗室的教授跟學生出去成立Databricks公司，拉到兩輪上千萬的風投，有人成Spark是Hadoop的終結者嗎？我看今年Spark大會上，所有的Hadoop大佬公司都是鼎力支持，像Cloudrea甚至放棄impala的一線支持而轉變成Spark。如果這么發展下去，星星之火可以燎原啊。它裡面用到Scala是一種函數式語言。裡面的組件也很多，有Shark支持SQL類似Hive，有Spark Streaming，MLlib，Graphx，SparkR，BlinkDB。它的核心數據結構是RDD，可以跑在各種分布式系統上。總體上是個包容性＋侵略性的系統。我個人也很看好它們的發展。

⑷ 大數據時代如何確定學習方向

在大數據的世界裡面主要有三個學習方向，大數據開發師、大數據運維師、大數據架構師。
什麼是大數據開發師？
圍繞大數據系平台系統級的研發人員，熟練Hadoop、Spark、Storm等主流大數據平台的核心框架。深入掌握如何編寫MapRece的作業及作業流的管理完成對數據的計算，並能夠使用Hadoop提供的通用演算法，熟練掌握Hadoop整個生態系統的組件如： Yarn，HBase、Hive、Pig等重要組件，能夠實現對平台監控、輔助運維系統的開發。
通過學習一系列面向開發者的Hadoop、Spark等大數據平台開發技術，掌握設計開發大數據系統或平台的工具和技能，能夠從事分布式計算框架如Hadoop、Spark群集環境的部署、開發和管理工作，如性能改進、功能擴展、故障分析等。
什麼是大數據運維師？
了解Hadoop、Spark、Storm等主流大數據平台的核心框架，熟悉Hadoop的核心組件：HDFS、MapRece、Yarn；具備大數據集群環境的資源配置，如網路要求、硬體配置、系統搭建。熟悉各種大數據平台的部署方式，集群搭建，故障診斷、日常維護、性能優化，同時負責平台上的數據採集、數據清洗、數據存儲，數據維護及優化。熟練使用Flume、Sqoop等工具將外部數據載入進入大數據平台，通過管理工具分配集群資源實現多用戶協同使用集群資源。通過靈活、易擴展的Hadoop平台轉變了傳統的資料庫和數據倉庫系統架構，從Hadoop部署實施到運行全程的狀態監控，保證大數據業務應用的安全性、快速響應及擴展能力！
什麼是大數據架構師？
圍繞大數據系平台系統級的研發人員，熟練Hadoop、Spark、Storm等主流大數據平台的核心框架。深入掌握如何編寫MapRece的作業及作業流的管理完成對數據的計算，並能夠使用Hadoop提供的通用演算法，熟練掌握Hadoop整個生態系統的組件如： Yarn，HBase、Hive、Pig等重要組件，能夠實現對平台監控、輔助運維系統的開發。
通過學習一系列面向開發者的Hadoop、Spark等大數據平台開發技術，掌握設計開發大數據系統或平台的工具和技能，能夠從事分布式計算框架如Hadoop、Spark群集環境的部署、開發和管理工作，如性能改進、功能擴展、故障分析等。

⑸ 這幾個大數據GitHub項目，太強了吧

大家好，我是 夢想家 Alex 。我們都知道 github 對於程序員們而言，就是一個巨大的「聚寶盆」，上面不僅有很多優質的開源項目，還有很多熱愛開源分享的開發者。但如何從浩如煙海的寶藏中，篩選出適合自己的優質項目呢？本期內容，我就為大家推薦幾個我認為還不錯的大數據學習必備的牛 X 項目，希望大家看完有所收獲。

首推 heiying 的 BigData-Notes，該項目目前已經有高達 10.2K 的star，正如該倉庫的介紹上簡短幾個字：大數據入門指南。這個項目也是我認為目前 最適合初學者學習和參考的項目 。

為什麼說這個項目適合大數據初學者呢，可以通過觀察項目的介紹文檔，該項目包含了大數據學習必須要掌握的幾種組件，包括 Hadoop，Hive，Spark，Flink，Kafka，Zookeeper，Flume，Sqoop，Azkaban，以及 Scala 函數式編程語言的教程 ，可謂是非常的系統全面

我們再藉助谷歌插件 Octotree 觀察項目的結構，可以看到該項目主要分為 code，notes，pictures，resources 四個目錄

其中 code 目錄主要用來存放各個組件使用相關的代碼，正如統計的結果一樣，這個項目中 Java 代碼佔了 94.8%，Scala 佔了 5.2%，所以對於喜歡用 Java 編寫代碼的小夥伴們來說，這是一個不容錯過的寶藏學習機會。

notes 部分主要存放相關組件的介紹和使用文檔，其中 installation 子目錄主要存放了相關組件編譯，以及在Linux環境下各個組件的安裝，單機/集群環境搭建的教程，我看過了內容，介紹的非常清晰詳細。

另外兩個目錄 pictures 和 resources 就不做過多介紹了，一個是存放相關的圖片教程，另一個是存放編寫的代碼中所需要用到的文本文件。

這個項目同樣給力，是由 BAT 高級大數據架構師王知無創建的，該項目目前也已經斬獲高達 5.2k star，是為數不多， 集基礎學習和進階實戰 於一體的優質項目。

該項目按照大數據不同階段的學習，所列舉不同的文章干貨

大數據開發基礎篇

大數據框架學習篇

大數據開發實戰進階篇

大數據開發面試篇

從不同的分類足以見王老師的用心。同時，王知無前輩也是 51CTO 上的認證講師，來看看官方的介紹。

相信很多同學在學習大數據的過程中，不清楚 Java 需要學習哪些內容，掌握到什麼程度，這個時候完全可以借鑒王老師的這個倉庫內容。

同時，學習這個倉庫的內容，可以學習到作者作為架構師本身對於 JVM，分布式理論和基礎，大數據框架基石之網路通信Netty，以及各個框架的源碼學習，可謂「 真.寶藏倉庫 」

除了基礎的理論學習以外，還有大量實戰性的內容可以借鑒參考

以及大量的面試題，還有自己從零到大數據專家一路走來的心路歷程，學習路徑指南，和自己對於技術學習的一些深入思考，相信大家拜讀過後一定能收獲滿滿，

這個項目比較特殊，是一個國外開發者開源的項目，英文翻譯過來的意思是「很棒的大數據」，實際上呢~他列舉的是很多很棒的大數據框架、資源和其他很棒的精選列表。靈感來自 awesome-php 、 awesome-python 、 awesome-ruby 、 hadoopecosystemtable 和 big-data 。目前也已經斬獲 10.2K 的 star，非常強勢。

為了方便閱讀，我將其全部翻譯成中文進行展示。

我們跳轉到分布式編程，可以看到很多我們熟悉的技術，例如 Flink，Spark，Pig，MapRece 等等 ....

亦或者「分布式文件系統」，我們所熟知的 HDFS，Ku，GFS ...

點擊對應的鏈接，可以跳轉到對應的官方介紹頁，方便我們減少搜索成本，快速了解不同領域大數據常用的技術組件，為我們之後做技術調研省了很多的時間。

讓我厚顏無恥的夾帶一下「私貨」。這是我在今年年初的時候，創建的一個倉庫，目前也已經有了快 200 的star 。從資歷和star的數量顯然不能跟前面幾個大佬相比，但卻是我第一次花費了大量精力，將一個項目像孩子一樣進行「培養」。

為了設計一個好看的圖標，還花了不少的精力。設置不同媒體平台的徽標設計，還參考了像 JavaGuide 這樣的頭部項目，也算是在親力親為的這個過程中，學到了不少東西。

可以放點內容給大家show一下

另外，我還開設了「福利」專欄，將自己學習過程中收集到的學習干貨毫無保留地分享給大家，方便大家獲取。

顯而易見，這個是專注於 flink 學習的開源項目，其中的內容包含Flink 入門、概念、原理、實戰、性能調優、源碼解析等等，目前已經斬獲了 10.5k 的 star，非常強勢。

其維護的開發人員也是非常用心負責，一路跟隨 flink 的版本，不停的在維護更新。

同時，主要維護者 zisheng 還將 flink 的研究做到了極致，不僅有 flink 成體系的博客鏈接，還有對應的源碼系列。

還自己創建了專欄《從1到100深入學習Flink》，並將大家學習過程中有疑惑的地方解決過程統一記錄下來，方便有需要的同學查看。雖然是付費的星球專享，但我覺得是真的值！感興趣的話大家可以自行去了解。

導航:首頁 > 網路數據 > 大數據架構師面試

大數據架構師面試

與大數據架構師面試相關的資料

友情鏈接