『壹』 大數據分析面試問什麼
基本工具
包括規定動作和自選動作兩類。
1.1 規定動作
SQL查詢: ON、DISTINCT、GROUP BY、ORDER BY等等。從資料庫中提取數據是數據分析的第一步。
1.2 自選動作
根據簡歷來問,簡歷上寫什麼就問什麼,會問得比較深入。簡歷作為敲門磚,撰寫也是非常重要的,切不可寫的過於誇張和造假,奉勸各位不要作死,畢竟不作死都有可能會死。Python、Stata、R、SPSS、SAS、EViews都算比較常見的數據分析工具。
2.邏輯思維
主要分為兩方面,對業務邏輯的理解能力和行文的邏輯水平。
2.1業務邏輯
雖然一個業務看似流程簡單清晰,但產生數據的復雜程度往往超過大多數人的想像。對業務邏輯的考察主要通過相關項目經歷。
2.2行文邏輯
畢竟最終產出是一份份報告,可能是HTML郵件也能是PDF。
3.理論儲備
也分為規定動作和可選動作。
3.1 規定動作
主要是基礎的統計學理論,如方差、協方差、算數平均數、幾何平均數、中位數、眾數、分位值、雙峰數據、長尾數據、假設檢驗、期望迭代法則、貝葉斯原理等。
3.2 自選動作
根據簡歷來問,簡歷上寫什麼hr一定會問什麼。
4.對細節的敏感度
作為數據分析師,每天要關注大量數據指標。對細節的敏感度是非常必要的。這主要分為兩方面,對統計口徑的敏感度和對數據的敏感度。
4.1 統計口徑
統計口徑一致是確保數據可比性的基礎,這非常考驗數據分析師的敏感度和行業經驗。
4.2 數據
面試者對數據異常波動、離群值、平均數沒有代表意義等情況的迅速識別能力。比如已知然壽司套餐單價1,500,酒水單價300,平均客單價2,500,能不能馬上想到這可能是雙峰數據或者長尾數據,抑或既雙峰又長尾的數據?
5.學習能力
互聯網行業瞬息萬變,光數據的存儲就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三駕馬車等一大堆奇奇怪怪的東西。互聯網行業的從業者經常要面對新需求、新工具、新方法。能否迅速掌握新知識,解決新問題面試者必須證明給hr看。主要考察的方式是了解過往項目經歷,或者出作業題(比如Sci-Hub)。
6.排版和簡單UI設計
數據分析報告必須簡潔、清晰、重點突出。主要考察方式是出作業題讓面試者限時交一份slides(就是PPT啦)出來。
7.價值觀
主要看工作熱情、態度、道德水平等等,這方面的問題比較隨機。
『貳』 常見大數據公司面試問題有哪些
1、您對“大數據”一詞有什麼了解?
答: 大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是為什麼使用特殊的工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還使公司能夠根據數據做出更好的業務決策。
2、告訴我們大數據和Hadoop之間的關系。
答: 大數據和Hadoop幾乎是同義詞。隨著大數據的興起,專門用於大數據操作的Hadoop框架也開始流行。專業人士可以使用該框架來分析大數據並幫助企業做出決策。
注意: 在大數據采訪中通常會問這個問題。 可以進一步去回答這個問題,並試圖解釋的Hadoop的主要組成部分。
3、大數據分析如何有助於增加業務收入?
答:大數據分析對於企業來說已經變得非常重要。它可以幫助企業與眾不同,並增加收入。通過預測分析,大數據分析為企業提供了定製的建議。此外,大數據分析使企業能夠根據客戶的需求和偏好推出新產品。這些因素使企業獲得更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。
『叄』 大數據開發工程師面試主要面試哪些內容
只要數據量級大(或者是數據復雜度,或者是其他方面的量級大)到普通的處理方法無法處理地實際上都可以算作是大數據開發,只不過一般大數據開發目前招聘的很多都是做數據處理的。有如下幾個方向:1)數據挖掘是大數據處理地一個方向,這里做數據挖掘要有一些統計學基礎才能做,目前數據挖掘的方向其實不是很明確,和人工智慧,機械學習也有一些關系,如果是做數據挖掘,基本的數據會由數據平台部或數據運維部門提供2)數據平台的開發(這里的平台開發在不同公司的內容又不一樣,小公司可能是根據公司業務做一套完整的數據分析系統,大公司這個職位可能是一些開源組件的二次開發)3)大數據運維方向:比如hadoop,spark集群的運維,涉及到ha等內容4)大數據分析方向:有的公司會將職責細化,招聘一些專業的分析人員,去寫hql或者是其它類sql來對數據進行分析最後,其實大數據平台相關工作的劃分並不清晰,行業里沒有統一標准,大公司小公司情況不同。關於技術方向更是用什麼的都有,比如有的公司用spark,有的用impala,還有的用clickhouse等,最近flink也逐漸進入大家的視野。所以在找工作時應該要考慮的是自己的強項是什麼,同時在選擇工作時要考慮到這個工作在做了三五年後,從這家公司出來還能不能找到工作。我個人的建議是如果你會java,那不要脫離java(scala)語言去做大數據開發,也不要專業只去做數據分析工作,大數據行業目前仍舊有一些泡沫(個人看法),很多組件仍舊是基於java的,一旦脫離java語言本身,那源碼閱讀,二次開發都會有問題,同時生產環境自動化去執行一些代碼也是需要語言支持的,或者最差的預估,如果大數據行業嚴重縮水(比如某些公司可以分析,可以挖掘的內容有限),可以隨時轉到java伺服器開發方向。
『肆』 2021年大數據工程師面試內容包括哪些
【導語】近年來,大數據發展如火如荼,很多人都選擇學習大數據專業或者轉行大數據,大數據里又包含很多就業崗位,所以在進行崗位選擇的時候,還是需要大家合理選擇,為了幫助大家更好的進入大數據行業執業,下面就把2021年大數據工程師面試內容給大家進行一下具體介紹。
1、自我介紹
一般上來就是自我介紹,談下工作經歷和項目經驗,面試官會根據你的項目經驗對你進行技術面試。在自我介紹時,一定要抓住核心說,不要太啰嗦,盡量放大自己的價值,讓面試官感受到你對工作的熱情,以及以後對公司貢獻的能力。
2、數倉開發知識技能
(1)Java是必問的,不過問的不深,把Javase部分吃透,足以應付Java部分的面試。
(2)Hadoop生態,Yarn、Zookeeper、HDFS這些底層原理要懂,面試經常被問。
(3)Maprece的shuffle過程這個也是面試被常問的。
(4)Hbase和HIve,搞大數據這些不懂真的說不過去。
(5)Mysql、Oracle和Postgres資料庫操作要回,Sql要會寫。
(6)linux操作系統,這個簡單得命令必須要懂,會寫shell腳本更好了。
(7)Kettle或Sqoop這種數據處理工具至少要會一個。8,數據倉庫建模、數據模型的問題。
3、技術方面知識技能
(1)SparkSql和SparkStreaming,底層原理、內核、提交任務的過程等等,盡量深入內幕,這個經常會跟MapRece作比較的。當然也要了解Storm和Flink,Flink這個建議要學會,以後用處會越來越廣。
(2)Redis、Kafka、ElasticSearch這些都得懂原理,深入了解,會使用,會操作,會調優。
(3)impala和kylin這些盡量也要了解會用
(4)Python這個要是有能力,有精力,建議也要往深處學習,我目前正在自學中。
(5)集群的問題,包括一些簡單的運維知識。
(6)大數據數據傾斜的問題,包括Spark JVM內存調優問題等等。
關於2021年大數據工程師面試內容,就給大家介紹到這里了,希望對大家能有所幫助,當然進入大數據行業,還需要大家在平時不斷進行技能提升,這樣才能更好的擁有一席之地。
『伍』 大數據開發人員面試常會被問什麼問題
1、你自身的優點
這個問題不僅僅是在大數據面試當中常常被問,在各行各業的面試中都經常出現。所以面試者要盡可能說一些和工作相關的優點,比如「學習能力強」「能抗住壓力」等,再舉一個自己之前工作的例子進行證明,這會讓面試官覺得很真實。
2、為什麼要離開上家公司
其實面試官問這種問題的時候,就是在看你人品。很多人覺得說上家公司不好的話才是好的,其實不是的,離職見人品,如果你能在面試官面前說上家公司的不好,也能在下家公司說這家公司的不好。所以在面試官問及這個問題的時候,最好結合自身的發展來說。
3、未來幾年的規劃
回答這個問題的時候,不要說自己不知道、不清楚,會顯得你這個人沒有目標和方向。所以如果應聘者對這個問題不知道怎麼回答的時候,可以跟面試官交流一下現在大數據行業的職業目標以及准備做些什麼去實現這個目標,至少要讓面試官看到應聘者對選擇這個職業的熱情,甚至是對選擇這份工作的熱情。
『陸』 美國大數據工程師面試攻略有哪些
如果說矽谷成功是有原因的,我覺得有兩點。地理位置是得天獨厚吸引大量人才,這里有Stanford和加州州立高校提供智力庫的支持,在矽谷可以看到來自全世界的最聰明的人,中國人,印度人,猶太人構成這些Engineer的主力。雖然國內做技術自嘲為碼農,但在矽谷成為一個優秀工程師還是收獲頗豐。另一方面創業是一個永恆的話題,在Stanford有個說法空氣中都飄揚中創業的味道,一些早期員工通過上市套現又積累經驗成了天使投資,Y Combinator,各種技術forum,meetup,創業導師,都很活躍。資本的力量功不可沒,早年VC通過投資,收購,上市放大形成一個雪球效應。大家總喜歡問什麼是next big thing,哪一個是下一個facebook,下一個musk,根據統計10年能成就一個千億以上的公司,目前這個進程正在縮短。它坐落於美國加州,從聖何塞到舊金山的狹長地帶,中間是San francisco bay,簡稱灣區。它的由來是這邊有計算機核心處理器中離不開的硅,30年來,矽谷就發展成為無數技術性創業公司的搖籃。在20多年前,就有很多硬體公司的輝煌Intel,Oracle,Apple,Cisco成功上市,10年前,互聯網的興起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶搖直上,成為美股高科技股的領頭羊。這些公司的市值從幾十billion到幾百billion,PE從負數到上千。瘋狂的估值背後也改變了世界。我個人熱愛大數據,在矽谷這也是大家津津樂道的,有個笑話,其實大家還是興趣驅動就好,不要那麼功利,大數據技術涉及太多,平常工作中也是慢慢積累,有無數的坑和技術細節需要克服。並不是說那個技術最熱就要用哪個。
『柒』 面試大數據&雲計算的開發崗位,簡歷應該怎麼寫比較有
一份來簡歷,一般可以分為四個部分源,其中:
第一部分:為個人基本情況,應列出自己的姓名、性別、年齡、籍貫、政治面貌、學校、系別及專業,婚姻狀況、健康狀況、身高、愛好與興趣、家庭住址、電話號碼等。
第二部分:為學歷情況。應寫明曾在某某學校、某某專業或學科學習,以及起止期間,並列出所學主要課程及學習成績,在學校和班級所擔任的職務,在校期間所獲得的各種獎勵和榮譽。
第三部分:為工作資歷情況。若有工作經驗,最好詳細列明,首先列出最近的資料,後詳述曾工作單位、日期、職位、工作性質。
第四部分:為求職意向。即求職目標或個人期望的工作職位,表明你通過求職希望得到什麼樣的工種、職位,以及你的奮斗目標,可以和個人特長等合寫在一起。
『捌』 大數據面試要准備哪些
一、大數據面試要准備一些應試須知:
1、讓面試官記住你的名字。很多人在介紹自己名字的時候僅僅只有簡單的一句「我叫某某某」,直到你的自我介紹完畢,面試官也沒有記住你的名字,如果後續的自我介紹中沒有突出的表現,那麼這樣的自我介紹註定是失敗的。
2、告訴面試官和應聘職位相關的工作經歷。在自我介紹自己的工作經歷時,一定要注意哪些經歷是和應聘職位相關,對應聘有幫助,哪些是毫無意義的。例如應聘技術人員的職位,我們主要講從事本職工作的經歷,如果有從事其他行業的經歷,比如從事過銷售,組織,管理工作的,也可以略微提一下,往往會對應聘起到一定的幫助。
3、在面試官面前展現性格陽光的一面。性格也是面試官需要考察的一項,一般來說活潑、外向的性格始終會受到大家的親睞,所以我們在面試官面前一定要展示性格陽光的一面,即使內向,也不能表現出來。
4、簡單的介紹一下自己的未來規劃。未來規劃這一項是為了告訴面試官,我是一個有計劃、有目標、有理想的人,我參加面試是因為我對這份工作比較熱愛,而不是為了混口飯吃而應聘這項工作。很多老闆最怕找到以混日子為目的的員工。
5、注意揚長避短。揚長避短也就是說在面試時盡量選擇自己好的方面來說,只說自己的優點,避免談及自己的缺點。從人性的角度來講,人們總是對負面的新聞感興趣,因此在面試時,面試官會千方百計的發現你的缺點,你的弱項,如果我們主動將缺點暴露給對方,那麼產生的影響往往是負面的。
細節決定成敗,一個簡單的自我介紹雖然只有短短的幾分鍾,但是其內容卻包羅萬象,因此在面試時自我介紹的完美與否是舉足輕重的。
二、大數據面試要准備一些常見的面試題:
1、你會Java語言嗎?熟悉到什麼程度?
2、你最喜歡的編程語言是什麼?為什麼?
3、處理過的最大的數據量?你是如何處理他們的?處理的結果如何。
2、在處理大數據過程中,如何保證得到期望值?
3、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?
4、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?
6、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系資料庫更好?
7、如何判別maprece過程有好的負載均衡?什麼是負載均衡?
8、Spark和Hive的區別,以及Spark和Hive的數據傾斜調優問題?
9、Hive和Hbase的區別?
10、MapRece的思想,以及MapRece調優問題?
11、你所了解的開源網站?
12、有兩個集群,每個集群有3個節點,使用hive分析相同的數據,sql語句完全一樣,一個集群的分析結果比另外一個慢的多,給出造成這種現象的可能原因?
13、Hbase的優化?
14、集群的版本,以及集群的瓶頸問題?
15、CRM項目,怎麼跟Spark結合?
16、如何創建一個關鍵字分類?
17、海量日誌數據,提取出某日訪問網路次數最多的那個IP?
18、Hadoop和Spark處理數據時,出現內存溢出的處理方法?
19、有一個1G大小的一個文件,裡面每一是一個詞,詞的大小不超過16位元組,內存大小限制大小1M,返回頻率最高的50個詞。
20、你是如何處理缺少數據的?你是推薦使用什麼樣的處理技術,或者說你是用什麼樣的技術處理呢?