① 大數據面試題及答案誰能分享一下
大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營,人才需求達到歷史最高水平。這對你意味著什麼?如果您想在任何大數據崗位上工作,它只能轉化為更好的機會。您可以選擇成為數據分析師,數據科學家,資料庫管理員,大數據工程師,Hadoop大數據工程師等。在本文中,慧都網將介紹與大數據相關的前10大數據面試問題。
以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題,答案取決於您的經驗,我們將分享一些如何回答它們的提示。
無論何時進行大數據采訪,采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富,都需要基礎知識。因此,讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。
1.您對「大數據」一詞有何了解?
答:大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。
2.大數據的五個V是什麼?
答:大數據的五個V如下:
Volume -Volume表示體積大,即以高速率增長的數據量,即以PB為單位的數據量
Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。
Variety -Variety是指不同的數據類型,即各種數據格式,如文本,音頻,視頻等。
Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性,因此產生了准確性。
Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值,企業可以創造收入。
YARN的兩個主要組成部分:
ResourceManager-該組件接收處理請求,並根據處理需要相應地分配給各個NodeManager。
NodeManager-它在每個單個數據節點上執行任務
7.為什麼Hadoop可用於大數據分析?
答:由於數據分析已成為業務的關鍵參數之一,因此,企業正在處理大量結構化,非結構化和半結構化數據。在Hadoop主要支持其功能的情況下,分析非結構化數據非常困難
存儲
處理
數據採集
此外,Hadoop是開源的,可在商用硬體上運行。因此,它是企業的成本效益解決方案。
8.什麼是fsck?
答:fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如,如果文件有任何丟失的塊,則通過此命令通知HDFS。
9. NAS(網路附加存儲)和HDFS之間的主要區別是什麼?
答:NAS(網路附加存儲)和HDFS之間的主要區別 -
HDFS在一組計算機上運行,而NAS在單個計算機上運行。因此,數據冗餘是HDFS中的常見問題。相反,復制協議在NAS的情況下是不同的。因此,數據冗餘的可能性要小得多。
在HDFS的情況下,數據作為數據塊存儲在本地驅動器中。在NAS的情況下,它存儲在專用硬體中。
10.格式化NameNode的命令是什麼?
答:$ hdfs namenode -format。
歡迎咨詢慧都在線客服,我們將幫您轉接大數據專家團隊,並發送相關資料給您!
以上就是大數據面試題及答案,希望我的回答對您有幫助!
② 你對大數據有哪些認識
"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。 亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。 研發小組對大數據的定義:"大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。" Kelly說:"大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限"。 大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。
③ 面試題-關於大數據量的分布式處理
面試題-關於大數據量的分布式處理
題目:生產系統每天會產生一個日誌文件F,數據量在5000W行的級別。文件F保存了兩列數據,一列是來源渠道,一列是來源渠道上的用戶標識。文件F用來記錄當日各渠道上的所有訪問用戶,每訪問一次,記錄一條。
請問如何快速計算出各渠道上新增的用戶?
問題分析:首先本次面試的是有關於分布式數據處理以及數據分析的職位,所以相關的面試題目可能會偏向於使用分布式的思想去解決。但無奈本人當時反應太慢,實在沒向分布式處理方向思考。
方案一:
本題最直觀的一個處理方法就是,直接拿著當日新增的5000W條訪問記錄一條一條的去匹配歷史訪問用戶。若存在歷史訪問記錄,則忽略;若不存在訪問記錄,則保存為新增記錄。很明顯,假若歷史訪問用戶有2億條記錄,則需要和2億條數據比較5000W次。比較次數可想而知。
由於本人一直在做基於資料庫的數據處理工作,很容易就想到將歷史數據保存在資料庫的一張表中,並對來源渠道和用戶標識這兩個欄位建立索引,然後遍歷日誌文件F(5000W次)。根據日誌文件F中的每一行去匹配資料庫中的歷史訪問記錄。由於歷史數據表有索引,單次查詢的速度也非常快。但是需要5000W次的資料庫查詢,很明顯效率低下。
方案二:
既然多次單一查詢無法滿足要求,於是可以先通過一種數據導入技術將當日新增數據導入到資料庫的另一張表中,並和歷史數據做左外關聯。若能關聯成功,則表示此用戶已存在;若關聯失敗,則表示此用戶不存在。
此方案暫且不說5000W條記錄的大表與2億條記錄的大表關聯效率有多高以及使用到的資料庫緩沖區的資源有多少,單就5000W條訪問記錄導入資料庫表,都是一個不小的時間花費。
方案三:
很明顯,面試時方案二的回答並未達到面試官的預期,最初被遺憾的PASS掉。一家很有潛力,自己很看好的公司,並計劃做為自己未來發展方向的職位,就這樣丟下我,揚長而去了。
這幾天又看了下分布式相關的介紹,突然想到這道題。一下子醒悟過來,其實還是因為對題目要考察的點分析得不夠透徹。當時以為只是僅僅考數據處理效率的一個題目,其實考的是一種將復雜問題拆分為簡單問題的拆分思想。了解到這一層,一種新的方式立馬在腦海中浮現出來。具體如下:
假如現在有N(N>=2)個存儲塊,並存在一個函數f(來源渠道,用戶標識),對於給定的一組(來源渠道,用戶標識),總能將其分發到一個固定的存儲塊內。那麼可以使用此函數將5000W行訪問記錄盡量均勻的分發至N個存儲塊上,並同時使用此函數將歷史訪問記錄也分發至這些存儲塊上。由於相同的一組記錄,肯定會被分配至同一個存儲塊,所以比較時,只需要分別比較各個存儲塊上當日新增記錄與歷史訪問用戶,然後將N個存儲塊上比較的結果匯總,即可得到最終結果。
假設歷史訪問用戶數據已通過函數f(來源渠道,用戶標識)被分發至了N個歷史文件H1、H2、…、HN。則詳細處理步驟如下:
1、將F中的內容使用函數f(來源渠道,用戶標識),分發至文件F1、F2、…、FN內。(可開M(M>=2)個並行,且若N-M越大,同時向同一文件寫入數據的概率越小)
2、將文件F1、F2、…、FN內的訪問記錄去重。(可開N個並行分別處理對應的N個文件)。
3、將文件Fn(1=<n<=N)去重後的結果與對應的歷史文件Hn比較得出新增用戶結果Rn。(可開N個並行分別處理對應的N個文件且當N足夠大時,實際要處理數據的量級就會相當小)。
4、合並第3步得到的結果R1、R2、…、RN即可得到當日新增用戶。(可並行)
5、為使歷史數據文件H1、H2、…、HN中的數據最全,將結果R1、R2、…、RN分別寫入對應的歷史文件中。(可並行)
本方案主要有以下優點:
1、數據的分發、處理、合並都可並行處理,明顯提高了處理效率。
2、由於每個存儲塊上的新增數據,只需要與它對應存儲塊上的歷史數據比較即可,大大減少了比較次數。(對於當日每一條記錄來說,都只需要與大約歷史的N分之一條數據去比較)
3、基本不需要考慮歷史全量數據的保存及獲取問題。
本方案缺點:
1、處理方案明顯變的復雜許多,不僅需要處理數據的分發,處理,還需要一個並行的快速收集方法。
2、可能需要多台伺服器並行處理。
本方案難點:
1、一個穩定(對於相同的一組來源渠道和用戶標識,必定會被分發至同一存儲塊)、快速(根據一條來源渠道和用戶標識數據,可以快速的計算出它將要被分發至的存儲塊)、均勻(當日新增數據及歷史數據都能盡量均勻的被分發至N個存儲塊,最理想的情況是每個存儲塊上分發到的數據都是總數據的N分之一)的分發函數至關重要。
2、如何分發、並行處理及匯總數據。
④ 談談對大數據的理解和認識!
隨著大數據的概念提出,越來越多的人,開始關注數據,注重數據帶來的巨大的價值。大家談論的也都是與大數據相關的專業話題了,無論是商業BI,還是阿里雲。都是越來越多的行業內部人員乃至關注大數據的看客的討論熱點了。
大數據的鼻祖又是什麼呢?
大數據現實體現最初是人口普查,最早是在美國,10年為一個周期做一次人口普查工作,第一次,在1880年用了8年做完,到1890年,人口繼續增長,經過科學的預測,如果還是按照老方法去做,需用13年做完,這顯然跟不上時代的要求。所以人們開始從記錄,採集,整理,分析等多個領域尋求加快數據分析的速度,大數據的概念也慢慢被提出。
大數據在我們現在生活有哪些體現?
現如今,大數據體現最多的可能是社交網路之中了比如:facebook,微信等網路社交平台。其中也不乏實際應用的例子。
微信幾乎每個人都有,但微信的朋友圈可以向定向的人群發送指定的廣告,還可以選擇地區,可以選擇性別,年紀分類,教育程度分類,給所有用戶進行初步分類之後,再是根據你朋友圈的發文或者交流信息進行提取分析,進一步給每個客戶貼上獨特的標簽,最後把相關信息給到銷售部門,進行精準營銷。
如今還有絕大多數的公司對於大數據渴望又不知道如何下手,其中大致包括兩個方面。
1、想做數據分析,但是之前沒有相關的數據意識,基礎數據丟失或從未搜集,或者數據孤島嚴重,行業數據相對獨立而難以共享。
2、數據產生的體量大,維度高,提取難度大。例如某個知名商業銀行的信用卡部門,每天收集大量的個人客戶的多維度信息,面對大量信心無法價值化,因為涉及個人隱私和安全,數據不可買賣,又不知道如何內部進行分析促進其他相關業務增長。
此外,在整個企業的運作過程還可以分為交易數據和交互數據。
農夫山泉,幾年前銷量並不如今,當時他們基本上只掌握了大量的交易的數據,通過分析得出,農夫山泉的利潤始終上不來,是因為運輸成本很高,如何降低運輸成本成為問題的關鍵點,交互數據的需求成為至關重要的一環,所以決定,每個採集人員每天到10至20個銷售點,取收集大量的交互數據,其中包括水的位置,排列形狀,天氣,優惠活動,市場反饋等一系列交互數據,一個月一個人收集的信息量大約3個TB,繼而委託sap公司進行分析開發出物流成本控制處理系統,從而進行運輸預測,運輸安排和中轉站的一系列重新部署,最終直接降低運輸成本,提高了運輸效果,終於坐到飲用水市場第一的位置。
通過今天的介紹,希望給大家一些對於大數據的基本認識,也希望大家一同關注大數據發展,共同分享大數據帶來的驚喜。如果您還存在疑惑或是想要了解更多,歡迎關注西線學院。
⑤ 對大數據的認識和看法
原來是利大於弊,現在很難說了
⑥ 怎麼面試大數據分析師
1、考察對數據的敏感度。
面試的時候,數據部門經理問一些生活中的數據的問題,一個優秀的數據分析師對數據有很強的敏感度,生活中常見的數據,你直觀的感受往往能反應出你的資質。
2、數學基本概念和統計學方法。
遇到的有排列組合的問題的,還有指數衰減的定義等等。或者直接給一個問題或者數據,問問你打算用什麼樣的方法怎樣去分析。在給你數據的時候,一定要記得說數據預處理!這一點非常重要,這樣會讓人覺得你的回答邏輯清楚,有條有理。如果想從事與數據科學相關的崗位,需要學習的數據知識可以參考成都加米穀大數據培訓機構的:想從事數據科學相關崗位,這些數學基礎「必備」。
3、編程能力。
你一定要有自己熟練的軟體,常問的問題是,你一般用excel干什麼,常用的函數有哪些?你是否用過數據透視表?是夠用過宏?你平時多久用一次R?你是否用過或了解過並行?等等關於軟體的問題。在面試小公司時,HR會可能直接給你一個數據進行數據分析,題目一般給的都不太難。
⑦ 對大數據的理解
大數據是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產,簡單來說大數據就是海量的數據,就是數據量大、來源廣、種類繁多(日誌、視頻、音頻),大到PB級別,現階段的框架就是為了解決PB級別的數據。
大數據的7大特徵:海量性,多樣性,高速性,可變性,真實性,復雜性,價值性
隨著大數據產業的發展,它逐漸從一個高端的、理論性的概念演變為具體的、實用的理念。
很多情況下大數據來源於生活。比如你點外賣,准備什麼時候買,你的位置在哪,商家位置在哪,想吃什麼……這都是數據,人一多各種各樣的信息就越多,還不斷增長,把這些信息集中,就是大數據。
大數據的價值並不是在這些數據上,而是在於隱藏在數據背後的——用戶的喜好、習慣還有信息。
⑧ 常見大數據公司面試問題有哪些
1、您對“大數據”一詞有什麼了解?
答: 大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是為什麼使用特殊的工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還使公司能夠根據數據做出更好的業務決策。
2、告訴我們大數據和Hadoop之間的關系。
答: 大數據和Hadoop幾乎是同義詞。隨著大數據的興起,專門用於大數據操作的Hadoop框架也開始流行。專業人士可以使用該框架來分析大數據並幫助企業做出決策。
注意: 在大數據采訪中通常會問這個問題。 可以進一步去回答這個問題,並試圖解釋的Hadoop的主要組成部分。
3、大數據分析如何有助於增加業務收入?
答:大數據分析對於企業來說已經變得非常重要。它可以幫助企業與眾不同,並增加收入。通過預測分析,大數據分析為企業提供了定製的建議。此外,大數據分析使企業能夠根據客戶的需求和偏好推出新產品。這些因素使企業獲得更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。