Ⅰ 創建大數據項目的五大步驟
創建大數據項目的五大步驟
企業需要積極的提升他們的數據管理能力。這並非意味著他們應該制定繁瑣的流程和監督機制。明智的企業會配合他們的數據活動的生命周期制定靈活的流程和功能:根據業務需求啟動更輕更嚴格、更強大的功能,並根據需求的增加來提升質量或精度。
一些企業正在利用新興技術來應對新的數據源,但大多數企業仍然面臨著需要努力管理好他們已經掌握或者應當掌握的數據信息的困境,而當他們試圖部署大數據功能時,發現自己還需要面對和處理新的以及當下實時的數據。
為了能夠實現持久成功的大數據項目,企業需要把重點放在如下五個主要領域。
1、確立明確的角色分工和職責范圍。
對於您企業環境中的所有的數據信息,您需要對於這些數據信息所涉及的關鍵利益相關者、決策者有一個清晰的了解和把控。當數據信息在企業的系統傳輸過程中及其整個生命周期中,角色分工將發生變化,而企業需要對這些變化有一個很好的理解。當企業開始部署大數據項目之後,務必要明確識別相關數據的關鍵利益相關者,並做好這些數據信息的完善和迭代工作。
2、加強企業的數據治理和數據管理功能。
確保您企業的進程足夠強大,能夠滿足和支持大數據用戶和大數據技術的需求。進程可以是靈活的,並應充分考慮到業務部門和事務部門的需求,這些部門均伴有不同程度的嚴謹性和監督要求。
確保您企業的參考信息架構已經更新到包括大數據。這樣做會給未來的項目打好最好的使用大數據技術和適當的信息管理能力的基礎。
確保您企業的元數據管理功能足夠強大,能夠包括並關聯所有的基本元數據組件。隨著時間的推移,進行有序的分類,滿足業務規范。
一旦您開始在您企業的生產部門推廣您的解決方案時,您會希望他們長期持續的使用該解決方案,所以對架構功能的定義並監督其發揮的作用是至關重要的。確保您企業的治理流程包括IT控制的角色,以幫助企業的利益相關者們進行引導項目,以最佳地利用這些數據信息。其還應該包括您企業的安全和法務團隊。根據我們的經驗,使用現有的監督機制能夠達到最佳的工作狀態,只要企業實施了大數據應用,並專注於快速在進程中處理應用程序,而不是阻礙進程的通過。
3、了解環境中的數據的目的和要求的精度水平,並相應地調整您企業的期望值和流程。
無論其是一個POC,或一個已經進入主流業務流程的項目,請務必確保您對於期望利用這些數據來執行什麼任務,及其質量和精度處於何種級別有一個非常清晰的了解。這種方法將使得企業的項目能夠尋找到正確的數據來源和利益相關者,以更好地評估這些數據信息的價值和影響,進而讓您決定如何最好地管理這些數據信息。更高的質量和精度則要求更強大的數據管理和監督能力。
隨著您企業大數據項目的日趨成熟,考慮建立一套按照數據質量或精確度分類的辦法,這將使得數據用戶得以更好的了解他們所使用的是什麼,並相應地調整自己的期望值。例如,您可以使用白色、藍色或金色來分別代表原始數據、清理過的數據,經過驗證可以有針對性的支持分析和使用的數據。有些企業甚至進一步完善了這一分類方法:將數據從1到5進行分類,其中1是原始數據,而5是便於理解,經過整理的、有組織的數據。
4、將對非結構化的內容的管理納入到您企業的數據管理能力。
非結構化數據一直是企業業務運營的一部分,但既然現在我們已經有了更好的技術來探索,分析和這些非結構化的內容,進而幫助改善業務流程和工業務洞察,所以我們最終將其正式納入我們的數據管理是非常重要的。大多數企業目前都被困在了這一步驟。
資料庫中基本的、非結構化的數據是以評論的形式或者自由的形式存在的,其至少是資料庫的一部分,應該被納入到數據管理。但挖掘這些數據信息則是非常難的。
數字數據存儲在傳統的結構化資料庫和業務流程外,很少有許多的治理范圍分組和數據管理的實現,除了當其被看作是一個技術問題時。一般來說,除了嚴格遵守相關的安全政策,今天的企業尚未對其進行真正有效的管理。當您的企業開始大跨步實現了大數據項目之後,您會發現這一類型的數據信息迅速進入了您需要管理的范疇,其輸出會影響您企業的商業智能解決方案或者甚至是您企業的業務活動。積極的考慮將這些數據納入到您企業的數據管理功能的范圍,並明確企業的所有權,並記錄好這些數據信息的諸如如何使用、信息來源等等資料。
不要採取「容易的輕松路線」,單純依靠大數據技術是您企業唯一正式的非結構化數據管理的過程。隨著時間的推移,企業將收集越來越多的非結構化數據,請務必搞清楚哪些數據是好的,哪些是壞的,他們分別來自何處,以及其使用是否一致,將變得越來越重要,甚至在其生命周期使用這個數據都是至關重要的。
要保持這種清晰,您可以使用大數據和其他工具,以了解您企業所收集的數據信息,確定其有怎樣的價值,需要怎樣的管理,這是至關重要的。大多數進入您企業的大數據系統的非結構化數據都已經經過一些監控了,但通常是作為一個BLOB(binarylargeobject)二進制大對象和非結構化的形式進行的。隨著您的企業不斷的在您的業務流程中「發掘」出這一類型的數據,其變得更加精確和有價值。其可能還具有額外的特點,符合安全,隱私或法律和法規的元素要求。最終,這些數據塊可以成為新的數據元素或添加到現有的數據,但您必須有元數據對其進行描述和管理,以便盡可能最有效地利用這些數據。
5、正式在生產環境運行之前進行測試。
如果您的企業做的是一次性的分析或完整的一次性的試點,這可能並不適用於您的企業,但對大多數企業來說,他們最初的大數據工作將迅速發展,他們找到一個可持續利用他們已經挖掘出的極具價值的信息的需求。這意味著需要在您的沙箱環境中進行測試,然後才正式的在您的生產環境運。
Ⅱ 大數據挖掘中的三種角色
大數據挖掘中的三種角色_數據分析師考試
我對數據挖掘和機器學習是新手,從去年7月份在Amazon才開始接觸,而且還是因為工作需要被動接觸的,以前都沒有接觸過,做的是需求預測機器學習相關的。後來,到了淘寶後,自己憑興趣主動地做了幾個月的和用戶地址相關數據挖掘上的工作,有一些淺薄的心得。不管怎麼樣,歡迎指教和討論。
另外,註明一下,這篇文章的標題模仿了一個美劇《權力的游戲:冰與火之歌》。在數據的世界裡,我們看到了很多很牛,很強大也很有趣的案例。但是,數據就像一個王座一樣,像征著一種權力和征服,但登上去的路途一樣令人膽顫。
數據挖掘中的三種角色
在Amazon里從事機器學習的工作時,我注意到了Amazon玩數據的三種角色。
Data Analyzer:數據分析員。這類人的人主要是分析數據的,從數據中找到一些規則,並且為了數據模型的找不同場景的Training Data。另外,這些人也是把一些臟數據洗干凈的的人。
Research Scientist:研究科學家。這種角色主要是根據不同的需求來建立數據模型的。他們把自己戲稱為不近人間煙火的奇異性物種,就像《生活大爆炸》里的那個Sheldon一樣。這些人基本上玩的是數據上的科學
Software Developer:軟體開發工程師。主要是把Scientist建立的數據模型給實現出來,交給Data Analyzer去玩。這些人通常更懂的各種機器學習的演算法。
我相信其它公司的做數據挖掘或是機器學習的也就這三種工作,或者說這三種人,對於我來說,
最有技術含量的是Scientist,因為數據建模和抽取最有意義的向量,以及選取不同的方法都是這類人來決定的。這類人,我覺得在國內是找不到的。
最苦逼,也最累,但也最重要的是Data Analyzer,他們的活也是這三個角色中最最最重要的(注意:我用了三個最)。因為,無論你的模型你的演算法再怎麼牛,在一堆爛數據上也只能幹出一堆垃圾的活來。正所謂:Garbage In, Garbage Out!但是這個活是最臟最累的活,也是讓人最容易退縮的活。
最沒技術含量的是Software Developer。現在國內很多玩數據的都以為演算法最重要,並且,很多技術人員都在研究機器學習的演算法。錯了,最重要的是上面兩個人,一個是苦逼地洗數據的Data Analyzer,另一個是真正懂得數據建模的Scientist!而像什麼K-Means,K Nearest Neighbor,或是別的什麼貝葉斯、回歸、決策樹、隨機森林等這些玩法,都很成熟了,而且又不是人工智慧,說白了,這些演算法在機器學習和數據挖掘中,似乎就像Quick Sort之類的演算法在軟體設計中基本沒什麼技術含量。當然,我不是說演算法不重要,我只想說這些演算法在整個數據處理中是最不重要的。
數據的質量
目前所流行的Buzz Word——大數據是相當誤導人的。在我眼中,數據不分大小,只分好壞。
在處理數據的過程中,我第一個感受最大的就是數據質量。下面我分幾個案例來說明:
案例一:數據的標准
在Amazon里,所有的商品都有一個唯一的ID,叫ASIN——Amazon Single Identify Number,這個ID是用來標識商品的唯一性的(來自於條形碼)。也就是說,無論是你把商品描述成什麼樣,只要ASIN一樣,這就是完完全全一模一樣的商品。
這樣,就不像淘寶一樣,當你搜索一個iPhone,你會出現一堆各種各樣的iPhone,有的叫「超值iPhone」,有的叫「蘋果iPhone」,有的叫「智能手機iPhone」,有的叫「iPhone白色/黑色」……,這些同一個商品不同的描述是商家為了吸引用戶。但是帶來的問題有兩點:
1)用戶體驗不好。以商品為中心的業務模型,對於消費者來說,體驗明顯好於以商家為中心的業務模型。
2)只要你不能正確讀懂(識別)數據,你後面的什麼演算法,什麼模型統統沒用。
所以,只要你玩數據,你就會發現,如果數據的標准沒有建立起來,干什麼都沒用。數據標準是數據質量的第一道關卡,沒這個玩意,你就什麼也別玩了。所謂數據的標准,為數據做唯一標識只是其中最最基礎的一步,數據的標准還單單只是這個,更重要的是把數據的標准抽象成數學向量,沒有數學向量,後面也無法挖掘。
所以,你會看到,洗數據的大量的工作就是在把雜亂無章的數據歸並聚合,這就是在建立數據標准。這裡面絕對少不了人肉的工作。無非就是:
聰明的人在數據產生之前就定義好標准,並在數據產生之時就在干數據清洗的工作。
一般的人是在數據產生並大量堆積之後,才來干這個事。
另外,說一下Amazon的ASIN,這個事從十多年前就開始了,我在Amazon的內網里看到的資料並沒有說為什麼搞了個這樣一個ID,我倒覺得這並不是因為Amazon因為玩數據發現必需建議個商品ID,也許因為Amazon的業務模型就是設計成以「商品為中心」的。今天,這個ASIN依然有很多很多的問題,ASIN一樣不能完全保證商品就是一樣的,ASIN不一樣也不代表商品不一樣,不過90%以上的商品是保證的。Amazon有專門的團隊Category Team,裡面有很多業務人員天天都在拚命地在對ASIN的數據進行更正。
案例二:數據的准確
用戶地址是我從事過數據分析的另一個事情。我還記得當時看到那數以億計的用戶地址的數據的那種興奮。但是隨後我就興奮不起來了。因為地址是用戶自己填寫的,這裡面有很多的坑,都不是很容易做的。
第一個是假/錯地址,因為有的商家作弊或是用戶做測試。所以地址是錯的,
比如,直接就輸入「該地址不存在」,「13243234asdfasdi」之類的。這類的地址是可以被我的程序識別出來的。
還有很難被我的程序所識別出來的。比如:「宇宙路地球小區」之類的。但這類地址可以被人識別出來。
還有連人都識別不出來的,比如:「北京市東四環中路23號南航大廈5樓540室」,這個地址根本不存在。
第二個是真地址,但是因為用戶寫的不標准,所以很難處理,比如:
縮寫:「建國門外大街」和「建外大街」,「中國工商銀行」和「工行」……
錯別字:「潮陽門」,「通慧河」……
顛倒:「東四環中路朝陽公園」和「朝陽公園(靠東四環)」……
別名:有的人寫的是開發商的小區名「東恆國際」,有的則是寫行政的地名「八里庄東里」……
這樣的例子多得不能再多了。可見數據如果不準確,會增加你處理的難度。有個比喻非常好,玩數據的就像是在挖金礦一樣,如果含金量高,那麼,挖掘的難度就小,也就容易出效果,如果含金量低,那麼挖掘的難度就大,效果就差。
上面,我給了兩個案例,旨在說明——
1)數據沒有大小之分,只有含金量大的數據和垃圾量大的數據之分。
2)數據清洗是一件多麼重要的工作,這也是一件人肉工作量很大的工作。
所以,這個工作最好是在數據產生的時候就一點一滴的完成。
有一個觀點:如果數據准確度在60%的時候,你干出來的事,一定會被用戶罵!如果數據准確度在80%左右,那麼用戶會說,還不錯!只有數據准確度到了90%的時候,用戶才會覺得真牛B。但是從數據准確度從80%到90%要付出的成本要比60%到80%的付出大得多得多。大多數據的數據挖掘團隊都會止步於70%這個地方。因為,再往後,這就是一件相當累的活。
數據的業務場景
我不知道有多少數據挖掘團隊真正意識到了業務場景和數據挖掘的重要關系?我們需要知道,根本不可能做出能夠滿足所有業務的數據挖掘和分析模型。
推薦音樂視頻,和電子商務中的推薦商品的場景完全不一樣。電商中,只要你買了一個東西沒有退貨,那麼,有很大的概率我可以相信你是喜歡這個東西的,然後,對於音樂和視頻,你完全不能通過用戶聽了這首歌或是看了這個視頻就武斷地覺得用戶是喜歡這首歌和這個視頻的,所以,我們可以看到,推薦演算法在不同的業務場景下的實現難度也完全不一樣。
說到推薦演算法,你是不是和我一樣,有時候會對推薦有一種感覺——推薦就是一種按不同維度的排序的演算法。我個人以為,就提一下推薦這個東西在某些業務場景下是比較Tricky的,比如,推薦有兩種(不是按用戶關系和按物品關系這兩種),
一種是共性化推薦,結果就是推薦了流行的東西,這也許是好的,但這也許會是用戶已知的東西,比如,到了北京,我想找個飯館,你總是給我推薦烤鴨,我想去個地方,你總是給我推薦天安門故宮天壇(因為大多數人來北京就是吃烤鴨,就是去天安門的),這些我不都知道了嘛,還要你來推薦?另外,共性化的東西通常是可以被水軍刷的。
另一種是一種是個性化推薦,這個需要分析用戶的個體喜好,好的就是總是給我我喜歡的,不好的就是也許我的口味會隨我的年齡和環境所改變,而且,總是推薦符合用戶口味的,不能幫用戶發掘新鮮點。比如,我喜歡吃辣的,你總是給我推薦川菜和湘菜,時間長了我也會覺得煩的。
推薦有時並不是民主投票,而是專業用戶或資深玩家的建議;推薦有時並不是推薦流行的,而是推薦新鮮而我不知道的。你可以看到,不同的業務場景,不同的產品形態下的玩法可能完全不一樣,
另外,就算是對於同一個電子商務來說,書、手機和服裝的業務形態完全不一樣。我之前在Amazon做Demand Forecasting(用戶需求預測)——通過歷史數據來預測用戶未來的需求。
對於書、手機、家電這些東西,在Amazon里叫Hard Line的產品,你可以認為是「標品」(但也不一定),預測是比較準的,甚至可以預測到相關的產品屬性的需求。
但是地於服裝這樣的叫Soft Line的產品,Amazon幹了十多年都沒有辦法預測得很好,因為這類東西受到的干擾因素太多了,比如:用戶的對顏色款式的喜好,穿上去合不合身,愛人朋友喜不喜歡……這類的東西太容易變了,買得人多了反而會賣不好,所以根本沒法預測好,更別Stock/Vender Manager提出來的「預測某品牌的某種顏色的衣服或鞋子」。
對於需求的預測,我發現,長期在這個行業中打拚的人的預測是最準的,什麼機器學習都是浮雲。機器學習只有在你要面對的是成千上萬種不同商品和品類的時候才會有意義。
數據挖掘不是人工智慧,而且差得還太遠。不要覺得數據挖掘什麼事都能幹,找到一個合適的業務場景和產品形態,比什麼都重要。
數據的分析結果
我看到很多的玩大數據的,基本上乾的是數據統計的事,從多個不同的維度來統計數據的表現。最簡單最常見的統計就是像網站統計這樣的事。比如:PV是多少,UV是多少,來路是哪裡,瀏覽器、操作系統、地理、搜索引擎的分布,等等,等等。
嘮叨一句,千萬不要以為,你一天有十幾個T的日誌就是數據了,也不要以為你會用Hadoop/MapRece分析一下日誌,這就是數據挖掘了,說得難聽一點,你在做的只不過是一個統計的工作。那幾個T的Raw Data,基本上來說沒什麼意義,只能叫日誌,連數據都算不上,只有你統計出來的這些數據才是有點意義的,才能叫數據。
當一個用戶在面對著自己網店的數據的時候,比如:每千人有5個人下單,有65%的訪客是男的,18-24歲的人群有30%,等等。甚至你給出了,你打敗了40%同類型商家的這樣的數據。作為一個商戶,面對這些數據時,大多數人的表現是完全不知道自己能幹什麼?是把網站改得更男性一點,還是讓年輕人更喜歡一點?完全不知道所措。
只要你去看一看,你會發現,好些好些的數據分析出來的結果,看上去似乎不錯,但是其實完全不知道下一步該干什麼?
所以,我覺得,數據分析的結果並不僅僅只是把數據呈現出來,而更應該關注的是通過這些數據後面可以干什麼?如果看了數據分析的結果後並不知道可以干什麼,那麼這個數據分析是失敗的。
總結
綜上所述,下面是我覺得數據挖掘或機器學習最重要的東西:
1)數據的質量。分為數據的標准和數據的准確。數據中的雜音要盡量地排除掉。為了數據的質量,大量人肉的工作少不了。
2)數據的業務場景。我們不可能做所有場景下的來,所以,業務場景和產品形態很重要,我個人感覺業務場景越窄越好。
3)數據的分析結果,要讓人能看得懂,知道接下來要干什麼,而不是為了數據而數據。
搞數據挖掘的人很多,但成功的案例卻不多(相比起大量的嘗試來說),就目前而言,我似乎覺得目前的數據挖掘的技術是一種過渡技術,還在摸索階段。另外,好些數據挖掘的團隊搞得業務不業務,技術不技術的,為其中的技術人員感到惋惜……
不好意思,我只給出了問題,沒有建議,這也說明數據分析中有很多的機會……
最後,還要提的一個是「數據中的個人隱私問題」,這似乎就像那些有悖倫理的黑魔法一樣,你要成功就得把自己變得黑暗。是的,數據就像一個王座一樣,像征著一種權力和征服,但登上去的路途一樣令人膽顫。
以上是小編為大家分享的關於大數據挖掘中的三種角色的相關內容,更多信息可以關注環球青藤分享更多干貨
Ⅲ 大數據架構師崗位的主要職責概述
職責:
1、負責大數據平台及BI系統框架設計、規劃、技術選型,架構設計並完成系統基礎服務的開發;
2、負責海量埋點規則、SDK標准化、埋點數據採集、處理及存儲,業務數據分布存儲、流式/實時計算等應用層架構搭建及核心代碼實現;
3、開發大數據平台的核心代碼,項目敏捷開發流程管理,完成系統調試、集成與實施,對每個項目周期技術難題的解決,保證大數據產品的上線運行;
4、負責大數據平台的架構優化,代碼評審,並根據業務需求持續優化數據架構,保證產品的可靠性、穩定性;
5、指導開發人員完成數據模型規劃建設,分析模型構建及分析呈現,分享技術經驗;
6、有效制定各種突發性研發技術故障的應對預案,有清晰的隱患意識;
7、深入研究大數據相關技術和產品,跟進業界先進技術;
任職要求
1、統計學、應用數學或計算機相關專業大學本科以上學歷;
2、熟悉互聯網移動端埋點方法(點擊和瀏覽等行為埋點),無埋點方案等,有埋點SDK獨立開發經驗者優選;
3、熟悉Hadoop,MR/MapRece,Hdfs,Hbase,Redis,Storm,Python,zookeeper,kafka,flinkHadoop,hive,mahout,flume,ElasticSearch,KafkaPython等,具備實際項目設計及開發經驗;
4、熟悉數據採集、數據清洗、分析和建模工作相關技術細節及流程
5、熟悉Liunx/Unix操作系統,能熟練使用shell/perl等腳本語言,熟練掌握java/python/go/C++中一種或多種編程語言
6、具備一定的演算法能力,了解機器學習/深度學習演算法工具使用,有主流大數據計算組件開發和使用經驗者優先
7、熟悉大數據可視化工具Tableau/echarts
8、具有較強的執行力,高度的責任感、很強的學習、溝通能力,能夠在高壓下高效工作;
職責:
根據大數據業務需求,設計大數據方案及架構,實現相關功能;
搭建和維護大數據集群,保證集群規模持續、穩定、高效平穩運行;
負責大數據業務的設計和指導具體開發工作;
負責公司產品研發過程中的數據及存儲設計;
針對數據分析工作,能夠完成和指導負責業務數據建模。
職位要求:
計算機、自動化或相關專業(如統計學、數學)本科以上學歷,3年以上大數據處理相關工作經驗;
精通大數據主流框架(如Hadoop、hive、Spark等);
熟悉MySQL、NoSQL(MongoDB、Redis)等主流資料庫,以及rabbit MQ等隊列技術;
熟悉hadoop/spark生態的原理、特性且有實戰開發經驗;
熟悉常用的數據挖掘演算法優先。
職責:
1、大數據平台架構規劃與設計;
2、負責大數據平台技術框架的選型與技術難點攻關;
3、能夠獨立進行行業大數據應用的整體技術框架、業務框架和系統架構設計和調優等工作,根據系統的業務需求,能夠指導開發團隊完成實施工作;
4、負責數據基礎架構和數據處理體系的升級和優化,不斷提升系統的穩定性和效率,為相關的業務提供大數據底層平台的支持和保證;
5、培養和建立大數據團隊,對團隊進行技術指導。
任職要求:
1、計算機相關專業的背景專業一類院校畢業本科、碩士學位,8年(碩士5年)以上工作經驗(至少擁有3年以上大數據項目或產品架構經驗);
2、精通Java,J2EE相關技術,精通常見開源框架的架構,精通關系資料庫系統(Oracle MySQL等)和noSQL數據存儲系統的原理和架構;
3、精通SQL和Maprece、Spark處理方法;
4、精通大數據系統架構,熟悉業界數據倉庫建模方法及新的建模方法的發展,有DW,BI架構體系的專項建設經驗;
5、對大數據體系有深入認識,熟悉Kafka、Hadoop、Hive、HBase、Spark、Storm、greenplum、ES、Redis等大數據技術,並能設計相關數據模型;
6、很強的學習、分析和解決問題能力,可以迅速掌握業務邏輯並轉化為技術方案,能獨立撰寫項目解決方案、項目技術文檔;
7、具有較強的內外溝通能力,良好的團隊意識和協作精神;
8、機器學習技術、數據挖掘、人工智慧經驗豐富者優先考慮;
9、具有能源電力行業工作經驗者優先。
職責:
1.參與公司數據平台系統規劃和架構工作,主導系統的架構設計和項目實施,確保項目質量和關鍵性能指標達成;
2.統籌和推進製造工廠內部數據系統的構建,搭建不同來源數據之間的邏輯關系,能夠為公司運營診斷、運營效率提升提供數據支持;
3.負責數據系統需求對接、各信息化系統數據對接、軟體供應商管理工作
5.根據現狀制定總體的數據治理方案及數據體系建立,包括數據採集、接入、分類、開發標准和規范,制定全鏈路數據治理方案;深入挖掘公司數據業務,超強的數據業務感知力,挖掘數據價值,推動數據變現場景的落地,為決策及業務賦能;
6.定義不同的數據應用場景,推動公司的數據可視化工作,提升公司數據分析效率和數據價值轉化。
任職要求:
1.本科以上學歷,8年以上軟體行業從業經驗,5年以上大數據架構設計經驗,熟悉BI平台、大數據系統相關技術架構及技術標准;
2.熟悉數據倉庫、熟悉數據集市,了解數據挖掘、數據抽取、數據清洗、數據建模相關技術;
3.熟悉大數據相關技術:Hadoop、Hive、Hbase、Storm、Flink、Spark、Kafka、RabbitMQ;
4.熟悉製造企業信息化系統及相關資料庫技術;
5.具備大數據平台、計算存儲平台、可視化開發平台經驗,具有製造企業大數據系統項目開發或實施經驗優先;
6.對數據敏感,具備優秀的業務需求分析和報告展示能力,具備製造企業數據分析和數據洞察、大數據系統的架構設計能力,了解主流的報表工具或新興的前端報表工具;
7.有較強的溝通和組織協調能力,具備結果導向思維,有相關項目管理經驗優先。
職責:
1.負責產品級業務系統架構(如業務數據對象識別,數據實體、數據屬性分析,數據標准、端到端數據流等)的設計與優化。協助推動跨領域重大數據問題的分析、定位、解決方案設計,從架構設計上保障系統高性能、高可用性、高安全性、高時效性、分布式擴展性,並對系統質量負責。
2.負責雲數據平台的架構設計和數據處理體系的優化,推動雲數據平台建設和持續升級,並制定雲數據平台調用約束和規范。
3.結合行業應用的需求負責數據流各環節上的方案選型,主導雲數據平台建設,參與核心代碼編寫、審查;數據的統計邏輯回歸演算法、實時交互分析;數據可視化方案等等的選型、部署、集成融合等等。
4.對雲數據平台的關注業內技術動態,持續推動平台技術架構升級,以滿足公司不同階段的數據需求。
任職要求:
1.熟悉雲計算基礎平台,包括linux(Ubuntu/CentOS)和KVM、OpenStack/K8S等基礎環境,熟悉控制、計算、存儲和網路;
2.掌握大型分布式系統的技術棧,如:CDN、負載均衡、服務化/非同步化、分布式緩存、NoSQL、資料庫垂直及水平擴容;熟悉大數據應用端到端的相關高性能產品。
3.精通Java,Python,Shell編程語言,精通SQL、NoSQL等資料庫增刪改查的操作優化;
4.PB級別實戰數據平台和生產環境的實施、開發和管理經驗;
5.熟悉Docker等容器的編排封裝,熟悉微服務的開發和日常調度;
6.計算機、軟體、電子信息及通信等相關專業本科以上學歷,5年以上軟體工程開發經驗,2年以上大數據架構師工作經驗。
職責描述:
1、負責集團大數據資產庫的技術架構、核心設計方案,並推動落地;
2、帶領大數據技術團隊實現各項數據接入、數據挖掘分析及數據可視化;
3、新技術預研,解決團隊技術難題。
任職要求:
1、在技術領域有5年以上相關經驗,3年以上的架構設計或產品經理經驗;
2、具有2年以上大數據產品和數據分析相關項目經驗;
3、精通大數據分布式系統(hadoop、spark、hive等)的架構原理、技術設計;精通linux系統;精通一門主流編程語言,java優先。
崗位職責:
1、基於公司大數據基礎和數據資產積累,負責大數據應用整體技術架構的設計、優化,建設大數據能力開放平台;負責大數據應用產品的架構設計、技術把控工作。
2、負責制定大數據應用系統的數據安全管控體系和數據使用規范。
3、作為大數據技術方案到產品實現的技術負責人,負責關鍵技術點攻堅工作,負責內部技術推廣、培訓及知識轉移工作。
4、負責大數據系統研發項目任務規劃、整體進度、風險把控,有效協同團隊成員並組織跨團隊技術協作,保證項目質量與進度。
5、負責提升產品技術團隊的技術影響力,針對新人、普通開發人員進行有效輔導,幫助其快速成長。
任職資格:
1、計算機、數學或相關專業本科以上學歷,5—20xx年工作經驗,具有大型系統的技術架構應用架構數據架構相關的實踐工作經驗。
2、有分布式系統分析及架構設計經驗,熟悉基於計算集群的軟體系統架構和實施經驗。
3、掌握Hadoop/Spark/Storm生態圈的主流技術及產品,深入了解Hadoop/Spark/Storm生態圈產品的工作原理及應用場景。
4、掌握Mysql/Oracle等常用關系型資料庫,能夠對SQL進行優化。
5、熟悉分布式系統基礎設施中常用的技術,如緩存(Varnish、Memcache、Redis)、消息中間件(Rabbit MQ、Active MQ、Kafka、NSQ)等;有實踐經驗者優先。
6、熟悉Linux,Java基礎扎實,至少3—5年以上Java應用開發經驗,熟悉常用的設計模式和開源框架。
崗位職責:
1、負責公司大數據平台架構的技術選型和技術難點攻關工作;
2、依據行業數據現狀和客戶需求,完成行業大數據的特定技術方案設計與撰寫;
3、負責研究跟進大數據架構領域新興技術並在公司內部進行分享;
4、參與公司大數據項目的技術交流、解決方案定製以及項目的招投標工作;
5、參與公司大數據項目前期的架構設計工作;
任職要求:
1、計算機及相關專業本科以上,5年以上數據類項目(數據倉庫、商務智能)實施經驗,至少2年以上大數據架構設計和開發經驗,至少主導過一個大數據平台項目架構設計;
2、精通大數據生態圈的技術,包括但不限於MapRece、Spark、Hadoop、Kafka、Mongodb、Redis、Flume、Storm、Hbase、Hive,具備數據統計查詢性能優化能力。熟悉星環大數據產品線及有過產品項目實施經驗者優先;
3、優秀的方案撰寫能力,思路清晰,邏輯思維強,能夠根據業務需求設計合理的解決方案;
4、精通ORACLE、DB2、mySql等主流關系型資料庫,熟悉數據倉庫建設思路和數據分層架構思想;
5。熟練掌握java、R、python等1—2門數據挖掘開發語言;
6。熟悉雲服務平台及微服務相關架構思想和技術路線,熟悉阿里雲或騰訊雲產品者優先;
7、有煙草或製造行業大數據解決方案售前經驗者優先;
8、能適應售前支持和項目實施需要的短期出差;
崗位職責:
1、負責相關開源系統/組件的性能、穩定性、可靠性等方面的深度優化;
2、負責解決項目上線後生產環境的各種實際問題,保障大數據平台在生產上的安全、平穩運行;
3、推動優化跨部門的業務流程,參與業務部門的技術方案設計、評審、指導;
4、負責技術團隊人員培訓、人員成長指導。
5、應項目要求本月辦公地址在錦江區金石路316號新希望中鼎國際辦公,月底項目結束後在總部公司辦公
任職要求:
1、熟悉linux、JVM底層原理,能作為技術擔當,解決核心技術問題;
2、3年以上大數據平台項目架構或開發經驗,對大數據生態技術體系有全面了解,如Yarn、Spark、HBase、Hive、Elasticsearch、Kafka、PrestoDB、Phoenix等;
3、掌握git、maven、gradle、junit等工具和實踐,注重文檔管理、注重工程規范優先;
4、熟悉Java後台開發體系,具備微服務架構的項目實施經驗,有Dubbo/Spring cloud微服務架構設計經驗優先;
5、性格開朗、善於溝通,有極強的技術敏感性和自我驅動學習能力,注重團隊意識。
職責描述:
1、負責大數據平台框架的規劃設計、搭建、優化和運維;
2、負責架構持續優化及系統關鍵模塊的設計開發,協助團隊解決開發過程中的技術難題;
3、負責大數據相關新技術的調研,關注大數據技術發展趨勢、研究開源技術、將新技術應用到大數據平台,推動數據平台發展;
4、負責數據平台開發規范制定,數據建模及核心框架開發。
任職要求:
1、計算機、數學等專業本科及以上學歷;
2、具有5年及以上大數據相關工作經驗;
3、具有扎實的大數據和數據倉庫的理論功底,負責過大數據平台或數據倉庫設計;
4、基於hadoop的大數據體系有深入認識,具備相關產品(hadoop、hive、hbase、spark、storm、 flume、kafka、es等)項目應用研發經驗,有hadoop集群搭建和管理經驗;
5、熟悉傳統數據倉庫數據建模,etl架構和開發流程,使用過kettle、talend、informatic等至少一種工具;
6、自驅力強、優秀的團隊意識和溝通能力,對新技術有好奇心,學習能力和主動性強,有鑽研精神,充滿激情,樂於接受挑戰;
Ⅳ 做一個大數據項目一個團隊一般如何分工的
今年我們項目組剛好入手一個教育大數據的項目,我們是研究一些教育大數據,從中挖掘出一些跟教育相關的因果關系一達到對這些數據進分析、處理,並從中挖掘出有價值的信息進行改善教育模式、提升教育質量的目的。我們項目組當時分組情況如下:信息採集組、數據清洗組、數據融合組、數據挖掘組、數據可視化組。
根據每組的名稱很好理解,信息採集組主要是通過網路爬蟲來採集數據,當然還可以根據業務需求,通過不同的方式來採集數據;數據清洗組主要就是把一些無效的臟數據找出來剔除或者替換,任務量其實很大,因為爬來的數據臟數據量很大,這個組的工作周期一般很長,任務也很重;數據融合組主要就是把爬來的課程信息把相似的歸類,有上下級關系的就按照子類父類的關系列好,這一組的工作非常不好完成,目前我們做的融合效果不算好,想融合好算是一個難點。數據挖掘組就是拿到可用的數據之後通過數據挖掘演算法,去研究之前設定好的影響因子之間的因果關系,主要的分類演算法有決策樹、貝葉斯分類、基於規則的分類、神經網路、持向量機 、懶惰學習演算法中的K-最近鄰分類和基於案例的推理等演算法;數據可視化組顧名思義就是把數據挖掘組的成果可視化展示,這樣可以直觀的看到數據之間的關系,並利用數據分析和開發工具發現其中未知信息的處理過程。
Ⅳ IT項目管理中開發項目時都有哪些角色
1、產品經理。
2、項目經理。
3、軟體架構師。
4、軟體工程師。
5、UI設計師。
7、測試工程師(質量小組)。
8、實施工程師。
不同規模的軟體開發團隊,需要的人員組成結構是不同的。小型軟體開發團隊:軟體開發人員、軟體設計人員。其中具體包括編程人員、美工人員、創意人員等。
大型軟體開發團隊:軟體開發人員、軟體設計人員、市場研究人員、客服人員、推廣人員等。其中技術人員具體包括編程人員、美工、創意人員等。
(5)大數據項目組角色分工擴展閱讀:
項目管理理論是指「在項目活動中運用專門的知識、技能、工具和方法,使項目能夠實現或超過項目干係人的需要和期望」的理論。
項目管理包括整體、范圍、時間、成本、質量、人力資源、溝通等方面的管理。
一個項目的開發過程中每一位角色都發揮著至關重要的力量,一個團隊中的各個角色的默契配合,才能使這個項目快速、保質保量的完成。
參考資料:IT項目管理_網路
Ⅵ 大數據數倉項目架構
雲上數據倉庫解決方案: https://www.aliyun.com/solution/datavexpo/datawarehouse
離線數倉架構
離線數倉特點
基於Serverless的雲上數據倉庫解決方案
架構特點
實時數倉架構
[圖片上傳失敗...(image-ec3d9a-1629814266849)]
實時數倉架構特點
秒級延遲,實時構建數據倉庫,架構簡單,傳統數倉平滑升級
架構特點
數據倉庫的輸入數據源和輸出系統分別是什麼?
輸入系統:埋點產生的用戶行為數據、JavaEE後台產生的業務數據、個別公司有爬蟲數據。
輸出系統:報表系統、用戶畫像系統、推薦系統
1)Apache:運維麻煩,組件間兼容性需要自己調研。(一般大廠使用,技術實力雄厚,有專業的運維人員)
2)CDH:國內使用最多的版本,但 CM不開源,但其實對中、小公司使用來說沒有影響(建議使用)10000美金一個節點 CDP
3)HDP:開源,可以進行二次開發,但是沒有CDH穩定,國內使用較少
伺服器使用物理機還是雲主機?
1)機器成本考慮:
(1)物理機:以128G內存,20核物理CPU,40線程,8THDD和2TSSD硬碟,單台報價4W出頭,惠普品牌。一般物理機壽命5年左右。
(2)雲主機,以阿里雲為例,差不多相同配置,每年5W
2)運維成本考慮:
(1)物理機:需要有專業的運維人員(1萬*13個月)、電費(商業用戶)、安裝空調
(2)雲主機:很多運維工作都由阿里雲已經完成,運維相對較輕松
3)企業選擇
(1)金融有錢公司和阿里沒有直接沖突的公司選擇阿里雲(上海)
(2)中小公司、為了融資上市,選擇阿里雲,拉倒融資後買物理機。
(3)有長期打算,資金比較足,選擇物理機。
根據數據規模大家集群
屬於 研發部 /技術部/數據部,我們屬於 大數據組 ,其他還有後端項目組,前端組、測試組、UI組等。其他的還有產品部、運營部、人事部、財務部、行政部等。
大數據開發工程師=>大數據組組長=》項目經理=>部門經理=》技術總監
職級就分初級,中級,高級。晉升規則不一定,看公司效益和職位空缺。
京東:T1、T2應屆生;T3 14k左右 T4 18K左右 T5 24k-28k左右
阿里:p5、p6、p7、p8
小型公司(3人左右):組長1人,剩餘組員無明確分工,並且可能兼顧javaEE和前端。
中小型公司(3~6人左右):組長1人,離線2人左右,實時1人左右(離線一般多於實時),組長兼顧和javaEE、前端。
中型公司(5 10人左右):組長1人,離線3 5人左右(離線處理、數倉),實時2人左右,組長和技術大牛兼顧和javaEE、前端。
中大型公司(10 20人左右):組長1人,離線5 10人(離線處理、數倉),實時5人左右,JavaEE1人左右(負責對接JavaEE業務),前端1人(有或者沒有人單獨負責前端)。(發展比較良好的中大型公司可能大數據部門已經細化拆分,分成多個大數據組,分別負責不同業務)
上面只是參考配置,因為公司之間差異很大,例如ofo大數據部門只有5個人左右,因此根據所選公司規模確定一個合理范圍,在面試前必須將這個人員配置考慮清楚,回答時要非常確定。
IOS多少人 安卓多少人 前端多少人 JavaEE多少人 測試多少人
(IOS、安卓) 1-2個人 前端1-3個人; JavaEE一般是大數據的1-1.5倍,測試:有的有,有的沒有。1個左右。 產品經理1個、產品助理1-2個,運營1-3個
公司劃分:
0-50 小公司
50-500 中等
500-1000 大公司
1000以上 大廠 領軍的存在
轉自: https://blog.csdn.net/msjhw_com/article/details/116003357
Ⅶ 一個完整的大數據開發部門需要什麼人人員構成是怎麼樣的
大數據開發通常需要編程技能,根據我3年多的編程經驗,編程技能將帶來更好的版開發。大數據開權發一般有數據倉庫開發、數據分析、數據開發三大類,每一類都需要不同的技能。但他們都有很多共同點。一般技能: 除了基本的 sql 能力,包括使用傳統資料庫如 mysql 和 oracle,以及分布式資料庫如 hive 和 hbase 的能力,其他的,如 maprece 和 spark,會更好。可以使用聚類,聚類除了問題具有一定的解聚類問題的能力。數據倉庫開發: 能夠編號倉庫建模、維表、事實表、主題表、星型模型、雪花型模型等,熟悉業務、全局視圖,建立數據倉庫。數據開發: 數據開發有離線開發和實時開發,這種後端開發比較偏向於 java 按需開發,加上程序的日常維護。數據分析: 這需要很強的 sql 技能,如果你能在數據分析中使用 python 會更好。要掌握像 sqoop 和 kettle 這樣的常用 etl 工具,請使用報告系統。當然,如果你想學習,你可以學得更深入。畢竟,在通常的發展過程中,特別是小公司的分工不明確,這些技能或多或少都是我們需要掌握的。一個人可以成為幾個人,就像一個全能工程師。
Ⅷ 大數據中的職業和工作角色-綜合指南1
大數據中的職業和工作角色-綜合指南1
本文章將介紹大數據的職業和工作角色,幫助您了解大數據的需求,大數據的市場趨勢,從新手到經驗豐富的專業人士聘請大數據專業人士的各種公司,以及大數據中的不同檔案,以便在像Hadoop開發人員,Hadoop管理員,Hadoop架構師,Hadoop測試人員和大數據分析師,以及他們在不同大數據配置文件中所需的角色和職責,技能和經驗。
2.大數據職業和工作角色簡介
每秒都會生成大量數據,如果每天都收集到這些數據,則會導致每天生成2.5個數據位元組的數據。
這些數據的90%是在過去兩年中產生的,這導致了數據的巨大爆炸。您可以想像,從成立之日到最近2年,數據生成僅佔全球可用數據總量的10%。因此,數據生成是隨時間呈指數而非線性的。
因此,我們已經看到了各種數據來源以及每天產生的數據量,我們可以得出結論,這些數據正在以每年40%的復合率增長。如果我們計算到2020年將產生的總數據,那麼大約45 ZB將顯示大數據的增長情況,並將成為未來幾年中要求最苛刻的技術。這將為大數據專業人士提供一個非常光明的未來。
MarketsandMarkets的一項研究估計,到2017年底,Hadoop和大數據分析市場預計將達到139億美元。
Hadoop工作不僅由IT公司提供,而且所有類型的公司都在招聘高薪Hadoop候選人,包括金融公司,零售組織,銀行,醫療保健組織等.Hadoop開發人員工作和Hadoop管理工作對初創公司的需求很大正在將Hadoop直接構建到他們的業務計劃中。EMC公司,蘋果公司,Facebook,谷歌公司,甲骨文公司,Hortonworks公司,IBM公司,微軟公司,思科公司等公司在印度的幾乎所有城市都有多個Hadoop職位,包括Hadoop開發人員,Hadoop測試人員,Hadoop架構師和Hadoop管理員。大多數需求在班加羅爾,浦那,孟買,海德拉巴,欽奈,新德里和NCR。
被問到的最常見的問題之一是「Hadoop中可用的各種工作是什麼」。以下是各種Hadoop作業說明的簡要概述。
3. Hadoop開發人員
Hadoop開發人員的工作職責是根據系統設計編寫程序,並且必須對編碼和編程有相當的了解。Hadoop開發人員的任務類似於軟體開發人員,但在大數據領域。Hadoop開發人員的工作還包括理解並致力於提出問題解決方案,設計和架構以及強大的文檔編制技能。
Hadoop開發人員的角色和職責
定義工作流程
管理和查看Hadoop日誌文件
通過Zookeeper進行集群協調服務
通過調度程序管理Hadoop作業
支持在Hadoop集群上運行的MapRece程序
Hadoop開發人員所需的技能:
編寫Pig Latin Scripts和HiveQL的專業知識
經驗證的工作流程/調度程序,如Oozie
能夠處理Flume和Sqoop 等數據載入工具
Hadoop開發人員配置文件所需的經驗
從行業專家那裡學習Hadoop
0-5歲
Hadoop開發人員簡歷必須融合上述技能,由在印度和國外招聘Hadoop開發人員的公司選擇並獲得大量Hadoop開發人員薪水。有關Cloudera的Hadoop開發人員認證的更多詳細信息,請訪問Cloudera認證課程的詳細信息。
4. Hadoop架構師
Hadoop架構師的工作職責是設計系統應該如何工作,然後管理Hadoop解決方案的整個生命周期。他必須具備在Cloudera,HortonWorks和MapR等流行的Hadoop分發平台上工作的主題專業知識和交付經驗。
Hadoop Architect角色和職責
設計技術架構和應用程序定製
進行必要的需求分析
進行擬議解決方案設計的部署
Hadoop Architect需要的技能
深入了解Hadoop架構和HDFS,包括YARN
Hive, Pig
Java MapRece
HBase的
Hadoop架構師配置文件所需的經驗
8年以上
Hadoop架構師簡歷必須融合上述技能,以便在印度和國外招聘Hadoop架構師的公司選擇。
5. Hadoop管理員
Hadoop管理作業職責與系統管理員作業類似。Hadoop管理員角色和職責包括設置Hadoop集群,備份,恢復和維護。Hadoop管理員需要熟悉硬體系統和Hadoop架構。
Hadoop管理員角色和職責:
HDFS維護和支持
Hadoop集群規劃和篩選
跟蹤所有連接和安全問題
設置新的Hadoop用戶
Hadoop管理員所需的技能:
深入了解Hbase
親身體驗Oozie,HCatalog,Hive
Linux環境中強大的腳本編寫技巧
Hadoop管理員個人資料所需的經驗
0-5歲
Hadoop管理員簡歷必須融合上述技能,以便在印度和國外招聘Hadoop管理員的公司選擇。
6. Hadoop測試人員
Hadoop測試人員的工作職責是確保所設計的流程與組織所需的流程保持同步。他的主要職責是在Hadoop應用程序中查找和修復錯誤。
Hadoop Tester角色和職責
主要職責包括在程序中進行故障排除和查找缺陷,並將其報告給Hadoop開發人員以採取糾正措施
報告Hadoop / Pig / Hive組件中的所有正面和負面測試用例
Hadoop Tester所需的技能
測試JUnit,MRUnit框架的知識
了解Java以測試MapRece作業
親手了解Hive, Pig
Hadoop測試人員配置文件所需的經驗
0-5歲
Hadoop測試員簡歷必須結合上述技能,由在印度和國外招聘Hadoop測試人員的公司選擇。
7. Hadoop分析師
Hadoop分析師的工作職責是分析大量數據,並提出公司可以用來改進的見解。
Hadoop分析師的角色和責任
使用腳本語言從可用數據中開發新見解
根據不同的假設進行A / B測試,以影響不同的關鍵績效指標
Hadoop Analyst所需的技能
親手了解Hive, Pig
深入了解Flume知識和SQL命令
希望這些能給大家一個清楚的認知觀,