導航:首頁 > 網路數據 > 大數據具體工作內容

大數據具體工作內容

發布時間:2023-02-16 00:58:19

大數據是干什麼的!

1 寫 SQL (很多入職一兩年的大數據工程師主要的工作就是寫 SQL )

2 為集群搭大數據環境(一般公司招大數據工程師環境都已經搭好了,公司內部會有現成的大數據平台,但我這邊會私下搞一套測試環境,畢竟公司內部的大數據系統許可權限制很多,嚴重影響開發效率)

3 維護大數據平台(這個應該是每個大數據工程師都做過的工作,或多或少會承擔「運維」的工作)

4 數據遷移(有部分公司需要把數據從傳統的資料庫 Oracle、MySQL 等數據遷移到大數據集群中,這個是比較繁瑣的工作,吃力不討好)

5 應用遷移(有部分公司需要把應用從傳統的資料庫 Oracle、MySQL 等資料庫的存儲過程程序或者SQL腳本遷移到大數據平台上,這個過程也是非常繁瑣的工作,無聊,高度重復且麻煩,吃力不討好)

6 數據採集(採集日誌數據、文件數據、介面數據,這個涉及到各種格式的轉換,一般用得比較多的是 Flume 和 Logstash)

7 數據處理
7.1 離線數據處理(這個一般就是寫寫 SQL 然後扔到 Hive 中跑,其實和第一點有點重復了)
7.2 實時數據處理(這個涉及到消息隊列,Kafka,Spark,Flink 這些,組件,一般就是 Flume 採集到數據發給 Kafka 然後 Spark 消費 Kafka 的數據進行處理)

8 數據可視化(這個我司是用 Spring Boot 連接後台數據與前端,前端用自己魔改的 echarts)

9 大數據平台開發(偏Java方向的,大概就是把開源的組件整合起來整成一個可用的大數據平台這樣,常見的是各種難用的 PaaS 平台)

10 數據中台開發(中台需要支持接入各種數據源,把各種數據源清洗轉換為可用的數據,然後再基於原始數據搭建起寬表層,一般為了節省開發成本和伺服器資源,都是基於寬表層查詢出業務數據)

11 搭建數據倉庫(這里的數據倉庫的搭建不是指 Hive ,Hive 是搭建數倉的工具,數倉搭建一般會分為三層 ODS、DW、DM 層,其中DW是最重要的,它又可以分為DWD,DWM,DWS,這個層級只是邏輯上的概念,類似於把表名按照層級區分開來的操作,分層的目的是防止開發數據應用的時候直接訪問底層數據,可以減少資源,注意,減少資源開銷是減少 內存 和 CPU 的開銷,分層後磁碟佔用會大大增加,磁碟不值錢所以沒什麼關系,分層可以使數據表的邏輯更加清晰,方便進一步的開發操作,如果分層沒有做好會導致邏輯混亂,新來的員工難以接手業務,提高公司的運營成本,還有這個建數倉也分為建離線和實時的)

總之就是離不開寫 SQL ...

⑵ 大數據工程技術人員是做什麼的 工作內容有哪些

近日,人社部發布通知,正式公布了十三個新職業信息,其中大數據工程技術人員就是其中之一。

大數據工程技術人員的工作內容

大數據工程技術人員是指從事大數據採集、清洗、分析、治理、挖掘等技術研究,並加以利用、管理、維護和服務的工程技術人員。

主要工作任務:

大數據採集(爬蟲)、大數據清洗(ETl工程師)、大數據建模(演算法工程師)與大數據分析(數據分析員);

管理、分析展現及應用等技術(大數據開發工程師);

研究、應用大數據平台體系架構、技術和標准;

設計、開發、集成、測試大數據軟硬體系統;

管理、維護並保障大數據系統穩定運行;

監控、管理和保障大數據安全;

提供大數據的技術咨詢和技術服務。

我推薦: 中國13個新職業公布

大數據工程技術人員就業前景如何

在企業中,大數據工程師的發展分為四個階段:從軟體技術員到助理軟體工程師,再到軟體工程師,最後成為高級軟體工程師。據IDC的統計數字,在所有軟體開發類人才的需求中,對大數據工程師的需求達到全部需求量的60%—70%。同時,大數據軟體工程師的工資待遇相對較高。

大數據軟體工程師的一般起步月薪在6k-1w之間,遠遠超過應屆畢業生的兩三千的薪資。有一兩年的工作經驗之後,薪資待遇還會提升,比如有一年工作經驗的大數據高級工程師的薪資待遇差不多在年薪10w-15w之間。

在未來的幾年內,大數據人才的缺口只會越來越大,企業對人才的需求遠遠大於供給。大數據工程師是目前國內高端計算機領域,就業薪資非常高的一類職業。

⑶ 學大數據會有什麼工作

(1)大數據系統研發工程師:負責大數據系統研發工作,包括大規模非結構化數據業務模型構建、大數據存儲、資料庫架構設計以及資料庫詳細設計、優化資料庫構架、解決資料庫中心建設設計問題。他們還負責集群的日常運作、系統的監測和配置、Hadoop 與其他系統的集成。

(2)大數據應用開發工程師:負責搭建大數據應用平台、開發分析應用程序。他們熟悉工具或演算法、編程、包裝、優化或者部署不同的 MapRece事務。他們以大數據技術為核心,研發各種基於大數據技術的應用程序及行業解決方案。

(3)大數據分析師:運用演算法來解決分析問題,並且從事數據挖掘工作。他們的本事就是能夠讓數據道出真相;此外,他們還擁有某個領域的專長,幫助開發數據產品,推動數據解決方案的不斷更新。

(4)數據可視化工程師:具備良好的溝通能力與團隊精神,責任心強,擁有強大的解決問題的能力。他們負責在收集到的高質量數據中,利用圖形化的工具及手段的應用,一目瞭然地揭示數據中的復雜信息,幫助企業更好的進行大數據應用開發,發現大數據背後的巨大財富。

⑷ 學大數據會有什麼工作

大數據的崗位可以分為三大類:

大數據系統研發人員、大數據應用開發人才和大數據分析人才;
最普遍同時需求也大的是大數據系統研發工程師、大數據應用開發工程師和數據分析師
1、大數據架構工程師:

負責Hadoop集群架構設計開發、搭建、管理、運維、調優;負責數據對接和對外服務設計、開發和維護;負責大數據框架和大數據應用的程序設計、開發和維護;負責基於大數據技術對海量數據的自動分析處理和挖掘工作;
2、大數據開發工程師:
基於hadoop、spark等構建數據分析平台,進行設計、開發分布式計算業務;輔助管理Hadoop集群運行,穩定提供平台服務;基於Spark技術的海量數據的處理、分析、統計和挖掘;基於Spark框架的數據倉庫的設計、開發和維護
3、大數據運維工程師:
負責大數據基礎平台的運維,保障平台的穩定可用;負責應用產品部署、上線及維護;負責大數據平台資源管理、性能優化和故障處理;深入研究大數據業務相關運維技術,持續優化集群服務架構;參與設計大數據自動化運維、監控、故障處理工具。

⑸ 大數據所從事什麼工作

大數據有各方面的工作,有需要用到高深的技術的,也有簡單的工作,主要你願回意並且有決心從事大數據相答關工作,不管你先前讀什麼專業,一定能找到適合你的切入點,進入大數據行業工作。

大數據相關的工作分為幾大類:大數據研發、大數據開發、大數據分析、大數據運維

如果你想從事偏技術型的工作,至少要有開發語言作為支撐,比如Java或python,工作的選擇也更寬泛並且都是企業所要求的核心崗位,對以後的發展很有幫助。

⑹ 大數據分析的具體內容有哪些

隨著互聯網的不斷發展,大數據技術在各個領域都有不同程度的應用
1、採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
2、導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
3、統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
4、挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。

⑺ 大數據有關的工作有哪些

1、數據挖掘來工程師

數據建模、機器學自習和演算法實現;商業智能,用戶體驗分析,預測流失用戶等;需要過硬的數學和統計學功底以外,對演算法的代碼實現也有很高的要求

2、數據架構師

需求分析,平台選擇,技術架構設計,應用設計和開發,測試和部署;高級演算法設計與優化;數據相關系統設計與優化,需要平台級開發和架構設計能力。成都加米穀大數據培訓機構,大數據開發,數據分析與挖掘。

3、資料庫開發

設計,開發和實施基於客戶需求的資料庫系統,通過理想介面連接資料庫和資料庫工具,優化資料庫系統的性能效率等

4、資料庫管理

資料庫設計、數據遷移、資料庫性能管理、數據安全管理,故障檢修問題、數據備份、數據恢復等

5、數據科學家

數據挖掘架構、模型標准、數據報告、數據分析方法;利用演算法和模型提高數據處理效率、挖掘數據價值、實現從數據到知識的轉換

6、數據產品經理

把數據和業務結合起來做成數據產品;平台線提供基礎平台和通用的數據工具,業務線提供更加貼近業務的分析框架和數據應用

⑻ 大數據上班都干什麼

不同崗位工作內容不同:

1、大數據項目經理

工作內容:項目需求、進度、質量、成本管理。

2、大數據開發工程師

工作內容:主要是基於Hadoop、Spark等平台上面進行開發,各種開源技術框架平台很多,需要看企業實際的選擇是什麼,但目前Hadoop、Spark仍然占據廣大市場。

3、大數據產品經理

工作內容:大數據相關產品規劃設計,需要與需求部門及技術部門溝通協調。

4、數據分析師

工作內容:收集,處理和執行統計數據分析;運用工具,提取、分析、呈現數據,實現數據的商業意義,需要業務理解和工具應用能力。

大數據發展前景

根據數據顯示,大數據行業的崗位每年在以超過20%的速度遞增著,這樣來看的話很自然地就會產生大量的崗位機會,並且可以相信的是隨著行業快速發展,崗位也隨著企業的業務增長不斷增多,要知道現在各大高校都開設了新的與大數據相結合的課程,未來大數據發展肯定會越來越好。

⑼ 大數據工程師的日常工作內容有哪些

數據採集:


業務系統的埋點代碼時刻會產生一些分散的原始日誌,可以用Flume監控接收這些分散的日誌,實現分散日誌的聚合,即採集。


數據清洗:


一些欄位可能會有異常取值,即臟數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據,需要對這些記錄進行過濾或者欄位數據回填。


一些日誌的欄位信息可能是多餘的,下游不需要使用到這些欄位做分析,同時也為了節省存儲開銷,需要刪除這些多餘的欄位信息。


一些日誌的欄位信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字元替換。


數據存儲:


清洗後的數據可以落地入到數據倉庫(Hive),供下游做離線分析。如果下游的"數據分析統計"對實時性要求比較高,則可以把日誌記錄入到kafka。


數據分析統計:


數據分析是數據流的下游,消費來自上游的數據。其實就是從日誌記錄里頭統計出各種各樣的報表數據,簡單的報表統計可以用sql在kylin或者hive統計,復雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。


數據可視化:


用數據表格、數據圖等直觀的形式展示上游"數據分析統計"的數據。一般公司的某些決策會參考這些圖表裡頭的數據。

閱讀全文

與大數據具體工作內容相關的資料

熱點內容
aspnetmvc代碼 瀏覽:818
怎樣測試網路的穩定性 瀏覽:79
itunes怎麼查看安裝的app 瀏覽:685
驅動式編程是什麼 瀏覽:288
iphone6看片地址 瀏覽:972
網站百度快照導航怎麼變樣子了 瀏覽:792
離線傳輸文件有哪些方法 瀏覽:286
燒程序 瀏覽:9
win10登錄windows賬戶 瀏覽:917
企業收到網路廣告費如何記賬 瀏覽:313
易班app的運營思路是什麼 瀏覽:720
中國藝術微課怎麼下載app 瀏覽:134
軟體內的小說文件在哪裡 瀏覽:200
會議需要准備的文件有哪些 瀏覽:480
升級文件無法讀取或已損壞 瀏覽:889
進料檢驗文件有哪些 瀏覽:495
電腦里的文件被刪除後怎麼找回 瀏覽:295
數車編程軟體哪個好用 瀏覽:579
在qq群里看不見說話 瀏覽:416
靜態網站模板大氣 瀏覽:504

友情鏈接