❶ 如何考大數據分析師
大數據分析師報考要求如下:
1、初級數據分析師:
(1)具有大專以上學歷,或從事統計工作的人員;
(2)通過初級筆試、上機考試、報告考核,成績全部合格。
2、中級數據分析師:
(1)具有本科及以上學歷,或初級數據分析師證書,或從事相關工作一年以上;
(2)通過中級筆試、上機考試,成績全部合格;
(3)通過中級實踐應用能力考核。
3、高級數據分析師:
(1)研究生以上學歷,或從事相關工作五年以上;
(2)獲得中級數據分析師證書。
(3)通過高級筆試、報告考核後,獲取准高級數據分析師證書;
(4)考生在獲得准高級證書後,在專業領域工作五年,並撰寫一篇專業數據分析論文,經答辯合格,獲取高級數據分析師合格證書。
(1)誠通人力大數據分析師擴展閱讀
技能要求
1、懂業務
從事數據分析工作的前提就會需要懂業務,即熟悉行業知識、公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。
2、懂管理
一方面是搭建數據分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識來指導,如果不熟悉管理理論,就很難搭建數據分析的框架,後續的數據分析也很難進行。另一方面的作用是針對數據分析結論提出有指導意義的分析建議。
❷ 數據分析師是做什麼的
數據分析師主要工作是在本行業內將各種數據進行搜集、整理、分析,然後根據這些數據進行分析判斷,在分析數據後對行業發展、行業知識規則等等進行預測和挖掘。數據分析師是數據師其中的一種,另一種是數據挖掘工程師,兩者都是專業型人才。
(2)誠通人力大數據分析師擴展閱讀
數據分析師和數據挖掘工程師的區別
1、「數據分析」的重點是觀察數據,而「數據挖掘」的重點是從數據中發現「知識規則」。
2、「數據分析」得出的結論是人的智能活動結果,而「數據挖掘」得出的結論是機器從學習集(或訓練集、樣本集)發現的知識規則。
3、「數據分析」得出結論的運用是人的智力活動,而「數據挖掘」發現的知識規則,可以直接應用到預測。
4、「數據分析」不能建立數學模型,需要人工建模,而「數據挖掘」直接完成了數學建模。
5、相對而言,數據挖掘工程師對統計學,機器學習等技能的要求比數據分析師高得多。
6、很多情況下,數據挖掘工程師同時兼任數據分析師的角色。
參考資料來源:網路--數據分析師
參考資料來源:網路--數據師
❸ 大數據分析師這個職業怎麼樣
近期成為月入兩萬的數據分析師的廣告遍地都是,可能會對一些未入行的同學造成錯覺。我個人感覺數據分析師這個崗位,可能近幾年會消亡。
這不意味著這份工作本身不重要,而是說這份工作本身可能會轉化為產品運營的一些必備技能,而不再需要單獨特設人力去做這件事。或者說,不是再需要你學習SQL或者學習python,只是為了成為一名數據分析師。作為一名數據分析師,職業自身的壁壘正在不斷消減,更加主動的擁抱業務,解決真正的產品和用戶需求,或將成為未來的發展趨勢。
數據分析師的日常工作
我們來看下預設中的分析師的一些工作場景,看看數據分析師核心的工作價值。
取數
數據清洗
數據可視化
統計分析
數據方向建設和規劃
數據報告
取數 — SQL
很多人對數據分析師的預設是SQL達人,包括現在很多數據分析師的核心工作其實就是進行SQL取數。
這項工作的痛點和難點在於,我們為了得到一個結果,通常需要join很多的數據集,然後整個SQL語句就會寫的特別長,而且可能會出現一些問題:比如join的表可能會出現key是重復的情況,造成最終的SQL結果因為重復而變得不可用。所以我們需要專人去專門維護各種各樣的數據集,他們知道每張表應該怎麼用。
但這個其實是關系型資料庫遺留下來的產物——我們完全可以不需要join那麼多的表。現在的分布式計算的框架,已經完全可以支持我們只保留一張大寬表,有需要的所有欄位,然後所有的操作都在這張大寬表上進行,而且可以保證查詢速度。這樣數據分析最大的痛點已經沒有了。至於你說大寬表裡面存了很多重復的數據,是不是很浪費資源(關系型資料庫之所以不用大寬表就是從存儲空間和性能的trade-off角度考慮的):放心,分布式存儲本身是不貴的,而計算效率則是由分布式計算框架進行專門優化的。現在的計算框架計算的響應速度,已經可以在大寬表上可以很快的得到結果了。相比之下,多次join操作反而可能會更慢一些。
同時,現在很多公司的NB框架,其實都已經支持拖拽取數了,也根本不需要寫SQL了。
此外,不得不說的一點是,SQL語句本身真的不難。可能如果你自己靜下心來想學,一個周末的時間肯定能搞定。而資歷老的數據分析師,並不會比資歷輕的數據分析師,在SQL語句的寫作上有什麼本質的區別。以前可能還有一些小表join大表的trick,但現在計算框架大多都已經優化過這些了。所以即使是需要寫SQL的場景,本身也是沒有什麼難度的。
所以,通過大寬表來解放數據分析工作的生產力。即使在一定要寫SQL做join操作的時候,本身也不是一件壁壘特別高的事情。取數這件事兒,對於其他崗位的同學,就已經沒那麼復雜了。
數據清洗 — Python
數據清洗其實是很多強調python進行數據分析課程中,python部分的主要賣點。包括但不限於,怎麼處理異常值,怎麼從一些原始的數據中,得到我們想要的數據。
在日常產品需求過程中,這種需求的場景其實很小。因為數據大部分都是自己產生的,很少會出現沒有預設到的極端值或者異常情況。如果有的話,一般就是生產數據的同學代碼寫的有bug,這種發現了之後修復代碼bug就行。
數據清洗在工作場景的應用在於落表——就是把原始數據變成上面提到的,可以通過SQL提取的hive表。這個工作是需要懂代碼的同學去支持的,他們負責數據的產出,包括數據的准確性,數據的延時性(不能太晚產出)等等。前文提到的生成大寬表,其實也可以是他們的工作。這其中就涉及到一些代碼的效率優化問題,這個就不是簡單懂一點python可以搞定的了,可能涉及到一些數據壓縮格式的轉化,比如json/Proto buffer到hive表的轉化,還有一些計算框架層面的調優,比如spark設置什麼樣的參數,以及怎麼樣存儲可以更好的提升查詢速度。
所以這部分工作一般是由懂代碼的同學完成的。可能數據團隊會有比較少數的同學,管理支持全公司的基礎表的生成。
數據可視化 — Tableau
很多之前在數據分析做實習的同學,主要的工作內容就是在一個商業化的軟體(比如Tableau)上,做一些統計報表。這樣可以通過這些數據報表,可以很方便的查看到所屬業務的一些關鍵指標。這些商業軟體通常都比較難用,比如可能需要先預計算一下才能輸出結果;而且不太好做自定義功能的開發。稍微復雜一點的需求場景,可能就需要一個專門的同學搗鼓一陣,才能輸出最終的統計報表。
現在有更先進的套路了。
首先可視化。很多公司打通了前端和後端的數據,這樣就可以通過網頁查詢原始的資料庫得到數據結果。而現在很多優秀的前端可視化插件,已經可以提供非常豐富的統計圖形的支持。而且因為代碼是開源的,可以根據公司的需求場景進行針對性的開發,公司可以再輔以配置一些更加用戶友好的操作界面,這樣一些復雜需求也有了簡單拖拽實現的可能。而且這些前端js代碼都是免費的!對於公司來說也能省去一筆商業公司的采買成本。
其次很多商業軟體,都是針對小數據集場景設計的。在一些大數據集的場景,一般需要先預計算一些中間表。而如果自己公司定製化開發的前端展示結果,就可以根據需要自主設置計算邏輯和配置計算資源,先在後端進行預計算,前端最終只是作為一個結果展示模塊,把結果展示和需要的預計算進行解耦。這樣就省去了很多中間表的產出,也會更加快速的得到想要的業務指標,快速迭代。
所以可視化數據的工作量也會大大減少。而且會變成一個人人都可以操作,快速得到結果的場景。
統計分析
對於一名數據分析師而言,統計學分析可能是一塊知識性的壁壘。尤其是在現在ab實驗成為互聯網公司迭代標配的今天。需要把實驗設計的那套理論應用起來:比如ab實驗進行後的顯著性檢驗,多少樣本量的數據才能讓這個結論有效可信呢。
但是,你我都知道,經典的統計分析其實是一個非常套路性的工作。其實就是套公式,對應到代碼層面,可能也就一兩行就搞定了。這個代碼的統計分析結果可以作為ab平台的指標展示在最終的ab結果上,大家看一眼就能明白。即使是對那些可能不知道顯著性是什麼意思的人,你可以跟他簡單說,顯著了才有效,不顯著就別管。
這么一想是不是其實不怎麼需要投入額外的人力進行分析?
其他數據相關的工作
數據層面的規劃和設計。移動互聯網剛剛興起的時候,可能那時候數據分析師需要對每一個數據怎麼來設計一套方案,包括原始的埋點怎麼樣,又要怎麼統計出想要的結果。但現在大部分已經過了快速迭代的時代了,新產品的埋點添加可以參考老產品,這就意味著形成套路了。而一旦形成套路,其實就意味著可以通過程序直接完成或者輔助完成。
數據報告。那就真的是一件人人都能做的事情了,試想誰沒在大學期間做過數據報告呢?以前只是因為數據都是從分析師產出的,而如果人人都能取到數據的話,數據報告是不是也不是一個真需求呢?
在我看來,數據分析師這個崗位的天花板和其他崗位相比起來是比較低的。可能工作一兩年之後,從崗位本身就已經學不到什麼額外的工作知識了。主要的工作內容技術含量不是特別高,技能性的更多的是一些可以簡單上手的東西,而且做的時間長了,在這些技能性的事情上得到的積累並不是很多。
數據分析師更像是一個在時代變遷過程中的一個中間崗位:我們從一個基本沒有數據的時代,突然進入了一個數據極大豐富的時代,在這個過程中,我們都知道重視數據。那怎麼能夠利用這個數據呢?可能之前的那一幫人並沒有太多的經驗,於是老闆就招一些人專門來研究一下它,同時做一些底層數據的優化。
經過多年的迭代,現在互聯網行業的每個人都知道數據的價值,也大概知道了什麼樣的數據是重要的,怎樣可以更好的挖掘數據背後的價值。同時底層的基礎設施也已經支持可以讓一個之前沒有經驗的同學可以快速的上手得到自己想要的關鍵數據。這時候對於一個職業數據分析師來說,他的任務就已經完成了。就如同當人人都會講英語的時候,翻譯其實也就沒有存在的價值了。
此後的數據分析工作,可能不再是一些單獨的人做的工作。它會變成一個產品和運營的基礎工具,而且足夠簡單,沒有取數的門檻。只是產品運營怎麼樣可以更好的認識數據,通過數據本身更好的配合產品運營的工作,這已經超脫我們一般理解的數據分析師的工作了,而是一個產品運營分內的工作。
對於那些已經在從事數據分析師崗位的同學來說,建議不要把心思全部投入到數據分析的本職工作上,以完成任務為核心KPI。而是不要給自己設置邊界,多從用戶的角度思考問題,不要因為是產品運營的工作就不去做了。數據分析師這個職業發展到這個階段,要麼做更加底層的數據建設,要麼擁抱業務,最大化的發掘數據背後背後的價值。不要再死守著數據分析的「固有技能」沾沾自喜了。
數據本身的價值是無窮的,作為數據分析師,你們已經先人一步的掌握它了,要有先發優勢。你們最接近數據的人,是最可能發現用戶的寶藏的人。
❹ 澶ф暟鎹鍒嗘瀽甯堢殑宸ヨ祫鏈夊氬皯錛
澶ф暟鎹鍒嗘瀽甯堢殑宸ヨ祫鍥犲湴鍖恆佸伐浣滅粡楠屻佹妧鑳芥按騫崇瓑鍥犵礌鑰屽紓銆
涓鑸鑰岃█錛屽ぇ鏁版嵁鍒嗘瀽甯堢殑鍚璧勫湪¥22k~30k涔嬮棿錛屽崰姣旇揪鍒20%銆備笉榪囷紝鍏蜂綋鐨勮柂璧勬按騫寵繕闇瑕佽冭檻澶氱嶅洜緔犮備緥濡傦紝鍦ㄥ寳浜錛屾暟鎹鍒嗘瀽鐨勫鉤鍧囧伐璧勪負¥10630/鏈堬紝澶ф暟鎹寮鍙戠殑騫沖潎宸ヨ祫涓¥30230/鏈堬紝hadoop鐨勫鉤鍧囧伐璧勪負¥20130/鏈堬紝鏁版嵁鎸栨帢鐨勫鉤鍧囧伐璧勪負¥21740/鏈堛
浠ヤ笂淇℃伅浠呬緵鍙傝冿紝瀹為檯宸ヨ祫鍙鑳戒細鍥犲叿浣撴儏鍐佃屾湁鎵涓嶅悓銆
❺ 數據分析師主要做什麼
一是幫助企業看清現狀(即通常見的搭建數據指標體系);
二是臨時性分析指標變回化原因,這個很常見,答但也最頭疼,有時還沒分析出原因,指標可能又變了,注意識別這裡面的偽需求(數據本身有波動,什麼樣的變化才是異常波動?一般以[均值-2*標准差,均值+2*標准差]為參考范圍,個別活動則另當別論);
三是專題分析,這個專題可大可小,根據需求方(也有可能是數據分析師自己)而定,大老闆提出的專題分析相對更難、更有水平一些;
四是深層次解釋關系和預測未來,這個技術難度和業務理解水平要求相對更高一些。如,影響GMV的關鍵因子是什麼?這里當然不是顯而易見的付款用戶數和客單價,而是需要探索的隱性因素;再如,預測下一個季度甚至是一年的GMV,以及如何達成?