『壹』 如何快速全面建立自己的大數據知識體系
所謂的大數據平台不是獨立存在的,比如網路是依賴搜索引擎獲得大數據並開展業務的,阿里是通過電子商務交易獲得大數據並開展業務的,騰訊是通過社交獲得大數據並開始業務的,所以說大數據平台不是獨立存在的,重點是如何搜集和沉澱數據,如何分析數據並挖掘數據的價值。
我可能還不夠資格回答這個問題,沒有經歷過一個公司大數據平台從無到有到復雜的過程。不過說說看法吧,也算是梳理一下想法找找噴。
這是個需求驅動的過程。
曾經聽過spotify的分享,印象很深的是,他們分享說,他們的hadoop集群第一次故障是因為,機器放在靠窗的地方,太陽曬了當機了(笑)。從簡單的沒有機房放在自家窗前的集群到一直到現在復雜的數據平台,這是一個不斷演進的過程。
對小公司來說,大概自己找一兩台機器架個集群算算,也算是大數據平台了。在初創階段,數據量會很小,不需要多大的規模。這時候組件選擇也很隨意,Hadoop一套,任務調度用腳本或者輕量的框架比如luigi之類的,數據分析可能hive還不如導入RMDB快。監控和部署也許都沒時間整理,用腳本或者輕量的監控,大約是沒有ganglia、nagios,puppet什麼的。這個階段也許算是技術積累,用傳統手段還是真大數據平台都是兩可的事情,但是為了今後的擴展性,這時候上Hadoop也許是不錯的選擇。
當進入高速發展期,也許擴容會跟不上計劃,不少公司可能會遷移平台到雲上,比如AWS阿里雲什麼的。小規模高速發展的平台,這種方式應該是經濟實惠的,省了運維和管理的成本,擴容比較省心。要解決的是選擇平台本身提供的服務,計算成本,打通數據出入的通道。整個數據平台本身如果走這條路,可能就已經基本成型了。走這條路的比較有名的應該是netflix。
也有一個階段,你發現雲服務的費用太高,雖然省了你很多事,但是花錢嗖嗖的。幾個老闆一合計,再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。這時候你大概需要一群靠譜的運維,幫你監管機器,之前兩三台機器登錄上去看看狀態換個磁碟什麼的也許就不可能了,你面對的是成百上千台主機,有些關鍵服務必須保證穩定,有些是數據節點,磁碟三天兩頭損耗,網路可能被壓得不堪重負。你需要一個靠譜的人設計網路布局,設計運維規范,架設監控,值班團隊走起7*24小時隨時准備出台。然後上面再有平台組真的大數據平台走起。
然後是選型,如果有技術實力,可以直接用社區的一整套,自己管起來,監控部署什麼的自己走起。這個階段部署監控和用戶管理什麼的都不可能像兩三個節點那樣人肉搞了,配置管理,部署管理都需要專門的平台和組件;定期Review用戶的作業和使用情況,決定是否擴容,清理數據等等。否則等機器和業務進一步增加,團隊可能會死的很慘,疲於奔命,每天事故不斷,進入惡性循環。
當然有金錢實力的大戶可以找Cloudera,Hortonworks,國內可以找華為星環,會省不少事,適合非互聯網土豪。當然互聯網公司也有用這些東西的,比如Ebay。
接下去你可能需要一些重量的組件幫你做一些事情。
比如你的數據接入,之前可能找個定時腳本或者爬log發包找個伺服器接收寫入HDFS,現在可能不行了,這些大概沒有高性能,沒有異常保障,你需要更強壯的解決方案,比如Flume之類的。
你的業務不斷壯大,老闆需要看的報表越來越多,需要訓練的數據也需要清洗,你就需要任務調度,比如oozie或者azkaban之類的,這些系統幫你管理關鍵任務的調度和監控。
數據分析人員的數據大概可能漸漸從RDBMS搬遷到集群了,因為傳統資料庫已經完全hold不住了,但他們不會寫代碼,所以你上馬了Hive。然後很多用戶用了Hive覺得太慢,你就又上馬交互分析系統,比如Presto,Impala或者SparkSQL。
你的數據科學家需要寫ML代碼,他們跟你說你需要Mahout或者Spark MLLib,於是你也部署了這些。
至此可能數據平台已經是工程師的日常工作場所了,大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。
比如各個業務線數據各種數據表多的一塌糊塗,不管是你還是寫數據的人大概都不知道數據從哪兒來,接下去到哪兒去。你就自己搞了一套元數據管理的系統。
你分析性能,發現你們的數據都是上百Column,各種復雜的Query,裸存的Text格式即便壓縮了也還是慢的要死,於是你主推用戶都使用列存,Parquet,ORC之類的。
又或者你發現你們的ETL很長,中間生成好多臨時數據,於是你下狠心把pipeline改寫成Spark了。
再接下來也許你會想到花時間去維護一個門戶,把這些零散的組件都整合到一起,提供統一的用戶體驗,比如一鍵就能把數據從資料庫chua一下拉到HDFS導入Hive,也能一鍵就chua一下再搞回去;點幾下就能設定一個定時任務,每天跑了給老闆自動推送報表;或者點一下就能起一個Storm的topology;或者界面上寫幾個Query就能查詢Hbase的數據。這時候你的數據平台算是成型了。
當然,磕磕碰碰免不了。每天你都有新的問題和挑戰,否則你就要失業了不是?
你發現社區不斷在解決你遇到過的問題,於是你們架構師每天分出很多時間去看社區的進展,有了什麼新工具,有什麼公司發布了什麼項目解決了什麼問題,興許你就能用上。
上了這些亂七八糟的東西,你以為就安生了?Hadoop平台的一個大特點就是坑多。尤其是新做的功能新起的項目。對於平台組的人,老闆如果知道這是天然坑多的平台,那他也許會很高興,因為跟進社區,幫忙修bug,一起互動其實是很提升公司影響力的實情。當然如果老闆不理解,你就自求多福吧,招幾個老司機,出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上,因為數據平台還是亂世,三天不跟進你就不知道世界是什麼樣了。任何一個新技術,都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術,那需要小心再小心,技術主管也要有足夠的積累,能夠駕馭,知道收益和風險。
-
『貳』 如何構建大數據體系
一.數據搭建
建立自己的數據收集規范,形成一定的數據採集、篩選、分析等相應的制度
二.數據報表可視化
對數據進行標准化的配置,形成可視化的報表系統
三.產品與運營分析
對平台的各個角色建立全方位的用戶畫像,對行為進行數據跟蹤,對數據挖掘分析,建立漏斗模型,流動模型,用戶細分等模型。
四.精細化產品運營
對產品制定自動獲取數據制度,用數據跟蹤產品的生命周期,對數據進行細分,做到針對性運營
五.數據產品
藉助第三方數據獲取的渠道,形成數據化產品,提供數據化的依據
『叄』 如何做好數據分析
數據分析有:分類分析,矩陣分析,漏斗分析,相關分析,邏輯樹分析,趨勢分析,行為軌跡分析,等等。 我用HR的工作來舉例,說明上面這些分析要怎麼做,才能得出洞見。
01) 分類分析
比如分成不同部門、不同崗位層級、不同年齡段,來分析人才流失率。比如發現某個部門流失率特別高,那麼就可以去分析。
02) 矩陣分析
比如公司有價值觀和能力的考核,那麼可以把考核結果做出矩陣圖,能力強價值匹配的員工、能力強價值不匹配的員工、能力弱價值匹配的員工、能力弱價值不匹配的員工各佔多少比例,從而發現公司的人才健康度。
03) 漏斗分析
比如記錄招聘數據,投遞簡歷、通過初篩、通過一面、通過二面、通過終面、接下Offer、成功入職、通過試用期,這就是一個完整的招聘漏斗,從數據中,可以看到哪個環節還可以優化。
04) 相關分析
比如公司各個分店的人才流失率差異較大,那麼可以把各個分店的員工流失率,跟分店的一些特性(地理位置、薪酬水平、福利水平、員工年齡、管理人員年齡等)要素進行相關性分析,找到最能夠挽留員工的關鍵因素。
05) 邏輯樹分析
比如近期發現員工的滿意度有所降低,那麼就進行拆解,滿意度跟薪酬、福利、職業發展、工作氛圍有關,然後薪酬分為基本薪資和獎金,這樣層層拆解,找出滿意度各個影響因素裡面的變化因素,從而得出洞見。
06) 趨勢分析
比如人才流失率過去12個月的變化趨勢。
07)行為軌跡分析
比如跟蹤一個銷售人員的行為軌跡,從入職、到開始產生業績、到業績快速增長、到疲憊期、到逐漸穩定。
『肆』 數據分析應該怎麼做
1.明確目的和思路
首先明白本次的目的,梳理分析思路,並搭建整體分析框架,把分析目的分解,化為若乾的點,清晰明了,即分析的目的,用戶什麼樣的,如何具體開展數據分析,需要從哪幾個角度進行分析,採用哪些分析指標(各類分析指標需合理搭配使用)。同時,確保分析框架的體系化和邏輯性。
2.數據收集
根據目的和需求,對數據分析的整體流程梳理,找到自己的數據源,進行數據分析,一般數據來源於四種方式:資料庫、第三方數據統計工具、專業的調研機構的統計年鑒或報告(如艾瑞資訊)、市場調查。
3.數據處理
數據收集就會有各種各樣的數據,有些是有效的有些是無用的,這時候我們就要根據目的,對數據進行處理,處理主要包括數據清洗、數據轉化、數據提取、數據計算等處理方法,將各種原始數據加工成為產品經理需要的直觀的可看數據。
4.數據分析
數據處理好之後,就要進行數據分析,數據分析是用適當的分析方法及工具,對處理過的數據進行分析,提取有價值的信息,形成有效結論的過程。
5.數據展現
一般情況下,數據是通過表格和圖形的方式來呈現的。常用的數據圖表包括餅圖、柱形圖、條形圖、折線圖、氣泡圖、散點圖、雷達圖等。進一步加工整理變成我們需要的圖形,如金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。
6.報告撰寫
撰寫報告一定要圖文結合,清晰明了,框架一定要清楚,能夠讓閱讀者讀懂才行。結構清晰、主次分明可以使閱讀者正確理解報告內容;圖文並茂,可以令數據更加生動活潑,提高視覺沖擊力,有助於閱讀者更形象、直觀地看清楚問題和結論,從而產生思考。
『伍』 如何建立業務數據分析指標體系教你完整的方法論
1. 一個比喻
為了便於理解,我們可以把指標體系的建立,比作穿衣服,剛開始沒有衣服可穿的時候,可以先找人借一件,這件衣服或許不太合身,但能滿足抵禦寒冷等基本需求。
隨著經濟水平的提升,我們就可以去選擇其他更加適合自己的衣服。
指標體系的建立也是一樣,可以先從其他企業借鑒過來,剛開始未必很合適,但能讓業務更快地走上正軌。
隨著業務的發展,再根據實際情況,不斷進行優化調整。
2. 用魚骨圖
利用魚骨圖,可以一層一層地進行分析,如同抽絲剝繭一般,從而找到影響業務的關鍵因素。
比如說,把一家企業的願景與方向,先分成幾個大的方面,再細分為一些具體的指標,然後從中找到對業務影響比較大的指標,也就是關鍵業績指標(Key Performance Indicator),簡稱 KPI。
更進一步,找到唯一關鍵指標(One Metric That Matters),簡稱 OMTM,也稱為 北極星指標 ,因為這個指標要像北極星一樣,指引企業前進的方向。
用魚骨圖尋找 KPI 和北極星指標的過程,就好比給企業量身定製衣服。選擇戰略,就像選擇衣服的類型,因為太極服與西裝的用途不同,所以同一個部位的尺寸往往不一樣。同理,企業的發展戰略和階段不同,KPI 和北極星指標也會不一樣。
3. 業務邏輯
建立一套行之有效的指標體系,應該從業務邏輯出發,一點一點地進行展開。
業績層的指標體系,是由戰略層的目標決定的,而指標體系又要進一步分解到組織當中,這樣才能起到戰略方向的牽引作用,其中 KPI 指標體系是核心。
舉一個例子,一家零售企業,目標是獲得更豐厚的經營利潤,這來源於一個又一個的訂單,而訂單包括人、貨、場三個要素,每個要素下面又有若干個指標,以此類推。
隨著業務的發展,你可能會發現,指標越來越多,如果這些指標沒有很好地組織起來,那麼就像一團亂麻,讓人抓不住重點。
所以,有必要建立一個框架體系,分門別類地對指標進行梳理,按照一定的業務邏輯,把指標關聯起來,從而形成業務分析的場景。
4. 二八法則
指標體系是管理水平的體現,選擇合適的指標,可以運用「二八法則」。因為 80% 的業績,通常是由 20% 的關鍵因素決定的。所以,要抓好這 20% 的關鍵因素,對其進行分析拆解、指標設定、考核評價、激勵控制,這樣才能抓住主要矛盾,就如同牽牛要牽牛鼻子。
沒有健全的指標體系,做數據分析就沒有抓手,很多東西沒法量化,做業務就沒有方向,團隊產生不了合力,就很難取得好成績。
總之,建立指標體系,要按照業務的邏輯和流程,細分為可以量化的指標,經過分門別類地梳理,並把關鍵指標按照「二八法則」提煉出來,這樣一套指標體系就基本建立好了。
5. 一個例子
以零售行業為例,按照人、貨、場的業務邏輯,我整理了一份指標體系,其中假設經營利潤是北極星指標,所以在該指標前面加了一顆星星圖標。
對於人力驅動型的傳統零售行業,員工在商場賣貨給客戶,人、貨、場其實是融為一體的,所以指標之間也有密切的聯系,比如銷售額,分別可以從客戶、員工、貨物、商場等維度進行統計和分析。
上面這個零售行業指標體系,僅供參考,你應該根據自身業務的實際情況,增加或刪減相關指標,建立最適合自己的指標體系。
在企業發展的不同階段,商業目標不一樣,北極星指標可能會有所不同。比如說,面對突如其來的疫情,很多企業的目標是「活下來」,所以要控製成本,減少廣告投入。疫情之後,有些企業想要擴大品牌影響力,所以增加廣告投入。
小結
本文介紹了建立指標體系的方法,利用魚骨圖,按照業務邏輯,遵循二八法則,並以零售行業為例,建立了一套指標體系。
特別提醒一下,指標體系的建立並不是一蹴而就的,通常包括創建、運行和修正三個階段。
創建階段包括確定目標、分配權重等工作;運行階段包括制定標准、考核評判等工作;修正階段包括復盤總結、修訂調整等工作。
『陸』 如何搭建大數據分析平台
1、 搭建大數據分析平台的背景
在大數據之前,BI就已經存在很久了,簡單把大數據等同於BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。BI是達成業務管理的應用工具,沒有BI,大數據就沒有了價值轉化的工具,就無法把數據的價值呈現給用戶,也就無法有效地支撐企業經營管理決策;大數據則是基礎,沒有大數據,BI就失去了存在的基礎,沒有辦法快速、實時、高效地處理數據,支撐應用。 所以,數據的價值發揮,大數據平台的建設,必然是囊括了大數據處理與BI應用分析建設的。
2、 大數據分析平台的特點
數據攝取、數據管理、ETL和數據倉庫:提供有效的數據入庫與管理數據用於管理作為一種寶貴的資源。
Hadoop系統功能:提供海量存儲的任何類型的數據,大量處理功率和處理能力幾乎是無限並行工作或任務
流計算在拉動特徵:用於流的數據、處理數據並將這些流作為單個流。
內容管理特徵:綜合生命周期管理和文檔內容。
數據治理綜合:安全、治理和合規解決方案來保護數據。
3、 怎樣去搭建大數據分析平台
大數據分析處理平台就是整合當前主流的各種具有不同側重點的大數據處理分析框架和工具,實現對數據的挖掘和分析,一個大數據分析平台涉及到的組件眾多,如何將其有機地結合起來,完成海量數據的挖掘是一項復雜的工作。我們可以利用億信一站式數據分析平台(ABI),可以快速構建大數據分析平台,該平台集合了從數據源接入到ETL和數據倉庫進行數據整合,再到數據分析,全部在一個平台上完成。
億信一站式數據分析平台(ABI)囊括了企業全部所需的大數據分析工具。ABI可以對各類業務進行前瞻性預測分析,並為企業各層次用戶提供統一的決策分析支持,提升數據共享與流轉能力。
『柒』 怎樣對數據進行分析—數據分析的六大步驟
時下的大數據時代與人工智慧熱潮,相信很多人都會對數據分析產生很多的興趣,其實數據分析師是Datician的一種,指的是不同行業中,專門從事行業數據收集,整理,分析,並依據數據做出行業研究、評估和預測的專業人員。
很多人學習過數據分析的知識,但是當真正接觸到項目的時候卻不知道怎樣去分析了,導致這樣的原因主要是沒有屬於自己的分析框架,沒有一個合理的分析步驟。那麼數據分析的步驟是什麼呢?比較讓大眾認可的數據分析步驟分為
六大步驟。只有我們有合理的分析框架時,面對一個數據分析的項目就不會無從下手了。
無論做什麼事情,首先我們做的時明確目的,數據分析也不例外。在我們進行一個數據分析的項目時,首先我們要思考一下為什麼要進展這個項目,進行數據分析要解決什麼問題,只有明確數據分析的目的,才不會走錯方向,否則得到的數據就沒有什麼指導意義。
明確好數據分析目的,梳理分析思路,並搭建分析框架,把分析目的分解成若干不同的分析要點,即如何具體開展數據分析,需要從那幾個角度進行分析,採用哪些分析指標(各類分析指標需合理搭配使用)。同時,確保分析框架的體系化和邏輯化,確定分析對象、分析方法、分析周期及預算,保證數據分析的結果符合此次分析的目的。
數據收集的按照確定的數據分析框架,收集相關數據的過程,它為數據分析提供了素材和依據。常見的數據收集方式主要有以下幾種
一般地我們收集過來的數據都是雜亂無章的,沒有什麼規律可言的,所以就需要對採集到的數據進行加工處理,形成合適的數據樣式,保證數據的一致性和有效性。一般在工作中數據處理會佔用我們大部分的時間
數據處理的基本目的是從大量的,雜亂無章的數據中抽取到對接下來數據分析有用的數據形式。常見的數據處理方式有 數據清洗、數據分組、數據檢索、數據抽取 等,使用的工具有 Excel、SQL、Python、R 語言等。
對數據整理完畢之後,就需要對數據進行綜合的分析。數據分析方式主要是使用適當的分析方法和工具,對收集來的數據進行分析,提取有價值的信息,形成有效結論的過程。
在確定數據分析思路的階段,就需要對公司業務、產品和分析工具、模型等都有一定的了解,這樣才能更好地駕馭數據,從容地進行分析和研究,常見的分析工具有 SPSS、SAS、Python、R語言 等,分析模型有 回歸、分類、聚類、關聯、預測 等。其實數據分析的重點不是採用什麼分析工具和模型而是找到合適的分析工具和模型,從中發現數據中含有的規律。
通過對數據的收集、整理、分析之後,隱藏的數據內部的關系和規律就會逐漸浮現出來,那麼通過什麼方式展現出這些關系和規律,才能讓別人一目瞭然。一般情況下,是通過表格和圖形的方式來呈現出來。多數情況下,人們通常願意接受圖形這樣數據展現方式,因為它能更加有效、直觀地傳遞出數據所要表達的觀點。
常用數據圖表 有餅圖、柱形圖、條形圖、折線圖、氣泡圖、散點圖、雷達圖、矩陣圖 等圖形,在使用圖形展現的情況下需要注意一下幾點:
當分析出來最終的結果之後,我們是知道這部分數據展現出來的意義,適用的場景。但是如果想讓更多人了解你分析出來的東西,讓你的分析成果為眾人所熟知,這時就需要一份完美的PPT報告,一個邏輯合理的故事。這樣的分析結果才是最完美的。
一份好的數據分析報告,首先需要有一個好的分析框架,並且圖文並茂,層次清晰,能夠讓閱讀者一目瞭然。結構清晰、主次分明可以使閱讀者正確理解報告內容;圖文並茂,可以令數據更加生動活潑,提高視覺沖擊力,有助於閱讀者更形象,直觀地看清楚問題和結論,從而產生思考。
數據分析的四大誤區
1、分析目的不明確,不能為了分析而分析 。只有明確目的才能更好的分析
2、缺乏對行業、公司業務的認知,分析結果偏離實際 。數據必須和業務結合才有意義,清楚所在行業的整體結構,對行業的上游和下游的經營情況有大致的了解,在根據業務當前的需要,制定發展計劃,歸類出需要整理的數據,同時,熟悉業務才能看到數據背後隱藏的信息。
3、為了方法而方法,為了工具而工具 。只要能解決問題的方法和工具就是好的方法和工具
4、數據本身是客觀的,但被解讀出來的數據是主觀的 。同樣的數據由不同的人分析很可能得出完全相反的結論,所以一定不能提前帶著觀點去分析