① 學大數據需要什麼學歷 大數據都學什麼
很多同學想知道學大數據需要什麼學歷,以下是一些相關信息的整理,希望能對同學們有所幫助。
學習大數據不需要學歷在校大學生,社會閑遊人士,等等都可以學習,但是入職大數據職位就一樣了。入學大數據門檻不是很高,但是大數據對於數學要求比較高,因此高中生學習起來不是很適合,大專及大專以上學歷學員經過培訓就可以入職大數據。
就業也有保障,如果是本科的基本上給你簽的就業協議都是13000起,如果你好好學了認真學了是可以達到這個薪資水平的,大數據招聘一般都是大專起,所以對學歷還是有那麼一點點的要求的。
大數據的學習,可以大致分為三個階段:
階段一,主要是學習大數據基礎,主要是Java基礎和Linux基礎。
大數據的主要編程語言是Java,而主要的開發和運行在Linux環境當中完成,所以這兩項基礎必備。Java基礎主要在Java SE、資料庫方面,需要額外重視,而Linux,掌握基本的系統命令就能慢慢上手類 ,多用會越來越熟練。
階段二,就是大數據技術組件框架的學習,這部分也是重點。
大數據技術體系龐雜,基礎技術覆蓋數據採集、數據預處理、分布式存儲、NOSQL資料庫、多模式計算(批處理、在線處理、實時流處理、內存處理)、多模態計算(圖像、文本、視頻、音頻)、數據倉庫、數據挖嘩帆掘、機器學習、人工智慧、深度學習、並行計算、可視化等各種技術范疇和不同的層面。
但是從企業應用的角度來說,主要是基於開源框架開發應用的多,所以就是主流的大數據技術框架的學習,包括Hadoop、Spark、Storm、Flink等一系列框架及其生態圈。
階段三,是項埋卜目練手。
招聘面試亂液雹的時候,企業會很看重這方面,實戰能力,能夠基於具體的需求,去完成開發,給出合理的技術解決方案。
② 怎樣進行大數據的入門級學習
1R programming
如果只是想初步了解一下R語言已經R在數據分析方面的應用,那不妨就看看這兩本:
R in action:我的R語言大數據101。其實對於一個沒有任何編程基礎的人來說,一開始就學這本書,學習曲線可能會比較陡峭。但如果配合上一些輔助材料,如官方發布的 R basics
2Python
Think Python,Think
Stats,Think Bayes:這是Allen B. Downey寫的著名的Think X
series三大卷。其實是三本精緻的小冊子,如果想快速地掌握Python在統計方面的操作,好好閱讀這三本書,認真做習題,答案鏈接在書里有。這三本書學通了,就可以上手用Python進行基本的統計建模了。
3Exploratory Data Analysis 和 Data Visualization
Exploratory Data
Analysis:John
Tukey寫於1977年的經典老教材,是這一領域的開山之作。如今EDA已經是統計學里的重要一支,但當時還是有很多人對他的工作不屑一顧。可他愛數據,堅信數據可以以一種出人意料的方式呈現出來。正是他的努力,讓數據可視化成為一門無比迷人的技術。
4Machine Learning Data Mining
這一塊就不多說了,不是因為它不重要,而是因為它太太太重要。所以這一部分就推兩本書,都是」世界名著「,都比較難讀,需要一點點地啃。這兩本書拿下,基本就算是登堂入室了。其實作為機器學習的延伸和深化,概率圖模型(PGM)和深度學習(deep
learning)同樣值得研究,特別是後者現在簡直火得不得了。但PGM偏難,啃K.Daphne那本大作實在太燒腦,也沒必要,而且在數據領域的應用也不算很廣。deep
learning目前工業界的步子邁得比學術界的大,各個domain的應用如火如荼,但要有公認的好教材問世則還需時日,所以PGM和deep
learning這兩塊就不薦書了。
③ 大數據分析工具有哪些,有什麼特點
數據分析再怎麼說也是一個專業的領域,沒有數學、統計學、資料庫這些知識的支撐,對於我們這些市場、業務的人員來說,難度真的不是一點點。從國外一線大牌到國內宣傳造勢強大的品牌,我們基本試用了一個遍,總結一句話「人人都是數據分析師」這個坑實在太大,所有的數據分析工具無論宣傳怎樣,都有一定的學習成本,尤其是要深入業務實際。今天就我們用過的幾款工具簡單總結一下,與大家分享。
1、Tableau
這個號稱敏捷BI的扛把子,魔力象限常年位於領導者象限,界面清爽、功能確實很強大,實至名歸。將數據拖入相關區域,自動出圖,圖形展示豐富,交互性較好。圖形自定義功能強大,各種圖形參數配置、自定義設置可以靈活設置,具備較強的數據處理和計算能力,可視化分析、互動式分析體驗良好。確實是一款功能強大、全面的數據可視化分析工具。新版本也集成了很多高級分析功能,分析更強大。但是基於圖表、儀錶板、故事報告的邏輯,完成一個復雜的業務匯報,大量的圖表、儀錶板組合很費事。給領導匯報的PPT需要先一個個截圖,然後再放到PPT裡面。作為一個數據分析工具是合格的,但是在企業級這種應用匯報中有點局限。
2、PowerBI
PowerBI是蓋茨大佬推出的工具,我們也興奮的開始試用,確實完全不同於Tableau的操作邏輯,更符合我們普通數據分析小白的需求,操作和Excel、PPT類似,功能模塊劃分清晰,上手真的超級快,圖形豐富度和靈活性也是很不錯。但是說實話,畢竟剛推出,系統BUG很多,可視化分析的功能也比較簡單。雖然有很多復雜的數據處理功能,但是那是需要有對Excel函數深入理解應用的基礎的,所以要支持復雜的業務分析還需要一定基礎。不過版本更新倒是很快,可以等等新版本。
3、Qlik
和Tableau齊名的數據可視化分析工具,QlikView在業界也享有很高的聲譽。不過Qlik Seanse產品系列才在大陸市場有比較大的推廣和應用。真的是一股清流,界面簡潔、流程清晰、操作簡單,交互性較好,真的是一款簡單易用的BI工具。但是不支持深度的數據分析,圖形計算和深度計算功能缺失,不能滿足復雜的業務分析需求。
最後將視線聚焦國內,目前搜索排名和市場宣傳比較好的也很多,永洪BI、帆軟BI、BDP等。不過經過個人感覺整體宣傳大於實際。
4、永洪BI
永洪BI功能方面應該是相對比較完善的,也是拖拽出圖,有點類似Tableau的邏輯,不過功能與Tableau相比還是差的不是一點半點,但是操作難度居然比Tableau還難。預定義的分析功能比較豐富,圖表功能和靈活性較大,但是操作的友好性不足。宣傳擁有高級分析的數據挖掘功能,後來發現就集成了開源的幾個演算法,功能非常簡單。而操作過程中大量的彈出框、難以理解含義的配置項,真的讓人很暈。一個簡單的堆積柱圖,就研究了好久,看幫助、看視頻才搞定。哎,只感嘆功能藏得太深,不想給人用啊。
5、帆軟BI
再說號稱FBI的帆軟BI,帆軟報表很多國人都很熟悉,功能確實很不錯,但是BI工具就真的一般般了。只能簡單出圖,配合報表工具使用,能讓頁面更好看,但是比起其他的可視化分析、BI工具,功能還是比較簡單,分析的能力不足,功能還是比較簡單。帆軟名氣確實很大,號稱行業第一,但是主要在報表層面,而數據可視化分析方面就比較欠缺了。
6、Tempo
另一款工具,全名叫「Tempo大數據分析平台」,宣傳比較少,2017年Gartner報告發布後無意中看到的。是一款BS的工具,申請試用也是費盡了波折啊,永洪是不想讓人用,他直接不想賣的節奏。
第一次試用也是一臉懵逼,不知道該點那!不過抱著破罐子破摔的心態稍微點了幾下之後,操作居然越來越流暢。也是拖拽式操作,數據可視化效果比較豐富,支持很多便捷計算,能滿足常用的業務分析。最最驚喜的是它還支持可視化報告導出PPT,徹底解決了分析結果輸出的問題。深入了解後,才發現他們的核心居然是「數據挖掘」,演算法十分豐富,也是拖拽式操作,我一個文科的分析小白,居然跟著指導和說明做出了一個數據預測的挖掘流,簡直不要太驚喜。掌握了Tempo的基本操作邏輯後,居然發現他的易用性真的很不錯,功能完整性和豐富性也很好。不過沒有宣傳也是有原因的,系統整體配套的介紹、操作說明的完善性上還有待提升。
④ 大數據對於企業有哪些用處這五點你要知道!
天貓大數據對於企業開展卓有成效的營銷活動有何價值?
什麼是卓有成效?「所謂有效性,就是使能力和知識資源能夠產生更多更好成果的一種手段。」――《卓有成效的管理者》
雖然說信息時代給我們提供了數不盡的便捷,同時由於信息的快速傳播,獲得資源的便利性和數量也不是以前可以相比的,但即便如此,一個企業獲得的資源也是有一定數量的,那麼企業要思考的就是如何用手裡掌握的東西發揮最大的效用,這是非常重要的,也是上面提到的「卓有成效」。
第一點、大數據可以清楚的了解和把握用戶的行為和特徵。
這一點大家都應該聽過,網上所流傳的一些段子,像什麼「新疆人買比基尼最多」「浙江人cap最小」這些都是基於大數據分析出來的,而且,像這種事情也沒必要造假,可以說就像法庭上的證據一樣,實實在在地擺在你面前。
很早就有企業規定了自己的企業文化,如果一些企業真的像他們所說的那樣,「一切以顧客為中心」,那他們真的要注重大數據研究帶來的成績了,一個優秀的企業應該「比用戶更了解用戶」,時刻關注用戶的選擇情況然後企業才能夠將自己的產品更好的推銷出去。
第二點,精準信息推送,時刻把握用戶注意層次,精準演算法把握用戶心理。
記得以前看過一篇文章,上面寫的是有關於精準營銷對企業未來造成的影響,可由於當時科技的不成熟,企業似乎不能做出他們想要的成績,也就是沒有足夠的數據支撐他們的想法,導致「精準營銷」的理念沒有用在現實。
現在不一樣了,大數據時代的到來為企業打開了新的世界,企業只需要一點點的付出就能夠得到用戶的特徵情況,還有足夠多的用演算法計算出的准確分析,所以,現在的app在我們進入頁面時就能夠讓我們看到想要的東西,以至於讓我們長久的使用他們的產品,產生用戶黏度。
第三點、企業可以找到重點關注的用戶。
這個其實很簡單,很多企業都在考慮如何消減自己的成本,以及如何找到最有潛力成為企業長期用戶的人,而有了大數據,或許一切都不再是難題,一切都可以通過事實推演出來潛在實力用戶。
用戶必然會瀏覽網站,留下痕跡,關注用戶關注的內容,看他們與你的公司產品是否符合;再找出用戶與他人交流通信得出的內容,通過一些手段判斷,通過這些情報進而分析,就可以得到企業潛在用戶。
第四點、發現新市場和新趨勢。
以大數據分析為基礎,企業家可以更加輕松的得到未來的新市場有哪些我們要關注的事情,如果說在某一個時間內,一個新產品突然搜索指數上漲,而且保持一定時間的正常浮動范圍,可能就有新的市場需求出現,哪裡有需求,那就有商業,所以,大數據對於企業把握商業市場還是很有幫助的。
第四點、監控對手٩(๑^o^๑)۶
這也是企業生存重要的一個環節,最了解的永遠都是你的對手,競爭對手在做什麼,有什麼新的戰略要實施,這些事企業都想知道,如果能夠精準的知道別的企業做了這什麼,那麼來自外部威脅的源頭之一就可以忽略。
而且企業在運營的過程當中,觀察對手的動向,針對性的做出回應,無疑會大大的增加企業的存活率。
第五點、企業通過大數據推出自己的品牌。
這一點很重要,品牌戰略不是鬧著玩的,新生代的品牌多如牛毛,除去老牌商家還有資本家的強勢進入,一些小品牌很難生存下來,這也是正常的,那麼如何通過大數據將自身品牌傳遞給大眾就成為了關鍵的一步。
通過大數據分析用戶特徵,當下潮流重點,用戶關注內容,正負面新聞等等一系列的東西,然後企業針對分析出的內容加以調整,快速有效的抓住消費者的核心。
為你的生活帶來精彩,謝謝了(^~^)
⑤ 女生學大數據怎麼樣
大數據在IT行業中已經聚焦著很多人的眼光,當下不僅男生對大數據感興趣,很多女生對大數據也很感興趣,但是很多祥衫女生心裡是沒譜的,女生可以學好大數據嗎?這自然是受男生更適合IT行業發展思維的影響。女生可以學好大數據嗎?北大青鳥http://www.kmbdqn.cn/認為可以的。
之前很多人認為IT行業女生不適合進入,女生也根本不可能學好一門IT技術,但是當下這種言論屢屢謹悶腔被打臉,IT行業中女生人數在不斷的增加,並且不少女生還成為了IT行業中CTO(首席技術官),21世紀的今天,不少女生已經在IT行業中大放異彩。
大數據屬於IT技術中的一種,從沒有人規定過女生不能學大數據,也沒有人說過女生掌握不了大數據技術,關鍵是你敢於挑戰嗎?女生不去嘗試下,你永遠不知道你可不可以學好大數據。女生是可以學好大數據的,罩攔也許會比男生學大數據累一點點,但不是學不好。
不論男女做夢是學不好大數據的,還是得付出實踐。女生要想學好大數據,那麼首先得培養對大數據的興趣,讓自己有堅持學大數據的動力,其次找家靠譜的大數據培訓機構,跟著專業的大數據培訓機構老師腳踏實地的、按部就班的學習。
⑥ 運營方向--淺談大數據 —記《不做無效的營銷》小感觸
還記得,應該是畢業那年,感覺,突然所有的建築公司、地產公司,都把「大數據」掛在口邊,那是我第一次對這個詞感觸這么深刻,建築學專業出身的我,彷彿已經看到,進入有「大數據」的公司,就能夠挖掘漏洞,找出流行的款式,設計最受歡迎的房子,拿不菲的獎金,那時候給我感覺,「大數據」=精差兄致機會,而這虛態襲個精緻的機會,將伴我同行。
首先,我們得明確一點,什麼是大數據。《不做無效的營銷》給出一定的答復:無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。「網路」也提出大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
會發現,數據量的級別上漲之後,帶來的效益和權重在幾何增長,彷彿我們也能像書本中所說,像Netflix公司,用大數據捧紅了《紙牌屋》,帶來現象級別的收視率和宣傳
而這些,正是運營版塊的我們急需的資源,我們確實需要「大數據」來指導、糾正我們的動作,不斷擦除畫往錯誤方向的筆痕,走向勝利
而在前往勝利的道理上,如若不小心,「大數據」的三大誤區,分分鍾能把我們帶入溝里。
①談及者眾,知其者寡
短時間的某個產品,或者某個行為動作爆火,街頭街尾全在討論,這時候,總是會以為,這就是「大數據」了,得分析,得琢磨,結果會發現,談論的人是很多,真正分析出來一點點套路的人特別少。
②掛羊頭賣狗肉
所有的公司或者推文,都講這個詞,我的##結論,是根據「大數據」研究出來的,特別有效,其實,所謂的大數據,估計可能就是上周一整周的上萬條數據而已,並沒有特別重大的代表意義,因為時效性太短,但是不知者,很容易被其誤導,走入改公司設置的怪圈
③過度神話
總以為,靠近「大數據」分析出來的成果就是特別牛逼的,從分析數據到設立部門,全抬著「大數據」的口號,然後根據一堆計算方法和邏輯,得出結論,XXX會怎麼樣,會發現,結論和工作的方向完全不匹配,完全就是無用功,甚至還可能因為這個錯誤的結論,把公司的戰略帶跑偏
那麼,既然這三個誤區怎麼明顯,做完運營方向的我們,是如何使用「大數據」這把刀,尤其是在教育行業,怎麼用?
我們都知道,所有的分析,都得建立在數據基礎上,不能憑空去想像,而「大數據」給予教育板塊的指導,應該會主要集中在兩個方面,一個是教學層面,一個是市場層面。
先談談教學層面,「大數據」帶來的第一個好處,就是個性化學習分析,可以發現,當班課的人數過多,老師對於一些孩子的掌控就會有偏差,但是大數據會幫我們,但我們用好「入門測」+「出門測」,幾次課下來的數據,就能給予學生對應的個性化學習分析了,還能根據個性化的結果,指導孩子如何進行補救復習。
第二個好處,量化學習過程,因為我們有「VPS教材」+「答題器」,除了出入門測,我們還能把課堂上的情況,不斷錄入電腦,生成學生對應的課堂掌握情況,全方位的對學生學習情況給予對應的跟蹤,有問題第一時間補救。
而第一個好處,第二個好處混合使用,就能夠把「學生自畫像」描摹出來,這樣,每一個家長都能知道自己孩子的情況是怎樣,應該怎麼調整,而老師拿到這一份「自畫像」,也能清楚孩子的問題,及時在課堂上或者課後給學生給予對應的講解,讓三方(家長、學生、老師)一起在「自畫像」的環節下配合,給予學生最大的成長幫助
市場層面,「大數據」給予的幫助,就更加多了,主要集中在三個方向
①續班率。運營者總是能夠拿到全部暑假或寒假的續班數據,以為就是大數據,感覺自己能寫出一堆東西了,仔細分析了一下,啊,原來續班率低,是因為0期班和4期班續班率低影響了,得到粗狂的結論:明年不弄0期和4期班閉逗級了
其實,這樣對待「大數據」,就進入前面所提的誤區的第三個了,過渡神話。拿著大數據,得到淺薄的結論,還按照淺薄的結論,指點工作,就是過渡神話。當我們走出這個誤區,多方向同比或者環比,然後思考,是什麼照常這個情況?千萬別主觀認為,只有這樣,才能摸清事實真相,真正幫助我們後期工作。舉例而言:比如,某個老師的續班率低,很容易主觀認為,是這個老師不負責任,那麼就需要拿出具體的數據來,沒有數據,都是空談,最少需要從「大數據」裡面實時帥選出來,是不是只有她續班率低,搭班老師如何,甚至是這個校區的老師如何,如果都非常的低,那麼可能就不是老師的問題了,是校區大環境的問題,而這個大環境包括好多種,校區地理位置不好?上課不方便,離地鐵公交站遠?家長教育意識不強?樓上就有競爭機構……等等,而這樣子分析,你會發現,你的思維不在停留在最基本的層面了,所以,這個才是真正的「大數據」給我們帶來的好處,而不是說瞎想而已
②KPI設定。每一位運營者對KPI是又痛又恨,「我們已經努力了,我們無愧於心」書中所述,道出多少運營者的心聲,而如果我們學會使用大數據,建立對應的評估體系,那麼對KPI的設定,就不會再是無效的運營了。市場的數據(包括地理環境,學生人數,競品機構,消費水平,重視教育等等),教師的數據(續班率,責任心,溝通家長頻次,搭班老師的看法等等),對這些數據進行系統的評估,得出恰當結論,這些結論,將會指導我們在設定KPI時候,不會在盲目的來,不然,執行者在這么惡劣的綜合環節下,還得完成幾倍的目標任務,那麼對於執行者的打擊是非常之大的。
③營銷跨界。所有人都知道,蹭熱點,是一個快速傳播口碑,帶來流量的大好時機,可是,當我們,發現熱點的「大數據」時候,已經有點遲了,蹭熱點的成本過高,因為已經有好多機構再蹭,帶來的收益並沒有想像中的那麼大了。那麼我們可以另闢蹊徑,蹭小熱點,蹭小需求,讓營銷跨界,不再局限於教育行業。舉個簡單例子,夏天,最喜愛的活動中有一個是游泳,可是,游泳館提供,洗發水、沐浴露的可能性是非常低的,而洗發水、沐浴露以及防水袋都是普遍游泳愛好者的需求,這就是我們需要的小數據,這就是我們需要的熱點,假如,我們拿「防水袋」+「小包洗發水沐浴露」的方案去和游泳場地協商,換回特價班海報展架機會以及游泳場會員電話數據等資料,甚至我們還能在防水袋上印刷我們的機構標志以及特價班等我們需要印刷的信息,雙贏結果,既能促進顧客舒適度,也能給我們帶來曝光,這應該是一個我自我感覺可行的一個小小的營銷跨界。
珍惜「大數據」,運用正確的方法,別再亂入誤區,多想多思考,你的運營之路,會終將走得比目前更加順利。
馮文位 廣州新東方學校優能中學事業部
⑦ 一點點奶茶加盟和coco奶茶加盟比較,哪個品牌更好
您好,一點點奶茶和coco奶茶都悶談是市場上名副其實的奶茶螞蘆碰大牌,成立時間都不短,在市場上都有一定的影響力,我們具體來分析一下問題!
一點點奶茶VS Coco都可奶茶
一點點奶茶分析:
一:始於台灣的品牌,在積累一定的品牌之後並不急於盲目的擴張,而是穩扎穩打,在自己的內功先練好再去競爭市場份額。這點很贊,不像有品牌就是為了跑馬圈地快速圈錢。
二: 性價比高,10塊8塊就能喝到一杯熱乎乎的奶茶,尤其是在冬天為你帶來溫暖,夏天也有冰涼鮮嫩的系列為你解暑解渴,悠哉悠哉。 從不大打廣告都是靠用戶口碑傳播。
三: 主打年輕化時尚化人群,老少皆喜,童嫂無欺,馬雲曾說未來一定是屬於年輕人的,贏得了年輕人,就贏得了未來,一點點奶茶戰略做的很棒。
coco都可奶茶分析:
一:永遠執行追加市場份額計劃,門店數量來看,一點點的規模僅有COCO的一半,COCO依舊是奶茶市場的巨頭。
二 :coco奶茶 地理位置選擇很好, 有人流多的地方就有coco奶茶。 方圓15公里包圍圈 形成三角形,每一個角都有一家COCO奶茶 ,附近15公里內一網打盡,除非你喝個奶茶要開車跑很遠, 那樣你的成本就太高了,土豪除外。
三: 差異化經營 coco奶茶一直在改變著戰略, 其實他的紅茶綠茶都很便宜, 只是為了吸引客戶進來 , 來進一步消費他的精品價格略高的巧克力、咖啡等精品奶茶。
我們來看看一點點奶茶為什麼受到大家歡迎?
一點點奶茶優勢分析:
產品豐富回本快:
一點點奶茶小店產品有:香濃咖啡系列、特色果飲系列、慕斯沙冰系列、特色小吃系列等,主打產品有:招牌手拉奶茶、紅豆仙草奶茶、北海道抹茶、香濃巧克力奶茶、皇室麥丁奶茶、咖啡戀奶等作為奶茶店的主打產品,一點點奶茶精選原料,嚴格控制出品時間以及製作工藝,經市場反映,一點點奶茶奶茶系列在眾多城市,都是備受消費者青睞的搶手產品。品種多樣 的一點點奶茶奶茶是您投資加盟的好選擇,而且一點點奶茶奶茶加盟費用合理,回本快。
切合市場需求:
一點點奶茶奶茶加盟 賺錢勢頭不可擋,一點點奶茶奶茶結合市場,很准確的看好時下的流行,巧妙地結合在自己的品牌裡面,而一點點奶茶每個細節都在這里體現,都能讓他們感受到韓劇里那些小店的氛圍,一 點點奶茶奶茶加盟費用嘩裂相當合理,適合大部分中小型投資者!
加盟價格實惠:
一點點奶茶作為中國奶茶市場上細心經營的品牌,通過穩扎穩打,正在走向正規,起步騰飛發展,所有的一切都是低成本運營,確保一點點奶茶奶茶加盟價格實惠。
看到一點點奶茶這么受歡迎,還不動心?
望採納,謝謝!
⑧ 大數據之道與術
記得曾聽人說過,最重要的構建起自己的思維體系。現在隱隱約約能夠有些理解,成長就是建立並不斷完善自己思維體系的過程。
很久沒寫東西,但是對於最近的這幾本書我覺得帶給我蠻多驚喜,給了我不同的視角去看事情,需要將自己的一點點想法化成文字記錄下來。僅對於大數據這塊,淺談一下自己想法。
作為一隻小碼農,兵來將擋水來碼掩,一心撲在實現具體需求上,只注重技術實現,而沒有從整體,站在更高的視角去看待數據問題。大數據不在於數據量大小,不在於使用什麼具體的技術實現,而在於分析,在於解決問題,助力業務。
大數據時代,企業應該開啟數據化運營來保證業務發展和用戶增長。《增長黑客》一書中始終圍繞著, 數據分析->提出想法->排定優先順序->快速驗證, 這四點在進行。用戶在哪裡高流失,熱點功能,留存率,激活率等,只有數據才能實實在在反映公司的運營情況和產品的使用情況,用數據來作為產品的領航標。對於整體的數據分析來講,如下四步:
數據分析 :如《決戰大數據》中很令我豁然開朗的觀點, 大數據就是盡可能還原用戶當時的場景 。從用戶當時的場景出發,去分析為什麼用戶會在這個點流失?為什麼這個點轉化率低?具體的術,不限於頁面埋點,或者問卷調查等。用數據找出產品中體驗不佳的問題點。
提出想法: 對於解決產品中分析出的問題,或者一些好的idea,可以拉上研發、產品、市場同事一起做頭腦風暴,不同職責的人看問題的角度不一樣,更可能會出現一些好的idea。必要時候,甚至可以請完全不同項目的人進來頭腦風暴,激發靈感。
排定優先順序: 對於上述的很多想法,肯定不可能在一個迭代里全部實現。可以從主方向相關度、實現成本、時間周期、帶來效果等方面打分,評定需求優先順序,來確定當前這個迭代周期該實現哪些。
快速驗證: 互聯網行業的快速迭代,對於確定好的需求就需要快速推出進行驗證,是否有效,是否確實提升了用戶留存等。當然對於改變來講,都可能會帶來未知的風險,不能保證效果是正還是負,所以可以使用A/B測試,確定部分效果後再推廣。對於新的改變,一定要跟蹤用戶數據,對前後數據進行分析,產生了多大效果,一切應該以數據說話。
最後循環不斷上面流程,堅持用數據去領航產品。
以上是從產品迭代去講數據分析,但是回歸到大數據技術呢?數據湖,數據平台,整合了整個公司的海量數據,這些在於公司的意義又該怎樣。現在數據處理大致下面幾步:
數據採集:
1. 從大數據浪潮之後,現在幾乎每家公司都在瘋狂收集數據,每個角落數據都不放過。但是用起來的卻少之又少,最後發現數據指數級上升,成本高昂,卻沒產生該有的價值。在這里,我並不是反對數據收集,但是收集前需要對問題和數據做一些界定,這些數據對我業務真的有影響么?
2. 不要太過相信數據准確。特別是作為數據平台,你需要對接上游無數個數據源,同時需要將數據服務下游諸多系統。數據的准確性越來越重要,你並不能保證上游系統百分百的數據准確,所以請做好「臟」數據打算,不要過於樂觀。
數據存儲:
數據進來以後就需要存儲。可能很多業務部門會各自都有一套數據處理框架,優點在於更加靈活,缺點在於大量的數據冗餘,成本飛升和數據不一致等。所以稍大型公司內部基本會將基礎數據統一,這也是數據湖的初衷。關於數據存儲一塊,可以考慮三層結構: 基礎層,中間層,應用層 。其中基礎層數據,統一維護一份,保證數據一致,並盡量保持數據的原始狀態,防止數據失真。中間層,可以按照業務模塊,數據再生狀態,時間等維度生成多張大寬表,或者使用雪花模型等,對一模塊提供服務,允許各個模塊之間一定的數據冗餘,提供適度靈活性。
當然我們收集數據,最終是為了分析和使用。對於當下趨勢,越來越實時化。我們還需要放很大部分精力在存儲的同時,考慮如何 快速索引 ,怎麼保證我們能盡快的按照某些標簽就能從海量數據中提取出我們需要的數據。一大團雜亂無序的數據,除了占伺服器資源,沒有任何意義。
數據應用:
如同前邊產品中的數據分析一樣,大公司和具體的數據建模的目的也是為了指導業務和商業。如果數據沒有應用,沒有去結合業務,那麼數據本身也就沒有什麼意義。一個好的數據流程,應該如前所講一樣,是一個閉環。用數據應用指導產品,再通過產品收集自己需要的數據,豐富我們的數據。正如《刻意練習》中最重要的觀點,反饋才是進步的動力,才能讓自己看到哪裡做得不夠,哪裡需要改進,而做數據也是一樣。
對於數據開發人員,《決戰大數據》里的 「混」,「通」,「曬」 還是很有思考的價值。「混」,與業務混在一起,了解業務,才能真正理解數據,提升數據敏感。「通」,數據之間需要連通才有價值,而在紛亂的數據中做到不同部門,甚至不同行業之間的數據串聯在一起本身不管技術和溝通上都是一個大挑戰,只有「通」,才能更好的還原用戶當時的場景,甚至精確的預測下一步。「曬」需要把數據指標都曬出來,老闆關心的不是指標,而是指標背後的why和how。計算出指標,還要更多的去想想能發現什麼問題。
世間一切都是相同的,這也是為什麼要構建自己的思維體系,以一應萬。大數據分析這條道,同樣也適用於個人,將個人看作一個產品,或者公司去做數據分析。那怎麼用數據思維做個人管理?
數據收集: 知乎上有個問題,給我留下了很深的印象。看了那麼多書,真的有用嗎?我不敢說自己看過很多的書,但是仔細回想,曾經看過的書中內容確實大多都已記不住了。所以我慢慢在強迫自己去做一些讀書筆記這樣的事情。但是我所做的還遠遠不夠,讀書時,遇到喜歡的句子,醍醐灌頂的一段話,其實都可以加上備注和所思所想,記錄下來。這就是一個最基本的數據收集階段。
數據存儲: 數據最終的目的是使用,並不是把數據收集回來就算完成目標。存儲所對應的就是檢索,能夠在我們需要某個知識的時候,很快的從庫里邊調出這部分相關知識。所以對上一步收集回來的數據,可以通過 標簽、知識范疇、場景、時間 等組合歸類,便於我們快速的檢索。(當然歸納碎片知識的時候,很多人會和我一樣不知道該把這個知識歸類到哪個標簽上,其實是我們缺少對這個標簽的具體和邊界定義。正如一個思想所說,一個好的問題,就是具體完成後,答案就出來了)
數據應用: 對於生活中遇到的問題,我們求助於我們的知識庫。但是這些知識都是沒有經過檢驗的,而且整個社會一直處於動態變化中,所以我們應用這部分知識以後,還需要給給到反饋和反思。它是否適用,給我帶來了什麼樣的影響,這個知識是不是需要怎麼調整能更好適合我自己,再修改回自己的知識庫。
命運二字,命中註定的某些東西無法更改,但是運這一項,財富,人際關系,知識和思考模式都是可以靠自己積累的。
建立完善自己的思維體系,會發現萬物皆通。
⑨ 怎樣進行大數據的入門級學習
記住學到這里可以作為你學大數據的一個節點。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
⑩ 如何入門大數據
大數據
數據科學並沒有一個獨立的學科體系,統計學,機器學習,數據挖掘,資料庫,分布式計算,雲計算,信息可視化等技術或方法來對付數據。
但從狹義上來看,我認為數據科學就是解決三個問題:
1. data pre-processing;(數據預處理)
2. data interpretation;(數據解讀)
3.data modeling and analysis.(數據建模與分析)
這也就是我們做數據工作的三個大步驟:
1、原始數據要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的數據;
2、我們想看看數據「長什麼樣」,有什麼特點和規律;
3、按照自己的需要,比如要對數據貼標簽分類,或者預測,或者想要從大量復雜的數據中提取有價值的且不易發現的信息,都要對數據建模,得到output。
這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經驗來看,按照這個大思路走,數據一般不會做跑偏。
這樣看來,數據科學其實就是門復合型的技術,既然是技術就從編程語言談起吧,為了簡練,只說說R和Python。但既然是薦數據科學方面的書,我這里就不提R/Python編程基礎之類的書了,直接上跟數據科學相關的。
R programming
如果只是想初步了解一下R語言已經R在數據分析方面的應用,那不妨就看看這兩本:
R in action:我的R語言大數據101。其實對於一個沒有任何編程基礎的人來說,一開始就學這本書,學習曲線可能會比較陡峭。但如果配合上一些輔助材料,如官方發布的R basics(http://cran.r-project.org/doc/contrib/usingR.pdf),stackoverflow上有tag-R的問題集(Newest 『r』 Questions),遇到復雜的問題可在上面搜索,總會找到解決方案的。這樣一來,用這本書拿來入門學習也問題不大。而且這本書作者寫得也比較輕松,緊貼實戰。
Data analysis and graphics using R:使用R語言做數據分析的入門書。這本書的特點也是緊貼實戰,沒有過多地講解統計學理論,所以喜歡通過情境應用來學習的人應該會喜歡這本入門書。而且這本書可讀性比較強,也就是說哪怕你手頭沒電腦寫不了代碼,有事沒事拿出這本書翻一翻,也能讀得進去。
但如果你先用R來從事實實在在的數據工作,那麼上面兩本恐怕不夠,還需要這些:
Modern applied statistics with S:這本書里統計學的理論就講得比較多了,好處就是你可以用一本書既復習了統計學,又學了R語言。(S/Splus和R的關系就類似於Unix和Linux,所以用S教程學習R,一點問題都沒有)
Data manipulation with R:這本書實務性很強,它教給你怎麼從不同格式的原始數據文件里讀取、清洗、轉換、整合成高質量的數據。當然和任何一本注重實戰的書一樣,本書也有豐富的真實數據或模擬數據供你練習。對於真正從事數據處理工作的人來說,這本書的內容非常重要,因為對於任何研究,一項熟練的數據預處理技能可以幫你節省大量的時間和精力。否則,你的研究總是要等待你的數據。
R Graphics Cookbook:想用R做可視化,就用這本書吧。150多個recipes,足以幫你應付絕大多數類型的數據。以我現在極業余的可視化操作水平來看,R是最容易做出最漂亮的圖表的工具了。
An introction to statistical learning with application in R:這本書算是著名的the element of statistical learning的姊妹篇,後者更注重統計(機器)學習的模型和演算法,而前者所涉及的模型和演算法原沒有後者全面或深入,但卻是用R來學習和應用機器學習的很好的入口。
A handbook of statistical analysis using R:這本書內容同樣非常扎實,很多統計學的學生就是用這本書來學慣用R來進行統計建模的。
Python
Think Python,Think Stats,Think Bayes:這是Allen B. Downey寫的著名的Think X series三大卷。其實是三本精緻的小冊子,如果想快速地掌握Python在統計方面的操作,好好閱讀這三本書,認真做習題,答案鏈接在書里有。這三本書學通了,就可以上手用Python進行基本的統計建模了。
Python For Data Analysis: 作者是pandas的主要開發者,也正是Pandas使Python能夠像R一樣擁有dataframe的功能,能夠處理結構比較復雜的數據。這本書其實analysis講得不多,說成數據處理應該更合適。掌握了這本書,處理各種糟心的數據就問題不大了。
Introction to Python for Econometrics, Statistics and Data Analysis:這本書第一章就告訴你要安裝Numpy, Scipy, Matplotlib, Pandas, IPython等等。然後接下來的十好幾章就是逐一介紹這幾個庫該怎麼用。很全面,但讀起來比較枯燥,可以用來當工具書。
Practical Data Analysis: 這本書挺奇葩,貌似很暢銷,但作者把內容安排得東一榔頭西一棒子,什麼都講一點,但一個都沒講透。這本書可以作為我們學習數據分析的一個索引,看到哪塊內容有意思,就順著它這個藤去摸更多的瓜。
Python Data Visualization Cookbook: 用Python做可視化的教材肯定不少,我看過的也就這一本,覺得還不錯。其實這類書差別都不會很大,咬住一本啃下來就是王道。
Exploratory Data Analysis 和 Data Visualization
Exploratory Data Analysis:John Tukey寫於1977年的經典老教材,是這一領域的開山之作。如今EDA已經是統計學里的重要一支,但當時還是有很多人對他的工作不屑一顧。可他愛數據,堅信數據可以以一種出人意料的方式呈現出來。正是他的努力,讓數據可視化成為一門無比迷人的技術。但這本書不推薦閱讀了,內容略過時。要想完整地了解EDA,推薦下一本:
Exploratory Data Analysis with MATLAB:這本書雖然標題帶了個MATLAB,但實際上內容幾乎沒怎麼講MATLAB,只是每講一個方法的時候就列出對應的MATALB函數。這本書的重要之處在於,這是我讀過的講EDA最系統的一本書,除了對visualization有不輸於John Tucky的講解外,對於高維的數據集,通過怎樣的方法才能讓我們從中找到潛在的pattern,這本書也做了詳盡的講解。全書所以案例都有對應的MATALB代碼,而且還提供了GUI(圖形用戶界面)。所以這本書學起來還是相當輕松愉悅的。
Visualize This:中譯本叫「鮮活的數據」,作者是個「超級數據迷」,建立了一個叫http://flowingdata.com的網頁展示他的數據可視化作品,這本書告訴你該選擇什麼樣的可視化工具,然後告訴你怎樣visualize關系型數據、時間序列、空間數據等,最後你就可以用數據講故事了。如果你只想感受一下數據可視化是個什麼,可以直接點開下面這個鏈接感受下吧!A tour through the visualization zoo(A Tour Through the Visualization Zoo)
Machine Learning & Data Mining
這一塊就不多說了,不是因為它不重要,而是因為它太太太重要。所以這一部分就推兩本書,都是」世界名著「,都比較難讀,需要一點點地啃。這兩本書拿下,基本就算是登堂入室了。其實作為機器學習的延伸和深化,概率圖模型(PGM)和深度學習(deep learning)同樣值得研究,特別是後者現在簡直火得不得了。但PGM偏難,啃K.Daphne那本大作實在太燒腦,也沒必要,而且在數據領域的應用也不算很廣。deep learning目前工業界的步子邁得比學術界的大,各個domain的應用如火如荼,但要有公認的好教材問世則還需時日,所以PGM和deep learning這兩塊就不薦書了。
The Element of Statistical Learning:要學機器學習,如果讓我只推薦一本書,我就推薦這本巨著。Hastie、Tibshirani、Friedman這三位大牛寫書寫得太用心了,大廈建得夠高夠大,結構也非常嚴謹,而且很有前瞻性,納入了很多前沿的內容,而不僅僅是一部綜述性的教材。(圖表也做得非常漂亮,應該是用R語言的ggplot2做的。)這本書注重講解模型和演算法本身,所以需要具備比較扎實的數理基礎,啃起這本書來才不會太吃力。事實上掌握模型和演算法的原理非常重要。機器學習(統計學習)的庫現在已經非常豐富,即使你沒有完全搞懂某個模型或演算法的原理和過程,只要會用那幾個庫,機器學習也能做得下去。但你會發現你把數據代進去,效果永遠都不好。但是,當你透徹地理解了模型和演算法本身,你再調用那幾個庫的時候,心情是完全不一樣的,效果也不一樣。
Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 數據挖掘的教材汗牛充棟,之所以推薦這本韓家煒爺爺的,是因為雖然他這本書的出發點是應用,但原理上的內容也一點沒有落下,內容非常完整。而且緊跟時代,更新的很快,我看過的是第二版,就已經加進去了social network analysis這種當時的前沿內容。現在已經有第三版了,我還沒看過,但應該也加入了不少新內容。其實這本書並不難讀,只是篇幅較長,啃起來比較耗時。
其實這兩本書里單拎出來一塊內容可能又是幾本書的節奏,比如bayesian方法,再拿出兩三本書來講也不為過,我個人用到的比較多,而且也確實有不少好書。但並非是所有data scientist都要用到,所以這一塊就不再細說。
還有一些印象比較深刻的書:
Big Data Glossary: 主要講解大數據處理技術及工具,內容涵蓋了NoSQL,MapRece,Storage,Servers,NLP庫與工具包,機器學習工具包,數據可視化工具包,數據清洗,序列化指南等等。總之,是一本辭典式的大數據入門指導。
Mining of Massive Datasets:這本書是斯坦福大學Web Mining的講義,裡面很多內容與韓家煒的Data Mining那本書重合,但這本書里詳細地講了MapRece的設計原理,PageRank(Google創業時期的核心排序演算法,現在也在不斷優化更新)講解得也比較詳細。
Developing Analytic Talent: 作者是個從事了十幾年數據工作的geek,技術博客寫得很有個人風格,寫的內容都比較偏門,通常只有具備相關數據處理經驗的人能體會出來,絲毫不照顧初學者的感受。比如他會談到當數據流更新太快時該怎麼辦,或者MapRece在什麼時候不好用的問題,才不管你懂不懂相關基礎原理。所以這本書不太適合初學者閱讀。這本書其實是作者的博客文章的集結,用how to become a data scientist的邏輯把他近幾年的博客文章串聯了起來。
Past, Present and Future of Statistical Science:這本書是由COPSS(統計學社主席委員會,由國際各大統計學會的帶頭人組成)在50周年出版的一本紀念冊,裡面有50位統計學家每人分別貢獻出的一兩篇文章,有的回憶了自己當年如何走上統計學這條路,有的探討了一些統計學的根本問題,有的談了談自己在從事的前沿研究,有的則給年輕一代寫下了寄語。非常有愛的一本書。
其它資料
Harvard Data Science:這是H大的Data science在線課,我沒有修過,但口碑很好。這門課需要費用8千刀左右,比起華盛頓大學的4千刀的Data science在線課雖貴一倍,但比斯坦福的14千刀要便宜將近一半(而且斯坦福的更偏計算機)。如果想自學,早有好心人分享了slides: (https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing)和homeworks and solutions: (https://github.com/cs109/content)
PyData:PyData是來自各個domain的用Python做數據的人每年舉行一次的聚會,期間會有各路牛人舉行一些規模不大的seminar或workshop,有好心人已經把video上傳到github,有興趣的去認領吧(DataTau/datascience-anthology-pydata · GitHub)
工具
R/Python/MATLAB(必備):如果是做數據分析和模型開發,以我的觀察來看,使用這三種工具的最多。R生來就是一個統計學家開發的軟體,所做的事也自然圍繞統計學展開。MATLAB雖然算不上是個專業的數據分析工具,但因為很多人不是專業做數據的,做數據還是為了自己的domain expertise(特別是科學計算、信號處理等),而MATLAB又是個強大無比的Domain expertise工具,所以很多人也就順帶讓MATLAB也承擔了數據處理的工作,雖然它有時候顯得效率不高。Python雖然不是做數據分析的專業軟體,但作為一個面向對象的高級動態語言,其開源的生態使Python擁有無比豐富的庫,Numpy, Scipy 實現了矩陣運算/科學計算,相當於實現了MATLAB的功能,Pandas又使Python能夠像R一樣處理dataframe,scikit-learn又實現了機器學習。
SQL(必備):雖然現在人們都說傳統的關系型資料庫如Oracle、MySQL越來越無法適應大數據的發展,但對於很多人來說,他們每天都有處理數據的需要,但可能一輩子都沒機會接觸TB級的數據。不管怎麼說,不論是用關系型還是非關系型資料庫,SQL語言是必須要掌握的技能,用什麼資料庫視具體情況而定。
MongoDB(可選):目前最受歡迎的非關系型資料庫NoSQL之一,不少人認為MongoDB完全可以取代mySQL。確實MongoDB方便易用,擴展性強,Web2.0時代的必需品。
Hadoop/Spark/Storm(可選): MapRece是當前最著名也是運用最廣泛的分布式計算框架,由Google建立。Hadoop/Spark/storm都是基於MapRece的框架建立起來的分布式計算系統,要說他們之間的區別就是,Hadoop用硬碟存儲數據,Spark用內存存儲數據,Storm只接受實時數據流而不存儲數據。一言以蔽之,如果數據是離線的,如果數據比較復雜且對處理速度要求一般,就Hadoop,如果要速度,就Spark,如果數據是在線的實時的流數據,就Storm。
OpenRefine(可選):Google開發的一個易於操作的數據清洗工具,可以實現一些基本的清洗功能。
Tableau(可選):一個可交互的數據可視化工具,操作簡單,開箱即用。而且圖表都設計得非常漂亮。專業版1999美刀,終身使用。媒體和公關方面用得比較多。
Gephi(可選):跟Tableau類似,都是那種可交互的可視化工具,不需要編程基礎,生成的圖表在美學和設計上也是花了心血的。更擅長復雜網路的可視化。