A. 數據挖掘學習心得體會
正如柏拉圖所說:需要是發明之母。隨著信息時代的步伐不斷邁進,大量數據日積月累。我們迫切需要一種工具來滿足從數據中發現知識的需求!而數據挖掘便應運而生了。正如書中所說:數據挖掘已經並且將繼續在我們從數據時代大步跨入信息時代的歷程中做出貢獻。
數據挖掘應當更正確的命名為「從數據中挖掘知識」,不過後者顯得過長了些。
數據挖掘——從大量數據中挖掘有趣模式和知識的過程。作為作為知識發現過程,他通常包括數據處理、數據集成、數據變換、模式發現、模式評估和知識表示六個步驟。
數據挖掘處理數據之多,挖掘模式之有趣,使用技術之大量,應用范圍之廣泛都將會是前所未有的;而數據挖掘任務之重也一直並存。這些問題將繼續激勵數據挖掘的進一步研究與改進。
關於數據挖掘的相關學習,推薦CDA數據師的相關課程,課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」點擊預約免費試聽課。
B. 如何學習數據挖掘
學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。技術尤其是計算機領域的技術發展是寬泛且快速更替的(十年前做網頁設計都能成立公司),一般人沒有這個精力和時間全方位的掌握所有技術細節。但是技術在結合行業之後就能夠獨當一面了,一方面有利於抓住用戶痛點和剛性需求,另一方面能夠累計行業經驗,使用互聯網思維跨界讓你更容易取得成功。不要在學習技術時想要面面俱到,這樣會失去你的核心競爭力。
想要學習數據挖掘,推薦咨詢CDA數據分析師的課程。CDA課程以項目調動學員數據挖掘實用能力的場景式教學為主,在講師設計的業務場景下由講師不斷提出業務問題,再由學員循序漸進思考並操作解決問題的過程中,幫助學員掌握真正過硬的解決業務問題的數據挖掘能力。這種教學方式能夠引發學員的獨立思考及主觀能動性,學員掌握的技能知識可以快速轉化為自身能夠靈活應用的技能,在面對不同場景時能夠自由發揮。點擊預約免費試聽課。
C. 如何系統地學習數據挖掘
磨刀不誤砍柴工。在學習數據挖掘之前應該明白幾點:
數據挖掘目前在中國的尚未流行開,猶如屠龍之技。
數據初期的准備通常占整個數據挖掘項目工作量的70%左右。
數據挖掘本身融合了統計學、資料庫和機器學習等學科,並不是新的技術。
數據挖掘技術更適合業務人員學習(相比技術人員學習業務來的更高效)
數據挖掘適用於傳統的BI(報表、OLAP等)無法支持的領域。
數據挖掘項目通常需要重復一些毫無技術含量的工作。
如果你閱讀了以上內容覺得可以接受,那麼繼續往下看。
學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。技
術尤其是計算機領域的技術發展是寬泛且快速更替的(十年前做網頁設計都能成立公司),一般人沒有這個精力和時間全方位的掌握所有技術細節。但是技術在結合
行業之後就能夠獨當一面了,一方面有利於抓住用戶痛點和剛性需求,另一方面能夠累計行業經驗,使用互聯網思維跨界讓你更容易取得成功。不要在學習技術時想
要面面俱到,這樣會失去你的核心競爭力。
一、目前國內的數據挖掘人員工作領域大致可分為三類。
1)數據分析師:在擁有行業數據的電商、金融、電信、咨詢等行業里做業務咨詢,商務智能,出分析報告。
2)數據挖掘工程師:在多媒體、電商、搜索、社交等大數據相關行業里做機器學習演算法實現和分析。
3)科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新演算法效率改進及未來應用。
二、說說各工作領域需要掌握的技能。
(1).數據分析師
需要有深厚的數理統計基礎,但是對程序開發能力不做要求。
需要熟練使用主流的數據挖掘(或統計分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
需要對與所在行業有關的一切核心數據有深入的理解,以及一定的數據敏感性培養。
經
典圖書推薦:《概率論與數理統計》、《統計學》推薦David
Freedman版、《業務建模與數據挖掘》、《數據挖掘導論》、《SAS編程與數據挖掘商業案例》、《Clementine數據挖掘方法及應用
》、《Excel 2007 VBA參考大全》、《IBM SPSS Statistics 19 Statistical Proceres
Companion》等。
(2).數據挖掘工程師
需要理解主流機器學習演算法的原理和應用。
需要熟悉至少一門編程語言如(Python、C、C++、Java、Delphi等)。
需要理解資料庫原理,能夠熟練操作至少一種資料庫(Mysql、SQL、DB2、Oracle等),能夠明白MapRece的原理操作以及熟練使用Hadoop系列工具更好。
經典圖書推薦:《數據挖掘概念與技術》、《機器學習實戰》、《人工智慧及其應用》、《資料庫系統概論》、《演算法導論》、《Web數據挖掘》、《 Python標准庫》、《thinking in Java》、《Thinking in C++》、《數據結構》等。
(3).科學研究方向
需要深入學習數據挖掘的理論基礎,包括關聯規則挖掘 (Apriori和FPTree)、分類演算法(C4.5、KNN、Logistic Regression、SVM等) 、聚類演算法 (Kmeans、Spectral Clustering)。目標可以先吃透數據挖掘10大演算法各自的使用情況和優缺點。
相對SAS、SPSS來說R語言更適合科研人員The R Project for Statistical Computing,因為R軟體是完全免費的,而且開放的社區環境提供多種附加工具包支持,更適合進行統計計算分析研究。雖然目前在國內流行度不高,但是強烈推薦。
可以嘗試改進一些主流演算法使其更加快速高效,例如實現Hadoop平台下的SVM雲演算法調用平台--web 工程調用hadoop集群。
需要廣而深的閱讀世界著名會議論文跟蹤熱點技術。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;還有數據挖掘相關領域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
可以嘗試參加數據挖掘比賽培養全方面解決實際問題的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
可以嘗試為一些開源項目貢獻自己的代碼,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具體可以在SourceForge或GitHub.上發現更多好玩的項目)。
經
典圖書推薦:《機器學習》
《模式分類》《統計學習理論的本質》《統計學習方法》《數據挖掘實用機器學習技術》《R語言實踐》,英文素質是科研人才必備的《Machine
Learning: A Probabilistic Perspective》《Scaling up Machine Learning :
Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise
Miner : A Case Study Approach》《Python for Data Analysis》等。
三、以下是通信行業數據挖掘工程師的工作感受。
真
正從數據挖掘項目實踐的角度講,溝通能力對挖掘的興趣愛好是最重要的,有了愛好才可以願意鑽研,有了不錯的溝通能力,才可以正確理解業務問題,才能正確把
業務問題轉化成挖掘問題,才可以在相關不同專業人才之間清楚表達你的意圖和想法,取得他們的理解和支持。所以我認為溝通能力和興趣愛好是個人的數據挖掘的
核心競爭力,是很難學到的;而其他的相關專業知識誰都可以學,算不上個人發展的核心競爭力。
說到這里可能很多數據倉庫專家、程序員、統計
師等等都要扔磚頭了,對不起,我沒有別的意思,你們的專業對於數據挖掘都很重要,大家本來就是一個整體的,但是作為單獨一個個體的人來說,精力有限,時間
有限,不可能這些領域都能掌握,在這種情況下,選擇最重要的核心,我想應該是數據挖掘技能和相關業務能力吧(從另外的一個極端的例子,我們可以看,
比如一個迷你型的挖掘項目,一個懂得市場營銷和數據挖掘技能的人應該可以勝任。這其中他雖然不懂數據倉庫,但是簡單的Excel就足以勝任高打6萬個樣本
的數據處理;他雖然不懂專業的展示展現技能,但是只要他自己看的懂就行了,這就無需什麼展示展現;前面說過,統計技能是應該掌握的,這對一個人的迷你項目
很重要;他雖然不懂編程,但是專業挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項目中,一個懂得挖掘技能和市場營銷業務能力的人就可以圓滿完成了,甚至
在一個數據源中根據業務需求可以無窮無盡的挖掘不同的項目思路,試問就是這個迷你項目,單純的一個數據倉庫專家、單純的一個程序員、單純的一個展示展現技
師、甚至單純的一個挖掘技術專家,都是無法勝任的)。這從另一個方面也說明了為什麼溝通能力的重要,這些個完全不同的專業領域,想要有效有機地整合在一起
進行數據挖掘項目實踐,你說沒有好的溝通能力行嗎?
數據挖掘能力只能在項目實踐的熔爐中提升、升華,所以跟著項目學挖掘是最有效的捷徑。
國外學習挖掘的人都是一開始跟著老闆做項目,剛開始不懂不要緊,越不懂越知道應該學什麼,才能學得越快越有效果。我不知道國內的數據挖掘學生是怎樣學的,
但是從網上的一些論壇看,很多都是紙上談兵,這樣很浪費時間,很沒有效率。
另外現在國內關於數據挖掘的概念都很混亂,很多BI只是局限在
報表的展示和簡單的統計分析,卻也號稱是數據挖掘;另一方面,國內真正規模化實施數據挖掘的行業是屈指可數(銀行、保險公司、移動通訊),其他行業的應用
就只能算是小規模的,比如很多大學都有些相關的挖掘課題、挖掘項目,但都比較分散,而且都是處於摸索階段,但是我相信數據挖掘在中國一定是好的前景,因為
這是歷史發展的必然。
講到移動方面的實踐案例,如果你是來自移動的話,你一定知道國內有家叫華院分析的公司(申明,我跟這家公司沒有任何
關系,我只是站在數據挖掘者的角度分析過中國大多數的號稱數據挖掘服務公司,覺得華院還不錯,比很多徒有虛名的大公司來得更實際),他們的業務現在已經覆
蓋了絕大多數中國省級移動公司的分析挖掘項目,你上網搜索一下應該可以找到一些詳細的資料吧。我對華院分析印象最深的一點就是2002年這個公司白手起
家,自己不懂不要緊,一邊自學一邊開始拓展客戶,到現在在中國的移動通訊市場全面開花,的確佩服佩服呀。他們最開始都是用EXCEL處理數據,用肉眼比較
選擇比較不同的模型,你可以想像這其中的艱難吧。
至於移動通訊的具體的數據挖掘的應用,那太多了,比如不同話費套餐的制訂、客戶流失模
型、不同服務交叉銷售模型、不同客戶對優惠的彈性分析、客戶群體細分模型、不同客戶生命周期模型、渠道選擇模型、惡意欺詐預警模型,太多了,記住,從客戶
的需求出發,從實踐中的問題出發,移動中可以發現太多的挖掘項目。最後告訴你一個秘密,當你數據挖掘能力提升到一定程度時,你會發現無論什麼行業,其實數
據挖掘的應用有大部分是重合的相似的,這樣你會覺得更輕松。
四、成為一名數據科學家需要掌握的技能圖。(原文:Data Science: How do I become a data scientist?)
D. 該如何學習數據挖掘
技能一:理解資料庫。
還以為要與文本數據打交道嗎?答案是:NO!進入了這個領域,你會發現幾乎一切都是用資料庫來存儲數據,如MySQL,Postgres,CouchDB,MongoDB,Cassandra等。理解資料庫並且能熟練使用它,將是一個基礎能力。
技能二:掌握數據整理、可視化和報表製作。
數據整理,是將原始數據轉換成方便實用的格式,實用工具有DataWrangler和R。數據可視化,是創建和研究數據的視覺表現,實用工具有ggvis,D3,vega。數據報表是將數據分析和結果製作成報告。也是數據分析師的一個後續工作。這項技能是做數據分析師的主要技能。可以藉助新型軟體幫助自己迅速學會分析。如大數據魔鏡可視化分析軟體(「魔鏡」)既可以滿足企業需求,也可以適應個人需要,是進行數據分析的一個新型而精準的產品。
技能三:懂設計
說到能製作報表成果,就不得不說說圖表的設計。在運用圖表表達數據分析師的觀點時,懂不懂設計直接影響到圖形的選擇、版式的設計、顏色的搭配等,只有掌握設計原則才能讓結果一目瞭然。否則圖表雜亂無章,數據分析內容不能良好地呈現出來,分析結果就不能有效地傳達。
技能四:幾項專業技能
統計學技能——統計學是數據分析的基礎,掌握統計學的基本知識是數據分析師的基本功。從數據採集、抽樣到具體分析時的驗證探索和預測都要用到統計學。
社會學技能——從社會化角度看,人有社會性,收群體心理的影響。數據分析師沒有社會學基本技能,很難對市場現象做出合理解釋。
另外,最好還能懂得財務管理知識和心理學概況。這些都將會使你做數據分析的過程更容易。
技能五:提升個人能力。
有了產品可以將數據展示出來,還需要具備基本的分析師能力。首先,要了解模型背後的邏輯,不能單純地在模型中看,而要放到整個項目的上下文中去看。要理解數據的信息,形成一個整體系統,這樣才能夠做好細節。另外,與數據打交道,細心和耐心也是必不可少的。
技能六:隨時貼近數據文化
擁有了數據分析的基本能力,還怕不夠專業?不如讓自己的生活中充滿數據分析的氣氛吧!試著多去數據分析的論壇看看,多瀏覽大數據知識的網站,讓自己無時無刻不在進步,還怕不能學會數據分析嗎?
擁有這些技能,再去做數據分析,數據將在你手裡變得更親切,做數據分析也會更簡單更便捷,速成數據分析師不再遙遠。
大數據魔鏡知識社區,你可以關注下,shi.moojnn.com
E. 如何學好數據挖掘
很多人都開始關注數據分析,這是因為數據分析行業十分有前景。而學習數據分析需要學習數據挖掘,其中學習數據挖掘需要掌握很多的知識。我們在這篇文章中給大家介紹一下數據分析以及數據挖掘需要學習的知識,希望能夠給大家帶來幫助。
需要告訴大家的是,我們學習有關數據的知識的時候,一定離不開統計知識的學習,當然Excel、SPSS、R等是需要掌握的基本技能。如果我們做數據挖掘的話,就要重視數學知識,數據挖掘要從海量數據中發現規律,這就需要一定的數學知識,最基本的比如線性代數、高等代數、凸優化、概率論等。這些都是學習數據挖掘的基本功。
而數據挖掘中的樸素貝葉斯演算法需要概率方面的知識,SKM演算法需要高等代數或者區間論方面的知識。當然,我們可以直接套模型,R、Python這些工具有現成的演算法包,可以直接套用。但如果我們想深入學習這些演算法,最好去學習一些數學知識,也會讓我們以後的路走得更順暢。我們經常會用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時用MapRece寫程序,再用Hadoop或者Hyp來處理數據,如果用Python的話會和Spark相結合。
可以挖掘的數據類型有很多,具體就是關系資料庫、數據倉庫、事務資料庫、空間資料庫、時間序列資料庫、文本資料庫和多媒體資料庫。關系資料庫就是表的集合,每個表都賦予一個唯一的名字。每個表包含一組屬性列或欄位,並通常存放大量元組,比如記錄或行。關系中的每個元組代表一個被唯一關鍵字標識的對象,並被一組屬性值描述。
那麼什麼是數據倉庫呢?數據倉庫就是通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新構造。數據挖掘的工作內容是什麼呢?數據分析更偏向統計分析,出圖,作報告比較多,做一些展示。數據挖掘更偏向於建模型。比如,我們做一個電商的數據分析。萬達電商的數據非常大,具體要做什麼需要項目組自己來定。電商數據能給我們的業務什麼樣的推進,我們從這一點入手去思考。我們從中挑出一部分進行用戶分群。
關於數據挖掘需要學習的知識我們就給大家介紹到這里了,相信大家看了這篇文章以後對數據挖掘有了一個新的看法。其實數據挖掘的學習並非一日兩日就能夠完成,只有我們堅持學習,我們才能夠有所收獲。