『壹』 數據挖掘從入門到進階 要看什麼書
推薦:Jiawei Han的《數據挖掘概念與技術》、Ian H. Witten 的《數據挖掘實用機器學習技術》、Pang-Ning Tan的《數據挖掘導論》、Matthew A. Russell的《社交網站的數據挖掘與分析》、Anand Rajaraman的《大數據》。
數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。數據挖掘是一種決策支持過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、可視化技術等。
高度自動化地分析企業的數據,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。知識發現過程由以下三個階段組成數據准備、數據挖掘、結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據准備、規律尋找和規律表示三個步驟。數據准備是從相關的數據源中選取所需的數據並整合成用於數據挖掘的數據集。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。
『貳』 有哪些數據分析、數據挖掘的書推薦下
1. 深入淺出數據分析 (豆瓣) 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。
難易程度:非常易。
2. 啤酒與尿布 (豆瓣) 通過案例來說事情,而且是最經典的例子。
難易程度:非常易。
3. 數據之美 (豆瓣) 一本介紹性的書籍,每章都解決一個具體的問題,甚至還有代碼,對理解數據分析的應用領域和做法非常有幫助。
難易程度:易。
4. 集體智慧編程 (豆瓣) 學習數據分析、數據挖掘、機器學習人員應該仔細閱讀的第一本書。作者通過實際例子介紹了機器學習和數據挖掘中的演算法,淺顯易懂,還有可執行的Python代碼。
難易程度:中。
5. Machine Learning in Action (豆瓣) 用人話把復雜難懂的機器學習演算法解釋清楚了,其中有零星的數學公式,但是是以解釋清楚為目的的。而且有Python代碼,鍵拍大贊!目前中科院棚大的王斌老師(微博: @王斌_ICTIR)已經翻譯這本書了 機器學習實戰 (豆瓣)。這本書本身質量就很高,王老師的翻譯質量也很高。
難易程度:中。
6. 推薦系統實踐 (豆瓣) 這本書不用說了,研究推薦系統必須要讀的書,而且是第一本要讀的書。
難易程度:中上。
7. 數據挖掘導論 (豆瓣) 最近幾年數據挖掘教材中比較好的一本書,被美國諸多大學的數據挖掘課作為教材,沒有推薦Jiawei Han老師的那本書,因為個人覺得那本書對於初學者來說不太容易讀懂。
難易程度:中上。
8. The Elements of Statistical Learning (豆瓣) 這本書有對應的中文版:統計學習基礎 (豆瓣)。書中配有R包,稿和羨非常贊!可以參照著代碼學習演算法。
難易程度:難。
9. 統計學習方法 (豆瓣) 李航老師的扛鼎之作,強烈推薦。
難易程度:難。
10. Pattern Recognition And Machine Learning (豆瓣) 經典中的經典。
這些都是在「綠色BI論壇」http://www.powerbibbs.com 找到的,這個論壇經常有數據分析的干貨分享,你可以看一下。
『叄』 數據挖掘從入門到進階,要看什麼書
數據挖掘入門的書籍,中文的大體有這些:
Jiawei Han的《數據挖掘概念與技術》
Ian H. Witten / Eibe Frank的《數據挖掘 實用機器學習技術》
Tom Mitchell的《機器學習》
TOBY SEGARAN的《集體智慧編程》
Anand Rajaraman的《大數據》
Pang-Ning Tan的《數據挖掘導論》
Matthew A. Russell的《社交網站的數據挖掘與分析》
很多人的第一本數據挖掘書都是Jiawei Han的《數據挖掘概念與技術》,這本書也是我們組老闆推薦的入門書(我個人覺得他之所以推薦是因為Han是他的老師)。
其實我個人來說並不是很推薦把這本書。這本書什麼都講了,甚至很多書少有涉及的一些點比如OLAP的方面都有涉獵。
但是其實這本書對於初學者不是那麼友好的,給人一種教科書的感覺,如果你有大毅力讀完這本書,也只能獲得一些零碎的概念的認識,很難上手實際的項目。
『肆』 機器學習,數據挖掘的書有哪些
說到數據分析,人們往往會下意識地聯想到另一個耳熟能詳的名詞:數據挖掘。那麼,到底什麼是數據挖掘呢?顧名思義,數據挖掘就是對數據進行處理,並從中提取可用信息的過程。如果你剛好正在尋找這方面的入門書籍,那麼韓家煒老師寫的《數據挖掘:概念與技術》絕對是一個不錯的選擇。
· 更難能可貴的是,隨書還附帶了一批可運行的神經網路實例。試試親自上手改改代碼吧,相信你會有意外的收獲。
『伍』 數據分析師面試經驗
數據分析師面試經驗
經常被問到一個問題,數據分析師或者數據挖掘工程師面試都問什麼問題啊?特別是以下幾類人群:
1、想轉行做數據分析工作的朋友。
2、之前在比較小的公司做數據分析師,去大公司面試。
3、在校大學生。
在回答這些問題之前,先談我的一個面試經歷,記得之前我在一家小公司做數據分析師的時候,有朋友推薦我去一家大公司去面試數據分析師。當時我也在想,在面試大公司的數據分析師一定會問:
1、你做過哪些模型?
2、用什麼工具做的啊?
3、你會或者知道哪些演算法啊?
4、數據量有多大?
.......
但是當我去溝通下來的時候,問關於數據挖掘模型演算法原理、使用什麼工具的東西不多。更多是問一些關於項目背景、怎麼思考這些項目、如何使用這些模型結果、怎麼推動業務方去使用數據結果。【坦白說當時覺得不可思議,怎麼問這些問題呢?】
所以大家在面試數據分析崗位的時候,基礎知識是必須的。但是更多要關注數據實現數據價值,特別是從事一段時間數據分析同學,但如果僅僅是剛准備從事數據分析同學,基礎的專業知識與技能肯定是面試必問的話題。如果這家公司希望未來培養或者招的真的做數據分析的,那就會像我面試碰到的,一定也會很關注面試之外的問題。
回到具體面試的問題,PS:這里我僅僅談談我的幾點看法和我面試中會問到的幾個問題,以及我為什麼會為這些問題。
一、了解你面試崗位的工作性質
1、你對於你面試崗位價值的理解。
2、你覺得這個崗位大概的工作內容。
3、對於公司的理解。
二、溝通表達/邏輯思維
1、說一下你過往做的一些項目/說說你以前的工作經歷。
2、你之前做過的一些專業分析。
3、你之前做過的模型。
4、之前是如何與業務方打交道的。
三、對於數據與商業的理解
1、如何理解數據敏感性?
2、你覺得數據怎麼體現其商業價值?能否舉個例子。
四、專業技能
1、基礎的統計學知識。
2、數據挖掘基本的演算法。
3、怎麼評估模型好壞。
4、使用的工具。
5、數據挖掘流程。
6、怎麼清洗變數【例如:指標定義、缺失值處理】。
7、怎麼解決建模中會碰到一些技術問題【例如:共線性、不同模型針對的.數據類型】。
五、學習能力
1、是怎麼學習專業知識。
2、怎麼學習業務知識。
六、職業發展
1、未來3年的職業規劃。
2、要實現這些規劃計劃是怎麼樣。
我把面試過程可以會問幾類問題,不同的面試官可以側重點不一樣。我想和所有面試數據分析師的朋友說的:
1、面試過程中大家是平等的。不要太弱勢也不要太強勢。
2、把你之前的工作有條理的表達出來。
3、面試一些問題的時候,可以想一想。我個人覺得,並不是所有的問題必須別人一問完,立即回答。
4、把面試當作一種學習與經歷。關鍵是從一些面試中你能發現自己不足。
另外一些小tips:
1、面試之前了解這個崗位。了解一下這個公司。花點時間在面試公司和崗位,了解了解人家公司是干什麼,如果你對這家公司特別感興趣,去網站上看看,去體驗體驗人家公司的產品和服務。會讓面試的人感覺到尊重。當然太貴就算了。
2、如果有認識的人或者通過一些渠道先了解一下你面試的公司,部門情況到底是怎麼樣的。到底要招什麼樣的人。
3、很多企業的招聘與實際需要的人之間有很大的出入。
4、投遞簡歷前:花點時間在簡歷上:要看到一份沒有錯別字且能把之前工作寫清楚在一張紙上真的很少。
5、機會是留給有準備的人。你准備好了嗎?每次面試結束看,看看自己的不足,然後一定立即去學起來。
『陸』 數據挖掘方面的經典書籍有什麼
推薦兩本比較基礎的書,數據挖掘導論和數據挖掘。經典教材,難度不深,內容全面且講解細致,適合初學者使用。
1、數據挖掘導論,[美]Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著,譯者: 范明 范宏建,人民郵電出版社;
2、數據挖掘:概念與技術,作者:(加)韓家煒,堪博著,范明,孟小峰譯,機械工業出版社;
因為都是中文版,閱讀起來基本沒有障礙,而且這兩個出版社也是計算機領域的傳統出版社了,質量還是很能保證的。
3、國外書籍推薦Pang-Ning Tan, Vipin Kumar etc. Introction to Data Mining。可以深入了解數據挖掘
關於分類、關聯規則、聚類的知識。第一章講基本部分,第二章講高級部分,讓人由淺入深。另有單獨的一章介紹異常檢測。本書的第一作者是物理背景出身,所以講解很重視對於演算法的理解(優缺點與適用范圍等)。
想學習數據挖掘,推薦上CDA數據分析師的課程。課程培養學員硬性的數據挖掘理論與Python數據挖掘演算法技能的同時,還兼顧培養學員軟性數據治理思維、商業策略優化思維、挖掘經營思維、演算法思維、預測分析思維,全方位提升學員的數據洞察力。點擊預約免費試聽課。