導航:首頁 > 文件教程 > hadoop教程pdf

hadoop教程pdf

發布時間:2024-11-03 05:22:35

Ⅰ 零基礎可以培訓大數據分析師嗎會不會很難

隨著大數據的大熱,或者在大數據的影響下,很多企業開始真正重視數據,真正期望從數據中挖掘價值。甚至很多企業已經把數據作為取得競爭優勢的戰略。而數據真正價值的實現,不管計算效率,存儲等發展的多快。一定需要「分析師」,可以說是數據分析師既是建造「數據大廈」的總體設計師,也是建造「數據大廈」的工人。
數據分析師最為稀缺的人才,相信未來10內一定是最為朝陽行業之一。所以現在很多朋友希望轉型做數據分析師,很多畢業的同學也准備從事數據分析師。但很多都不知道成為一名分析師真正需要什麼?
要跨入數據分析師,也許很多時候你只能從「工人」開始做成(這意味著在很大長一段時間內,你的工作內容可能比較枯燥,可能做的都是比較沒有「技術」含量的活),慢慢的當你成為「熟練工」同時隨著行業相關知識和各種技能的積累,慢慢你也會走上「數據設計師」之路。開始從事「高大上」或者更有技術含量的工作。
一、至少花三個月掌握技術
「磨刀不誤砍柴工」,要想從為「工人」,甚至熟悉工,也需要很多技能,因為怎麼說數據分析師也是技術工種 。我覺得至少你要花3個月時間來學習一些最基礎的知識。
1、花1個月學習資料庫知識。
2、花1-2個月學習基礎的統計學知識。
3、花1個月學習點linux的知識。
4、花1個月去學習最基礎的數據挖掘模型:
5、花1個月掌握一門基礎的挖掘軟體的操作。
分析師一定要有持續學習的態度,所以在後續 工作中一定要保持持續學習的態度哦。堅持學習各類知識,不僅僅是技能層面的。
二、選擇感興趣的行業
如果你已經工作,選擇本行業或者相關行來。這樣你在行業經驗,業務知識你是有優勢的。因為你比較清楚業務的「痛點」
從而你也就相對清楚應該給業務提供什麼樣的數據。
如果你是學生,分析師一下自己的興趣,結合現在比較熱門的行業(指數據在這個行業也是比較熱)。
通過互聯網學習,聊這個行業的商業模式,數據內容,分析點。有機會可以去參加一些同行的沙龍或者分享,清楚的了解這個行業的數據分析師或者同行平時都在干什麼 。
對比自己當面的知識儲備,更有針對性的補充知識。和在學校的同學共勉一句話:「在學校學的東西都是有用的,只是學校沒有告訴你怎麼用!」
三、開始尋找機會
對於跨行業轉入的同學,當你准備好上述內容的時候。開始找個機會:
1、內部轉崗
2、選擇中,小型公司。先入門,再修行。

Ⅱ 有哪些好的hadoop學習資料

1."Hadoop.Operations.pdf.zip"http://vdisk.weibo.com/s/vDOQs6xMAQH62
2."Hadoop權威指南(中文版)(帶書簽).pdf"Hadoop權威指南(中文版)(帶書簽).pdf
3."[Hadoop權威指南(第2版)].pdf"[Hadoop權威指南(第2版)].pdf
4."hadoop權威指南第3版2012.rar"hadoop權威指南第3版2012.rar

5.《Hadoop技術內幕:深入解析HadoopCommon和HDFS.pdf"《Hadoop技術內幕:深入解析Hadoop Common和HDFS.pdf
6."Hadoop技術內幕:深入解析MapRece架構設計與實現原理.pdf"Hadoop技術內幕:深入解析MapRece架構設計與實現原理.pdf

7."Hadoop實戰.pdf"Hadoop實戰.pdf
8."Hadoop實戰-陸嘉恆(高清完整版).pdf"Hadoop實戰-陸嘉恆(高清完整版).pdf
9."Hadoop實戰(第2版).pdf"Hadoop實戰(第2版).pdf
10."HadoopinAction.pdf"Hadoop in Action.pdf

11"Hadoop in practice.pdf"Hadoop in practice.pdf
12"HadoopThe.Definitive.Guide,3Ed.pdf"Hadoop The.Definitive.Guide,3Ed.pdf
13."O'Reilly.Hadoop.The.Definitive.Guide.3rd.Edition.May.2012.pdf"O'Reilly.Hadoop.The.Definitive.Guide.3rd.Edition.May.2012.pdf

14."hadoop入門實戰手冊.pdf"hadoop入門實戰手冊.pdf
15."Hadoop入門手冊.chm"Hadoop入門手冊.chm

16."windows下配置cygwin、hadoop等並運行maprece及maprece程序講解.doc"windows下配置cygwin、hadoop等並運行maprece及maprece程序講解.doc
17"在Windows上安裝Hadoop教程.pdf"在Windows上安裝Hadoop教程.pdf

18."Hadoop源代碼分析(完整版).pdf"Hadoop源代碼分析(完整版).pdf
19."hadoop-api.CHM"hadoop-api.CHM

20."HBase-Hadoop@小米.pptx" HBase-Hadoop@小米.pptx
21."但彬-Hadoop平台的大數據整合.pdf"但彬-Hadoop平台的大數據整合.pdf

22."QCon2013-羅李-Hadoop在阿里.pdf"QCon2013-羅李
23."網路hadoop計算技術發展.pdf"網路hadoop計算技術發展.pdf
24."QCon-吳威-基於Hadoop的海量數據平台.pdf"QCon-吳威-基於Hadoop的海量數據平台.pdf
25."8步安裝好你的hadoop.docx"8步安裝好你的hadoop.docx
26."hadoop運維經驗分享.ppsx"hadoop運維經驗分享.ppsx

27."PPT集萃:20位Hadoop專家分享大數據技術工具與最佳實踐.rar"PPT集萃:20位Hadoop專家分享大數據技術工具與最佳實踐.rar
28."Hadoop2.0基本架構和發展趨勢.pdf"Hadoop 2.0基本架構和發展趨勢.pdf
29."Hadoop與大數據技術大會PPT資料.rar"Hadoop與大數據技術大會PPT資料.rar
30."Hadoop2011雲計算大會.rar"Hadoop2011雲計算大會.rar

Ⅲ 想成為數據分析師學習流程是怎樣的

第1本《誰說菜鳥不會數據分析入門篇》

很有趣的數據分析書!基本看過就能明白,以小說的形式講解,很有代入感。包含了數據分析的結構化思維、數據處理技巧、數據展現的技術,很能幫我們提升職場競爭能力。找不到工作的,學好了它,自然沒問題。

第2本《拯救你的Excel數據的分析、處理、展示(動畫版)》

一本用手機看的Excel操作書,大部分例子都配置了二維碼,手機掃掃就能看,基本上可以躺著把書學了。所有數據的分析、處理也都帶了職場範例(有會計、HR、銷售場景),很貼合實際。拯救我們小白的Excel,職場加薪不是夢想!

第3本《Excel圖表之道:如何製作專業有效的商務圖表》

職場大牛的書,教我們做圖表的,好看到不能再好看。可以設計和製作達到雜志級質量的、專業有效的商務圖表。相信平時我們很難做到吧,看了你就知道,也許一切沒那麼難。

第4本《絕了!Excel可以這樣用:數據分析經典案例實戰圖表書》

挺好的一個系列,都是Excle常用的技巧,適合銷售和HR。也是職場故事,很接地氣,帶視頻的,全都是Excel數據分析的常用理念和方法。

第5本《深入淺出數據分析》

深入淺出系列是對新手非常友好的叢書,用生動但啰嗦的語言講解案例。厚厚的一本書翻起來很快。本書涉及的基礎概念比較廣,包含一點統計學知識,學下來對數據分析思維會有一個大概了解。

第6本《MySQL必知必會》

如果真想買書看,可以看這本,適合新手向的學習,看基礎概念和查詢相關的章節即可。網路上大部分MySQL都是偏DBA的。

第7本《深入淺出統計學》

大概是最啰嗦的深入淺出系列,從賣橡皮鴨到賭博機的案例,囊括了常用的統計分析如假設檢驗、概率分布、描述統計、貝葉斯等。

第8本《網站分析實戰》

互聯網不再是網站的天下,但是移動端依舊有Web,我們在朋友圈看到的所有H5活動、第三方內容等,都是依託網頁實現。網站的數據分析依舊有存在空間,網站的數據指標還是能夠指導我們運營!

第9本《深入淺出Python》

還是深入淺出系列,完全適合零基礎的新人。需要注意的是,編程學習不同於其他知識,如果計算機基礎不穩固,在使用中會遇到各類問題。知其然不知其所以然!

第10本《Python學習手冊》

對於擁有編程基礎的人,這本書系無巨細的有些啰嗦,不過對新人,可以避免不必要的坑。把它當作一本工具文檔吧,當遇到不理解的內容隨時翻閱。

第11本《利用Python進行數據分析》

這本書是你學習python不二之選,對著書,著重學習numpy,pandas兩個包!每段代碼都敲打一遍,千萬行的數據清洗基本不會有大問題了。

第12本《R語言實戰》

R語言的入門書籍,從數據讀取到各類統計函數的使用。雖然沒有涉及機器學習,依靠這本書入門R是綽綽有餘了。

第13本《統計學:從數據到結論》

這本書是將R語言和統計學結合的教材,可以利用這本書再復習一遍統計知識。

第14本《深入淺出SQL》

帶你進入SQL語言的心臟地帶,從使用INSERT和SELECT這些基本的查詢語法到使用子查詢(subquery)、連接(join)和事務(transaction)這樣的核心技術來操作資料庫。到讀完《深入淺出SQL》之時,你將不僅能夠理解高效資料庫設計和創建,還能像一個專家那樣查詢、歸一(normalizing)和聯接數據。你將成為數據的真正主人。

第15本《數據挖掘導論》

這本書絕對是一本良心教材,拿到手從第一章開始閱讀,能看多少就看多少。但是要盡量多看點,因為此書你可能要看一輩子的~~

第16本《演算法導論中文版》

本書將嚴謹性和全面性融為一體,深入討論各類演算法,並著力使這些演算法的設計和分析能為各個層次的讀者接受。演算法以英語和偽代碼的形式描述,具備初步程序設計經驗的人就能看懂;說明和解釋力求淺顯易懂,不失深度和數學嚴謹性。

上面的書籍都是PDF版

視頻教材的有:

Python入門教程完整版(懂中文就能學會)資料

Python入門教程完整版(懂中文就能學會)視頻

Mysql從入門到精通全套視頻教程

8天深入理解python教程

大數據Hadoop視頻教程,從入門到精通

Python就業班

Python標准庫(中文版)

數學建模0基礎從入門到精通,全套資源

0基礎Python實戰-四周實現爬蟲系統

麥子學院招牌課程[明星python編程視頻VIP教程][200G](價值9000元)

從零基礎到數據分析師,幫你拿到年薪50萬!

煒心:xccx158

Ⅳ 推薦幾本javaEE的書籍,經典的。不要李剛的(雖然講的好,但是繁瑣,基礎東西太多了)。結合了三大框架的

[Spring.2.0核心技術和最佳實踐。廖學鋒掃描版。
容易的Hibernate「PDF清晰版。PDF
精通struts的基於MVC的設計與開發PDF
[Struts.2權威指南 - 基於MVC開發的WebWork的核心。鋼。Java.web掃描版PDF

Java方面的內部電驢學習知識


遞歸集合J2SE面向對象 - 封裝,繼承,多態
內存分析,通用,自動裝箱和拆箱,注釋
IO
多線程,線程同步
TCP / UDP
AWT,事件模型,匿名類
反射機制

SQL語句
多表聯接的資料庫(Oracle或MySQL)的正則表達式,內部和外部連接,子查詢
管理表,視圖,索引,序列,約束樹的存儲
存儲過程,觸發器
資料庫設計三大範式,
3:JDBC
JDBC基本/>連接池
樹的存儲和顯示
數據源的RowSet
JDBC連接Oracle和MySQL
:HTML_CSS_JAVASCRIPT
HTML,CSS,JavaScript的基本語法
> JavaScript的形成判斷
DOM編程基礎(事件處理程序)

JS效果,如TreeView,下拉聯動JS學習方法
JS調試方法
DreamWeaver的初步(創建HTML,表格,表單,CSS)
5:Servlet的基礎JSP
Tomcat的
servlet的基礎的
web.xml中的配置基本
Web應用程序結構
servlet的生命周期
請求的響應常用的方法
的ServletContext類
HTTP協議基礎(GET,POST)
餅干會話

應用程序
幾個語法(JSP,包括JSTL)注意練習的項目,而不是堅持的語法和包裝步驟的細節之前。
6:Struts的
多層體系結構的理論
模式1和模式2
Struts的
MVC

操作的業務邏輯類的基本概念之間的關系
Struts和JSP之間傳遞數據的
的Struts的治療過程(流量控制)
的Struts的TagLib(了解常用的)
JSTL
中的ActionForm
>欄位集合
上傳文件的類型轉換

DTO
動力作用形成的
驗證框架
的ActionForward轉發和重定向
動態生成的ActionForward
全局和局部的ActionForward
行動的推進范圍
UnknownActionMapping
行動線程安全
I18N
如何切換語言環境的
Struts的異常處理機制處理
用戶自定義的異常處理程序
Struts的多模塊配置7:XML
(XML / XSL,XSLT / DTD的,SCHEMA基本的Java編程的概念可以自動處理暫且不說)
8:休眠 OR映射
Hibernate的基本發展原則,步驟
休眠
基本介面(重點屆)
常見的屬性的映射關系映射
原生SQL
懶級聯反
繼承關系映射
HQL
性能優化緩存二級緩存查詢緩存
事務並發悲觀鎖定,樂觀鎖定
OpenSessionInView
CurrentSession
(至於JTA,的聯合主鍵的自然主鍵動態主鍵的任何類型Creteria查詢截擊和事件自定義類型,等等。 ,你可以暫時扔到一邊)
9:春季
IOC / DI
Spring配置
春季建築
AOP和Spring AOP
聲明式事務(AOP )
Spring + Hibernate的春天的Web
范圍
(其他的Spring模塊,你可以暫時扔到一邊自學)
10:EJB3.0
J2EE架構基金會(JTA JMS)
EJB基礎(地位及基本理論,分類等)
注釋
Ant的編譯和部署EJB
會話Bean的
EJB依賴注入
持久性API
(JBoss的學習EJB3.0)
11:SOA

30個進球
你需要精通面向對象分析與設計(OOA / OOD),涉及模式(GOF,J2EEDP),以及綜合模式。你應該充分了解UML,尤其是類,對象,互動,和statediagrams。<BR / 2,你需要學習JAVA語言以及它的核心類庫集合,序列化,流,網路,多線程,反射,事件處理,NIO,定製系統的本地化,以及其他的基本知識。
3類載入器,JVM,classreflect,以及垃圾回收的基本工作機制,您應該是知道的,你應該有能力反編譯一個類文件並且明白一些基本的匯編指令。
如果你要寫一個客戶端程序,你需要學習WEB的小應用程序(applet),必需掌握GUI設計的思想和方法的,和桌面應用程序的SWING,AWT,SWT,你也明白的UI部件的JAVABEAN組件模式中。JAVABEANS適用於業務邏輯的分離表示層JSP。
5。需要學習java資料庫技術,如JDBCAPI,會使用至少一種persistence / ORM構架,比如Hibernate,JDO,CocoBase,TopLink的InsideLiberator(國產JDO紅工廠軟體)或者iBatis。
6。您還應該了解對象關系的阻抗失配的含義,以及它是如何影響業務對象的與關系型資料庫交互,和結果它的操作,但還需要掌握不同的資料庫產品,如拉克勒,MySQL和MSSQLSERVER。
7。你需要學習JAVA的沙盒安全模式(類載入器,bytecodeverification,的經理,policyandpermissions,
代碼簽名,加密技術,認證,Kerberos身份,和其他人)digitalsignatures,以及不同的安全/認證API的JAAS()的,JCE(JavaCryptographyExtension)的的JSSE(JavaSecureSocketExtension)以及JGSS(JavaGeneralSecurityService)。
8。你需要學習Servlets和JSP,以及的JSTL(StandardTagLibraries)和選定的第三方TagLibraries。
9。你需要熟悉主流的網頁框架,例如JSF,Struts中,掛毯,蠶繭,WebWork中,和他們下面的涉及模式,如MVC/MODEL2。
10。你需要學習如何使用及管理WEB伺服器,例如tomcat的,樹脂的JRUN,並知道如何的基礎上擴展和維護WEB程序。
11。你需要學習分布式對象和遠程API,例如RMI和RMI / IIOP。
12。你需要掌握各種流行中間件技術標准,並結合java實現,比如Tuxedo,CROBA,當然也包括JavaEE的本身。你應該學會
你需要學習至少一個XMLAPI例如JAXP(JavaAPIforXMLProcessing)的JDOM(JavaforXMLDocumentObjectModel),DOM4J,或JAXR(JavaAPIforXMLRegistries)。
14。如何利用JAVAAPI和工具來構建WebService的。(JavaAPIforXML / RPC),JAX-RPC SAAJ的(SOAPwithAttachmentsAPIforJava)的,JAXB(JavaArchitectureforXMLBinding)JAXM(JavaAPIforXMLMessaging)的JAXR(JavaAPIforXMLRegistries),或JWSDP(JavaWebServicesDeveloperPack)的。
> 15。需要,學習一個輕量級應用程序框架,例如Spring中,PicoContainer的阿瓦隆,以及他們的IoC / DI風格(setter方法??,構造函數,集成*** ceinjection)。
16。你需要熟悉不同的J2EE技術??,例如JNDI(JavaNamingandDirectoryInte *** CE)的JMS(JavaMessageService)的,JTA / JTS(JavaTransactionAPI / JavaTransactionService)的JMX(JavaManagementeXtensions),以及JavaMail的。
17。企業類級JavaBeans(EJB),你需要學習以及它們的不同組件模式:無狀態/ StatefulSessionBeans,EntityBeans(bean-ManagedPersistence的包含[BMP]或容器ManagedPersistence [CMP]和它的EJB-QL),或者消息DrivenBeans(MDB )
18。你需要學習如何管理與配置一個J2EE應用程序伺服器,如WebLogic,JBoss的,並利用它的附加服務,例如簇類,連接池以及分布式處理的支持。您還需要了解它是如何封裝和配置應用程序能夠監控,調整它的性能。
19。你需要熟悉面向方面的編程,以及面向屬性的程序設計(兩個很容易混淆縮寫為AOP),以及他們的主流JAVA規格和執行。如AspectJ和AspectWerkz。
20。熟悉的服務不同有用的API和框架為你工作。例如,Log4J的(記錄/跟蹤),石英(調度)的JGroups(networkgroupcommunication)JCache(distributedcaching)的,Lucene的(全職文章搜索)JakartaCommons的。
21。如果你要對接和舊的系統或本地平台,你需要學習的JNI(JavaNativeInte *** CE)和JCA(JavaConnectorArchitecture)。
22。JINI技術,您需要熟悉,和它的分布式系統,如主CROBA。
23。你需要JavaCommunityProcess的( JCP),和他的不同JavaSpecificationRequests(JSR的),如JOLAP的Portlets(168)(69)(73),DataMiningAPI,等等。
24。你應該熟悉與的一個JAVAIDE例子的SunOne的NetBeans IntelliJIDEA或Eclipse(有些人更喜歡VI或EMACS來編寫文件不管你是什麼:)
25.JAVA一些配置(精確)是冗長的,它需要很多的人工代碼(例如EJB),所以你需要熟悉代碼生成工具,例如XDoclet。
26。你需要熟悉單元測試體系(JNunit),並且學習不同的生成,部署工具(Ant,Maven的)。
27。你需要熟悉JAVA開發的,經常使用的軟體工程過程。例如RUP(RationalUnifiedProcess)andAgilemethodologies的。
28。你需要深入了解加熟練操作和配置操作系統,比如GNU / Linux操作系統,sunsolaris MacOS的,作為一個跨平台的軟體開發。
29。您還需要跟上Java的發展步伐,比如現在可以深入學習javaME的,以及各種java中,使用的技術,如啟動一個新的web富客戶端技術的新規范。
30。您需要了解開源,至少在,許多Java技術的直接依賴開放源碼,以推動發展,如JAVA3D技術。

Ⅳ 怎樣進行大數據的入門級學習

怎樣進行大數據的入門級學習?

文 | 郭小賢

數據科學並沒有一個獨立的學科體系,統計學,機器學習,數據挖掘,資料庫,分布式計算,雲計算,信息可視化等技術或方法來對付數據。

但從狹義上來看,我認為數據科學就是解決三個問題:

1. datapre-processing;(數據預處理)

2. datainterpretation;(數據解讀)

3.datamodeling and analysis.(數據建模與分析)

這也就是我們做數據工作的三個大步驟:

1、原始數據要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的數據;

2、我們想看看數據「長什麼樣」,有什麼特點和規律;

3、按照自己的需要,比如要對數據貼標簽分類,或者預測,或者想要從大量復雜的數據中提取有價值的且不易發現的信息,都要對數據建模,得到output。

這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經驗來看,按照這個大思路走,數據一般不會做跑偏。

這樣看來,數據科學其實就是門復合型的技術,既然是技術就從編程語言談起吧,為了簡練,只說說R和Python。但既然是薦數據科學方面的書,我這里就不提R/Python編程基礎之類的書了,直接上跟數據科學相關的。

R programming

如果只是想初步了解一下R語言已經R在數據分析方面的應用,那不妨就看看這兩本:

R inaction:我的R語言大數據101。其實對於一個沒有任何編程基礎的人來說,一開始就學這本書,學習曲線可能會比較陡峭。但如果配合上一些輔助材料,如官方發布的R basics(http://cran.r-project.org/doc/contrib/usingR.pdf),stackoverflow上有tag-R的問題集(Newest 『r』 Questions),遇到復雜的問題可在上面搜索,總會找到解決方案的。這樣一來,用這本書拿來入門學習也問題不大。而且這本書作者寫得也比較輕松,緊貼實戰。

Dataanalysis and graphics using R:使用R語言做數據分析的入門書。這本書的特點也是緊貼實戰,沒有過多地講解統計學理論,所以喜歡通過情境應用來學習的人應該會喜歡這本入門書。而且這本書可讀性比較強,也就是說哪怕你手頭沒電腦寫不了代碼,有事沒事拿出這本書翻一翻,也能讀得進去。

但如果你先用R來從事實實在在的數據工作,那麼上面兩本恐怕不夠,還需要這些:

Modernapplied statistics with S:這本書里統計學的理論就講得比較多了,好處就是你可以用一本書既復習了統計學,又學了R語言。(S/Splus和R的關系就類似於Unix和Linux,所以用S教程學習R,一點問題都沒有)

Datamanipulation with R:這本書實務性很強,它教給你怎麼從不同格式的原始數據文件里讀取、清洗、轉換、整合成高質量的數據。當然和任何一本注重實戰的書一樣,本書也有豐富的真實數據或模擬數據供你練習。對於真正從事數據處理工作的人來說,這本書的內容非常重要,因為對於任何研究,一項熟練的數據預處理技能可以幫你節省大量的時間和精力。否則,你的研究總是要等待你的數據。

RGraphics Cookbook:想用R做可視化,就用這本書吧。150多個recipes,足以幫你應付絕大多數類型的數據。以我現在極業余的可視化操作水平來看,R是最容易做出最漂亮的圖表的工具了。

Anintroction to statistical learning with application in R:這本書算是著名的the element of statistical learning的姊妹篇,後者更注重統計(機器)學習的模型和演算法,而前者所涉及的模型和演算法原沒有後者全面或深入,但卻是用R來學習和應用機器學習的很好的入口。

Ahandbook of statistical analysis using R:這本書內容同樣非常扎實,很多統計學的學生就是用這本書來學慣用R來進行統計建模的。

Python

Think Python,ThinkStats,Think Bayes:這是AllenB. Downey寫的著名的Think X series三大卷。其實是三本精緻的小冊子,如果想快速地掌握Python在統計方面的操作,好好閱讀這三本書,認真做習題,答案鏈接在書里有。這三本書學通了,就可以上手用Python進行基本的統計建模了。

PythonFor Data Analysis: 作者是pandas的主要開發者,也正是Pandas使Python能夠像R一樣擁有dataframe的功能,能夠處理結構比較復雜的數據。這本書其實analysis講得不多,說成數據處理應該更合適。掌握了這本書,處理各種糟心的數據就問題不大了。

Introctionto Python for Econometrics, Statistics and DataAnalysis:這本書第一章就告訴你要安裝Numpy, Scipy, Matplotlib, Pandas, IPython等等。然後接下來的十好幾章就是逐一介紹這幾個庫該怎麼用。很全面,但讀起來比較枯燥,可以用來當工具書。

PracticalData Analysis: 這本書挺奇葩,貌似很暢銷,但作者把內容安排得東一榔頭西一棒子,什麼都講一點,但一個都沒講透。這本書可以作為我們學習數據分析的一個索引,看到哪塊內容有意思,就順著它這個藤去摸更多的瓜。

PythonData Visualization Cookbook: 用Python做可視化的教材肯定不少,我看過的也就這一本,覺得還不錯。其實這類書差別都不會很大,咬住一本啃下來就是王道。

Exploratory Data Analysis 和 Data Visualization

Exploratory DataAnalysis:John Tukey寫於1977年的經典老教材,是這一領域的開山之作。如今EDA已經是統計學里的重要一支,但當時還是有很多人對他的工作不屑一顧。可他愛數據,堅信數據可以以一種出人意料的方式呈現出來。正是他的努力,讓數據可視化成為一門無比迷人的技術。但這本書不推薦閱讀了,內容略過時。要想完整地了解EDA,推薦下一本:

ExploratoryData Analysis with MATLAB:這本書雖然標題帶了個MATLAB,但實際上內容幾乎沒怎麼講MATLAB,只是每講一個方法的時候就列出對應的MATALB函數。這本書的重要之處在於,這是我讀過的講EDA最系統的一本書,除了對visualization有不輸於John Tucky的講解外,對於高維的數據集,通過怎樣的方法才能讓我們從中找到潛在的pattern,這本書也做了詳盡的講解。全書所以案例都有對應的MATALB代碼,而且還提供了GUI(圖形用戶界面)。所以這本書學起來還是相當輕松愉悅的。

VisualizeThis:中譯本叫「鮮活的數據」,作者是個「超級數據迷」,建立了一個叫http://flowingdata.com的網頁展示他的數據可視化作品,這本書告訴你該選擇什麼樣的可視化工具,然後告訴你怎樣visualize關系型數據、時間序列、空間數據等,最後你就可以用數據講故事了。如果你只想感受一下數據可視化是個什麼,可以直接點開下面這個鏈接感受下吧!A tour through the visualization zoo(A TourThrough the Visualization Zoo)

Machine Learning & Data Mining

這一塊就不多說了,不是因為它不重要,而是因為它太太太重要。所以這一部分就推兩本書,都是」世界名著「,都比較難讀,需要一點點地啃。這兩本書拿下,基本就算是登堂入室了。其實作為機器學習的延伸和深化,概率圖模型(PGM)和深度學習(deep learning)同樣值得研究,特別是後者現在簡直火得不得了。但PGM偏難,啃K.Daphne那本大作實在太燒腦,也沒必要,而且在數據領域的應用也不算很廣。deep learning目前工業界的步子邁得比學術界的大,各個domain的應用如火如荼,但要有公認的好教材問世則還需時日,所以PGM和deep learning這兩塊就不薦書了。

TheElement of Statistical Learning:要學機器學習,如果讓我只推薦一本書,我就推薦這本巨著。Hastie、Tibshirani、Friedman這三位大牛寫書寫得太用心了,大廈建得夠高夠大,結構也非常嚴謹,而且很有前瞻性,納入了很多前沿的內容,而不僅僅是一部綜述性的教材。(圖表也做得非常漂亮,應該是用R語言的ggplot2做的。)這本書注重講解模型和演算法本身,所以需要具備比較扎實的數理基礎,啃起這本書來才不會太吃力。事實上掌握模型和演算法的原理非常重要。機器學習(統計學習)的庫現在已經非常豐富,即使你沒有完全搞懂某個模型或演算法的原理和過程,只要會用那幾個庫,機器學習也能做得下去。但你會發現你把數據代進去,效果永遠都不好。但是,當你透徹地理解了模型和演算法本身,你再調用那幾個庫的時候,心情是完全不一樣的,效果也不一樣。

DataMining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 數據挖掘的教材汗牛充棟,之所以推薦這本韓家煒爺爺的,是因為雖然他這本書的出發點是應用,但原理上的內容也一點沒有落下,內容非常完整。而且緊跟時代,更新的很快,我看過的是第二版,就已經加進去了social network analysis這種當時的前沿內容。現在已經有第三版了,我還沒看過,但應該也加入了不少新內容。其實這本書並不難讀,只是篇幅較長,啃起來比較耗時。

其實這兩本書里單拎出來一塊內容可能又是幾本書的節奏,比如bayesian方法,再拿出兩三本書來講也不為過,我個人用到的比較多,而且也確實有不少好書。但並非是所有data scientist都要用到,所以這一塊就不再細說。

還有一些印象比較深刻的書:

Big DataGlossary: 主要講解大數據處理技術及工具,內容涵蓋了NoSQL,MapRece,Storage,Servers,NLP庫與工具包,機器學習工具包,數據可視化工具包,數據清洗,序列化指南等等。總之,是一本辭典式的大數據入門指導。

Mining ofMassive Datasets:這本書是斯坦福大學Web Mining的講義,裡面很多內容與韓家煒的Data Mining那本書重合,但這本書里詳細地講了MapRece的設計原理,PageRank(Google創業時期的核心排序演算法,現在也在不斷優化更新)講解得也比較詳細。

DevelopingAnalytic Talent: 作者是個從事了十幾年數據工作的geek,技術博客寫得很有個人風格,寫的內容都比較偏門,通常只有具備相關數據處理經驗的人能體會出來,絲毫不照顧初學者的感受。比如他會談到當數據流更新太快時該怎麼辦,或者MapRece在什麼時候不好用的問題,才不管你懂不懂相關基礎原理。所以這本書不太適合初學者閱讀。這本書其實是作者的博客文章的集結,用how to become a data scientist的邏輯把他近幾年的博客文章串聯了起來。

Past, Present and Future of Statistical Science:這本書是由COPSS(統計學社主席委員會,由國際各大統計學會的帶頭人組成)在50周年出版的一本紀念冊,裡面有50位統計學家每人分別貢獻出的一兩篇文章,有的回憶了自己當年如何走上統計學這條路,有的探討了一些統計學的根本問題,有的談了談自己在從事的前沿研究,有的則給年輕一代寫下了寄語。非常有愛的一本書。

其它資料

Harvard Data Science:這是H大的Data science在線課,我沒有修過,但口碑很好。這門課需要費用8千刀左右,比起華盛頓大學的4千刀的Data science在線課雖貴一倍,但比斯坦福的14千刀要便宜將近一半(而且斯坦福的更偏計算機)。如果想自學,早有好心人分享了slides:(https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing)和homeworks and solutions: (https://github.com/cs109/content)

PyData:PyData是來自各個domain的用Python做數據的人每年舉行一次的聚會,期間會有各路牛人舉行一些規模不大的seminar或workshop,有好心人已經把video上傳到github,有興趣的去認領吧(DataTau/datascience-anthology-pydata · GitHub)

工具

R/Python/MATLAB(必備):如果是做數據分析和模型開發,以我的觀察來看,使用這三種工具的最多。R生來就是一個統計學家開發的軟體,所做的事也自然圍繞統計學展開。MATLAB雖然算不上是個專業的數據分析工具,但因為很多人不是專業做數據的,做數據還是為了自己的domain expertise(特別是科學計算、信號處理等),而MATLAB又是個強大無比的Domain expertise工具,所以很多人也就順帶讓MATLAB也承擔了數據處理的工作,雖然它有時候顯得效率不高。Python雖然不是做數據分析的專業軟體,但作為一個面向對象的高級動態語言,其開源的生態使Python擁有無比豐富的庫,Numpy, Scipy 實現了矩陣運算/科學計算,相當於實現了MATLAB的功能,Pandas又使Python能夠像R一樣處理dataframe,scikit-learn又實現了機器學習。

SQL(必備):雖然現在人們都說傳統的關系型資料庫如Oracle、MySQL越來越無法適應大數據的發展,但對於很多人來說,他們每天都有處理數據的需要,但可能一輩子都沒機會接觸TB級的數據。不管怎麼說,不論是用關系型還是非關系型資料庫,SQL語言是必須要掌握的技能,用什麼資料庫視具體情況而定。

MongoDB(可選):目前最受歡迎的非關系型資料庫NoSQL之一,不少人認為MongoDB完全可以取代mySQL。確實MongoDB方便易用,擴展性強,Web2.0時代的必需品。

Hadoop/Spark/Storm(可選): MapRece是當前最著名也是運用最廣泛的分布式計算框架,由Google建立。Hadoop/Spark/storm都是基於MapRece的框架建立起來的分布式計算系統,要說他們之間的區別就是,Hadoop用硬碟存儲數據,Spark用內存存儲數據,Storm只接受實時數據流而不存儲數據。一言以蔽之,如果數據是離線的,如果數據比較復雜且對處理速度要求一般,就Hadoop,如果要速度,就Spark,如果數據是在線的實時的流數據,就Storm。

OpenRefine(可選):Google開發的一個易於操作的數據清洗工具,可以實現一些基本的清洗功能。

Tableau(可選):一個可交互的數據可視化工具,操作簡單,開箱即用。而且圖表都設計得非常漂亮。專業版1999美刀,終身使用。媒體和公關方面用得比較多。

Gephi(可選):跟Tableau類似,都是那種可交互的可視化工具,不需要編程基礎,生成的圖表在美學和設計上也是花了心血的。更擅長復雜網路的可視化。

來自知乎

以上是小編為大家分享的關於怎樣進行大數據的入門級學習?的相關內容,更多信息可以關注環球青藤分享更多干貨

閱讀全文

與hadoop教程pdf相關的資料

熱點內容
有線電視升級失敗 瀏覽:560
火絨安全把文件刪掉了在哪裡找 瀏覽:503
手機qq網路狀態方框 瀏覽:225
哪裡有文件紙袋 瀏覽:873
復制的東西能不能粘貼到空文件夾 瀏覽:876
酒店沒有網路如何繳費 瀏覽:380
win10開機滾動很久 瀏覽:520
可對元數據實例進行的操作有什麼 瀏覽:934
什麼後綴的文件kit 瀏覽:295
word行書字體庫下載 瀏覽:579
iosuc版本歷史版本 瀏覽:14
電影字幕文件製作軟體 瀏覽:723
windows10免密碼登錄 瀏覽:762
iphone5s跑步記步 瀏覽:978
手機網站設計怎麼做好 瀏覽:322
中興路由器修改密碼 瀏覽:391
小米忘記壓縮文件密碼 瀏覽:716
cad哪些字體是形文件 瀏覽:2
word2007寶典pdf 瀏覽:46
lg電視如何連接網路 瀏覽:392

友情鏈接