『壹』 SAS與R優缺點討論 從工業界到學界
SAS與R優缺點討論:從工業界到學界
盡管在工業界還是被 SAS 所統治,但是R在學術界卻得到廣泛的應用,因為其免費、開源的屬性使得用戶們可以編寫和分享他們自己的應用。我們的目的就是展示這兩種差異巨大的語言各自優點,並且共同發揮他們的優勢,我們同時還要指出那些不使用SAS 好多年的、現在正在使用 R語言的人們的一些誤解和偏見,因為他們已經很少關注 SAS 的發展和進步了。
前言
我們選取 SAS 和 R的原因是因為他們是目前在統計領域中最有統治地位的兩個編程語言。現在我們注意到一個不好的現象,就是在學術界重度使用R的用戶認為R在被SAS霸佔的工業界有具有相當優勢的,然而熟練掌握這兩個軟體對於想在數據分析領域取得小有成就的年輕人來說很關鍵。
SAS經常有一些更新,非SAS程序員由於沒有技術跟進往往並不知情。SAS繪圖模塊就是一個快速發展並成長的例子,然而許多人並不注意到這些升級以至於他們仍然固執的使用R畫圖。SAS另一個不廣為人知的例子是SAS可以輕松自定義函數,這正是 R的強項。這個SAS過程步(PROC)有全面的語法檢查、翔實的文檔和技術支持;然而一個新的使用者很可能不知道這些工具可用,或者根本不知道它們的存在。另外,SAS還擁有卓越的培訓課程,網路及用戶組分享資源,不同相關主題的大量書籍。知道並合理的使用這些技術以及工具有助於減少使用SAS的畏懼之心。
統計方法的新進展
SAS:
優點:SAS 的軟體及演算法都是經過檢驗的,SAS 有技術支持去快速解決用戶的需求。如果需要的話,SAS會嘗試在已存在的步驟中嵌入新的方法,例如增加一個選項或者新增一個語句(statement),因此用戶不需要學習另外一個過程步。SAS也會發布最新通訊來詳細說明軟體的更新。
缺點:更新升級較慢。
R:
優點:用戶可以快速實施新方法,或者尋找已經存在的軟體包。很容易學習和理解新方法,因為學生們可以看到代碼中的函數。
缺點:R文檔的更新都是通過用戶進行的,所以新的方法並沒有被很好調試和檢驗。開發者們散布於各地,而並沒有在一起來進行團隊合作的開發。
在這個問題上,SAS 和 R 的優缺點是互補的。對於 R,有人認為它的代碼是開放的,可以看到 R是如何工作的,這對於擁有相關背景的人是比較容易理解的。然而對於SAS,它的過程步是預裝的,文件中對不同的語句(Statement)及選項( Option)存儲了大量的數學公式。如果用戶真的想看到底層程序,這個也是很容易實現的。對兩種語言的使用著者來說,不管是學生還是其它用戶,只是運行代碼的話對於兩種語言是沒有什麼不同的。你運行SAS,不需要知道它在干什麼,類似的是,你運行R時,也不需要知道它在後台調用的函數。你所做的就是按章操作而已。
畫圖
SAS:
優點:SAS畫圖模塊正變得越來越靈活、精良和易於使用。在一些分析過程步(PROCs) 中,ODSGraphics可以自動的生成一些圖形,而不需要額外的代碼。這使得用戶多了一個選擇,即可以使用默認的圖表生成圖表,也可以自己來創造個性化的圖表。
缺點:圖形背後的模板語言(TL)是龐大及不易使用的,特別是對於新手來說。新的高級功能如互動式繪圖功能( interactivegraphs),對於新手來說也是難以掌握的。
R:
優點:可以簡單的生成漂亮的圖表,還可以使用循環語句來生成動畫。
缺點:在 R中圖表功能與統計分析無關,繪圖和分析是相互獨立的。用戶必須自己來決定什麼樣的圖形是合適的,使用效果的好壞取決於用戶們的統計背景和喜好。盡管改變圖形去達到特別的維度或角度並不是一個簡單事兒。
SAS9.2 之前版本的圖表功能不足是 R更吸引人的一個主要原因之一。R的一個最好的特性之一就是其圖表功能的高質量性和易用性。但是,當前 SAS/GRAPH 搭配 ODSGraphics 及 SG 過程在軟體中增加了制圖的能力。聯合使用 ODS graphics 和 PROCS可以使用戶簡單地生成與分析相關的展示圖表。特定的繪圖過程步如PROCSGPLOT,SGPANEL和SGSCATTER等越來越多,當然需要的一定代碼來實現。另外,SAS 中還有一些其他不錯的繪圖選擇,如SGDESOGNER 和 SAS Enterprise Guide。
函數及可重復使用的代碼
SAS:
優點:SAS有可在 DATA 和 PROC步使用的大量函數和自定義函數。另外強大無所不能的、也可以被DATA步和PROC步使用的宏語言。宏變數可定義為局部或者全局類型。
缺點:編寫自定義函數和詳細的宏代碼需要深厚的編程知識來確保正確性。
R:
優點:在 R 中編寫函數很簡單,用戶也可以通過上傳自己的函數到 R-CRAN 上與其它用戶分享。
缺點:編寫自定義函數需要深厚的編程知識來確保正確性。變數是嚴格的局部變數。在這一點上兩種軟體擁有類似的利弊。SAS的早期用戶運行自己的定製函數主要取決於宏程序的編寫,這也是 R 用戶認為其低效及笨重的原因。然而,SAS 9 版本的 PROCFCMP允許用戶編寫個性化的函數,SAS 9.2 版本又允許用戶在 DATA 及 PROC步中調用這些函數。這對於簡單的統計函數是很有用的,對於更加復雜的統計函數也可以通過 IML 語言來實現。
SAS 及 R兩種語言都面臨著怎樣有效地、正確的使用函數,這就需要用戶在函數編寫的過程中擁有深厚的編程背景。從好的角度來說,一個程序員需要知道他們編寫的是什麼;危險的是,其它人可以下載一個SAS 宏或者 P程序包來使用,盡管他們不知道其內在工作原理,甚至不知道其正確性。所以,有了對宏及函數適當的了解,再來分享它們並應用於具體的需求是很方便的。
用戶支持
SAS:
優點:SAS 有豐富的網上參考資料,專業的技術支持,專業的培訓課程,許多優秀的出版書籍,一個緊密的用戶組及網路社區。SAS的問題可以直接反映給技術支持部門,他們會與用戶一起來解決。
R:
優點:R 有很好的示例手冊,網上參考材料,R 郵件列表和 R 聚會。
缺點:用戶們取決於其它用戶對於軟體的看法及建議。因為 R的開發者散布於全球各地,所以全球的用戶是缺乏聯系的。程序包(Package)並不是由 R軟體的開發核心團隊來編寫的,所以導致了程序的不完善甚至有時候會對結果的正確性有所懷疑。另外,很難去直接尋找一個針對具體問題的人員或者團隊。
數據處理
SAS:
優點:SAS 可以處理任意類型和格式的數據。DATA 步的設計純粹就是為了數據的管理,所以 SAS擅長處理數據。利用豐富的選項,SAS 可以將大數據處理的很好,拼表以及 PROC SQL 也可以減少運行時間。
缺點:在 DATA 步驟中 SAS中的DATA步有非明示的循環演算法,因此使用者的編程思維需要改變以符合SAS的運行邏輯。
R:
優點:R 在最初就被認為是更加適合大數據的。它對於矩陣的操作和排序的設計是非常高效的。R也可以很好的進行各種基於分析的數據模擬。
缺點:R 的設計更加關注統計計算以及畫圖功能,所以數據的管理是比較耗時的,而且不如在 SAS中那麼明晰。其中一個主要的原因就是:對於各種不同類型的數據,在 R 中進行很好的數據處理是比較難以掌握的。
數據處理的重要性經常在統計編程中被忽視了,但是它確實是非常關鍵的,因為實際的數據非常糟糕,不能直接應用於分析。純粹地使用 R的學生們對於得到的數據往往有不切實際的期望,而學習 SAS是一個有效的方法去解決怎樣整理原始的數據。SAS可以對大而繁雜的數據集進行管理和分析,而 R更著重於進行分析。
當處理復雜數據時,R的面向對象的數據結構會遇到很多問題,並且R還缺乏一個內在的循環過程。在SAS中,應用標准化工具經常會進行如下操作:合並含有大量缺失數據的復雜數據集,再生成及修改其中的變數。而在R中,進行復雜的數據處理操作是沒有標准化的,而且經常會導致更加復雜的過程。
SAS與R軟體運行時間的快慢對比取決於任務。如SAS可以通過設置MEMLIB,從而像R一樣使用內存(而非硬碟)來提升運行速度。但在R中,沒有這樣的硬體驅動,只能使用內存來執行。
報表
SAS:
優點:SAS 通過很多有用的過程步來生成詳細漂亮的報表。
缺點:能提供更詳盡報表的過程如 TABULATE、REPORT等,在能正確而有效的使用前,將為有一個艱難的學習曲線等待你跨越。
R:
優點:報表方面,R擁有諸多利器。Sweave包可以創造包含文字、表格和圖形的 PDF 文件,其中圖形可以LaTeX 和 R命令來裝扮。另一個新的程序包 Knitr 可以快速生成格式限制較少的網頁內容。
缺點:R 沒有一個模式化的方式來生成報表,所以需要在編程上花一些功夫。報表的生成對於 R 來說是一個比較新的方向,所以它不如 SAS來的簡單和快速。在 R 中,Sweave 和 Knitr 是報表這方面的領先的程序包,但是學習起來也比較困難。
重度報表使用用戶應該了解這些以上不同,盡管學習 SAS的報表功能需要花費一些時間,但是一旦掌握了就很有價值並有很高的靈活性。而從最基礎學習 R 的報表功能也許不需要像 SAS那樣花那麼多時間。
結論
我們可以看到解決 R 與 SAS的辯論是三合一的。第一,就像在任何一個統計編程社區一樣,我們知道這個PK是沒有一個最終贏家。兩種軟體各有優缺點。他們有共存的必要,而學術上的教學中,他們也有共存的必要。如果學生們能夠明確他們的需求並合理的應用,那樣會獲得更好的效果。如果只給學生教授一種軟體是有局限性的,這樣會使他們難以發揮學習另外一種軟體的潛力。第二,用戶們需要保持他們的工具箱與時俱進。SAS和 R 都有一些很不錯的學習網站去介紹最新的技術上的進步。第三,最理想的是學習兩種軟體並將其融合於分析中。對於 R 的用戶們,通過轉化R 到SAS 的用戶界面,可以同時使用 2種軟體。通過使用兩種軟體可以使處理及分析數據變得事半功倍,而且使所有的用戶都滿意。
『貳』 大數據分析工具有哪些,有什麼特點
數據分析再怎麼說也是一個專業的領域,沒有數學、統計學、資料庫這些知識的支撐,對於我們這些市場、業務的人員來說,難度真的不是一點點。從國外一線大牌到國內宣傳造勢強大的品牌,我們基本試用了一個遍,總結一句話「人人都是數據分析師」這個坑實在太大,所有的數據分析工具無論宣傳怎樣,都有一定的學習成本,尤其是要深入業務實際。今天就我們用過的幾款工具簡單總結一下,與大家分享。
1、Tableau
這個號稱敏捷BI的扛把子,魔力象限常年位於領導者象限,界面清爽、功能確實很強大,實至名歸。將數據拖入相關區域,自動出圖,圖形展示豐富,交互性較好。圖形自定義功能強大,各種圖形參數配置、自定義設置可以靈活設置,具備較強的數據處理和計算能力,可視化分析、互動式分析體驗良好。確實是一款功能強大、全面的數據可視化分析工具。新版本也集成了很多高級分析功能,分析更強大。但是基於圖表、儀錶板、故事報告的邏輯,完成一個復雜的業務匯報,大量的圖表、儀錶板組合很費事。給領導匯報的PPT需要先一個個截圖,然後再放到PPT裡面。作為一個數據分析工具是合格的,但是在企業級這種應用匯報中有點局限。
2、PowerBI
PowerBI是蓋茨大佬推出的工具,我們也興奮的開始試用,確實完全不同於Tableau的操作邏輯,更符合我們普通數據分析小白的需求,操作和Excel、PPT類似,功能模塊劃分清晰,上手真的超級快,圖形豐富度和靈活性也是很不錯。但是說實話,畢竟剛推出,系統BUG很多,可視化分析的功能也比較簡單。雖然有很多復雜的數據處理功能,但是那是需要有對Excel函數深入理解應用的基礎的,所以要支持復雜的業務分析還需要一定基礎。不過版本更新倒是很快,可以等等新版本。
3、Qlik
和Tableau齊名的數據可視化分析工具,QlikView在業界也享有很高的聲譽。不過Qlik Seanse產品系列才在大陸市場有比較大的推廣和應用。真的是一股清流,界面簡潔、流程清晰、操作簡單,交互性較好,真的是一款簡單易用的BI工具。但是不支持深度的數據分析,圖形計算和深度計算功能缺失,不能滿足復雜的業務分析需求。
最後將視線聚焦國內,目前搜索排名和市場宣傳比較好的也很多,永洪BI、帆軟BI、BDP等。不過經過個人感覺整體宣傳大於實際。
4、永洪BI
永洪BI功能方面應該是相對比較完善的,也是拖拽出圖,有點類似Tableau的邏輯,不過功能與Tableau相比還是差的不是一點半點,但是操作難度居然比Tableau還難。預定義的分析功能比較豐富,圖表功能和靈活性較大,但是操作的友好性不足。宣傳擁有高級分析的數據挖掘功能,後來發現就集成了開源的幾個演算法,功能非常簡單。而操作過程中大量的彈出框、難以理解含義的配置項,真的讓人很暈。一個簡單的堆積柱圖,就研究了好久,看幫助、看視頻才搞定。哎,只感嘆功能藏得太深,不想給人用啊。
5、帆軟BI
再說號稱FBI的帆軟BI,帆軟報表很多國人都很熟悉,功能確實很不錯,但是BI工具就真的一般般了。只能簡單出圖,配合報表工具使用,能讓頁面更好看,但是比起其他的可視化分析、BI工具,功能還是比較簡單,分析的能力不足,功能還是比較簡單。帆軟名氣確實很大,號稱行業第一,但是主要在報表層面,而數據可視化分析方面就比較欠缺了。
6、Tempo
另一款工具,全名叫「Tempo大數據分析平台」,宣傳比較少,2017年Gartner報告發布後無意中看到的。是一款BS的工具,申請試用也是費盡了波折啊,永洪是不想讓人用,他直接不想賣的節奏。
第一次試用也是一臉懵逼,不知道該點那!不過抱著破罐子破摔的心態稍微點了幾下之後,操作居然越來越流暢。也是拖拽式操作,數據可視化效果比較豐富,支持很多便捷計算,能滿足常用的業務分析。最最驚喜的是它還支持可視化報告導出PPT,徹底解決了分析結果輸出的問題。深入了解後,才發現他們的核心居然是「數據挖掘」,演算法十分豐富,也是拖拽式操作,我一個文科的分析小白,居然跟著指導和說明做出了一個數據預測的挖掘流,簡直不要太驚喜。掌握了Tempo的基本操作邏輯後,居然發現他的易用性真的很不錯,功能完整性和豐富性也很好。不過沒有宣傳也是有原因的,系統整體配套的介紹、操作說明的完善性上還有待提升。
『叄』 Hadoop和sas是什麼關系
都是處理數據的軟體,沒什麼具體的關系,sas一般運用於大型項目。hadoop相對而言成本體,應用更廣泛點。
Hadoop原來是Apache
Lucene下的一個子項目,它最初是從Nutch項目中分離出來的專門負責分布式存儲以及分布式運算的項目。簡單地說來,Hadoop是一個可以更容易開發和運行處理大規模數據的軟體平台。下面列舉hadoop主要的一些特點:
擴容能力(Scalable)
成本低(Economical)高效率(Efficient)可靠性(Reliable)
SAS(Statistics
Analysis
System)
作為出色的處理大規模復雜數據的軟體,目前已廣泛應用於統計分析,數據處理,數據合庫和商業智能領域
『肆』 r語言和sas哪個更適合製造行業的數據分析
你好,是這樣的:
[注]:這里僅僅討論樓主所問的R和SAS兩種軟體
簡介:R與SAS都屬於統計/數據分析軟體,R與SAS相比,R具有免費開源、應用廣泛、可擴展度高等優點;SAS則屬於模塊化、集成化的軟體,成本很高,但是能滿足現有統計/數據分析的需求,並且與SQL資料庫能進行很好的對接,一般為大企業,金融、銷售行業所使用。而據個人經驗,R在處理一些很大的行業數據的時候,就會有一些不如SAS(當然有部分原因是你軟體載體的配置)。
這兩個軟體都可以進行製造業的數據分析,如何選擇這兩個軟體呢。
答:
(1).首要取決於你的數據分析所服務單位/團體的要求,個別有能力的企業,出於節約時間,會要求使用SAS,畢竟如果使用R,那麼為了確保你的分析的正確性,可能會要求審查分析過程,而這個過程SAS會比R節約很大的時間,若對這兩個軟體沒有要求,那麼請看下一條。
(2).在沒有必定要求的前提下,選擇軟體取決於你對這兩個軟體的熟練程度,選擇自己熟練的軟體進行工作,將會使工作成本,時間大大減小。
(3).若既沒有軟體的必定要求,數據又不太大,而R與SAS的掌握程度差不多的前提下,可以根據下面的方法選擇:
1)R的擴展性好,在制圖方面靠著各種程序包遙遙領先,如果自己編程能力強,可以編寫自己需要的程序包,這一點也是R的一大亮點,但是若數學、統計、英語功底不強,R學習起來可能有一些障礙。
2)SAS管理/處理大數據的能力非常好,並且方便,就如網路里說的「只用告訴它做什麼,不用告訴它怎麼做」,這一點與R剛好相反(雖然R在使用現有程序包時也較便捷),同時SAS使用也只需要基礎的英語和基礎的統計就能使用。
根據以上的描述,樓主可以根據自己的情況「對號入座」,選擇自己需要的軟體。不對的地方還望指出,最後祝您身體健康,工作順利,謝謝。
『伍』 做大數據分析一般用什麼工具呢
java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據。基礎
Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
好說完基礎了,再說說還需要學習哪些大數據技術,可以按我寫的順序學下去。
Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
記住學到這里可以作為你學大數據的一個節點。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
『陸』 SAS數據處理
DATA CHENGJI1;
INPUT NAME $ SEX $ MATH CHN GROUP;
CARDS;
李明 男 92 98 1
張紅藝 女 89 106 1
王思明 男 86 90 1
;
RUN;
DATA CHENGJI2;
INPUT NAME $ SEX $ MATH CHN GROUP;
CARDS;
張聰 男 95 92 2
劉穎 女 98 101 2
高紅 女 91 92 2
;
RUN;
DATA CHENGJI3;
INPUT NAME $ SEX $ MATH CHN GROUP;
CARDS;
趙強 男 93 99 3
李雲芳 女 96 102 3
周閃 男 88 98 3
;
RUN;
*第二步;
DATA CHENGJI0;
SET CHENGJI1 CHENGJI2 CHENGJI3;
RUN;
*第三步;
DATA CHENGJI;
SET CHENGJI0;
AVG=MEAN(MATH,CHN);
RUN;
PROC SORT;
BY AVG;
RUN;
*第四步;
DATA MATH90;
SET CHENGJI0;
WHERE MATH>90;
RUN;
*第五步;
PROC SORT DATA=CHENGJI(KEEP=NAME GROUP AVG) OUT=LAST ;
BY GROUP AVG;
RUN;
DATA LAST;
SET LAST;
BY GROUP AVG;
IF FIRST.GROUP;
RUN;
*第六步;
PROC SORT DATA=CHENGJI0 OUT=MATH;
BY SEX;
RUN;
DATA MATH(KEEP=SEX AVG SUM_ALL);
SET MATH END=T;
BY SEX;
IF FIRST.SEX THEN DO;
I=0;
M=0;
END;
M+MATH;
I+1;
AVG=M/I;
J+1;
TOT+MATH;
IF LAST.SEX;
IF T THEN SUM_ALL=TOT;
RUN;
*第七步;
PROC SUMMARY DATA=CHENGJI0 NWAY;
VAR MATH;
OUTPUT OUT=A(DROP=_TYPE_ RENAME=(_FREQ_=N)) SUM=TOT;
RUN;
DATA DIF;
IF _N_=1 THEN SET A;
SET CHENGJI0;
AVG=TOT/N;
DIFF=AVG-MATH;
DROP TOT N;
RUN;
*第八步;
DATA EN;
INPUT EN @@;
CARDS;
80 84 85 86 82 87 96 75 52
;
RUN;
DATA ALL;
SET CHENGJI0;
SET EN;
RUN;
樓上這位是大牛,多向他學習學習
『柒』 大數據分析哪個軟體做的好
大數據分析的軟體有很多,其中SQL數據分析、Excel數據分析、SPSS數據分析、SAS數據分析、R數據分析等這些軟體都是挺不錯的。
1、SQL數據分析
SQL對於很多數據分析師,取數是基本功。可以翻一下很多數據分析崗位的招聘啟事,不管實際需不需要,都會把熟練掌握SQL這一條寫上來。SQL並不是這么復雜,要學習的只是取數、中高級查詢、簡單數據清洗等。
4、SAS數據分析
SAS由於其功能強大而且可以編程,很受高級用戶的歡迎,也是最難掌握的軟體之一,多用於企業工作之中。需要編寫SAS程序來處理數據,進行分析。在所有的統計軟體中,SAS有最強大的繪圖工具,由SAS/Graph模塊提供,有著強大的數據管理和同時處理大批數據文件的功能。
5、R數據分析
R是一個開源的分析軟體,也是分析能力不亞於SPSS和Matlab等商業軟體的輕量級(僅指其佔用空間極小,功能卻是重量級的)分析工具。R支持Windows、Linux和Mac OS系統,對於用戶來說非常方便,R和Matlab都是通過命令行來進行操作,這一點和適合有編程背景或喜好的數據分析人員。
『捌』 sas分析與大數據分析區別
難度、開發時間。
1、難度。sas是全球最大的私營軟體公司之一,是由美國北卡羅來納州立大學1966年開發的統計分析軟體。該軟體操作繁瑣,難度很大,大數據分析需要做的就是點擊滑鼠選菜單,難度很小。
2、開發時間。sas分析開發時間為1973年,時間較早,大數據分析開發時間為1975年,時間較晚。
『玖』 《深入解析SAS數據處理、分析優化與商業應用》epub下載在線閱讀,求百度網盤雲資源
《深入解析SAS》(徐唯)電子書網盤下載免費在線閱讀
資源鏈接:
鏈接:https://pan..com/s/1J0rXYqxYpEDUCzrn-6riPQ
書名:深入解析SAS
作者:徐唯
豆瓣評分:8.9
出版社:機械工業出版社
出版年份:2015-1
頁數:884
內容簡介:
本書是國內市場目前唯一一本由SAS公司在中國的員工創作、全面系統地剖析SAS技術的著作。作者團隊結合自身實際工作的經驗體會和大量生動的實踐案例,通俗易懂、循序漸進地對SAS的核心技術模塊和架構體系進行了全方位的介紹、總結與分享,幫助讀者深刻領會和掌握使用SAS進行數據挖掘與優化的專業知識,同時培養讀者運用這些專業知識解決商業問題和實施商業項目的能力。
全書共28章,分為四個部分:SAS編程(第1-8章)系統介紹了運用SAS進行數據讀入、處理和展現等內容,掌握這一部分內容可以滿足大部分實際項目中數據處理的需要;SAS統計分析和時間序列預測 (第9—18章)全面介紹了多種常見統計方法的基本原理和利用SAS去實現的具體技術,包括描述性統計分析、參數估計與假設檢驗、方差分析、主成分分析與因子分析、聚類分析、判別分析、回歸分析、時間序列分析等,並給出了相應的實踐案例,從而讓熟悉統計理論的讀者有能力將其應用到實際中去;SAS優化建模(第19~24章)對於從事優化的讀者來說,將是很好的幫助。這一部分主要介紹了運用SAS/O日建模,以及求解線性規劃、混合整數規劃問題的方法及實例,通過對常見的優化問題進行全面的闡述,幫助讀者掌握優化思路和技巧;SAS商業應用(第25-28章)從項目實施角度探討了如何設計滿足安全性、高可用性和高性能需求的gAS應用,讓讀者領會解決實際問題的方法。
作者簡介:
夏坤庄,SAS軟體研究開發(北京)有限公司客戶職能部總監。在承擔大量產品研發工作的同時,夏坤庄及其團隊負責對SAS非英語市場提供技術支持,並且與在美國及其他地區的團隊一起,對SAS的SaaS客戶提供服務,以及提供和驗證關於SAS產品和技術的最佳實踐。在加入SAS軟體研究開發(北京)有限公司之前,夏坤庄就職於SAS中國公司。在SAS中國公司期間,歷任資深咨詢顧問、項目經理、首席顧問、咨詢經理,在SAS的技術與產品領域擁有豐富的咨詢和項目實施經驗。在超過15年的從業經歷中,為SAS的金融行業客戶成功實施了眾多深受好評的項目,所承擔的項目獲得諸如人民銀行頒發的「銀行系統科技進步一等獎」和客戶系統內部頒發的「項目開發特等獎」等。擁有數學專業的學士學位和自動控制理論及應用專業的碩士學位。
徐唯,SAS軟體研究開發(北京)有限公司資深分析咨詢師,主要負責為SAS亞太地區客戶提供高端商業分析與優化的咨詢服務,擁有為國際客戶提供數據挖掘和優化建模服務的豐富經驗,例如為某大型國際汽車製造公司在中國業務的庫存優化項目提供服務,以及為國際知名銀行的信用卡審批流程優化提供優化建模服務等。本科和研究生均畢業於南京大學數學系。
潘紅蓮,SAS中國公司資深咨詢顧問,為中國區客戶提供SAS解決方案和產品的方案咨詢和技術支持。於2008年加入SAS後,曾任SAS軟體研究開發(北京)有限公司解決方案架構師,提供SAS解決方案和產品在企業級應用的方案研究和設計,尤其在IT實施和產品集成策略等領域做出了突出的貢獻。對SAS架構設計、系統管理、安全性,以及高可用性等方面有著深刻的理解和豐富的實踐經驗。畢業於北京航空航天大學,獲計算機專業學士和碩士學位。
林建偉,現就職於SAS軟體研究開發(北京)有限公司,任資深分析咨詢師。研究領域為大數據處理、數據挖掘、預測優化、庫存優化、圖論及相關應用。參與國內外多個客戶的SAS預測與優化項目的咨詢工作,例如為某海外銀行的信用卡審批流程優化提供優化建模服務。美國西密歇根大學博士,在國際知名刊物上發表多篇專業論文。
『拾』 SAS,MATLAB,R等,用哪個好
SAS和R是統計軟體,更偏向於統計分析,MATLAB是數學軟體,應用區域更廣,但在統計方面沒有那麼專業。
R語言和SAS語言在統計方面的比較:
1. R語言上手比較容易,SAS語言較為晦澀
2.R針對行與行之間的運算比SAS容易
3.SAS比R要成熟,很多分析都可以直接用,而不用自己寫函數
4.SAS處理大數據更有優勢
你可以根據自己的情況選擇