① SAS與R優缺點討論 從工業界到學界
SAS與R優缺點討論:從工業界到學界
盡管在工業界還是被 SAS 所統治,但是R在學術界卻得到廣泛的應用,因為其免費、開源的屬性使得用戶們可以編寫和分享他們自己的應用。我們的目的就是展示這兩種差異巨大的語言各自優點,並且共同發揮他們的優勢,我們同時還要指出那些不使用SAS 好多年的、現在正在使用 R語言的人們的一些誤解和偏見,因為他們已經很少關注 SAS 的發展和進步了。
前言
我們選取 SAS 和 R的原因是因為他們是目前在統計領域中最有統治地位的兩個編程語言。現在我們注意到一個不好的現象,就是在學術界重度使用R的用戶認為R在被SAS霸佔的工業界有具有相當優勢的,然而熟練掌握這兩個軟體對於想在數據分析領域取得小有成就的年輕人來說很關鍵。
SAS經常有一些更新,非SAS程序員由於沒有技術跟進往往並不知情。SAS繪圖模塊就是一個快速發展並成長的例子,然而許多人並不注意到這些升級以至於他們仍然固執的使用R畫圖。SAS另一個不廣為人知的例子是SAS可以輕松自定義函數,這正是 R的強項。這個SAS過程步(PROC)有全面的語法檢查、翔實的文檔和技術支持;然而一個新的使用者很可能不知道這些工具可用,或者根本不知道它們的存在。另外,SAS還擁有卓越的培訓課程,網路及用戶組分享資源,不同相關主題的大量書籍。知道並合理的使用這些技術以及工具有助於減少使用SAS的畏懼之心。
統計方法的新進展
SAS:
優點:SAS 的軟體及演算法都是經過檢驗的,SAS 有技術支持去快速解決用戶的需求。如果需要的話,SAS會嘗試在已存在的步驟中嵌入新的方法,例如增加一個選項或者新增一個語句(statement),因此用戶不需要學習另外一個過程步。SAS也會發布最新通訊來詳細說明軟體的更新。
缺點:更新升級較慢。
R:
優點:用戶可以快速實施新方法,或者尋找已經存在的軟體包。很容易學習和理解新方法,因為學生們可以看到代碼中的函數。
缺點:R文檔的更新都是通過用戶進行的,所以新的方法並沒有被很好調試和檢驗。開發者們散布於各地,而並沒有在一起來進行團隊合作的開發。
在這個問題上,SAS 和 R 的優缺點是互補的。對於 R,有人認為它的代碼是開放的,可以看到 R是如何工作的,這對於擁有相關背景的人是比較容易理解的。然而對於SAS,它的過程步是預裝的,文件中對不同的語句(Statement)及選項( Option)存儲了大量的數學公式。如果用戶真的想看到底層程序,這個也是很容易實現的。對兩種語言的使用著者來說,不管是學生還是其它用戶,只是運行代碼的話對於兩種語言是沒有什麼不同的。你運行SAS,不需要知道它在干什麼,類似的是,你運行R時,也不需要知道它在後台調用的函數。你所做的就是按章操作而已。
畫圖
SAS:
優點:SAS畫圖模塊正變得越來越靈活、精良和易於使用。在一些分析過程步(PROCs) 中,ODSGraphics可以自動的生成一些圖形,而不需要額外的代碼。這使得用戶多了一個選擇,即可以使用默認的圖表生成圖表,也可以自己來創造個性化的圖表。
缺點:圖形背後的模板語言(TL)是龐大及不易使用的,特別是對於新手來說。新的高級功能如互動式繪圖功能( interactivegraphs),對於新手來說也是難以掌握的。
R:
優點:可以簡單的生成漂亮的圖表,還可以使用循環語句來生成動畫。
缺點:在 R中圖表功能與統計分析無關,繪圖和分析是相互獨立的。用戶必須自己來決定什麼樣的圖形是合適的,使用效果的好壞取決於用戶們的統計背景和喜好。盡管改變圖形去達到特別的維度或角度並不是一個簡單事兒。
SAS9.2 之前版本的圖表功能不足是 R更吸引人的一個主要原因之一。R的一個最好的特性之一就是其圖表功能的高質量性和易用性。但是,當前 SAS/GRAPH 搭配 ODSGraphics 及 SG 過程在軟體中增加了制圖的能力。聯合使用 ODS graphics 和 PROCS可以使用戶簡單地生成與分析相關的展示圖表。特定的繪圖過程步如PROCSGPLOT,SGPANEL和SGSCATTER等越來越多,當然需要的一定代碼來實現。另外,SAS 中還有一些其他不錯的繪圖選擇,如SGDESOGNER 和 SAS Enterprise Guide。
函數及可重復使用的代碼
SAS:
優點:SAS有可在 DATA 和 PROC步使用的大量函數和自定義函數。另外強大無所不能的、也可以被DATA步和PROC步使用的宏語言。宏變數可定義為局部或者全局類型。
缺點:編寫自定義函數和詳細的宏代碼需要深厚的編程知識來確保正確性。
R:
優點:在 R 中編寫函數很簡單,用戶也可以通過上傳自己的函數到 R-CRAN 上與其它用戶分享。
缺點:編寫自定義函數需要深厚的編程知識來確保正確性。變數是嚴格的局部變數。在這一點上兩種軟體擁有類似的利弊。SAS的早期用戶運行自己的定製函數主要取決於宏程序的編寫,這也是 R 用戶認為其低效及笨重的原因。然而,SAS 9 版本的 PROCFCMP允許用戶編寫個性化的函數,SAS 9.2 版本又允許用戶在 DATA 及 PROC步中調用這些函數。這對於簡單的統計函數是很有用的,對於更加復雜的統計函數也可以通過 IML 語言來實現。
SAS 及 R兩種語言都面臨著怎樣有效地、正確的使用函數,這就需要用戶在函數編寫的過程中擁有深厚的編程背景。從好的角度來說,一個程序員需要知道他們編寫的是什麼;危險的是,其它人可以下載一個SAS 宏或者 P程序包來使用,盡管他們不知道其內在工作原理,甚至不知道其正確性。所以,有了對宏及函數適當的了解,再來分享它們並應用於具體的需求是很方便的。
用戶支持
SAS:
優點:SAS 有豐富的網上參考資料,專業的技術支持,專業的培訓課程,許多優秀的出版書籍,一個緊密的用戶組及網路社區。SAS的問題可以直接反映給技術支持部門,他們會與用戶一起來解決。
R:
優點:R 有很好的示例手冊,網上參考材料,R 郵件列表和 R 聚會。
缺點:用戶們取決於其它用戶對於軟體的看法及建議。因為 R的開發者散布於全球各地,所以全球的用戶是缺乏聯系的。程序包(Package)並不是由 R軟體的開發核心團隊來編寫的,所以導致了程序的不完善甚至有時候會對結果的正確性有所懷疑。另外,很難去直接尋找一個針對具體問題的人員或者團隊。
數據處理
SAS:
優點:SAS 可以處理任意類型和格式的數據。DATA 步的設計純粹就是為了數據的管理,所以 SAS擅長處理數據。利用豐富的選項,SAS 可以將大數據處理的很好,拼表以及 PROC SQL 也可以減少運行時間。
缺點:在 DATA 步驟中 SAS中的DATA步有非明示的循環演算法,因此使用者的編程思維需要改變以符合SAS的運行邏輯。
R:
優點:R 在最初就被認為是更加適合大數據的。它對於矩陣的操作和排序的設計是非常高效的。R也可以很好的進行各種基於分析的數據模擬。
缺點:R 的設計更加關注統計計算以及畫圖功能,所以數據的管理是比較耗時的,而且不如在 SAS中那麼明晰。其中一個主要的原因就是:對於各種不同類型的數據,在 R 中進行很好的數據處理是比較難以掌握的。
數據處理的重要性經常在統計編程中被忽視了,但是它確實是非常關鍵的,因為實際的數據非常糟糕,不能直接應用於分析。純粹地使用 R的學生們對於得到的數據往往有不切實際的期望,而學習 SAS是一個有效的方法去解決怎樣整理原始的數據。SAS可以對大而繁雜的數據集進行管理和分析,而 R更著重於進行分析。
當處理復雜數據時,R的面向對象的數據結構會遇到很多問題,並且R還缺乏一個內在的循環過程。在SAS中,應用標准化工具經常會進行如下操作:合並含有大量缺失數據的復雜數據集,再生成及修改其中的變數。而在R中,進行復雜的數據處理操作是沒有標准化的,而且經常會導致更加復雜的過程。
SAS與R軟體運行時間的快慢對比取決於任務。如SAS可以通過設置MEMLIB,從而像R一樣使用內存(而非硬碟)來提升運行速度。但在R中,沒有這樣的硬體驅動,只能使用內存來執行。
報表
SAS:
優點:SAS 通過很多有用的過程步來生成詳細漂亮的報表。
缺點:能提供更詳盡報表的過程如 TABULATE、REPORT等,在能正確而有效的使用前,將為有一個艱難的學習曲線等待你跨越。
R:
優點:報表方面,R擁有諸多利器。Sweave包可以創造包含文字、表格和圖形的 PDF 文件,其中圖形可以LaTeX 和 R命令來裝扮。另一個新的程序包 Knitr 可以快速生成格式限制較少的網頁內容。
缺點:R 沒有一個模式化的方式來生成報表,所以需要在編程上花一些功夫。報表的生成對於 R 來說是一個比較新的方向,所以它不如 SAS來的簡單和快速。在 R 中,Sweave 和 Knitr 是報表這方面的領先的程序包,但是學習起來也比較困難。
重度報表使用用戶應該了解這些以上不同,盡管學習 SAS的報表功能需要花費一些時間,但是一旦掌握了就很有價值並有很高的靈活性。而從最基礎學習 R 的報表功能也許不需要像 SAS那樣花那麼多時間。
結論
我們可以看到解決 R 與 SAS的辯論是三合一的。第一,就像在任何一個統計編程社區一樣,我們知道這個PK是沒有一個最終贏家。兩種軟體各有優缺點。他們有共存的必要,而學術上的教學中,他們也有共存的必要。如果學生們能夠明確他們的需求並合理的應用,那樣會獲得更好的效果。如果只給學生教授一種軟體是有局限性的,這樣會使他們難以發揮學習另外一種軟體的潛力。第二,用戶們需要保持他們的工具箱與時俱進。SAS和 R 都有一些很不錯的學習網站去介紹最新的技術上的進步。第三,最理想的是學習兩種軟體並將其融合於分析中。對於 R 的用戶們,通過轉化R 到SAS 的用戶界面,可以同時使用 2種軟體。通過使用兩種軟體可以使處理及分析數據變得事半功倍,而且使所有的用戶都滿意。
② R 和 Python 用於統計學分析,哪個更好
總的概括:R主要在學術界流行,python(numpy scipy)在工程方便比較實用。
R是S(Splus)的開源版本,或者下一代。發源地在紐西蘭奧克蘭。這個軟體的統計背景很濃烈。我這里濃烈的意思是,如果你不熟習統計知識(歷史)的話,R的幫助文檔看起來是很累的。由統計背景的人開發。R的維護組叫CRAN-R。在生物信息方便,有個叫bioconctor的組織,裡面有很多生物信息方面可以用的軟體包,他們有一套自己維護package系統。
Python是個綜合語言(這里特指指CPython解釋器),numpy scipy是數值計算的擴展包,pandas是主要用來做數據處理(numpy依賴),sympy做符號計算(類似mathematica?)此外還有一些不太成熟的包如sciki learn,statistical models。成熟度不如R。但是已經到了可用的水平了。是讀計算機的人寫的統計包。ipython 更新到1.0以後,功能基本完善,其notebook非常強大(感覺就像mathematica)而且還是基於web,在合作分享方面非常好用。
性能:
大家都說R慢,特別是CS的人。其實這里主要是兩點:一個R裡面數組的調用都是用復制的,二是Rscript慢。三是處理大數據慢。如果R用的好的話,R是不太慢的。具體來說就是Rscript用的少,多用命令,跑點小數據。這樣的話,實際在跑的都是背後的fortran和C庫。他們都有快二三十年歷史了。可謂異常可靠,優化得不能再優化了(指單線程,如果去看源代碼揮發先許多莫名的常數,永用了以後精度高速度快!)。比如一個自己編寫一個R腳本,loop套loop的那種,那真是想死的心都會有。外加一點,R處理文本文件很慢!
Python歸根揭底還是個有解釋器的腳本語言,而且有致命傷——GIL,但python最難能可貴的就是它很容易變得更快。比如pypy,cython,或者直接ctypes掛C庫。純python寫個原型,然後就開是不斷的profiling和加速吧。很輕易可以達到和C一個數量級的速度,但是寫程序、調試的時間少了很多。
並行計算:
R v15 之後有了自帶的parallel包,用挺輕松的。不過其實就是不停的fork,或者mpi,內存消耗挺厲害的。parSapply,parApply什麼的,真是很好用。
Python雖然有GIL——並行計算的死敵,但是有multiprocessing(fork依賴) ,是可以共享數據的什麼的,估計內存消耗方面比R好點,數據零散的話overhead很多。到了MPI的話,mpi4py還是挺好用的。用cython的話結合openmp可以打破GIL,但是過程中不能調用python的對象。
學習曲線:假設什麼編程都不會的同學。
R一開始還是很容易上手的,查到基本的命令,包,直接print一下就有結果了。但是如果要自己寫演算法、優化性能的時候,學習難度陡增。
Python么,挺好學的,絕大多數的幫助文檔都比R好了許多。有些包用起來沒R方便。總的來說深入吼R陡。
擴展資源:
基本上新的統計方法都會有R的package,安裝實用都不麻煩。但是基本上都是搞統計的人寫的計算機包。所以效能上可能有問好。比較出名的有兩個包的管理網站,cran-r 和bioconctor。 所以搞生化的估計R用起來很方便。
python的統計計算包們比R少,多很年輕,還在不斷的開發中。優於是計算機人寫的統計包,用起來的時候要多漲個心眼。
畫圖:
R自帶的那些工具就挺好用了,然後還有ggplot這種非常優美的得力工具。
python 有matplotlib,畫出來效果感覺比R自帶的好一些些,而且界面基於QT,跨平台支持。可能是R用得多了,pyplot用起來還是不太順手,覺得其各個組建的統一性不高。
IDE:
Rstudio非常不錯,提供類matlab環境。(用過vim-r-plugin,用過emacs + ess現在用vim。)
windows 下有python(x,y) 還有許多商業的工具。(本人現在的emacs環境還不是很順手~)
建議:
如果只是處理(小)數據的,用R。結果更可靠,速度可以接受,上手方便,多有現成的命令、程序可以用。
要自己搞個演算法、處理大數據、計算量大的,用python。開發效率高,一切盡在掌握。
ps:盲目地用R的包比盲目的地用python的包要更安全。起碼R會把你指向一篇論文,而python只是指向一堆代碼。R出問題了還有論文作者、審稿人陪葬。
③ R,Python,Scala 和 Java,到底該使用哪一種大數據編程語言
如果你對晦澀的統計運算進行繁重的數據分析工作,那麼你不青睞R才怪。如果你跨進行NLP或密集的神經網路處理,那麼Python是很好的選擇。如果想要一種加固的、面向生產環境的數據流解決方案,又擁有所有重要的操作工具,Java或Scala絕對是出色的選擇。
有一個大數據項目,你知道問題領域(problem domain),也知道使用什麼基礎設施,甚至可能已決定使用哪種框架來處理所有這些數據,但是有一個決定遲遲未能做出:我該選擇哪種語言?(或者可能更有針對性的問題是,我該迫使我的所有開發人員和數據科學家非要用哪種語言?)這個問題不會推遲太久,遲早要定奪。
當然,沒有什麼阻止得了你使用其他機制(比如XSLT轉換)來處理大數據工作。但通常來說,如今大數據方面有三種語言可以選擇:R、Python和Scala,外加一直以來屹立於企業界的Java。那麼,你該選擇哪種語言?為何要選擇它,或者說何時選擇它?
下面簡要介紹了每種語言,幫助你做出合理的決定。
R
R經常被稱為是「統計人員為統計人員開發的一種語言」。如果你需要深奧的統計模型用於計算,可能會在CRAN上找到它――你知道,CRAN叫綜合R檔案網路(Comprehensive R Archive Network)並非無緣無故。說到用於分析和標繪,沒有什麼比得過ggplot2。而如果你想利用比你機器提供的功能還強大的功能,那可以使用SparkR綁定,在R上運行Spark。
然而,如果你不是數據科學家,之前也沒有用過Matlab、SAS或OCTAVE,可能需要一番調整,才能使用R來高效地處理。雖然R很適合分析數據,但是就一般用途而言不太擅長。你可以用R構建模型,但是你需要考慮將模型轉換成Scala或Python,才能用於生產環境,你不太可能使用這種語言編寫一種集群控制系統(運氣好的話,你可以對它進行調試)。
Python
如果你的數據科學家不使用R,他們可能就會徹底了解Python。十多年來,Python在學術界當中一直很流行,尤其是在自然語言處理(NLP)等領域。因而,如果你有一個需要NLP處理的項目,就會面臨數量多得讓人眼花繚亂的選擇,包括經典的NTLK、使用GenSim的主題建模,或者超快、准確的spaCy。同樣,說到神經網路,Python同樣游刃有餘,有Theano和Tensorflow;隨後還有面向機器學習的scikit-learn,以及面向數據分析的NumPy和Pandas。
還有Juypter/iPython――這種基於Web的筆記本伺服器框架讓你可以使用一種可共享的日誌格式,將代碼、圖形以及幾乎任何對象混合起來。這一直是Python的殺手級功能之一,不過這年頭,這個概念證明大有用途,以至於出現在了奉行讀取-讀取-輸出-循環(REPL)概念的幾乎所有語言上,包括Scala和R。
Python往往在大數據處理框架中得到支持,但與此同時,它往往又不是「一等公民」。比如說,Spark中的新功能幾乎總是出現在Scala/Java綁定的首位,可能需要用PySpark編寫面向那些更新版的幾個次要版本(對Spark Streaming/MLLib方面的開發工具而言尤為如此)。
與R相反,Python是一種傳統的面向對象語言,所以大多數開發人員用起來會相當得心應手,而初次接觸R或Scala會讓人心生畏懼。一個小問題就是你的代碼中需要留出正確的空白處。這將人員分成兩大陣營,一派覺得「這非常有助於確保可讀性」,另一派則認為,2016年,我們應該不需要就因為一行代碼有個字元不在適當的位置,就要迫使解釋器讓程序運行起來。
Scala
現在說說Scala:在本文介紹的四種語言中,Scala是最輕松的語言,因為大家都欣賞其類型系統。Scala在JVM上運行,基本上成功地結合了函數範式和面向對象範式,目前它在金融界和需要處理海量數據的公司企業中取得了巨大進展,常常採用一種大規模分布式方式來處理(比如Twitter和LinkedIn)。它還是驅動Spark和Kafka的一種語言。
由於Scala在JVM裡面運行,它可以立即隨意訪問Java生態系統,不過它也有一系列廣泛的「原生」庫,用於處理大規模數據(尤其是Twitter的Algebird和Summingbird)。它還包括一個使用非常方便的REPL,用於互動式開發和分析,就像使用Python和R那樣。
我個人非常喜歡Scala,因為它包括許多實用的編程功能,比如模式匹配,而且被認為比標準的Java簡潔得多。然而,用Scala來開發不止一種方法,這種語言將此作為一項特色來宣傳。這是好事!不過考慮到它擁有圖靈完備(Turing-complete)的類型系統和各種彎彎曲曲的運算符(「/:」代表foldLeft,「:\」代表foldRight),很容易打開Scala文件,以為你看到的是某段討厭的Perl代碼。這就需要在編寫Scala時遵循一套好的實踐和准則(Databricks的就很合理)。
另一個缺點是,Scala編譯器運行起來有點慢,以至於讓人想起以前「編譯!」的日子。不過,它有REPL、支持大數據,還有採用Jupyter和Zeppelin這一形式的基於Web的筆記本框架,所以我覺得它的許多小問題還是情有可原。
Java
最終,總是少不了Java――這種語言沒人愛,被遺棄,歸一家只有通過起訴谷歌才有錢可賺時才似乎關心它的公司(註:Oracle)所有,完全不時髦。只有企業界的無人機才使用Java!不過,Java可能很適合你的大數據項目。想一想Hadoop MapRece,它用Java編寫。HDFS呢?也用Java來編寫。連Storm、Kafka和Spark都可以在JVM上運行(使用Clojure和Scala),這意味著Java是這些項目中的「一等公民」。另外還有像Google Cloud Dataflow(現在是Apache Beam)這些新技術,直到最近它們還只支持Java。
Java也許不是搖滾明星般備受喜愛的首選語言。但是由於研發人員在竭力理清Node.js應用程序中的一套回調,使用Java讓你可以訪問一個龐大的生態系統(包括分析器、調試器、監控工具以及確保企業安全和互操作性的庫),以及除此之外的更多內容,大多數內容在過去二十年已久經考驗(很遺憾,Java今年迎來21歲,我們都老矣)。
炮轟Java的一個主要理由是,非常繁瑣冗長,而且缺少互動式開發所需的REPL(R、Python和Scala都有)。我見過10行基於Scala的Spark代碼迅速變成用Java編寫的變態的200行代碼,還有龐大的類型語句,它們占據了屏幕的大部分空間。然而,Java 8中新的Lambda支持功能對於改善這種情況大有幫助。Java從來不會像Scala那麼緊湊,但是Java 8確確實實使得用Java進行開發不那麼痛苦。
至於REPL?好吧,目前還沒有。明年推出的Java 9會包括JShell,有望滿足你的所有REPL要求。
④ 簡述流行病學調查研究中「三R」(RR、AR和OR)指標的意義。
1.相對危險度(RR)
RR也叫危險比(risk ratio)或率比(rate ratio),是反映暴露與發病(死亡)關聯強度的最有用的指標。
。RR表明暴露組發病或死亡的危險是非暴露組的多少倍。RR值越大,表明暴露的效應越大,暴露與結局關聯的強度越大。即暴露組發病率或死亡率與非暴露組發病率或死亡率之比。
2.歸因危險度(AR)
又叫特異危險度、率差(rate difference, RD)和超額危險度(excess risk),
是暴露組發病率與對照組發病率相差的絕對值,它表示危險特異地歸因於暴露因素的程度。
3.比值比(Odds ratio, OR):也稱優勢比、比數比、交叉乘積比,指病例組中暴露人數與非暴露人數的比值除以對照組中暴露人數與非暴露人數的比值。是反映疾病與暴露之間關聯強度的指標。
⑤ 學習量化選擇Python還是R比較好
對於想從事數據行業的人和數據工作者來說,是學習R還是 python,哪個工具更實用一直被大家爭論。python 和R是統計學中兩種最流行的的編程語言,R的功能性主要是統計學家在開發時考慮的(R具有強大的可視化功能),而 Python 因為易於理解的語法被大家所接受。
在這篇文章中,我們將重點介紹R和 Python 以及它們在數據科學和統計上地位之間的差異。
關於R的介紹
Ross Ihaka 和 Robert Gentleman 於 1995 年在S語言中創造了開源語言R,目的是專注於提供更好和更人性化的方式做數據分析、統計和圖形模型的語言。
起初R主要是在學術和研究使用,但近來企業界發現R也很不錯。這使得中的R成為企業中使用的全球發展最快的統計語言之一。
R 的主要優勢是它有一個龐大的社區,通過郵件列表,用戶貢獻的文檔和一個非常活躍的堆棧溢出組提供支持。還有 CRAN 鏡像,一個用戶可以很簡單地創造的一個包含R包的知識庫。這些包有R裡面的函數和數據,各地的鏡像都是R網站的備份文件,完全一樣,用戶可以可以選擇離你最近的鏡像訪問最新的技術和功能,而無需從頭開發。
如果你是一個有經驗的程序員,你可以不會覺得使用R可以提高效率,但是,你可能會發現學習R經常會遇到瓶頸。幸運的是現在的資源很多。
關於 Python 的介紹
Python 是由 Guido van Rossem 創建於 1991 年,並強調效率和代碼的可讀性。希望深入的數據分析或應用統計技術的程序員是 Python 的主要用戶。
當你越需要在工程環境中工作,你會越喜歡 Python。它是一種靈活的語言,在處理一些新東西上表現很好,並且注重可讀性和簡單性,它的學習曲線是比較低的。
和R類似,Python 也有包,pypi 是一個 Python 包的倉庫,裡面有很多別人寫好的 Python 庫。
Python 也是一個大社區,但它是一個有點比較分散,因為它是一個通用的語言。然而,Python 自稱他們在數據科學中更占優勢地位:預期的增長,更新穎的科學數據應用的起源在這里。
R和 Python:數字的比較
在網上可以經常看到比較R和 Python 人氣的數字,雖然這些數字往往就這兩種語言是如何在計算機科學的整體生態系統不斷發展,但是很難並列進行比較。主要的原因是,R僅在數據科學的環境中使用,而 Python 作為一種通用語言,被廣泛應用於許多領域,如網路的發展。這往往導致排名結果偏向於 Python,而且從業者工資會較低。
R如何使用?
R 主要用於當數據分析任務需要獨立的計算或分析單個伺服器。這是探索性的工作,因為R有很多包和隨時可用的測試,可以提供提供必要的工具,快速啟動和運行的數量龐大幾乎任何類型的數據分析。R甚至可以是一個大數據解決方案的一部分。
當開始使用R的時候,最好首先安裝 RStudio IDE。之後建議你看看下面的流行包:
Python 如何使用?
如果你的數據分析任務需要使用 Web 應用程序,或代碼的統計數據需要被納入生產資料庫進行集成時你可以使用 python,作為一個完全成熟的編程語言,它是實現演算法一個偉大的工具。
雖然在過去 python 包對於數據分析還處於早期階段,但是這些年已經有了顯著改善。使用時需要安裝 NumPy/ SciPy 的(科學計算)和 pandas(數據處理),以使 Python 可用於數據分析。也看看 matplotlib,使圖形和 scikit-learn 機器學習。
不同於R,Python 有沒有明確的非常好的 IDE。我們建議你看看 Spyder 以及 IPython 網站,看看哪一個最適合你。
R和 Python:數據科學行業的表現
如果你看一下最近的民意調查,在數據分析的編程語言方面,R是明顯的贏家。
有越來越多的人從研發轉向 Python。此外,有越來越多的公司使用這兩種語言來進行組合。
如果你打算從事數據行業,你用好學會這兩種語言。招聘趨勢顯示這兩個技能的需求日益增加,而工資遠高於平均水平。
R:優點和缺點
優點
可視化能力強
可視化通常讓我們更有效地理解數字本身。R和可視化是絕配。一些必看的可視化軟體包是 ggplot2,ggvis,googleVis 和 rCharts。
完善的生態系統
R 具有活躍的社區和一個豐富的生態系統。R包在 CRAN,Bioconctor 的和 Github 上。您可以通過 Rdocumentation 搜索所有的R包。
用於數據科學
R 由統計學家開發,他們可以通過R代碼和包交流想法和概念,你不一定需要有計算機背景。此外企業界也越來越接受R。
缺點
R比較緩慢
R 使統計人員的更輕松,但你電腦的運行速度可能很慢。雖然R的體驗是緩慢的,但是有多個包來提高的r性能:pqR,renjin,FastR, Riposte 等等。
R不容易深入學習
R 學習起來並不容易,特別是如果你要從 GUI 來進行統計分析。如果你不熟悉它,即使發現包可能會非常耗時。
Python:優點和缺點
優點
IPython Notebook
IPython Notebook 使我們更容易使用 Python 進行數據工作,你可以輕松地與同事共享 Notebook,而無需他們安裝任何東西。這大大減少了組織代碼,輸出和注釋文件的開銷。可以花更多的時間做實際的工作。
通用語言
Python 是一種通用的語言,容易和直觀。在學習上會比較容易,它可以加快你寫一個程序的速度。此外,Python 測試框架是一個內置的,這樣可以保證你的代碼是可重復使用和可靠的。
一個多用途的語言
Python 把不同背景的人集合在一起。作為一種常見的、容易理解,大部分程序員都懂的,可以很容易地和統計學家溝通,你可以使用一個簡單的工具就把你每一個工作夥伴都整合起來。
缺點
可視化
可視化是選擇數據分析軟體的一個重要的標准。雖然 Python 有一些不錯的可視化庫,如 Seaborn,Bokeh 和 Pygal。但相比於R,呈現的結果並不總是那麼順眼。
Python 是挑戰者
Python 對於R來說是一個挑戰者,它不提供必不可少的R包。雖然它在追趕,但是還不夠。
最終你該學習什麼呢:
由你決定!作為一個數據工作者,你需要在工作中選擇最適合需要的語言。在學習之前問清楚這些問題可以幫助你:
你想解決什麼問題?
什麼是學習語言的凈成本?
是什麼在你的領域中常用的工具?
什麼是其他可用工具以及如何做這些涉及到的常用工具?
⑥ 數據分析用r還是python
R和Python兩者誰更適合數據分析領域?在某些特定情況下誰會更有優勢?還是一個天生在各方面都比另一個更好?
當我們想要選擇一種編程語言進行數據分析時,相信大多數人都會想到R和Python——但是從這兩個非常強大、靈活的數據分析語言中二選一是非常困難的。
我承認我還沒能從這兩個數據科學家喜愛的語言中選出更好的那一個。因此,為了使事情變得有趣,本文將介紹一些關於這兩種語言的詳細信息,並將決策權留給讀者。值得一提的是,有多種途徑可以了解這兩種語言各自的優缺點。然而在我看來,這兩種語言之間其實有很強的關聯。
Stack Overflow趨勢對比
上圖顯示了自從2008年(Stack Overflow 成立)以來,這兩種語言隨著時間的推移而發生的變化。
R和Python在數據科學領域展開激烈競爭,我們來看看他們各自的平台份額,並將2016與2017年進行比較:
相關推薦:《Python入門教程》
接下來我們將從適用場景、數據處理能力、任務、安裝難度以及開放工具等方面詳細了解這兩種語言。
適用場景
R適用於數據分析任務需要獨立計算或單個伺服器的應用場景。Python作為一種粘合劑語言,在數據分析任務中需要與Web應用程序集成或者當一條統計代碼需要插入到生產資料庫中時,使用Python更好。
任務
在進行探索性統計分析時,R勝出。它非常適合初學者,統計模型僅需幾行代碼即可實現。Python作為一個完整而強大的編程語言,是部署用於生產使用的演算法的有力工具。
數據處理能力
有了大量針對專業程序員以及非專業程序員的軟體包和庫的支持,不管是執行統計測試還是創建機器學習模型,R語言都得心應手。
Python最初在數據分析方面不是特別擅長,但隨著NumPy、Pandas以及其他擴展庫的推出,它已經逐漸在數據分析領域獲得了廣泛的應用。
開發環境
對於R語言,需要使用R Studio。對於Python,有很多Python IDE可供選擇,其中Spyder和IPython Notebook是最受歡迎的。
熱門軟體包和庫
下面羅列了R和Python推出的針對專業以及非專業程序員的最熱門的軟體包和庫。
R:針對專業程序員的熱門軟體包
用於數據操作的 dplyr、plyr和 data table
用於字元串操作的 stringr
定期和不定期時間序列 zoo
數據可視化工具 ggvis、lattice 和 ggplot2
用於機器學習的 caret
R:針對非專業程序員的熱門軟體包
Rattle
R Commander
Decer
這些完整的GUI包可以實現強大的數據統計和建模功能。
Python:針對專業程序員的熱門庫
用於數據分析的 pandas
用於科學計算的 SciPy 和 NumPy
用於機器學習的 scikit-learn
圖表庫 matplotlib
statsmodels 用來探索數據,估算統計模型,並執行統計測試和單元測試
Python:針對非專業程序員的熱門庫
Orange Canvas 3.0是遵循GPL協議的開源軟體包。它使用一些常用的Python開源庫進行科學計算,包括numpy、scipy和scikit-learn。
R 和 Python 詳細對比
正如本文開頭提到的,R和Python之間有很強的關聯,並且這兩種語言日益普及。很難說哪一種更好,它們兩者的整合在數據科學界激起了許多積極和協作的波瀾。
總結
事實上,日常用戶和數據科學家可以同時利用這兩者語言,因為R用戶可以在R中通過 rPython包來運行R中的Python代碼,而Python用戶可以通過RPy2庫在Python環境中運行R代碼。
⑦ 大數據的意義有哪些
大數據有哪些重要的作用
主要由以下三點作用:
第一,對大數據的處理分析正成為新一代信息技術融合應用的結點。移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。
第二,大數據是信息產業持續高速增長的新引擎。面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。
第三,大數據利用將成為提高核心競爭力的關鍵因素。各行各業的決策正在從「業務驅動」 轉變「數據驅動」。
大數據的含義包括什麼哪幾個方面?
大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據 *** ,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
什麼是大數據,大數據的意義是什麼?
大數據的意思就是數據要在線,這樣你的數據才能有價值,用於分析或者處理。大量的數據在線後的分析才有意義。可能得到你想要的數據,電影里好多這種素材,比如人臉的搜索,人員的定位,人流的分析,運行的狀態等等都有使用。現在做這些應用的也很多,只是落地的還稍微少一點。還是為了創造價值。
什麼是大數據?有什麼意義?
大數據就是大量的數據,通過分析找出他們的規律
大數據是什麼含義?
大數據的意思就是數據要在線,這樣你的數據才能有價值,用於分析或者處理。大量的數據在線後的分析才有意義。
大數據的含義包括哪些
大數據(英語:Big data[1][2]或Megadata),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。
在總數據量相同的情況下,與個別分析獨立的小型數據集(data
set)相比,將各個小型數據 *** 並後進行分析可得出許多額外的信息和數據關系性,可用來察覺商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數據集盛行的原因。
大數據的應用示例包括大科學、RFID、感測設備網路、天文學、大氣學、基因組學、生物學、大社會數據分析、互聯網文件處理、製作互聯網搜索引擎索引、通信記錄明細、軍事偵查、社交網路、通勤時間預測、醫療記錄、照片圖像和視頻封存、大規模的電子商務等。
互聯網大數據有哪些好處多
大數據是什麼?為什麼要使用大數據?大數據有哪些流行的工具?本文將為您解答。
現在,大數據是一個被濫用的流行詞,但是它真正的價值甚至是一個小企業都可以實現。
通過整合不同來源的數據,比如:網站分析、社交數據、用戶、本地數據,大數據可以幫助你了解的全面的情況。大數據分析正在變的越來越容易,成本越來越低,而且相比以前能更容易的加速對業務的理解。
大數據通常與企業商業智能(BI)和數據倉庫有共同的特點:高成本、高難度、高風險。
以前的商業智能和數據倉庫的舉措是失敗的,因為他們需要花費數月甚至是數年的時間才能讓股東得到可以量化的收益。然而事實並非如此,實際上你可以在當天就獲得真實的意圖,至少是在數周內。
為什麼使用大數據?
數據在呈爆炸式的速度增長。其中一個顯著的例子來自於我們的客戶,他們大多使用谷歌分析。當他們分析一個長時間段數據或者使用高級細分時,谷歌分析的數據開始進行抽樣,這會使得數據的真正價值被隱藏。
現在我們的工具Clickstreamr可以收集點擊級的巨量的數據,因此你可以追蹤用戶在他們訪問路徑(或者訪問流)中的每一個點擊行為。另外,如果你加入一些其他的數據源,他就真正的變成了大數據。
更完整的解析
大數據大數據並不僅僅是大量的數據。他的真正意義在於根據相關的數據背景,來完成一個更加完整的報告。舉個例子,如果你把你的CRM數據加入到你網站的數據分析當中,你可能就會找到你早就知道的高價值用戶群。她們是女性,住在西海岸,年齡30至45,花費了大量的時間在Pinterest和Facebook。
現在你已經被這些知識武裝起來了,那就是如何有效的設定和獲取更多高價值的用戶。
類似Tableau和谷歌這樣的公司給用戶帶來了更加強大的數據分析工具(比如:大數據分析)。Tableau提供了一個可視化分析軟體的解決方案,每年的價格是2000美金。谷歌提供了BigQuery工具,他可以允許你在數分鍾內分析你的數據,並且可以滿足任何的預算要求。
大數據是什麼?
由於大數據往往是一個混合結構、半結構化和非結構化的數據,因此大數據變得難以關聯、處理和管理,特別是和傳統的關系型資料庫。當談到大數據的時候,高德納公司(Gartner Group,成立於1979年,它是第一家信息技術研究和分析的公司)的分析師把它分成個3個V加以區分:
量級(Volume):大量的數據
速率(Velocity):高速的數據產出
多樣性(Variety):多種類型和來源的數據。
正如我們所說,大部分的企業每一天在不同的領域都在產出大量的數據。這里給出一組樣本數據的來源及類型,他們都是企業在做大數據分析時潛在的收集和聚合數據的方式:
網站分析
移動分析
設備/感測器數據
用戶數據(CRM)
統一的企業數據(ERP)
社交數據
會計系統
銷售點系統
銷售體系
消費者數據(例如益佰利的數據、鄧氏商聯的數據或者普查數據)
公司內部電子表格
公司內部資料庫
位置數據(空間位置、GPS定位的位置)
天氣數據
但是針對無限的數據來源,不要去做太多事情。把焦點放在相關的數據上,並且從小的數據開始。通常以2-3種數據源開始是一個好的建議,比如網站數據、消費者數據和CRM,這些會讓你得到一些有價值的見解。在你最初進入大數據分析之後,你可以開始添加數據源來促進你的分析,並且公布更多的分析結果。
想要獲得更多關於大數據細節的知識,可以去查閱 *** 的大數據詞條。
大數據的好處
大數據提供了一種識別和利用高價值機會的前瞻性方法。如果你想,那麼大數據可以提供如......
什麼是大數據?大數據是什麼意思?
「大數據」是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那麼,什麼是大數據呢,大數據時代怎麼理解呢,一起來看看吧。
大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。
大 數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、 GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到 其內在規律。
大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分布式計算架構,依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。
互聯網是個神奇的大網,大數據開發也是一種模式,你如果真想了解大數據,可以來這里,這個手機的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內容,如果只是湊熱鬧的話,就不要來了。
大 數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關 的主效基因,我們可以首先對奶牛全基因組進行掃描,盡管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對, 挖掘主效基因。例子還有很多。
大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運 用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本 質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。
商業智能的技術體系主要有數據倉庫(Data Warehouse,DW)、聯機分析處理(OLAP)以及數據挖掘(Data Mining,DM)三部分組成。
數據倉庫是商業智能的基礎,許多基本報表可以由此生成,但它更大的用處是作為進一步分析的數據源。所謂數據倉庫(DW)就是面向主題的、集成的、穩定的、不同時間的數據 *** ,用以支持經營管理中的決策制定過程。多維分析和數據挖掘是最常聽到的例子,數據倉庫能供給它們所需要的、整齊一致的數據。
在線分析處理(OLAP)技術則幫助分析人員、管理人員從多種角度把從原始數據中轉化出來、能夠真正為用戶所理解的、並真實反映數據維特性的信息,進行快速、一致、交互地訪問,從而獲得對數據的更深入了解的一類軟體技術。
數據挖掘(DM)是一種決策支持過程,它主要基於AI、機器學習、統計學等技術,高度自動化地分析企業原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。
商業智能的應用范圍
1.采購管理
2.財務管理
3.人力資源管理
4.客戶服務
5.配銷管......
何謂大數據?大數據的特點,意義和缺陷.
大數據技術(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
特點:
1.數據量大;
2.數據類型多;
3.數據處理實時性強;
4.數據真實性。
意義:大數據的意義在於通過對大量數據進行分析從而對核心價值進行預測。
缺陷:對處理能力要求高,存在隱私安全問題。
什麼是大數據,大數據為什麼重要,如何應用大數據
空談數據沒有太大意義,要看數據的主要方向是什麼。1、從技術應用方向來說,我們的數據主要做傳播指導;2、數據研究過程中我們的數據主要來自互聯網的公共數據(媒體數據、自媒體數據、企業自營的媒體數據),通過數據解決用戶洞察問題、傳播效果問題、競爭情報獲取的問題,3、我們主要是在大數據的維度上的研究上,我們的維度更多更寬廣,維度的多少決定了效果。
⑧ 學習 R 語言對金融分析人士有何意義
學習 R 語言對金融分析人士有何意義?
總之,多學一點東西總是沒錯的。至於,學了之後會有哪些好處呢跡燃,我們就來看看專業人士有什麼看法。
總之,學習了還是有很多好處的,學到的東西是你的了,不是嗎?
⑨ 大數據重要的意義
什麼是大數據,大數據的意義是什麼?
大數據的意思就是數據要在線,這樣你的數據才能有價值,用於分析或者處理。大量的數據在線後的分析才有意義。可能得到你想要的數據,電影里好多這種素材,比如人臉的搜索,人員的定位,人流的分析,運行的狀態等等都有使用。現在做這些應用的也很多,只是落地的還稍微少一點。還是為了創造價值。
什麼是大數據,大數據為什麼重要,如何應用大數據
空談數據沒有太大意義,要看數據的主要方向是什麼。1、從技術應用方向來說,我們的數據主要做傳播指導;2、數據研究過程中我們的數據主要來自互聯網的公共數據(媒體數據、自媒體數據、企業自營的媒體數據),通過數據解決用戶洞察問題、傳播效果問題、競爭情報獲取的問題,3、我們主要是在大數據的維度上的研究上,我們的維度更多更寬廣,維度的多少決定了效果。
大數據的意義
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。 阿里巴巴創辦人馬雲來台演講中就提到,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology數據科技,顯示大數據對於阿里巴巴集團來說舉足輕重。 有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。 大數據的價值體現在以下幾個方面:1)對大量消費者提 *** 品或服務的企業可以利用大數據進行精準營銷2) 做小而美模式的中長尾企業可以利用大數據做服務轉型3) 面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值不過,「大數據」在經濟發展中的巨大意義並不代表其能取代一切對於社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:「就今日言,有很多人忙碌於資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經濟意義的了解。」這確實是需要警惕的。在這個快速發展的智能硬體時代,困擾應用開發者的一個重要問題就是如何在功率、覆蓋范圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用相關數據和分析可以幫助它們降低成本、提高效率、開發新產品、做出更明智的業務決策等等。例如,通過結合大數據和高性能的分析,下面這些對企業有益的情況都可能會發生:1)及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元。2)為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。3)分析所有SKU,以利潤最大化為目標來定價和清理庫存。4)根據客戶的購買習慣,為其推送他可能感興趣的優惠信息。5)從大量客戶中快速識別出金牌客戶。6)使用點擊流分析和數據挖掘來規避欺詐行為。
什麼是大數據,大數據為什麼重要,如何應用大數據
讀讀這本書吧。。
駕馭大數據 駕馭未來
大數據的流行,也引發了圖書業大數據出版題材的升溫。去年出版的《大數據》(塗子沛著)是從數據治國的角度,深入淺出的敘述了美國 *** 的管理之道,細密入微的闡釋了黃仁宇先生」資本主義數目式管理「的精髓。最近人民郵電出版社又組織翻譯出版了美國Bill Franks的《駕馭大數據》一書。
該書的整體思路,簡單來說,就是敘述了一個」數據收集-知識形成-智慧行動「的過程,不僅回答了」what「,也指明了」how「,提供了具體的技術、流程、方法,甚至團隊建設,文化創新。作者首先在第一章分析了大數據的興起,介紹了大數據的概念、內容,價值,並分析了大數據的來源,也探討了在汽車保險、電力、零售行業的應用場景;在第二章介紹了駕馭大數據的技術、流程、方法,第三部分則介紹了駕馭大數據的能力框架,包括了如何進行優質分析,如何成為優秀的分析師,如何打造高績效團隊,最後則提出了企業創新文化的重要意義。整本書高屋建瓴、內容恣意汪洋、酣暢淋漓,結構上百川歸海,一氣呵成,總的來說,體系完備、內容繁豐、見識獨具、實用性強,非常值得推薦,是不可多得的好書!
大數據重要以及不重要的一面
與大多數人的想當然的看法不同,作者認為「大數據」中的」大」和「數據」都不重要,重要的是數據能帶來的價值以及如何駕馭這些大數據,甚至與傳統的結構化數據和教科書上的認知不同,「大數據可能是凌亂而醜陋的」並且大數據也會帶來「被大數據壓得不看重負,從而停止不前」和大數據處理「成本增長速度會讓企業措手不及」的風險,所以,作者才認為駕馭大數據,做到游刃有餘、從容自若、實現「被管理的創新」最為重要。在處理數據時,作者指出「很多大數據其實並不重要」,企業要做好大數據工作,關鍵是能做到如何沙裡淘金,並與各種數據進行結合或混搭,進而發現其中的價值。這也是作者一再強調的「新數據每一次都會勝過新的工具和方法」的原因所在。
網路數據與電子商務
對顧客行為的挖掘早已不是什麼熱門概念,然而作者認為從更深層次的角度看,下一步客戶意圖和決策過程的分析才是具有價值的金礦,即「關於購買商品的想法以及影響他們購買決策的關鍵因素是什麼」。針對電子商務這一顧客行為的數據挖掘,作者不是泛泛而談,而是獨具慧眼的從購買路徑、偏好、行為、反饋、流失模型、響應模型、顧客分類、評估廣告效果等方面提供了非常有吸引力的建議。我認為,《駕馭大數據》的作者提出的網路數據作為大數據的「原始數據」其實也蘊含著另外一重意蘊,即只有電子商務才具備與顧客進行深入的互動,也才具有了收集這些數據的條件,從這點看,直接面向終端的企業如果不電子商務化,談論大數據不是一件很可笑的事?當然這種用戶購買路徑的行為分析,也不是新鮮的事,在昂德希爾《顧客為什麼購買:新時代的零售業聖經》一書中披露了商場僱傭大量顧問,暗中尾隨顧客,用攝影機或充滿密語的卡片,完整真實的記錄顧客從進入到離開商場的每一個動作,並進行深入的總結和分析,進而改進貨物的陳列位置、廣告的用詞和放置場所等,都與電子商務時代的客戶行為挖掘具有異曲同工之妙,當然電子商務時代,數據分析的成本更加低廉,也更加容易獲取那些非直接觀察可以收集的數據(如信用記錄)。
一些有價值的應用場景
大數據的價值需要藉助於一些具體的應用模式和場景才能得到集中體現,電子商務是一個案例,同時,作者也提到了車載信息「最初作為一種工具出現的,它可以幫助車主和公司獲得更好的、更有效的車輛保險」,然而它所能夠提供的時速、路段、開始和結束時間等信息,對改善城市交通擁堵具有意料之外的價值。基於GPS技術和手......
大數據的到來對我國經濟發展有什麼意義
大數據(big data),是指無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據 *** 。
有人把數據比喻為蘊 藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。
大數據的價值體現在以下幾個方面:
1)對大量消費者提 *** 品或服務的企業可以利用大數據進行精準營銷;
2) 做小而美模式的中長尾企業可以利用大數據做服務轉型;
3) 面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
互聯網大數據有哪些好處多
大數據是什麼?為什麼要使用大數據?大數據有哪些流行的工具?本文將為您解答。
現在,大數據是一個被濫用的流行詞,但是它真正的價值甚至是一個小企業都可以實現。
通過整合不同來源的數據,比如:網站分析、社交數據、用戶、本地數據,大數據可以幫助你了解的全面的情況。大數據分析正在變的越來越容易,成本越來越低,而且相比以前能更容易的加速對業務的理解。
大數據通常與企業商業智能(BI)和數據倉庫有共同的特點:高成本、高難度、高風險。
以前的商業智能和數據倉庫的舉措是失敗的,因為他們需要花費數月甚至是數年的時間才能讓股東得到可以量化的收益。然而事實並非如此,實際上你可以在當天就獲得真實的意圖,至少是在數周內。
為什麼使用大數據?
數據在呈爆炸式的速度增長。其中一個顯著的例子來自於我們的客戶,他們大多使用谷歌分析。當他們分析一個長時間段數據或者使用高級細分時,谷歌分析的數據開始進行抽樣,這會使得數據的真正價值被隱藏。
現在我們的工具Clickstreamr可以收集點擊級的巨量的數據,因此你可以追蹤用戶在他們訪問路徑(或者訪問流)中的每一個點擊行為。另外,如果你加入一些其他的數據源,他就真正的變成了大數據。
更完整的解析
大數據大數據並不僅僅是大量的數據。他的真正意義在於根據相關的數據背景,來完成一個更加完整的報告。舉個例子,如果你把你的CRM數據加入到你網站的數據分析當中,你可能就會找到你早就知道的高價值用戶群。她們是女性,住在西海岸,年齡30至45,花費了大量的時間在Pinterest和Facebook。
現在你已經被這些知識武裝起來了,那就是如何有效的設定和獲取更多高價值的用戶。
類似Tableau和谷歌這樣的公司給用戶帶來了更加強大的數據分析工具(比如:大數據分析)。Tableau提供了一個可視化分析軟體的解決方案,每年的價格是2000美金。谷歌提供了BigQuery工具,他可以允許你在數分鍾內分析你的數據,並且可以滿足任何的預算要求。
大數據是什麼?
由於大數據往往是一個混合結構、半結構化和非結構化的數據,因此大數據變得難以關聯、處理和管理,特別是和傳統的關系型資料庫。當談到大數據的時候,高德納公司(Gartner Group,成立於1979年,它是第一家信息技術研究和分析的公司)的分析師把它分成個3個V加以區分:
量級(Volume):大量的數據
速率(Velocity):高速的數據產出
多樣性(Variety):多種類型和來源的數據。
正如我們所說,大部分的企業每一天在不同的領域都在產出大量的數據。這里給出一組樣本數據的來源及類型,他們都是企業在做大數據分析時潛在的收集和聚合數據的方式:
網站分析
移動分析
設備/感測器數據
用戶數據(CRM)
統一的企業數據(ERP)
社交數據
會計系統
銷售點系統
銷售體系
消費者數據(例如益佰利的數據、鄧氏商聯的數據或者普查數據)
公司內部電子表格
公司內部資料庫
位置數據(空間位置、GPS定位的位置)
天氣數據
但是針對無限的數據來源,不要去做太多事情。把焦點放在相關的數據上,並且從小的數據開始。通常以2-3種數據源開始是一個好的建議,比如網站數據、消費者數據和CRM,這些會讓你得到一些有價值的見解。在你最初進入大數據分析之後,你可以開始添加數據源來促進你的分析,並且公布更多的分析結果。
想要獲得更多關於大數據細節的知識,可以去查閱 *** 的大數據詞條。
大數據的好處
大數據提供了一種識別和利用高價值機會的前瞻性方法。如果你想,那麼大數據可以提供如......
什麼是「大數據」的真正含義
大講台大數據 在線培訓為你解答:大數據(bigdata),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據 *** ,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大數據給人們帶來的好處
對一般用戶來說意義不大,對於葯店、葯廠有必要了解用戶的需求,但是如果真的利用起來能給用戶帶來選葯的便利還是很有用的。比如當你生病不知道選哪種葯好的時候,根據循證醫學原理能幫你找到合適的葯這樣也算是帶來了好處。
工業大數據對中國有什麼意義
工業大數據可以推動大數據在工業研發設計、生產製造、經營管理、市場營銷、售後服務等產品全生命周期、產業鏈全流程各環節的應用,分析感知用戶需求,提升產品附加價值,打造智能工廠,推動製造模式變革和工業轉型升級。
國家下一步將利用大數據推動信息化和工業化深度融合,研究推動大數據在研發設計、生產製造、經營管理、市場營銷、售後服務等產業鏈各環節的應用,研發面向不同行業、不同環節的大數據分析應用平台,選擇典型企業、重點行業、重點地區開展工業企業大數據應用項目試點,積極推動製造業網路化和智能化。在應用項目試點過程中,需要開展應用示範安全可靠性方面的測評,利用大數據測試技術、工業電子系統測試技術和工業雲測試技術,保障工業企業大數據應用項目試點的穩步推進,中國軟體評測中心在相關方面有較深厚的技術積累和案例積累,可以為我國工業大數據發展保駕護航。
大數據的特點主要有什麼?
大數據(big data),是指在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據 *** 。
大數據的特點:
1、容量(Volume):數據的大小決定所考慮的數據的價值的和潛在的信息;
2、種類(Variety):數據類型的多樣性;
3、速度(Velocity):指獲得數據的速度;
4、可變性(Variability):妨礙了處理和有效地管理數據的過程。
5、真實性(Veracity):數據的質量
6、復雜性(plexity):數據量巨大,來源多渠道
大數據的意義:
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。
有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。
大數據的缺陷:
不過,「大數據」在經濟發展中的巨大意義並不代表其能取代一切對於社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:「就今日言,有很多人忙碌於資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經濟意義的了解。」 這確實是需要警惕的。