A. 漫談工業大數據9:開源工業大數據軟體簡介(上)
今天真是一個美好的時代,有無數的開源系統可以為我們提供服務,現在有許多開發軟體可以用到工業大數據中,當然很多系統還不成熟,應用到工業中還需要小心,並且需要開發人員對其進行一定的優化和調整。下面就簡單介紹一些開源的大數據工具軟體,看看有哪些能夠應用到工業大數據領域。
下面這張圖是我根據網上流傳的一張開源大數據軟體分類圖整理的:
我們可以把開源大數據軟體分成幾類,有一些可以逐步應用到工業大數據領域,下面就一一介紹一下這些軟體。(以下系統介紹大都來源於網路)
1、數據存儲類
(1)關系資料庫MySQL
這個就不用太多介紹了吧,關系型資料庫領域應用最廣泛的開源軟體,目前屬於 Oracle 旗下產品。
(2)文件資料庫Hadoop
Hadoop是大數據時代的明星產品,它最大的成就在於實現了一個分布式文件系統(Hadoop Distributed FileSystem),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的硬體上,而且它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集的應用程序。
Hadoop可以在工業大數據應用中用來作為底層的基礎資料庫,由於它採用了分布式部署的方式,如果是私有雲部署,適用於大型企業集團。如果是公有雲的話,可以用來存儲文檔、視頻、圖像等資料。
(3)列資料庫Hbase
HBase是一個分布式的、面向列的開源資料庫,HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系資料庫,它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。
基於Hbase開發的OpenTSDB,可以存儲所有的時序(無須采樣)來構建一個分布式、可伸縮的時間序列資料庫。它支持秒級數據採集所有metrics,支持永久存儲,可以做容量規劃,並很容易的接入到現有的報警系統里。
這樣的話,它就可以替代在工業領域用得最多的實時資料庫。
(4)文檔資料庫MongoDB
MongoDB是一個介於關系資料庫和非關系資料庫之間的產品,是非關系資料庫當中功能最豐富,最像關系資料庫的。他支持的數據結構非常鬆散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關系資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。
MongoDB適合於存儲工業大數據中的各類文檔,包括各類圖紙、文檔等。
(5)圖資料庫Neo4j/OrientDB
圖資料庫不是存放圖片的,是基於圖的形式構建的數據系統。
Neo4j是一個高性能的,NOSQL圖形資料庫,它將結構化數據存儲在網路上而不是表中。它是一個嵌入式的、基於磁碟的、具備完全的事務特性的Java持久化引擎,但是它將結構化數據存儲在網路(從數學角度叫做圖)上而不是表中。Neo4j也可以被看作是一個高性能的圖引擎,該引擎具有成熟資料庫的所有特性。程序員工作在一個面向對象的、靈活的網路結構下而不是嚴格、靜態的表中——但是他們可以享受到具備完全的事務特性、 企業級 的資料庫的所有好處。
OrientDB是兼具文檔資料庫的靈活性和圖形資料庫管理 鏈接 能力的可深層次擴展的文檔-圖形資料庫管理系統。可選無模式、全模式或混合模式下。支持許多高級特性,諸如ACID事務、快速索引,原生和SQL查詢功能。可以JSON格式導入、導出文檔。若不執行昂貴的JOIN操作的話,如同關系資料庫可在幾毫秒內可檢索數以百記的鏈接文檔圖。
這些資料庫都可以用來存儲非結構化數據。
2、數據分析類
(1)批處理MapRece/Spark
MapRece是一種編程模型,用於大規模數據集(大於1TB)的並行運算。概念"Map(映射)"和"Rece(歸約)",是它們的主要思想,都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式並行編程的情況下,將自己的程序運行在分布式系統上。 當前的軟體實現是指定一個Map(映射)函數,用來把一組鍵值對映射成一組新的鍵值對,指定並發的Rece(歸約)函數,用來保證所有映射的鍵值對中的每一個共享相同的鍵組。
Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。盡管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoop 文件系統中並行運行。
這些大數據的明星產品可以用來做工業大數據的處理。
(2)流處理Storm
Storm是一個開源的分布式實時計算系統,可以簡單、可靠的處理大量的數據流。Storm有很多使用場景:如實時分析,在線機器學習,持續計算,分布式RPC,ETL等等。Storm支持水平擴展,具有高容錯性,保證每個消息都會得到處理,而且處理速度很快(在一個小集群中,每個結點每秒可以處理數以百萬計的消息)。Storm的部署和運維都很便捷,而且更為重要的是可以使用任意編程語言來開發應用。
(3)圖處理Giraph
Giraph是什麼?Giraph是Apache基金會開源項目之一,被定義為迭代式圖處理系統。他架構在Hadoop之上,提供了圖處理介面,專門處理大數據的圖問題。
Giraph的存在很有必要,現在的大數據的圖問題又很多,例如表達人與人之間的關系的有社交網路,搜索引擎需要經常計算網頁與網頁之間的關系,而map-rece介面不太適合實現圖演算法。
Giraph主要用於分析用戶或者內容之間的聯系或重要性。
(4)並行計算MPI/OpenCL
OpenCL(全稱Open Computing Language,開放運算語言)是第一個面向 異構系統 通用目的並行編程的開放式、免費標准,也是一個統一的編程環境,便於軟體開發人員為高性能計算 伺服器 、桌面計算系統、手持設備編寫高效輕便的代碼,而且廣泛適用於多核心處理器(CPU)、圖形處理器(GPU)、Cell類型架構以及數字信號處理器(DSP)等其他並行處理器,在 游戲 、 娛樂 、科研、醫療等各種領域都有廣闊的發展前景。
(5)分析框架Hive
Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapRece任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapRece統計,不必開發專門的MapRece應用,十分適合數據倉庫的統計分析。
(6)分析框架Pig
Apache Pig 是apache平台下的一個免費開源項目,Pig為大型數據集的處理提供了更高層次的抽象,很多時候數據的處理需要多個MapRece過程才能實現,使得數據處理過程與該模式匹配可能很困難。有了Pig就能夠使用更豐富的數據結構。[2]
Pig LatinPig Latin 是一個相對簡單的語言,一條語句 就是一個操作,與資料庫的表類似,可以在關系資料庫中找到它(其中,元組代錶行,並且每個元組都由欄位組成)。
Pig 擁有大量的數據類型,不僅支持包、元組和映射等高級概念,還支持簡單的數據類型,如 int、long、float、double、chararray 和 bytearray。並且,還有一套完整的比較運算符,包括使用正則表達式的豐富匹配模式。
B. 大數據的核心 數據挖掘
大數據的核心:數據挖掘
大數據的核心:數據挖掘。從頭至尾我們都脫離不了數據挖掘。其實從大學到現在一直都接觸數據挖掘,但是我們不關心是什麼是數據挖掘,我們關心的是我們如何通過數據挖掘過程中找到我們需要的東西,而我們更關心的是這個過程是什麼?如何開始?
總結的過程也是一個學習的過程,通過有章節的整理對目前正在的學習的內容做規整。在這個過程中我們會從具體的項目實施中去談數據挖掘,中間會貫穿很多的概念,演算法,業務轉換,過程,建模等等。
我們列一下要談論的話題:
1、什麼是數據挖掘及為什麼要進行數據挖掘?
2、數據挖掘在營銷和CRM中的應用?
3、數據挖掘的過程
4、你應理解的統計學
5、數據描述與預測:剖析與預測建模
6、經典的數據挖掘技術
7、各類演算法
8、數據倉庫、OLAP、分析沙箱和數據挖掘
9、具體的案例分析
什麼是數據挖掘?
是知識發現、商業智能、預測分析還是預測建模。其實都可以歸為一類:數據挖掘是一項探測大量數據以發現有意義的模式(pattern)和規則(rule)的業務流程。
這里談到了發現模式與規則,其實就是一項業務流程,為業務服務。而我們要做就是讓業務做起來顯得更簡單,或直接幫助客戶如何提升業務。在大量的數據中找到有意義的模式和規則。在大量數據面前,數據的獲得不再是一個障礙,而是一個優勢。在現在很多的技術在大數據集上比在小數據集上的表現得更好——你可以用數據產生智慧,也可以用計算機來完成其最擅長的工作:提出問題並解決問題。模式和規則的定義:就是發現對業務有益的模式或規則。發現模式就意味著把保留活動的目標定位為最有可能流失的客戶。這就意味著優化客戶獲取資源,既考慮客戶數量上的短期效益,同時也考慮客戶價值的中期和長期收益。
而在上面的過程,最重要的一點就是:如何通過數據挖掘技術來維護與客戶之間的關系,這就是客戶關系管理,CRM。
專注於數據挖掘在營銷和客戶關系管理方面的應用——例如,為交叉銷售和向上銷售改進推薦,預測未來的用戶級別,建模客戶生存價值,根據用戶行為對客戶進行劃分,為訪問網站的客戶選擇最佳登錄頁面,確定適合列入營銷活動的候選者,以及預測哪些客戶處於停止使用軟體包、服務或葯物治療的風險中。
兩種關鍵技術:生存分析、統計演算法。在加上文本挖掘和主成分分析。
經營有方的小店自然地形成與客戶之間的學習關系。隨著時間的推移,他們對客戶的了解也會越來越多,從而可以利用這些知識為他們提供更好的服務。結果是:忠實的顧客和盈利的商店。
但是擁有數十萬或數百萬客戶的大公司,則不能奢望與每個客戶形成密切的私人關系。面臨這樣困境,他們必須要面對的是,學會充分利用所擁有的大量信息——幾乎是每次與客戶交互產生的數據。這就是如何將客戶數據轉換成客戶知識的分析技術。
數據挖掘是一項與業務流程交互的業務流程。數據挖掘以數據作為開始,通過分析來啟動或激勵行為,這些行為反過來又將創建更多需要數據挖掘的數據。
因此,對於那些充分利用數據來改善業務的公司來說,不應僅僅把數據挖掘看作是細枝末節。
相反,在業務策略上必須包含:1、數據收集。2、為長期利益分析數據。3、針對分析結果做出分析。
CRM(客戶關系管理系統)。在各行各業中,高瞻遠矚的公司的目標都是理解每個客戶,並通過利用這種理解,使得客戶與他們做生意更加容易。同樣要學習分析每個客戶的價值,清楚哪些客戶值得投資和努力來保留,哪些准許流失。把一個產品為中心的企業轉變成以客戶為中心的企業的代價超過了數據挖掘。假設數據挖掘的結果是像一個用戶推薦一個小首飾而不是一個小發明,但是如果經理的獎金取決於小發明的季度銷售量而不是小首飾的銷售量(即便後者更為有利可圖或者收獲長期盈利更多的客戶),那麼數據挖掘的結果就會被忽視,這就導致挖掘結果不能產生決策。
C. 數據倉庫與數據挖掘問題
公眾交流平台
1 介紹
數據倉庫是面向主題的、集成的、與時間相關的、不可修改的數據集合。數據倉庫技術是基於信息系統業務發展的需要,基於資料庫系統技術發展而來,並逐步獨立的一系列新的應用技術。數據倉庫系統可以看作是基於數學及統計學嚴謹邏輯思維的並達成「科學的判斷、有效的行為」的一個工具,也是一種達成「數據整合、知識管理」的有效手段。隨著數據倉庫技術應用的不斷深入,越來越多的企業開始使用數據倉庫技術建設自己的數據倉庫系統,希望能對歷史數據進行具體而又有針對性的分析與挖掘,以期從中發現新客戶和客戶新的需求。
目前主要的數據倉庫產品供應商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收購)等。Oracle公司的數據倉庫解決方案包含了業界領先的資料庫平台、開發工具和應用系統,能夠提供一系列的數據倉庫工具集和服務,具有多用戶數據倉庫管理能力,多種分區方式,較強的與OLAP工具的交互能力,及快速和便捷的數據移動機制等特性;IBM公司的數據倉庫產品稱為DB2 Data Warehouse Edition,它結合了DB2數據伺服器的長處和IBM的商業智能基礎設施,集成了用於倉庫管理、數據轉換、數據挖掘以及OLAP分析和報告的核心組件,提供了一套基於可視數據倉庫的商業智能解決方案;微軟的SQL Server提供了三大服務和一個工具來實現數據倉庫系統的整合,為用戶提供了可用於構建典型和創新的分析應用程序所需的各種特性、工具和功能,可以實現建模、ETL、建立查詢分析或圖表、定製KPI、建立報表和構造數據挖掘應用及發布等功能;SAS公司的數據倉庫解決方案是一個由30多個專用模塊構成的架構體系,適應於對企業級的數據進行重新整合,支持多維、快速查詢,提供服務於OLAP操作和決策支持的數據採集、管理、處理和展現功能;Teradata公司提出了可擴展數據倉庫基本架構,包括數據裝載、數據管理和信息訪問幾個部分,是高端數據倉庫市場最有力競爭者,主要運行在基於Unix操作系統平台的NCR硬體設備上;Sybase提供了稱為Warehouse Studio的一整套覆蓋整個數據倉庫建立周期的產品包,包括數據倉庫的建模、數據集成和轉換、數據存儲和管理、元數據管理和數據可視化分析等產品;Business Objects是集查詢、報表和OLAP技術為一身的智能決策支持系統,具有較好的查詢和報表功能,提供多維分析技術,支持多種資料庫,同時它還支持基於Web瀏覽器的查詢、報表和分析決策。
根據IDC發布的2006年數據倉庫市場分析報告,上述公司占據了全球近90%的市場份額,提供的數據倉庫產品的功能特性已經成為市場的主流。這些公司在推出各自的數據倉庫產品的同時也提供了相應的數據倉庫解決方案。本文後續內容將針對這些數據倉庫產品和解決方案的主要支撐技術進行比較,並結合IDC和ChinaBI相關報告給出相應的市場情況分析。
2 支撐技術
在數據倉庫系列技術中,主要的支撐技術包括資料庫技術、ETL技術、OLAP技術、報表技術、數據挖掘技術。
2.1 資料庫技術
資料庫技術是支撐數據倉庫技術的基礎技術。盡管在數據倉庫技術存儲模型方面,基於資料庫技術而發展的關系模式的理念已經被顛覆,取而代之是各種各樣的數據倉庫數據模型,如星型模型,雪花模型等。然而,在已有的數據倉庫實踐中,關系資料庫仍然是實質的資料庫存儲工具,只是將資料庫表改稱為了事實表和維表,將屬性域之間的關系重新定義為維度,量度,層次,粒度等。
成熟的數據倉庫後台資料庫包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查詢效率方面,Sybase IQ由於採用了列存儲技術,查詢效率比較高;在兼容性方面,Teradata從軟體到硬體都必須是專用的,因而兼容性最差;在管理平台和海量數據管理方面,Oracle、DB2和SQL Server都提供了一系列完整的工具,相對於其它產品有著明顯的優勢;在磁碟空間利用方面,Sybase IQ的壓縮比是所有資料庫中最好的,而Teradata最為浪費。
另外,SAS公司和BO公司也擁有自己的數據管理能力,但對於大型數據倉庫的數據管理,仍然需要使用上述資料庫產品,SAS和BO都提供了與這些資料庫進行連接的專門介面。
2.2 ETL技術
數據倉庫系統是集成的、與時間相關的數據集合,ETL作為數據倉庫的核心,負責將分布的、異構數據源中的數據進行抽取、清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。ETL能夠按照統一的規則集成並提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。要實現數據倉庫中數據的自動更新運轉,ETL技術是必不可少的關鍵技術之一。
主流數據倉庫產品供應商都擁有各自的ETL能力。IBM的ETL工具稱為IBM WebSphere DataStage,它為整個ETL過程提供了一個圖形化的開發環境,支持對多種操作數據源的數據抽取、轉換和維護,並將其輸入數據集或數據倉庫;Teradata的ETL工具稱為ETL Automation,它利用Teradata資料庫本身的並行處理能力,通過SQL語句實現數據的轉換,提供對ETL流程的支持,包括前後依賴、執行和監控等;SAS的ETL工具稱為ETL Studio,提供管理ETL流程和建立數據倉庫、數據集市和OLAP結構的單控制點。其他幾家公司則將其工具融合在大的數據倉庫組件中,如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可擴展數據整合平台Data Integrator。
上述各公司提供的ETL相關工具功能相近,在易用性、效率、價格等方面各有千秋,但就工具的二次開發、集成和開放性而言,與專業的數據集成平台,如Informatica公司的PowerCenter,相比還是存在一定的差距。
2.3 OLAP技術
聯機分析處理(OLAP)是針對特定問題的聯機數據訪問和分析,通過對信息進行快速、穩定、一致和互動式的存取,對數據進行多層次、多階段的分析處理,以獲得高度歸納的分析結果。聯機事務處理(OLTP)已不能滿足終端用戶對資料庫查詢分析的需要,SQL對大資料庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系資料庫進行大量計算才能得到結果,而查詢的結果並不能滿足決策者提出的需求,由此出現了多維資料庫和多維分析的概念。
目前主流的OLAP產品有Oracle Express/Discoverer、SQL Server Analysis Services、DB2 OLAP Server、SAS OLAP Server等,這些產品都可以生成多維數據立方體,提供多維數據的快速分析,支持所有主流關系型資料庫如DB2,Oracle,SQL Server,Sybase等,同時可讀取關系資料庫中細節數據,實現混合在線分析(HOLAP)或關系型在線分析(ROLAP)。並且,各廠商的OLAP Sever對自己的資料庫產品的支持均好於其它資料庫,各自的分析工具也都基於開放的OLE DB標准,可以訪問支持OLE DB標準的數據立方體。
BO公司和Sybase公司則分別提供了各自的OLAP分析工具OLAP Intelligence和Power Dimension,支持標准OLAP API,如OLEDB for OLAP,能夠對Microsoft、IBM等OLAP數據進行劃分、鑽取等處理,兼容第三方報表和展現工具。Teradata盡管不提供獨立的OLAP工具,但提供了相關技術,用於提升運行於Teradata資料庫上的OLAP應用系統的性能。
2.4 報表技術
報表技術主要是將集成在數據模型里的數據,按照復雜的格式、指定行列統計項,計算形成的特殊表格。一般的簡單報表可以使用通用的前台展現技術實現,而復雜的報表則需要使用特定的報表技術。主流的報表技術都可以靈活的制定各種報表模版庫和指標庫,並根據每個區塊或單元格的需要引用指標,實現一系列復雜的符合要求的報表的自動生成。
主流數據倉庫廠商的報表工具中較為有影響包括IBM的Cognos ReportNet、BO的Crystal Reports、Oracle的Oracle Reports。IBM通過收購Cognos公司獲得了完整的報表產品Cognos ReportNet,覆蓋了各種報表需求,包括管理報表、商業報表、賬單和發票等;BO公司提供了一個完整的企業報表解決方案Crystal Reports Server,支持通過Web快速便捷的創建、管理和交付報表;Oracle Reports工具提供了自由的數據格式方式,可以自動生成個性化字母或矩陣風格的布局,包括動態、數據驅動的圖表;SQL Server的報表功能包含在Reporting Services (SSRS)中,包括處理組件、一整套可用於創建和管理報表的工具、在自定義應用程序中集成和擴展數據和報表處理的API。與上述產品相比,Sybase的InfoMaker、Teradata的BTEQ和SAS的Report Studio等報表產品在功能、性能、二次開發等方面都還存在著一定的差距。
總的來說,這些產品在大部分通用軟體領域相對國產軟體都要優秀,但在有中國特色的報表領域內卻是例外,在處理能力存在一定的不適應性。另外這些產品的數學模型都是基於SQL/OLAP理論設計的,在技術上也不能滿足國內復雜報表的製作需求。
2.5 數據挖掘技術
當數據積累到一定數量時,某些潛在聯系、分類、推導結果和待發現價值隱藏在其中,可以使用數據發掘工具幫助發現這些有價值的數據。數據挖掘就是從海量數據中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識的過程。通過數據挖掘能找出資料庫中隱藏的信息,實現用模型來擬合數據、探索型數據分析,數據驅動型的發現,演繹型學習等功能。
目前,IBM公司的IBM Intelligent Miner支持典型數據集自動生成、關聯發現、序列規律發現、概念性分類和可視化呈現,可以自動實現數據選擇、數據轉換、數據發掘和結果呈現這一整套數據發掘操作;Oracle公司提供的數據挖掘平台稱為Oracle Data Miner,它提供了的一個圖形用戶界面,通過簡單易用的向導來指導完成數據准備、數據挖掘、模型評估和模型評價過程,根據需要自動生成將數據挖掘步驟轉換成一個集成的數據挖掘/BI應用程序所需的代碼;SAS公司的SAS Enterprise Miner將數據挖掘過程簡單流程化,支持關聯、聚類、決策樹、神經元網路和經典的統計回歸技術;Teradata公司的挖掘工具稱為Teradata Warehouse Miner,它通過將數據挖掘技術整合到數據倉庫來簡化數據挖掘流程,該工具還可實現將多家廠商的數據挖掘技術嵌入Teradata企業級數據倉庫環境中運行;Microsoft數據挖掘平台不同於傳統數據挖掘應用程序,它支持組織中數據的整個開發生命周期,允許第三方添加自定義演算法以支持特定的挖掘需求,支持實時根據挖掘的數據集進行數據驗證。對比於上述公司,Sybase和BO公司並沒有推出專門的數據挖掘平台或工具。
和前幾項支撐技術相比,數據挖掘技術的專業性更強,與應用領域的特殊背景結合得更加緊密。上述產品除了在性能、通用性、數據展示、二次開發上有一定差異外,沒有一個能夠占據絕對技術和市場優勢,反而是一些專門領域內的專業挖掘工具更具競爭性,如Fair Isaac公司占據了全球信用卡積分市場近7成的份額。
3 市場分析
國際權威市場分析機構IDC將數據倉庫平台工具市場細分為數據倉庫生成(Data Warehouse Generation)工具市場和數據倉庫管理(Data Warehouse Management)工具市場兩個部分,前者涵蓋數據倉庫的設計和ETL過程的各種工具,後者指數據倉庫後台資料庫的管理工具,如DBMS。根據IDC發布的《全球數據倉庫平台工具2006年度供應商市場份額》分析報告,2006年該市場增長率為12.5%,規模達到57億美元,其中數據倉庫生成工具和數據倉庫管理工具兩個市場的比重分別為23.3%和76.7%,相對於數據倉庫管理工具市場,數據倉庫生成工具市場的增長進一步放緩。可以預見,整個數據倉庫市場將進一步向擁有強大後台資料庫系統的傳統廠商傾斜。從供應商看,Oracle公司繼續占據數據倉庫管理領域的領先供應商地位,並且與其主要競爭者IBM之間的這種領先優勢正逐漸擴大。Microsoft緊追IBM之後,與其之間的差距則在逐漸縮小。
在國內,商業智能已經成為企業信息化中最重要的組成部分,而數據倉庫相關技術在其中扮演著無可替代的重要角色。據ChinaBI統計,2007年中國大陸地區的BI市場份額約為20億元人民幣,同比2006年增長35%,其中BI產品許可證約為9億元人民幣,BI系統集成約為11億元人民幣。現有BI廠商包括產品提供商、集成商、分銷商、服務商等有近500家,在未來幾年內商業智能市場需求旺盛,市場規模增長迅速。從國內數據倉庫實踐看,根據ChinaBI評選的2007年中國十大數據倉庫的初步結果,傳統資料庫廠商占據7個,分別是IBM 3個、Oracle 3個、SQL Server 1個,其餘3個屬於NCR/Teradata公司;從數據倉庫規模來看,傳統資料庫廠商更佔有巨大優勢,總數據量為536.3T,Teradata則為54T。涉及的行業包括通信、郵政、稅務、證券和保險等。
在數據倉庫市場快速發展的同時,市場競爭也日趨激烈,其中尤其以Oracle收購Hyperion、SAP收購BO、IBM收購Cognos具有代表意義。截至2007年底,混亂的市場已經基本明朗化,三個層次逐漸浮現出來。Oracle,IBM,Microsoft和SAP位居第一層次,能夠提供全面的解決方案;第二層次是NCR Teradata和SAS等產品相對獨立的供應商,可以提供解決方案中的部分應用;第三層次是只專注於單一領域的專業廠商,但其在並購的硝煙中日趨難以存活。
D. 數據倉庫與數據挖掘的關系,區別與聯系(概括一點)
區別:
1、目的不同:
數據倉庫是為了支持復雜的分析和決策,數據挖掘是為了在海量的數據裡面發掘出預測性的、分析性的信息,多用來預測。
2、階段不同:
數據倉庫是數據挖掘的先期步驟,通過數據倉庫的構建,提高了數據挖掘的效率和能力,保證了數據挖掘中的數據的寬廣性和完整性。
3、處理方式不同:
數據挖掘是基於數據倉庫和多維資料庫中的數據,找到數據的潛在模式進行預測,它可以對數據進行復雜處理。大多數情況下,數據挖掘是讓數據從數據倉庫到數據挖掘資料庫中。
聯系:
1、數據倉庫是為了數據挖掘做預准備,數據挖掘可建立在數據倉庫之上。
2、最終目的都為了提升企業的信息化競爭能力。
(4)漫談大數據倉庫與挖掘系統擴展閱讀:
數據倉庫與數據挖掘的發展歷程:
關系資料庫是20世紀70年代初提出來,經過資料庫專家幾十年的努力,理論和實踐都取得了顯著成果,標志著資料庫技術的日益成熟。
但它仍然難以實現對關系資料庫中數據的分析,不能很好地支持決策,因此在80年代,產生了數據倉庫的思想,90年代,數據倉庫的基本原理、架構形式和使用原則都已確定。
主要技術包括對資料庫中數據訪問、網路、C / S結構和圖形界面,一些大公司已經開始構建數據倉庫。針對數據倉庫中迅速增長的海量數據的收集、存放,用人力已經不能解決,那麼數據倉庫中有用的知識的提取就需要數據挖掘來實現。
數據挖掘與統計學子領域「試探性數據分析」及人工智慧子領域「知識發現」和機器學有關,是一門綜合性的技術學科。
網路-數據倉庫
E. 誰能說說數據倉庫,數據挖掘,BI三者之間的區別和聯系的相關推薦
數據倉庫(DW)屬於BI的一部分,一般來說DW就是BI這個房子的地基了. 做好DW才好進而分析利用內,讓數據容產生價值. DW沒做好,整個BI項目很容易垮掉.
BI包括ETL, DW和相應的Reporting System. 因為現在一般的公司動不動說上個BI系統,都是要從DW建模開始做,然後做ETL,最後做對應的Reporting System. 雖然最終領導們只看到了他們想要的報表,但是這一套系統是需要DW和ETL的支持的。
數據挖掘(DM)是一門新興的技術,在BI 中會常用到數據挖掘的技術。數據挖掘涉及到的是資料庫、統計學、機器學習、數據分析、可視化等等。
三者之間緊密聯系,但是屬於三個不同的概念范疇。
F. 淺談數據挖掘與數據倉庫
淺談數據挖掘與數據倉庫
1數據挖掘
1.1數據挖掘與傳統數據分析的區別
數據挖掘與傳統的數據分析,如查詢、報表、聯機應用分析的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先前未知、有效和實用三個特徵。即數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越出乎意料就可能越有價值。而傳統的數據分析趨勢為從大型資料庫抓取所需數據並使用專屬計算機分析軟體。因此數據挖掘與傳統分析方法有很大的不同。
1.2數據挖掘的應用價值
(1)分類:首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。(2)估計:與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的輸出;分類是確定數目的,估計是不確定的。(3)聚類:是對記錄分組。聚類和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。中國移動採用先進的數據挖掘工具馬克威分析系統,對用戶wap上網的行為進行聚類分析,通過客戶分群,進行精確營銷。(4)關聯規則和序列模式的發現:關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關聯的支持度和可信度來描述。與關聯不同,序列是一種縱向的聯系。例如:今天銀行調整利率,明天股市的變化。(5)預測:通過分類或估值得出模型,該模型用於對未知變數的預言。(6)偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。除此之外,在客戶分析,運籌和企業資源的優化,異常檢測,企業分析模型的管理的方面都有廣泛使用價值。
2數據倉庫
2.1數據倉庫的特徵
(1)面向主題(Subject Oriented)的數據集合。數據倉庫圍繞一些主題如顧客、供應商、產品和銷售來組織。數據倉庫關注決策者的數據建模與分析,而不是組織機構的日常操作和事務處理。(2)集成(Integrated)的數據集合。數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。(3)時變(Time Variant)的數據集合。數據存儲從歷史的角度提供信息。數據倉庫中的數據通常包含歷史信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。(4)非易失(Nonvolatile)的數據集合。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,修改和刪除操作很少,通常只需要定期的載入、刷新。數據倉庫里的數據通常只需要兩種操作:初始化載入和數據訪問,因此其數據相對穩定,極少或根本不更新。[page] 2.2數據倉庫的類型
數據倉庫的類型根據數據倉庫所管理的數據類型和它們所解決的企業問題范圍,一般可將數據倉庫分為下列3種類型:企業數據倉庫(EDW)、操作型資料庫(ODS)和數據集市(Data Marts)。①企業數據倉庫為通用數據倉庫,它既含有大量詳細的數據,也含有大量累贅的或聚集的數據,這些數據具有不易改變性和面向歷史性。此種數據倉庫被用來進行涵蓋多種企業領域上的戰略或戰術上的決策。②操作型資料庫既可以被用來針對工作數據做決策支持,又可用做將數據載入到數據倉庫時的過渡區域。與EDW相比,ODS是面向主題和面向綜合的,易變的,僅含有目前的、詳細的數據,不含有累計的、歷史性的數據。③數據集市是為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據。幾組數據集市可以組成一個EDW。
2.3數據倉庫與傳統資料庫的比較
二者的聯系既有聯系又有區別。數據倉庫的出現,並不是要取代資料庫。目前,大部分數據倉庫還是用關系資料庫管理系統來管理的。可以說,資料庫、數據倉庫相輔相成、各有千秋。二者的區別可以從以下幾個方面進行比較:
(1)出發點不同:資料庫是面向事務的設計;數據倉庫是面向主題設計的。(2)存儲的數據不同:資料庫一般存儲在線交易數據;數據倉庫存儲的一般是歷史數據。(3)設計規則不同:資料庫設計是盡量避免冗餘,一般採用符合範式的規則來設計;數據倉庫在設計是有意引入冗餘,採用反範式的方式來設計。(4)提供的功能不同:資料庫是為捕獲數據而設計,數據倉庫是為分析數據而設計。(5)基本元素不同:資料庫的基本元素是事實表,數據倉庫的基本元素是維度表。(6)容量不同:資料庫在基本容量上要比數據倉庫小的多。(7)服務對象不同:資料庫是為了高效的事務處理而設計的,服務對象為企業業務處理方面的工作人員;數據倉庫是為了分析數據進行決策而設計的,服務對象為企業高層決策人員。
3數據倉庫與數據挖掘的關系
當然為了數據挖掘你也不必非得建立一個數據倉庫,數據倉庫不是必需的。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解決所有的數據沖突問題,然後把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數據挖掘,你可以把一個或幾個事務資料庫導到一個只讀的資料庫中,就把它當作數據集市,然後在他上面進行數據挖掘。
G. 何謂數據倉庫為什麼要建立數據倉庫何謂數據挖掘它有哪些方面的功能
何謂數據倉庫?為什麼要建立數據倉庫?
答:數據倉庫是一種新的數據處理體系結構,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,為企業決策支持系統提供所需的集成信息。
建立數據倉庫的目的有3個:
一是為了解決企業決策分析中的系統響應問題,數據倉庫能提供比傳統事務資料庫更快的大規模決策分析的響應速度。
二是解決決策分析對數據的特殊需求問題。決策分析需要全面的、正確的集成數據,這是傳統事務資料庫不能直接提供的。
三是解決決策分析對數據的特殊操作要求。決策分析是面向專業用戶而非一般業務員,需要使用專業的分析工具,對分析結果還要以商業智能的方式進行表現,這是事務資料庫不能提供的。
何謂數據挖掘?它有哪些方面的功能?
答:從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數據挖掘。相關的名稱有知識發現、數據分析、數據融合、決策支持等。
數據挖掘的功能包括:概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。
H. 簡述資料庫 數據倉庫 和數據挖掘三者之間的關系
數據倉庫是要集成多種數據源,比如個人財務記錄和購物記錄,內比如企業的原料、生產、銷售的容異構資料庫。資料庫一般是單一結構的,沒辦法集成異構源去做一個統一介面,所以在數據分析需求達到宏觀規模後才弄出這么個概念來。所謂面向事務和面向主題就是這個意思。事務是數據記錄查詢的單一任務,主題是數據分析目標的相關數據范疇。
數據倉庫是數據挖掘的對象,進行大規模的數據挖掘前先要建立數據倉庫,數據挖掘的研究方向有偏向資料庫的。
I. 漫談大數據的思想形成與價值維度
漫談大數據的思想形成與價值維度
清華基於微博分析獲得的大數據幸福指數發現人們周六最幸福,相信大家心情不錯,因此今天不談枯燥的技術。關於大數據的思維、理念、方法論已經被反復消費了,本來我想直接進入交互環節,繼挺兄還是要求先有一部分規定動作,我就先自彈自唱幾十分鍾,既然是漫談,也不見得扣題,說到哪裡是哪裡。各位有問題,我可以擇時擇機插入討論。
先說大數據思想的形成吧。自從人類開始文字和數字,數據就開始產生。就數據增長曲線而言,極小的初值確實要經歷漫長的過程達到人類能感知的曲線拐點。谷歌前CEO埃里克·施密特曾給出了一個有趣的數據:從人類文明曙光初現到2003年一共產生的數據,只相當於2010年兩天產生的數據量。而一旦越過拐點,「大數據摩爾定律」的滾滾鐵輪下,指數效應爆發:最近兩年產生的數據量相當於之前產生的全部數據量。
在漫長的數據蓄水過程中,數學和統計學逐漸發展,人們開始注意對數據的量化分析,在人類進入信息時代以前這樣的例子就不勝枚舉。比如經濟上,黃仁宇先生對宋朝經濟的分析中發現了「數目字管理」(即定量分析)的廣泛應用(可惜王安石變法有始無終)。又如軍事,「向林彪學習數據挖掘」的橋段不論真假,其背後量化分析的思想無疑有其現實基礎,而這一基礎甚至可以回推到2000多年前,孫臏正是通過編造「十萬灶減到五萬灶再減到三萬灶」的數據、利用龐涓的量化分析習慣對其進行誘殺。
到上世紀50-60年代,磁帶取代穿孔卡片機,啟動了數據存儲的革命。磁碟驅動器隨即發明,它帶來的最大想像空間並不是容量,而是隨機讀寫的能力,這一下子解放了數據工作者的思維模式,開始數據的非線性表達和管理。資料庫應運而生,從層次型資料庫(IBM為阿波羅登月設計的層次型資料庫迄今仍在建行使用),到網狀資料庫,再到現在通用的關系資料庫。與數據管理同時發源的是決策支持系統(DSS),80年代演變到商業智能(BI)和數據倉庫,開辟了數據分析——也就是為數據賦予意義——的道路。
那個時代運用數據管理和分析最厲害的是商業。第一個數據倉庫是為寶潔做的,第一個太位元組的數據倉庫是在沃爾瑪。沃爾瑪的典型應用是兩個:一是基於retaillink的供應鏈優化,把數據與供應商共享,指導它們的產品設計、生產、定價、配送、營銷等整個流程,同時供應商可以優化庫存、及時補貨;二是購物籃分析,也就是常說的啤酒加尿布。關於啤酒加尿布,幾乎所有的營銷書都言之鑿鑿,我告訴大家,是Teradata的一個經理編的,人類歷史上從沒有發生過,但是,先教育市場,再收獲市場,它是有功的。
僅次於沃爾瑪的樂購(Tesco),強在客戶關系管理(CRM),細分客戶群,分析其行為和意圖,做精準營銷。
這些都發生在90年代。00年代時,科研產生了大量的數據,如天文觀測、粒子碰撞,資料庫大拿吉姆·格雷等提出了第四範式,是數據方法論的一次提升。前三個範式是實驗(伽利略從斜塔往下扔),理論(牛頓被蘋果砸出靈感,形成經典物理學定律),模擬(粒子加速太貴,核試驗太臟,於是乎用計算代替)。第四範式是數據探索。這其實也不是新鮮的,開普勒根據前人對行星位置的觀測數據擬合出橢圓軌道,就是數據方法。但是到90年代的時候,科研數據實在太多了,數據探索成為顯學。在現今的學科里,有一對孿生兄弟,計算XX學和XX信息學,前者是模擬/計算範式,後者是數據範式,如計算生物學和生物信息學。有時候計算XX學包含了數據範式,如計算社會學、計算廣告學。
2008年克里斯·安德森(長尾理論的作者)在《連線》雜志寫了一篇《理論的終結》,引起軒然大波。他主要的觀點是有了數據,就不要模型了,或者很難獲得具有可解釋性的模型,那麼模型所代表的理論也沒有意義了。跟大家說一下數據、模型和理論。大家先看個粗糙的圖。
首先,我們在觀察客觀世界中採集了三個點的數據,根據這些數據,可以對客觀世界有個理論假設,用一個簡化的模型來表示,比如說三角形。可以有更多的模型,如四邊形,五邊形。隨著觀察的深入,又採集了兩個點,這時發現三角形、四邊形的模型都是錯的,於是確定模型為五邊形,這個模型反映的世界就在那個五邊形里,殊不知真正的時間是圓形。
大數據時代的問題是數據是如此的多、雜,已經無法用簡單、可解釋的模型來表達,這樣,數據本身成了模型,嚴格地說,數據及應用數學(尤其是統計學)取代了理論。安德森用谷歌翻譯的例子,統一的統計學模型取代了各種語言的理論/模型(如語法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語料數據。谷歌甚至能翻譯克萊貢語(StarTrek里編出來的語言)。安德森提出了要相關性不要因果性的問題,以後舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當然,科學界不認同《理論的終結》,認為科學家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了數據,機器可以發現當前知識疆域裡面隱藏的未知部分。而沒有模型,知識疆域的上限就是機器線性增長的計算力,它不能擴展到新的空間。在人類歷史上,每一次知識疆域的跨越式拓展都是由天才和他們的理論率先吹起的號角。
2010年左右,大數據的浪潮捲起,這些爭論迅速被淹沒了。看谷歌趨勢,」bigdata」這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家,一家是IDC,每年給EMC做digitaluniverse的報告,上升到澤位元組范疇(給大家個概念,現在硬碟是太位元組,1000太=1拍,阿里、Facebook的數據是幾百拍位元組,1000拍=1艾,網路是個位數艾位元組,谷歌是兩位數艾位元組,1000艾=1澤);一家是麥肯錫,發布《大數據:創新、競爭和生產力的下一個前沿》;一家是《經濟學人》,其中的重要寫手是跟老舍同著《大數據時代》的肯尼思?庫克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實這3V在2001年就已經被編出來了,只不過在大數據語境里有了全新的詮釋。
咱們國內,歡總、國棟總也是在2011年左右開始呼籲對大數據的重視。
2012年子沛的書《大數據》教育政府官員有功。老舍和庫克耶的《大數據時代》提出了三大思維,現在已經被奉為圭臬,但千萬別當作放之四海而皆準的真理了。
比如要數據全集不要采樣。現實地講,1.沒有全集數據,數據都在孤島里;2.全集太貴,鑒於大數據信息密度低,是貧礦,投入產出比不見得好;3.宏觀分析中采樣還是有用的,蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義;4.采樣要有隨機性、代表性,采訪火車上的民工得出都買到票的結論不是好采樣,現在只做固定電話采樣調查也不行了(行動電話是大頭),在國外基於Twitter采樣也發現不完全具有代表性(老年人沒被包括);5.采樣的缺點是有百分之幾的偏差,更會丟失黑天鵝的信號,因此在全集數據存在且可分析的前提下,全量是首選。全量>好的采樣>不均勻的大量。
再說混雜性由於精確性。擁抱混雜性(這樣一種客觀現象)的態度是不錯的,但不等於喜歡混雜性。數據清洗比以前更重要,數據失去辨識度、失去有效性,就該扔了。老舍引用谷歌PeterNovig的結論,少數高質量數據+復雜演算法被大量低質量數據+簡單演算法打敗,來證明這一思維。Peter的研究是Web文本分析,確實成立。但谷歌的深度學習已經證明這個不完全對,對於信息維度豐富的語音、圖片數據,需要大量數據+復雜模型。
最後是要相關性不要因果性。對於大批量的小決策,相關性是有用的,如亞馬遜的個性化推薦;而對於小批量的大決策,因果性依然重要。就如中葯,只到達了相關性這一步,但它沒有可解釋性,無法得出是有些樹皮和蟲殼的因導致治癒的果。西葯在發現相關性後,要做隨機對照試驗,把所有可能導致「治癒的果」的干擾因素排除,獲得因果性和可解釋性。在商業決策上也是一樣,相關性只是開始,它取代了拍腦袋、直覺獲得的假設,而後面驗證因果性的過程仍然重要。
把大數據的一些分析結果落實在相關性上也是倫理的需要,動機不代錶行為。預測性分析也一樣,不然警察會預測人犯罪,保險公司會預測人生病,社會很麻煩。大數據演算法極大影響了我們的生活,有時候會覺得挺悲哀的,是演算法覺得了你貸不貸得到款,谷歌每調整一次演算法,很多在線商業就會受到影響,因為被排到後面去了。
下面時間不多了,關於價值維度,我貼一些以前講過的東西。大數據思想中很重要的一點是決策智能化之外,還有數據本身的價值化。這一點不贅述了,引用馬雲的話吧,「信息的出發點是我認為我比別人聰明,數據的出發點是認為別人比我聰明;信息是你拿到數據編輯以後給別人,而數據是你搜集數據以後交給比你更聰明的人去處理。」大數據能做什麼?價值這個V怎麼映射到其他3V和時空象限中?
再貼上解釋。「見微」與「知著」在Volume的空間維度。小數據見微,作個人刻畫,我曾用《一代宗師》中「見自己」形容之;大數據知著,反映自然和群體的特徵和趨勢,我以「見天地、見眾生」比喻之。「著」推動「微」(如把人群細分為buckets),又拉動「微」(如推薦相似人群的偏好給個人)。「微」與「著」又反映了時間維度,數據剛產生時個人價值最大,隨著時間decay最後退化為以集合價值為主。
「當下」和「皆明」在Velocity的時間維度。當下在時間原點,是閃念之間的實時智慧,結合過往(負軸)、預測未來(正軸),可以皆明,即獲得perpetual智慧。《西遊記》里形容真假孫悟空,一個是「知天時、通變化」,一個是「知前後、萬物皆明」,正好對應。為達到皆明,需要全量分析、預測分析和處方式分析(prescriptiveanalytics,為讓設定的未來發生,需要採取什麼樣的行動)。
「辨訛」和「曉意」在Variety的空間維度。基於大體量、多源異質的數據,辨訛過濾雜訊、查漏補缺、去偽存真。曉意達到更高境界,從非結構數據中提取語義、使機器能夠窺探人的思想境界、達到過去結構化數據分析不能達到之高度。
先看知著,對宏觀現象規律的研究早已有之,大數據的知著有兩個新特點,一是從采樣到全量,比如央視去年「你幸福嗎」的調查,是街頭的采樣,前不久《中國經濟生活大調查》關於幸福城市排名的結論,是基於10萬份問卷(17個問題)的采樣,而清華行為與大數據實驗室做的幸福指數(繼挺兄、我、還有多位本群群友參與),是基於新浪微博數據的全集(托老王的福),這些數據是人們的自然表達(而不是面對問卷時的被動應對),同時又有上下文語境,因此更真實、也更有解釋性。北上廣不幸福,是因為空氣還是房價或教育,在微博上更容易傳播的積極情緒還是消極情緒,數據告訴你答案。《中國經濟生活大調查》說「再小的聲音我們都聽得見」,是過頭話,采樣和傳統的統計分析方法對數據分布採用一些簡化的模型,這些模型把異常和長尾忽略了,全量的分析可以看到黑天鵝的身影,聽到長尾的聲音。
另一個特點是從定性到定量。計算社會學就是把定量分析應用到社會學,已經有一批數學家、物理學家成了經濟學家、寬客,現在他們也可以選擇成為社會學家。國泰君安3I指數也是一個例子,它通過幾十萬用戶的數據,主要是反映投資活躍程度和投資收益水平的指標,建立一個量化模型來推知整體投資景氣度。
再看見微,我認為大數據的真正差異化優勢在微觀。自然科學是先宏觀、具體,進入到微觀和抽象,這時大數據就很重要了。我們更關注社會科學,那是先微觀、具體,再宏觀、抽象,許小年索性認為宏觀經濟學是偽科學。如果市場是個體行為的總和,我們原來看到是一張抽象派的畫,看不懂,通過客戶細分慢慢可以形成一張大致看得懂的現實圖景,不過是馬賽克的,再通過微分、甚至定位個人,形成高清圖。我們每一個人現在都生活在零售商的bucket中(前面說的樂購創造了這個概念),最簡單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如「精打細算」、「右鍵點擊一族」(使用右鍵的比較techsavvy)。反過來我們消費者也希望能夠獲得個性化的尊崇,Nobodywantstobenobodytoday。
了解並掌握客戶比以往任何時候都更重要。奧巴馬贏在大數據上,就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·傑西卡·帕克(《慾望都市》的主角),他還要更細分,搖擺州每一個郡每一個年齡段每一個時間段在看什麼電視,搖擺州(俄亥俄)1%選民隨時間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對於企業來說,要從以產品為中心,轉到以客戶(買單者)甚至用戶(使用者)為中心,從關注用戶背景到關注其行為、意圖和意向,從關注交易形成轉到關注每一個交互點/觸點,用戶是從什麼路徑發現我的產品的,決定之前又做了什麼,買了以後又有什麼反饋,是通過網頁、還是QQ、微博或是微信。
再講第三個,當下。時間是金錢,股票交易就是快魚吃慢魚,用免費股票交易軟體有幾秒的延遲,而佔美國交易量60-70%的高頻程序化交易則要發現毫秒級、低至1美分的交易機會。時間又是生命,美國國家大氣與海洋管理局的超級計算機在日本311地震後9分鍾發出海嘯預警,已經太晚。時間還是機會。現在所謂的購物籃分析用的其實並不是真正的購物籃,而是結帳完的小票,真正有價值的是當顧客還拎著購物籃,在瀏覽、試用、選擇商品的時候,在每一個觸點影響他/她的選擇。數據價值具有半衰期,最新鮮的時候個性化價值最大,漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾,原來10年一次的人口普查就是刻舟求劍,而現在東莞一出事網路遷徙圖就反映出來了。當然,當下並不一定是完全准確的,其實如果沒有更多、更久的數據,匆忙對網路遷徙圖解讀是可能陷入誤區的。
第四個,皆明。時間有限,就簡單說了。就是從放馬後炮到料事如神(predictiveanalytics),從料事如神到運籌帷幄(prescriptiveanalytics),只知道有東風是預測分析,確定要借箭的目標、並給出處方利用草船來借,就是處方性分析。我們現在要提高響應度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源數據過濾雜訊、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子,我們的GPS有幾十米的誤差,但與地圖數據結合就能做到精確,GPS在城市的高樓中沒有信號,可以與慣性導航結合。
曉意涉及到大數據下的機器智能,是個大問題,也不展開了。貼一段我的文章:有人說在涉及「曉意」的領域人是無法替代的。這在前大數據時代是事實。《點球成金(Moneyball)》講的是數量化分析和預測對棒球運動的貢獻,它在大數據背景下出現了傳播的誤區:一、它其實不是大數據,而是早已存在的數據思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來,奧克蘭競技隊的總經理比利·比恩用數量化分析取代了球探。而事實是,在運用數量化工具的同時,比恩也增加了球探的費用,軍功章里有機器的一半,也有人的一半,因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數結構化量化指標無法刻畫的。大數據改變了這一切。人的數字足跡的無意識記錄,以及機器學習(尤其是深度學習)曉意能力的增強,可能逐漸改變機器的劣勢。今年我們看到基於大數據的情感分析、價值觀分析和個人刻畫,當這些應用於人力資源,已經或多或少體現了球探承擔的作用。
以上是小編為大家分享的關於漫談大數據的思想形成與價值維度的相關內容,更多信息可以關注環球青藤分享更多干貨