『壹』 大數據都體現在哪些方面
首先,對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷。其次,做小而美模式的中小微企業可以利用大數據做服務轉型。再者,面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
『貳』 大數據怎麼發揮大價值
大數據興起預示逗信息時代地進入新階段
1.1 看待大數據要有歷史性的眼光
信息時代是相對於農業和工業時代而言的一段相當長的時間。不同時代的生產要素和社會發展驅動力有明顯差別。信息時代的標志性技術發明是數字計算機、集成電路、光纖通信和互聯網(萬維網)。盡管媒體上大量出現逗大數據時代地的說法,但大數據、雲計算等新技術目前還沒有出現與上述劃時代的技術發明可媲美的技術突破,難以構成一個超越信息時代的新時代。信息時代可以分成若干階段,大數據等新技術的應用標志著信息社會將進入一個新階段。
考察分析100年以上的歷史長河可以發現,信息時代與工業時代的發展規律有許多相似之處。電氣化時代與信息時代生產率的提高過程驚人地相似。都是經過20~30年擴散儲備之後才有明顯提高,分界線分別是1915年和1995年。筆者猜想,信息技術經過幾十年的擴散儲備後,21世紀的前30年可能是信息技術提高生產率的黃金時期。
1.2 從逗信息時代新階段地的高度認識逗大數據地
中國已開始進入信息時代,但許多人的思想還停留在工業時代。經濟和科技工作中出現的許多問題,其根源是對時代的認識不到位。18-19世紀中國落後挨打,根源是滿清政府沒有認識到時代變了,我們不能重犯歷史性的錯誤。
中央提出中國進入經濟逗新常態地以後,媒體上有很多討論,但多數是為經濟增速降低做解釋,很少有從時代改變的角度論述逗新常態地的文章。筆者認為,經濟新常態意味著中國進入了以信息化帶動新型工業化、城鎮化和農業現代化的新階段,是經濟和社會管理的躍遷,不是權宜之計,更不是倒退。
大數據、移動互聯網、社交網路、雲計算、物聯網等新一代信息技術構成的IT架構逗第三平台地是信息社會進入新階段的標志,對整個經濟的轉型有引領和帶動作用。媒體上經常出現的互聯網、創客、逗第二次機器革命地、逗工業4.0地等都與大數據和雲計算有關。大數據和雲計算是新常態下提高生產率的新杠桿,所謂創新驅動發展就是主要依靠信息技術促進生產率的提高。
1.3 大數據可能是中國信息產業從跟蹤走向引領的突破口
中國的大數據企業已經有相當好的基礎。全球十大互聯網服務企業中國佔有4席(阿里巴巴、騰訊、網路和京東),其他6個Top10 互聯網服務企業全部是美國企業,歐洲和日本沒有互聯網企業進入Top10。這說明中國企業在基於大數據的互聯網服務業務上已處於世界前列。在發展大數據技術上,我國有可能改變過去30年技術受制於人的局面,在大數據應用上中國有可能在全世界起到引領作用。
但是,企業的規模走在世界前列並不表示我國在大數據技術上領先。實際上,國際上目前流行的大數據主流技術沒有一項是我國開創的。開源社區和眾包是發展大數據技術和產業的重要途徑,但我們對開源社區的貢獻很小,在全球近萬名社區核心志願者中,我國可能不到200名。我們要吸取過去基礎研究為企業提供核心技術不夠的教訓,加強大數據基礎研究和前瞻技術研究,努力攻克大數據核心和關鍵技術。
2 理解大數據需要上升到文化和認識論的高度
2.1 數據文化是一種先進文化
數據文化的本質是尊重客觀世界的實事求是精神,數據就是事實。重視數據就是強調用事實說話、按理性思維的科學精神。中國人的傳統習慣是定性思維而不是定量思維。目前許多城市在開展政府數據開放共享工作,但是發現多數老百姓對政府要開放的數據並不感興趣。要讓大數據走上健康的發展軌道,首先要大力弘揚數據文化。本文講的數據文化不只是大數據用於文藝、出版等文化產業,而是指全民的數據意識。全社會應認識到:信息化的核心是數據,只有政府和大眾都關注數據時,才能真正理解信息化的實質;數據是一種新的生產要素,大數據的利用可以改變資本和土地等傳統要素在經濟中的權重。
有人將逗上帝與數據共舞地歸納為美國文化的特點之一,說的是美國人既有對神的誠意,又有通過數據求真的理性。美國從鍍金時代到進步主義時期完成了數據文化的思維轉變,南北戰爭之後人口普查的方法被應用到很多領域,形成了數據預測分析的思維方式。近百年來美國和西方各國的現代化與數據文化的傳播滲透有密切關系,我國要實現現代化也必須強調數據文化。
提高數據意識的關鍵是要理解大數據的戰略意義。數據是與物質、能源一樣重要的戰略資源,數據的採集和分析涉及每一個行業,是帶有全局性和戰略性的技術。從硬技術到軟技術的轉變是當今全球性的技術發展趨勢,而從數據中發現價值的技術正是最有活力的軟技術,數據技術與數據產業的落後將使我們像錯過工業革命機會一樣延誤一個時代。
2.2 理解大數據需要有正確的認識論
歷史上科學研究是從邏輯演繹開始的,歐幾里得幾何的所有定理可從幾條公理推導出來。從伽利略和牛頓開始,科學研究更加重視自然觀察和實驗觀察,在觀察基礎上通過歸納方法提煉出科學理論,逗科學始於觀察地成為科學研究和認識論的主流。經驗論和唯理論這兩大流派都對科學的發展做出過重大貢獻,但也暴露出明顯的問題,甚至走入極端。理性主義走向極端就成為康德所批判的獨斷主義,經驗主義走入極端就變成懷疑論和不可知論。
20世紀30年代,德國哲學家波普爾提出了被後人稱為逗證偽主義地的認識論觀點,他認為科學理論不能用歸納法證實,只能被試驗發現的反例逗證偽地,因而他否定科學始於觀察,提出逗科學始於問題地的著名觀點[3]。證偽主義有其局限性,如果嚴格遵守證偽法則,萬有引力定律、原子論等重要理論都可能被早期的所謂反例扼殺。但逗科學始於問題地的觀點對當前大數據技術的發展有指導意義。
大數據的興起引發了新的科學研究模式:逗科學始於數據地。從認識論的角度看,大數據分析方法與逗科學始於觀察地的經驗論較為接近,但我們要牢記歷史的教訓,避免滑入否定理論作用的經驗主義泥坑。在強調逗相關性地的時候不要懷疑逗因果性地的存在;在宣稱大數據的客觀性、中立性的時候,不要忘了不管數據的規模如何,大數據總會受制於自身的局限性和人的偏見。不要相信這樣的預言:逗採用大數據挖掘,你不需要對數據提出任何問題,數據就會自動產生知識地。面對像大海一樣的巨量數據,從事數據挖掘的科技人員最大的困惑是,我們想撈的逗針地是什麼看這海里究竟有沒有逗針地看也就是說,我們需要知道要解決的問題是什麼。從這個意義上講,逗科學始於數據地與逗科學始於問題地應有機地結合起來。
對逗原因地的追求是科學發展的永恆動力。但是,原因是追求不完的,人類在有限的時間內不可能找到逗終極真理地。在科學的探索途中,人們往往用逗這是客觀規律地解釋世界,並不立即追問為什麼有這樣的客觀規律。也就是說,傳統科學並非只追尋因果性,也可以用客觀規律作為結論。大數據研究的結果多半是一些新的知識或新的模型,這些知識和模型也可以用來預測未來,可以認為是一類局部性的客觀規律。科學史上通過小數據模型發現一般性規律的例子不少,比如開普勒歸納的天體運動規律等;而大數據模型多半是發現一些特殊性的規律。物理學中的定律一般具有必然性,但大數據模型不一定具有必然性,也不一定具有可演繹性。大數據研究的對象往往是人的心理和社會,在知識階梯上位於較高層,其自然邊界是模糊的,但有更多的實踐特徵。大數據研究者更重視知行合一,相信實踐論。大數據認識論有許多與傳統認識論不同的特點,我們不能因其特點不同就否定大數據方法的科學性。大數據研究挑戰了傳統認識論對因果性的偏愛,用數據規律補充了單一的因果規律,實現了唯理論和經驗論的數據化統一,一種全新的大數據認識論正在形成。
3 正確認識大數據的價值和效益
3.1 大數據的價值主要體現為它的驅動效應
人們總是期望從大數據中挖掘出意想不到的逗大價值地。實際上大數據的價值主要體現在它的驅動效應,即帶動有關的科研和產業發展,提高各行各業通過數據分析解決困難問題和增值的能力。大數據對經濟的貢獻並不完全反映在大數據公司的直接收入上,應考慮對其他行業效率和質量提高的貢獻。大數據是典型的通用技術,理解通用技術要採用逗蜜蜂模型地:蜜蜂的效益主要不是自己釀的蜂蜜,而是蜜蜂傳粉對農業的貢獻。
電子計算機的創始人之一馮·諾依曼曾指出:逗在每一門科學中,當通過研究那些與終極目標相比頗為朴實的問題,發展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。地我們不必天天期盼奇跡出現,多做一些逗頗為朴實地的事情,實際的進步就在扎扎實實的努力之中。媒體喜歡宣傳一些令人驚奇的大數據成功案例,對這些案例我們應保持清醒的頭腦。據Intel中國研究院首席工程師吳甘沙在一次報告中透露,所謂逗啤酒加尿布地的數據挖掘經典案例,其實是Teradata公司一位經理編出來的逗故事地,歷史上並沒有發生過[4]。即使有這個案例,也不說明大數據分析本身有什麼神奇,大數據中看起來毫不相關的兩件事同時或相繼出現的現象比比皆是,關鍵是人的分析推理找出為什麼兩件事物同時或相繼出現,找對了理由才是新知識或新發現的規律,相關性本身並沒有多大價值。
有一個家喻戶曉的寓言可以從一個角度說明大數據的價值:一位老農民臨終前告訴他的3個兒子,他在他家的地中埋藏了一罐金子,但沒有講埋在哪裡。
他的兒子們把他家所有的地都深挖了一遍,沒有挖到金子,但由於深挖了土地,從此莊稼收成特別好。數據收集、分析的能力提高了,即使沒有發現什麼普適的規律或令人完全想不到的新知識,大數據的價值也已逐步體現。
3.2 大數據的力量來自逗大成智慧地
每一種數據來源都有一定的局限性和片面性,只有融合、集成各方面的原始數據,才能反映事物的全貌。事物的本質和規律隱藏在各種原始數據的相互關聯之中。不同的數據可能描述同一實體,但角度不同。對同一個問題,不同的數據能提供互補信息,可對問題有更深入的理解。因此在大數據分析中,匯集盡量多種來源的數據是關鍵。
數據科學是數學(統計、代數、拓撲等)、計算機科學、基礎科學和各種應用科學融合的科學,類似錢學森先生提出的逗大成智慧學地[5]。錢老指出:逗必集大成,才能得智慧地。大數據能不能出智慧,關鍵在於對多種數據源的集成和融合。IEEE計算機學會最近發布了2014年的計算機技術發展趨勢預測報告,重點強調逗無縫智慧(seamless intelligence)地。發展大數據的目標就是要獲得協同融合的逗無縫智慧地。單靠一種數據源,即使數據規模很大,也可能出現逗瞎子摸象地一樣的片面性。數據的開放共享不是錦上添花的工作,而是決定大數據成敗的必要前提。
大數據研究和應用要改變過去各部門和各學科相互分割、獨立發展的傳統思路,重點不是支持單項技術和單個方法的發展,而是強調不同部門、不同學科的協作。數據科學不是垂直的逗煙囪地,而是像環境、能源科學一樣的橫向集成科學。
3.3 大數據遠景燦爛,但近期不能期望太高
交流電問世時主要用作照明,根本想像不到今天無處不在的應用。大數據技術也一樣,將來一定會產生許多現在想不到的應用。我們不必擔心大數據的未來,但近期要非常務實地工作。人們往往對近期的發展估計過高,而對長期的發展估計不足。Gartner公司預測,大數據技術要在5~10年後才會成為較普遍採用的主流技術,對發展大數據技術要有足夠的耐心。
大數據與其他信息技術一樣,在一段時間內遵循指數發展規律。指數發展的特點是,從一段歷史時期衡量(至少30年),前期發展比較慢,經過相當長時間(可能需要20年以上)的積累,會出現一個拐點,過了拐點以後,就會出現爆炸式的增長。但任何技術都不會永遠保持逗指數性地增長,一般而言,高技術發展遵循Gartner公司描述的技術成熟度曲線(hype cycle),最後可能進入良性發展的穩定狀態或者走向消亡。
需要採用大數據技術來解決的問題往往都是十分復雜的問題,比如社會計算、生命科學、腦科學等,這些問題絕不是幾代人的努力就可以解決的。宇宙經過百億年的演化,才出現生物和人類,其復雜和巧妙堪稱絕倫,不要指望在我們這一代人手中就能徹底揭開其奧妙。展望數百萬年甚至更長遠的未來,大數據技術只是科學技術發展長河中的一朵浪花,對10~20年大數據研究可能取得的科學成就不能抱有不切實際的幻想。
4 從復雜性的角度看大數據研究和應用面臨的挑戰
大數據技術和人類探索復雜性的努力有密切關系。20世紀70年代,新三論(耗散結構論、協同論、突變論)的興起對幾百年來貫穿科學技術研究的還原論發起了挑戰。1984年蓋爾曼等3位諾貝爾獎得主成立以研究復雜性為主的聖菲研究所,提出超越還原論的口號,在科技界掀起了一場復雜性科學運動。雖然雷聲很大,但30年來並未取得預期的效果,其原因之一可能是當時還沒有出現解決復雜性的技術。
集成電路、計算機與通信技術的發展大大增強了人類研究和處理復雜問題的能力。大數據技術將復雜性科學的新思想發揚光大,可能使復雜性科學得以落地。復雜性科學是大數據技術的科學基礎,大數據方法可以看作復雜性科學的技術實現。大數據方法為還原論與整體論的辯證統一提供了技術實現途徑。大數據研究要從復雜性研究中吸取營養,從事數據科學研究的學者不但要了解20世紀的逗新三論地,可能還要學習與超循環、混沌、分形和元胞自動機等理論有關的知識,擴大自己的視野,加深對大數據機理的理解。
大數據技術還不成熟,面對海量、異構、動態變化的數據,傳統的數據處理和分析技術難以應對,現有的數據處理系統實現大數據應用的效率較低,成本和能耗較大,而且難以擴展。這些挑戰大多來自數據本身的復雜性、計算的復雜性和信息系統的復雜性。
4.1 數據復雜性引起的挑戰
圖文檢索、主題發現、語義分析、情感分析等數據分析工作十分困難,其原因是大數據涉及復雜的類型、復雜的結構和復雜的模式,數據本身具有很高的復雜性。目前,人們對大數據背後的物理意義缺乏理解,對數據之間的關聯規律認識不足,對大數據的復雜性和計算復雜性的內在聯系也缺乏深刻理解,領域知識的缺乏制約了人們對大數據模型的發現和高效計算方法的設計。形式化或定量化地描述大數據復雜性的本質特徵及度量指標,需要深入研究數據復雜性的內在機理。人腦的復雜性主要體現在千萬億級的樹突和軸突的鏈接,大數據的復雜性主要也體現在數據之間的相互關聯。理解數據之間關聯的奧秘可能是揭示微觀到宏觀逗涌現地規律的突破口。大數據復雜性規律的研究有助於理解大數據復雜模式的本質特徵和生成機理,從而簡化大數據的表徵,獲取更好的知識抽象。為此,需要建立多模態關聯關系下的數據分布理論和模型,理清數據復雜度和計算復雜度之間的內在聯系,奠定大數據計算的理論基礎。
4.2 計算復雜性引起的挑戰
大數據計算不能像處理小樣本數據集那樣做全局數據的統計分析和迭代計算,在分析大數據時,需要重新審視和研究它的可計算性、計算復雜性和求解演算法。大數據樣本量巨大,內在關聯密切而復雜,價值密度分布極不均衡,這些特徵對建立大數據計算範式提出了挑戰。對於PB級的數據,即使只有線性復雜性的計算也難以實現,而且,由於數據分布的稀疏性,可能做了許多無效計算。
傳統的計算復雜度是指某個問題求解時需要的時間空間與問題規模的函數關系,所謂具有多項式復雜性的演算法是指當問題的規模增大時,計算時間和空間的增長速度在可容忍的范圍內。傳統科學計算關注的重點是,針對給定規模的問題,如何逗算得快地。而在大數據應用中,尤其是流式計算中,往往對數據處理和分析的時間、空間有明確限制,比如網路服務如果回應時間超過幾秒甚至幾毫秒,就會丟失許多用戶。大數據應用本質上是在給定的時間、空間限制下,如何逗算得多地。從逗算得快地到逗算得多地,考慮計算復雜性的思維邏輯有很大的轉變。所謂逗算得多地並不是計算的數據量越大越好,需要探索從足夠多的數據,到剛剛好的數據,再到有價值的數據的按需約簡方法。
基於大數據求解困難問題的一條思路是放棄通用解,針對特殊的限制條件求具體問題的解。人類的認知問題一般都是NP難問題,但只要數據充分多,在限制條件下可以找到十分滿意的解,近幾年自動駕駛汽車取得重大進展就是很好的案例。為了降低計算量,需要研究基於自舉和采樣的局部計算和近似方法,提出不依賴於全量數據的新型演算法理論,研究適應大數據的非確定性演算法等理論。
4.3 系統復雜性引起的挑戰
大數據對計算機系統的運行效率和能耗提出了苛刻要求,大數據處理系統的效能評價與優化問題具有挑戰性,不但要求理清大數據的計算復雜性與系統效率、能耗間的關系,還要綜合度量系統的吞吐率、並行處理能力、作業計算精度、作業單位能耗等多種效能因素。針對大數據的價值稀疏性和訪問弱局部性的特點,需要研究大數據的分布式存儲和處理架構。
大數據應用涉及幾乎所有的領域,大數據的優勢是能在長尾應用中發現稀疏而珍貴的價值,但一種優化的計算機系統結構很難適應各種不同的需求,碎片化的應用大大增加了信息系統的復雜性,像昆蟲種類一樣多(500多萬種)的大數據和物聯網應用如何形成手機一樣的巨大市場,這就是所謂逗昆蟲綱悖論地[6]。為了化解計算機系統的復雜性,需要研究異構計算系統和可塑計算技術。
大數據應用中,計算機系統的負載發生了本質性變化,計算機系統結構需要革命性的重構。信息系統需要從數據圍著處理器轉改變為處理能力圍著數據轉,關注的重點不是數據加工,而是數據的搬運;系統結構設計的出發點要從重視單任務的完成時間轉變到提高系統吞吐率和並行處理能力,並發執行的規模要提高到10億級以上。構建以數據為中心的計算系統的基本思路是從根本上消除不必要的數據流動,必要的數據搬運也應由逗大象搬木頭地轉變為逗螞蟻搬大米地。
5 發展大數據應避免的誤區
5.1 不要一味追求逗數據規模大地
大數據主要難點不是數據量大,而是數據類型多樣、要求及時回應和原始數據真假難辨。現有資料庫軟體解決不了非結構化數據,要重視數據融合、數據格式的標准化和數據的互操作。採集的數據往往質量不高是大數據的特點之一,但盡可能提高原始數據的質量仍然值得重視。腦科學研究的最大問題就是採集的數據可信度差,基於可信度很差的數據難以分析出有價值的結果。
一味追求數據規模大不僅會造成浪費,而且效果未必很好。多個來源的小數據的集成融合可能挖掘出單一來源大數據得不到的大價值。應多在數據的融合技術上下功夫,重視數據的開放與共享。所謂數據規模大與應用領域有密切關系,有些領域幾個PB的數據未必算大,有些領域可能幾十TB已經是很大的規模。
發展大數據不能無止境地追求逗更大、更多、更快地,要走低成本、低能耗、惠及大眾、公正法治的良性發展道路,要像現在治理環境污染一樣,及早關注大數據可能帶來的逗污染地和侵犯隱私等各種弊端。
5.2 不要逗技術驅動地,要逗應用為先地
新的信息技術層出不窮,信息領域不斷冒出新概念、新名詞,估計繼逗大數據地以後,逗認知計算地、逗可穿戴設備地、逗機器人地等新技術又會進入炒作高峰。我們習慣於跟隨國外的熱潮,往往不自覺地跟著技術潮流走,最容易走上逗技術驅動地的道路。實際上發展信息技術的目的是為人服務,檢驗一切技術的唯一標準是應用。我國發展大數據產業一定要堅持逗應用為先地的發展戰略,堅持應用牽引的技術路線。技術有限,應用無限。各地發展雲計算和大數據,一定要通過政策和各種措施調動應用部門和創新企業的積極性,通過跨界的組合創新開拓新的應用,從應用中找出路。
5.3 不能拋棄逗小數據地方法
流行的逗大數據地定義是:無法通過目前主流軟體工具在合理時間內採集、存儲、處理的數據集。這是用不能勝任的技術定義問題,可能導致認識的誤區。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業碰到的數據處理多數還是逗小數據地問題。我們應重視實際碰到的問題,不管是大數據還是小數據。
統計學家們花了200多年,總結出認知數據過程中的種種陷阱,這些陷阱不會隨著數據量的增大而自動填平。大數據中有大量的小數據問題,大數據採集同樣會犯小數據採集一樣的統計偏差。Google公司的流感預測這兩年失靈,就是由於搜索推薦等人為的干預造成統計誤差。
大數據界流行一種看法:大數據不需要分析因果關系、不需要采樣、不需要精確數據。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結合、白盒與黑盒研究相結合、大數據方法與小數據方法相結合。
5.4 要高度關注構建大數據平台的成本
目前全國各地都在建設大數據中心,呂梁山下都建立了容量達2 PB以上的數據處理中心,許多城市公安部門要求存儲3個月以上的高清監控錄像。這些系統的成本都非常高。數據挖掘的價值是用成本換來的,不能不計成本,盲目建設大數據系統。什麼數據需要保存,要保存多少時間,應當根據可能的價值和所需的成本來決定。大數據系統技術還在研究之中,美國的E級超級計算機系統要求能耗降低1 000倍,計劃到2024年才能研製出來,用現在的技術構建的巨型系統能耗極高。
我們不要攀比大數據系統的規模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數據應用,因地制宜發展大數據。發展大數據與實現信息化的策略一樣:目標要遠大、起步要精準、發展要快速。
『叄』 大數據處理的五大關鍵技術及其應用
作者 | 網路大數據
來源 | 產業智能官
數據處理是對紛繁復雜的海量數據價值的提煉,而其中最有價值的地方在於預測性分析,即可以通過數據可視化、統計模式識別、數據描述等數據挖掘形式幫助數據科學家更好的理解數據,根據數據挖掘的結果得出預測性決策。其中主要工作環節包括:
大數據採集 大數據預處理 大數據存儲及管理 大數據分析及挖掘 大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。一、大數據採集技術
數據是指通過RFID射頻數據、感測器數據、社交網路交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。重點要突破分布式高速高可靠數據爬取或採集、高速數據全映像等大數據收集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評估模型,開發數據質量技術。
大數據採集一般分為:
大數據智能感知層:主要包括數據感測體系、網路通信體系、感測適配體系、智能識別體系及軟硬體資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。必須著重攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。
基礎支撐層:提供大數據服務平台所需的虛擬伺服器,結構化、半結構化及非結構化數據的資料庫及物聯網路資源等基礎支撐環境。重點攻克分布式虛擬存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化介面技術,大數據的網路傳輸與壓縮技術,大數據隱私保護技術等。
二、大數據預處理技術
完成對已接收數據的辨析、抽取、清洗等操作。
抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便於處理的構型,以達到快速分析處理的目的。
清洗:對於大數據,並不全是有價值的,有些數據並不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾「去噪」從而提取出有效數據。
三、大數據存儲及管理技術
大數據存儲與管理要用存儲器把採集到的數據存儲起來,建立相應的資料庫,並進行管理和調用。重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗餘及高效低成本的大數據存儲技術;突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、復制等技術;開發大數據可視化技術。
開發新型資料庫技術,資料庫分為關系型資料庫、非關系型資料庫以及資料庫緩存系統。其中,非關系型資料庫主要指的是NoSQL資料庫,分為:鍵值資料庫、列存資料庫、圖存資料庫以及文檔資料庫等類型。關系型資料庫包含了傳統關系資料庫系統以及NewSQL資料庫。
開發大數據安全技術:改進數據銷毀、透明加解密、分布式訪問控制、數據審計等技術;突破隱私保護和推理控制、數據真偽識別和取證、數據持有完整性驗證等技術。
四、大數據分析及挖掘技術
大數據分析技術:改進已有數據挖掘和機器學習技術;開發數據網路挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網路行為分析、情感語義分析等面向領域的大數據挖掘技術。
數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數據挖掘涉及的技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據挖掘對象可分為關系資料庫、面向對象資料庫、空間資料庫、時態資料庫、文本數據源、多媒體資料庫、異質資料庫、遺產資料庫以及環球網Web;根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網路方法和資料庫方法。
機器學習中,可細分為歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳演算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網路方法中,可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。資料庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。
數據挖掘主要過程是:根據分析挖掘目標,從資料庫中把數據提取出來,然後經過ETL組織成適合分析挖掘演算法使用寬表,然後利用數據挖掘軟體進行挖掘。傳統的數據挖掘軟體,一般只能支持在單機上進行小規模數據處理,受此限制傳統數據分析挖掘一般會採用抽樣方式來減少數據分析規模。
數據挖掘的計算復雜度和靈活度遠遠超過前兩類需求。一是由於數據挖掘問題開放性,導致數據挖掘會涉及大量衍生變數計算,衍生變數多變導致數據預處理計算復雜性;二是很多數據挖掘演算法本身就比較復雜,計算量就很大,特別是大量機器學習演算法,都是迭代計算,需要通過多次迭代來求最優解,例如K-means聚類演算法、PageRank演算法等。
從挖掘任務和挖掘方法的角度,著重突破:
可視化分析。數據可視化無論對於普通用戶或是數據分析專家,都是最基本的功能。數據圖像化可以讓數據自己說話,讓用戶直觀的感受到結果。 數據挖掘演算法。圖像化是將機器語言翻譯給人看,而數據挖掘就是機器的母語。分割、集群、孤立點分析還有各種各樣五花八門的演算法讓我們精煉數據,挖掘價值。這些演算法一定要能夠應付大數據的量,同時還具有很高的處理速度。 預測性分析。預測性分析可以讓分析師根據圖像化分析和數據挖掘的結果做出一些前瞻性判斷。 語義引擎。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等。 數據質量和數據管理。數據質量與管理是管理的最佳實踐,透過標准化流程和機器對數據進行處理可以確保獲得一個預設質量的分析結果。預測分析成功的7個秘訣
預測未來一直是一個冒險的命題。幸運的是,預測分析技術的出現使得用戶能夠基於歷史數據和分析技術(如統計建模和機器學習)預測未來的結果,這使得預測結果和趨勢變得比過去幾年更加可靠。
盡管如此,與任何新興技術一樣,想要充分發揮預測分析的潛力也是很難的。而可能使挑戰變得更加復雜的是,由不完善的策略或預測分析工具的誤用導致的不準確或誤導性的結果可能在幾周、幾個月甚至幾年內才會顯現出來。
預測分析有可能徹底改變許多的行業和業務,包括零售、製造、供應鏈、網路管理、金融服務和醫療保健。AI網路技術公司Mist Systems的聯合創始人、首席技術官Bob fridy預測:「深度學習和預測性AI分析技術將會改變我們社會的所有部分,就像十年來互聯網和蜂窩技術所帶來的轉變一樣。」。
這里有七個建議,旨在幫助您的組織充分利用其預測分析計劃。
1.能夠訪問高質量、易於理解的數據
預測分析應用程序需要大量數據,並依賴於通過反饋循環提供的信息來不斷改進。全球IT解決方案和服務提供商Infotech的首席數據和分析官Soumendra Mohanty評論道:「數據和預測分析之間是相互促進的關系。」
了解流入預測分析模型的數據類型非常重要。「一個人身上會有什麼樣的數據?」 Eric Feigl - Ding問道,他是流行病學家、營養學家和健康經濟學家,目前是哈佛陳氏公共衛生學院的訪問科學家。「是每天都在Facebook和谷歌上收集的實時數據,還是難以訪問的醫療記錄所需的醫療數據?」為了做出准確的預測,模型需要被設計成能夠處理它所吸收的特定類型的數據。
簡單地將大量數據扔向計算資源的預測建模工作註定會失敗。「由於存在大量數據,而其中大部分數據可能與特定問題無關,只是在給定樣本中可能存在相關關系,」FactSet投資組合管理和交易解決方案副總裁兼研究主管Henri Waelbroeck解釋道,FactSet是一家金融數據和軟體公司。「如果不了解產生數據的過程,一個在有偏見的數據上訓練的模型可能是完全錯誤的。」
2.找到合適的模式
SAP高級分析產品經理Richard Mooney指出,每個人都痴迷於演算法,但是演算法必須和輸入到演算法中的數據一樣好。「如果找不到適合的模式,那麼他們就毫無用處,」他寫道。「大多數數據集都有其隱藏的模式。」
模式通常以兩種方式隱藏:
模式位於兩列之間的關系中。例如,可以通過即將進行的交易的截止日期信息與相關的電子郵件開盤價數據進行比較來發現一種模式。Mooney說:「如果交易即將結束,電子郵件的公開率應該會大幅提高,因為買方會有很多人需要閱讀並審查合同。」
模式顯示了變數隨時間變化的關系。「以上面的例子為例,了解客戶打開了200次電子郵件並不像知道他們在上周打開了175次那樣有用,」Mooney說。
3 .專注於可管理的任務,這些任務可能會帶來積極的投資回報
紐約理工學院的分析和商業智能主任Michael Urmeneta稱:「如今,人們很想把機器學習演算法應用到海量數據上,以期獲得更深刻的見解。」他說,這種方法的問題在於,它就像試圖一次治癒所有形式的癌症一樣。Urmeneta解釋說:「這會導致問題太大,數據太亂——沒有足夠的資金和足夠的支持。這樣是不可能獲得成功的。」
而當任務相對集中時,成功的可能性就會大得多。Urmeneta指出:「如果有問題的話,我們很可能會接觸到那些能夠理解復雜關系的專家」 。「這樣,我們就很可能會有更清晰或更好理解的數據來進行處理。」
4.使用正確的方法來完成工作
好消息是,幾乎有無數的方法可以用來生成精確的預測分析。然而,這也是個壞消息。芝加哥大學NORC (前國家意見研究中心)的行為、經濟分析和決策實踐主任Angela Fontes說:「每天都有新的、熱門的分析方法出現,使用新方法很容易讓人興奮」。「然而,根據我的經驗,最成功的項目是那些真正深入思考分析結果並讓其指導他們選擇方法的項目——即使最合適的方法並不是最性感、最新的方法。」
羅切斯特理工學院計算機工程系主任、副教授shanchie Jay Yang建議說:「用戶必須謹慎選擇適合他們需求的方法」。「必須擁有一種高效且可解釋的技術,一種可以利用序列數據、時間數據的統計特性,然後將其外推到最有可能的未來,」Yang說。
5.用精確定義的目標構建模型
這似乎是顯而易見的,但許多預測分析項目開始時的目標是構建一個宏偉的模型,卻沒有一個明確的最終使用計劃。「有很多很棒的模型從來沒有被人使用過,因為沒有人知道如何使用這些模型來實現或提供價值,」汽車、保險和碰撞修復行業的SaaS提供商CCC信息服務公司的產品管理高級副總裁Jason Verlen評論道。
對此,Fontes也表示同意。「使用正確的工具肯定會確保我們從分析中得到想要的結果……」因為這迫使我們必須對自己的目標非常清楚,」她解釋道。「如果我們不清楚分析的目標,就永遠也不可能真正得到我們想要的東西。」
6.在IT和相關業務部門之間建立密切的合作關系
在業務和技術組織之間建立牢固的合作夥伴關系是至關重要的。客戶體驗技術提供商Genesys的人工智慧產品管理副總裁Paul lasserr說:「你應該能夠理解新技術如何應對業務挑戰或改善現有的業務環境。」然後,一旦設置了目標,就可以在一個限定范圍的應用程序中測試模型,以確定解決方案是否真正提供了所需的價值。
7.不要被設計不良的模型誤導
模型是由人設計的,所以它們經常包含著潛在的缺陷。錯誤的模型或使用不正確或不當的數據構建的模型很容易產生誤導,在極端情況下,甚至會產生完全錯誤的預測。
沒有實現適當隨機化的選擇偏差會混淆預測。例如,在一項假設的減肥研究中,可能有50%的參與者選擇退出後續的體重測量。然而,那些中途退出的人與留下來的人有著不同的體重軌跡。這使得分析變得復雜,因為在這樣的研究中,那些堅持參加這個項目的人通常是那些真正減肥的人。另一方面,戒煙者通常是那些很少或根本沒有減肥經歷的人。因此,雖然減肥在整個世界都是具有因果性和可預測性的,但在一個有50%退出率的有限資料庫中,實際的減肥結果可能會被隱藏起來。
六、大數據展現與應用技術
大數據技術能夠將隱藏於海量數據中的信息和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。
在我國,大數據將重點應用於以下三大領域:商業智能 、政府決策、公共服務。例如:商業智能技術,政府決策技術,電信數據信息處理與挖掘技術,電網數據信息處理與挖掘技術,氣象信息分析技術,環境監測技術,警務雲應用系統(道路監控、視頻監控、網路監控、智能交通、反電信詐騙、指揮調度等公安信息系統),大規模基因序列分析比對技術,Web信息挖掘技術,多媒體數據並行化處理技術,影視製作渲染技術,其他各種行業的雲計算和海量數據處理應用技術等。
『肆』 大數據項目需考量的四個因素
大數據項目需考量的四個因素
Hadoop系統和NoSQL資料庫已經成為管理大數據環境的重要工具。不過,在很多情況下,企業利用他們現有的數據倉庫設施,或是一個新老混合的技術來對大數據流入他們的系統進行管理。
無論一個公司部署什麼類型的大數據技術棧,有一些共通的因素必須加以考量,以保證為大數據分析工作提供一個有效的框架。在開始一個大數據項目之前,去審視項目所要承擔的新數據需求的更大圖景顯得尤為關鍵。下面來讓我們檢視四個需要加以考量的因素。 數據准確性 數據質量問題對於BI和數據管理專業人士來說一定不陌生。很多BI和分析團隊努力保證數據的有效性並說服業務使用人員去信任信息資產的准確性和可靠性。作為個性化分析庫而得以廣泛使用的電子表格或電子報表軟體可以對數據中信任缺乏的問題加以彌補:在Excel中存儲和操作分析數據的功能為支持自助分析能力創造了環境,但可能不會激發其他用戶對結果的自信心。數據倉庫與數據集成和數據質量工具一起,能夠通過為管理BI和分析數據提供標准化流程來幫助樹立信心。但是,由於不斷增加的數據容量和更廣泛多樣的數據類型,特別是當涉及結構化和非結構化數據混合時,就會對一個大數據的實施增加難度系數。建立評估數據質量標准以及對它們進行升級以處理那些更大、更多樣數據集,對於大數據實施的成功和分析框架的使用是至關重要的。 存儲適用 數據倉儲的一個核心要求是處理和存儲大數據集的能力。但並不是所有數據倉庫在這方面都滿足要求。一些是針對復雜查詢處理進行優化,而其他的則並非如此。並且在許多大數據應用程序中,相較於事務系統,由於添加了非結構化數據還有數據的創建和收集增速迅猛,用Hadoop和NoSQL技術增強數據倉庫就成為必要。對於一個希望獲取並分析大數據的組織來說,光有存儲容量是不夠的;而重要的部分在於將數據置於何處才是最佳的,這樣數據就可以轉化為有用信息並為數據科學家和其他用戶所利用。 查詢性能 大數據分析依賴於及時處理和查詢復雜數據的能力。一個很好地例子就是:一家公司開發了一個數據倉庫用來維護從能源使用計收集到的數據。在產品評估過程中,某供應商的系統有能力在15分鍾內處理七百萬條記錄,而另一家則在相同時間內可以處理最高三十萬條記錄。能否識別正確的基礎設施來支持快速的數據可用性和高性能查詢就意味著成功還是失敗。 穩定性 隨著許多組織中數據量和數據種類的增長,大數據平台的建立需要有對未來的考量。必須提前考慮和求證正在進行評估的大數據技術是否能夠進行擴展,以達到不斷向前發展的需求所要求的級別。這便超出了存儲容量的范疇,將性能也包含了進來,對那些從社交網路,感測器,系統日誌文件以及其他非事務源獲取數據作為其業務數據擴展的公司來說尤為如此。
『伍』 大數據分析處理的最終目標是有效用信息
大數據分析處理的最終目標是有效用信息
大數據在業內並沒有統一的定義。不同廠商、不同用戶,站的角度不同,對大數據的理解也不一樣。麥肯錫報告中對大數據的基本定義是:大數據是指其大小超出了典型資料庫軟體的採集、儲存、管理和分析等能力的數據集合。賽迪智庫指出,大數據是一個相對的概念,並沒有一個嚴格的標准限定多大規模的數據集合才稱得上是大數據。事實上,隨著時間推移和數據管理與處理技術的進步,符合大數據標準的數據集合的規模也在並將繼續增長。同時,對於不同行業領域和不同應用而言,「大數據」的規模也不統一。
雖然「大數據」直接代表的是數據集合這一靜態對象,但賽迪智庫經過深入研究認為,目前所提到的「大數據」,並不僅僅是大規模數據集合本身,而應當是數據對象、技術與應用三者的統一:
1.從對象角度看,大數據是大小超出典型資料庫軟體採集、儲存、管理和分析等能力的數據集合。需要注意的是,大數據並非大量數據簡單、無意義的堆積,數據量大並不意味著一定具有可觀的利用前景。由於最終目標是從大數據中獲取更多有價值的「新」信息,所以必然要求這些大量的數據之間存在著或遠或近、或直接或間接的關聯性,才具有相當的分析挖掘價值。數據間是否具有結構性和關聯性,是「大數據」與「大規模數據」的重要差別。
2.從技術角度看,大數據技術是從各種各樣類型的大數據中,快速獲得有價值信息的技術及其集成。「大數據」與「大規模數據」、「海量數據」等類似概念間的最大區別,就在於「大數據」這一概念中包含著對數據對象的處理行為。為了能夠完成這一行為,從大數據對象中快速挖掘更多有價值的信息,使大數據「活起來」,就需要綜合運用靈活的、多學科的方法,包括數據聚類、數據挖掘、分布式處理等,而這就需要擁有對各類技術、各類軟硬體的集成應用能力。可見,大數據技術是使大數據中所蘊含的價值得以發掘和展現的重要工具。
3.從應用角度看,大數據是對特定的大數據集合、集成應用大數據技術、獲得有價值信息的行為。正由於與具體應用緊密聯系,甚至是一對一的聯系,才使得「應用」成為大數據不可或缺的內涵之一。
需要明確的是,大數據分析處理的最終目標,是從復雜的數據集合中發現新的關聯規則,繼而進行深度挖掘,得到有效用的新信息。如果數據量不小,但數據結構簡單,重復性高,分析處理需求也僅僅是根據已有規則進行數據分組歸類,未與具體業務緊密結合,依靠已有基本數據分析處理技術已足夠,則不能算作是完全的「大數據」,只是「大數據」的初級發展階段。
『陸』 大數據的價值如何體現
大數據的價值如何體現_數據分析師考試
進入大數據時代,運營商應用大數據發展的驅動因素是什麼,是否需要建立新型資料庫? 劉偉光: 隨著通信行業的競爭日益激烈,傳統的語音和簡訊等主營收入的利潤不斷下滑,導致運營商必須找到新的利潤增長點,同時有效控制運營成本,從而使自身可以在激烈競爭中立於不敗之地。這也是為什麼運營商把實現精準化營銷和精細化運營提升到戰略層次的重要原因。
此外,傳統資料庫技術已無法滿足運營商對大數據充分利用的需求。新型資料庫應該具備如下特點:首先應該採用支持大規模並行處理的分布式架構;其次,應該使用基於符合工業標準的開放硬體和系統平台,保證成本可控;第三,隨著開源技術不斷成熟,創新速度快,新型資料庫平台應該易於與新的開源技術進行融合;第四,新的資料庫平台應該可以實現與Hadoop平台的無縫集成,實現跨結構化、半結構化、非結構化海量數據的混合分析能力。 盧東明: 運營商目前試圖做新型資料庫,但是不太現實,首先資料庫公司一直以來都是很穩定的幾家,需要長期積淀。
其次,大數據不是取代以前的技術,而是混合補充使用,不是新型資料庫出來後,就完全替代傳統資料庫從而大規模使用。資料庫是核心、穩定的技術,大數據是開源的軟體技術,運營商還是會選擇使用相對成熟的軟體。 《通信世界周刊》: 大數據今年以來得到格外關注,目前發展狀況如何? 盧東明: 大數據在運營商的業務中早就有應用,目前在各個省都得到普遍應用了。大數據這個詞目前有些炒作成分,它和以前的資料庫不是完全脫節的,是對資料庫的延伸。大數據是個現象,是資料庫的另一個形態,不是否定、顛覆之前的資料庫形態。
目前做大數據的廠商依然是以前那幾家數據廠商,不同的產品解決不同的問題。在中國電信行業,從數據量和應用角度來看處於世界領先地位,這是由於電信用戶多、規模大,電信業遇到的問題和挑戰比較大,解決方案難度高。 劉偉光: 目前中國三個電信運營商在業務支撐領域、網管IT支撐領域包括增值業務領域,已經隨著市場的需求推出了很多新的大數據實時分析的項目,相信未來的兩到三年這個市場將會成倍增長,甚至會到達我們今天不能預期的數量。 需要分析共享大數據的管理工具 《通信世界周刊》: IT企業如何依託大數據為運營商提供管理工具,提升運營效率? 劉偉光: 實現各部門的緊密協作永遠都是提升運營效率的不二法門。而IT企業應該為運營商提供實現緊密協作、分析、共享大數據的管理工具,來達成提升運營效率的目標。
此外,大數據時代,IT企業僅僅為運營商提供分析平台、分析工具是不夠的。這是因為運營商雖然很了解業務和需求,但普遍缺乏數學建模能力,因此很難利用好這些平台,使其發揮最大效益。所以,如何利用這些平台、系統和數據實現科學建模,同樣是提升運營效率的關鍵所在。 武新: 運營商要解決數據處理效率問題,現在的數據用以前的系統處理需要一天一夜,而應用大數據技術處理可以一個小時完成。在大數據平台,應用雲技術,通過集群的方式,幾十台伺服器同時工作,並進行壓縮數據來節省空間。
目前大數據主要是針對結構化數據的應用,用戶上哪個網,停留多長時間,通過分析都可做相應的分析結果推送給相關部門。除了對用戶上網行為分析,還有網路使用情況、網路設備情況和用戶使用手機類型分析。而對非結構化的數據,如視頻和圖片,目前分析得還較少。 《通信世界周刊》: 大數據具體應用於運營商的哪些業務中,有哪些成功的應用和案例? 盧東明: 大數據主要應用在運營商的「信令」系統分析上,由於其數據量非常大,比「話單」分析的挑戰大很多。移動互聯網發展起來之後,運營商開始關注大數據,進行「用戶行為分析」,根據人群分析做精準營銷,推薦流量套餐。
此外,運營商提供IDC服務,通過「雲」中心的方式為互聯網企業提供服務。 武新: 運營商從最近兩三年開始,感受到這方面的壓力,開始尋求解決方案。中國移動「信令」分析系統項目對海量數據進行分析和挖掘;中國聯通對「話單」數據進行用戶行為分析。中國電信「新一代資料庫」產品正在測試中,通過精分系統,進行精準營銷。此外,在運營商專網也已應用大數據。運營商目前仍處於測試探索中,通過幾種方法針對不同的應用進行測試、篩選。
目前運營商的相關項目有「流量分析」、「智能管道」和「新一代資料庫」產品等,傳統的資料庫面對海量數據已經無法支撐,將來會慢慢被大數據代替掉。 要有開放的心態 《通信世界周刊》: 發展大數據需要解決哪些問題,關鍵點是什麼? 盧東明: 由於數據分析要看存儲效果,涉及到效率和速度。目前運營商應用大數據存在的問題是避免無限制的花錢。另一方面,運營商要和廠商合作,針對不同的業務類型和應用場景,採取不同的分析方法。此外,運營商要有開放的心態,因為大數據作為開源的軟體也不是可以解決所有的問題的。 武新: 在數據處理上,運營商轉型中不僅有技術上的問題,還需要經歷一個時間階段和過程。
此外,運營商要轉變思維方式,其在數據分析上的經驗不如互聯網企業,這是方法論問題,關繫到如何用數據做生意。運營商以前都是依託傳統業務,海量數據的出現,使得行業即將洗牌,運營商不得不轉型重視數據挖掘。 但運營商可以發揮自己的優勢,首先,要分析用戶行為的變化,由分析以前的語音用戶轉變為分析上網行為。其次,運營商有能力提供類似互聯網公司的服務,如QQ聊天。
最後,運營商有專網資源,有自己的數據中心可以運維,但是目前這些優勢還沒有完全發揮出來,是因為還沒把握透用戶的需求。
以上是小編為大家分享的關於大數據的價值如何體現的相關內容,更多信息可以關注環球青藤分享更多干貨
『柒』 大數據應用成功的四個標准
大數據應用成功的四個標准
在大數據范疇大展拳腳肯定是個正確方向,同時世界各地的初創公司及企業巨頭也在借力大數據和大數據應用創造價值——將大量的數據處理轉化為金錢或競爭優勢。然而光彩的背後,總是掩飾著一些不可忽視的真相。簡而言之,不是所有在大數據上的嘗試都得到了應有的回報,而且遠非如此。同樣這里也有另一個不容忽視的真相,在IT企業界,大數據「成功」定義的標准非常寬松,甚至「我們並沒有完全失敗」這種的觀念都可以歸結於「成功」。
那麼大數據應用成功的標准究竟是什麼?10gen戰略副總裁Matt Asay帶來了他為成功總結的4個標准:
首先,必須要可以運作
大數據應該為行業創造切實的價值,不止是高科技。McKinsey在關於大數據未來的報告中指出,大數據在醫療、政府、零售以及製造產業上擁有萬億的潛在價值。機構對大數據的成功實現需要在一下幾個方面帶來切實的收獲:附加收益、提升客戶滿意度、削減成本等。
其次,必須有本質提高
大數據交付的不應該只是漸進式的商務模式改善,更應該是本質上的突破。比如就初創企業Foursquare來說,為了發現數據之間的關系,Foursquare使用了機器學習演算法讓系統可以建立「Explore」,一個社交推薦系統可以實時的給用戶推薦有價值的位置信息,使用新的業務模式去驅動位置信息類型業務。「Explore」依賴大數據技術,同時從多於3000萬個位置信息中獲取見解。現在Foursquare已經具備了理解人們之間如何進行互動的能力,並且位置信息也不只止步平台,而是真實世界。
再次,必須具備高速度
傳統資料庫技術會拉低大數據的性能,同樣也是非常繁瑣的,因為不管這項技術是否迎合你的需求,專利許可涉及到的企業繁瑣制度遠超出你的想像。一個成功大數據項目,使用的工具集和資料庫技術必須同時滿足數據體積及多樣性的雙重需求。論據是:一個Hadoop集群只需幾個小時就可以搭建,搭建完成後就可以提供快速的數據分析。事實上大部分的大數據技術都是開源的,這就意味著你可以根據你的需求添加支持和服務,同時許可不再是快速部署的阻礙之一。
最後,必須能以前所不能
在大數據出現之前,類似Gilt Groupe這種「限時搶購」公司根本不可能實現。限時搶購網站需要日處理上千萬用戶的登陸,並且會造成非常高的伺服器負載峰值——通過高性能、快速擴展的大數據技術讓這種商業模型成為可能。
總結
大數據部署成敗的關鍵不是系統每秒可以處理多少數據量,而是使用大數據後給公司業務帶來了多少價值以及是否讓業務有突破性的提升。專注業務類型,選擇適合公司業務的工具集才是該重點關注的領域。
『捌』 電商企業怎樣用好大數據
電商企業怎樣用好大數據
大數據正在促生新的藍海,催生新的經濟增長點,正在成為政府和企業競爭的新焦點。2012年,瑞士達沃斯論壇發布《大數據,大影響》報告,稱「數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣」。2012年,美國政府啟動「大數據研究和發展計劃」,將大數據上升到了國家戰略層面。對於企業來說,數據正在取代人才成為企業的核心競爭力。
在眾多領域中,顯然電商企業比傳統零售企業在這方面會更有優勢,因為電商企業本身就是通過數據平台為用戶提供零售服務的。那麼,電商企業如何應用好這一優勢?
電商企業具備先天優勢
當前,我國電子商務正處於快速發展期。以阿里巴巴為例,2012年,淘寶和天貓成交量之和超過一萬億元。根據國家統計局數據,2012年全國社會消費品零售總額為20.17萬億元,一萬億元相當於其總量的4.8%。我國電子商務井噴式發展的背後是消費者數據的幾何級增長,電子商務龍頭企業也積極部署、探索和挖掘大數據相關應用。
——電商企業通過大數據應用創新商業模式
大數據的重要趨勢就是數據服務的變革,把人分成很多群體,對每個群體甚至每個人提供針對性的服務。消費數據量的增加為電商企業提供了精確把握用戶群體和個體網路行為模式的基礎。電商企業通過大數據應用,可以進行個人化、個性化、精確化和智能化廣告推送與推廣服務的探索,創立比現有廣告和產品推廣形式性價比更高的全新商業模式。同時,電商企業也可以通過對大數據的把握,尋找更多更好的增加用戶黏性、開發新產品和新服務、降低運營成本的方法與途徑。
實際上,國外傳統零售巨頭早已開始大數據的應用和實踐。Tesco是全球利潤第二大零售商,其從會員卡的用戶購買記錄中,充分了解用戶的行為,並基於此進行一系列的業務活動,例如通過郵件或信件寄給用戶的促銷可以變得更個性化,店內的商家商品及促銷也可以根據周圍人群的喜好、消費時段來更加有針對性,從而提高貨品的流通。這樣的做法為Tesco獲得了豐厚的回報,僅在市場宣傳一項,就能幫助其每年節省3.5億英鎊的費用。
從國內來看,我國電商企業已逐步認識到大數據應用對於電商發展的重要性。以凡客誠品為例,經過近幾年的高速發展,凡客每年的銷售量成倍增長,庫存問題逐漸成為制約其發展的主要因素。2011年,凡客成立了數據中心,針對企業經營數據,包括庫存、進貨周期、周轉、訂單等,研究分析新產品的上架與新用戶增長的關系,每上線一個新產品與它能夠帶來的用戶二次購買的關系等,開展大數據應用實踐。凡客的高庫存問題目前已得到了緩解,庫存周轉周期由100天下降為50天~30天,有效降低了運營成本。
——電商企業通過大數據應用推動差異化競爭
當前,我國電子商務發展面臨的兩大突出問題是成本和同質化競爭。而大數據時代的到來將為其發展和競爭提供新的出路,包括具體產品和服務形式,通過個性化創新提升企業競爭力。
阿里巴巴通過對旗下的淘寶、天貓、阿里雲、支付寶、萬網等業務平台進行資源整合,形成了強大的電子商務客戶群及消費者行為的全產業鏈信息,造就了獨一無二的數據處理能力,這是目前其他電子商務公司無法模仿與跟隨的。同時,也將電子商務的競爭從簡單的價格戰上升了一個層次,形成了差異化競爭。目前,淘寶已形成的數據平台產品,包括數據魔方、量子恆道、超級分析、金牌統計、雲鏡數據等100餘款,功能包括店鋪基礎經營分析、商品分析、營銷效果分析、買家分析、訂單分析、供應鏈分析、行業分析、財務分析和預測分析等。
此外,電商企業通過大數據應用積極開拓發展新藍海——互聯網金融業務。目前阿里、京東、蘇寧三大主流電商企業已相繼試水。除「阿里小貸」模式比較成功之外,「京東模式」也漸出效果。2012年,京東通過與中國銀行合作,推出「供應鏈金融服務」,供應商憑借其在京東的訂單、入庫單等向京東提出融資申請,核准後遞交銀行,再由銀行給予放款。此服務可以幫助京東供應商大幅度縮短賬期,資金回報率由原來的60%左右提高到226%。
警惕隱私風險
雖然電子商務企業已經走在大數據時代的前列,但在開始規劃大數據美好藍圖的同時也要警惕其面臨的挑戰和風險。
企業信息化投資將規模化發展。電商企業內部的經營交易信息,包括商品、物流信息,以及用戶的社交信息、位置信息等將構成企業大數據的主要來源。其信息量遠遠超越了現有企業IT架構和基礎設施的承載能力,其實時性要求大大超越現有的計算能力。此外,電商企業還將面臨數據孤島、數據質量、數據格局等數據治理問題。要想依靠大數據獲益,我國電商企業必將進行新一輪的信息化投資和建設。
相關管理政策尚不明確。大數據時代下,雲計算必將成為電商企業選擇的業務模式,其本質是數據處理技術。數據是資產,雲為數據資產提供了保管、訪問的場所和渠道。雲計算所提供的服務,既包括軟體服務和應用平台服務,又包括基礎設施服務,但目前我國針對雲計算服務的管理政策和技術標准尚未明確。
數據安全與隱私問題突出。一方面,大量的數據匯集,包括大量的企業運營數據、客戶信息、個人的隱私和各種行為的細節記錄,面臨的數據泄露風險將會增大。電商企業既要防止數據在雲上丟掉,也要防止數據在端上被竊取和篡改。另一方面,一些敏感數據的所有權和使用權還沒有明確的界定,很多基於大數據的分析都未考慮到其中涉及的個人隱私問題。