Ⅰ 大數據怎麼發揮大價值
大數據興起預示逗信息時代地進入新階段
1.1 看待大數據要有歷史性的眼光
信息時代是相對於農業和工業時代而言的一段相當長的時間。不同時代的生產要素和社會發展驅動力有明顯差別。信息時代的標志性技術發明是數字計算機、集成電路、光纖通信和互聯網(萬維網)。盡管媒體上大量出現逗大數據時代地的說法,但大數據、雲計算等新技術目前還沒有出現與上述劃時代的技術發明可媲美的技術突破,難以構成一個超越信息時代的新時代。信息時代可以分成若干階段,大數據等新技術的應用標志著信息社會將進入一個新階段。
考察分析100年以上的歷史長河可以發現,信息時代與工業時代的發展規律有許多相似之處。電氣化時代與信息時代生產率的提高過程驚人地相似。都是經過20~30年擴散儲備之後才有明顯提高,分界線分別是1915年和1995年。筆者猜想,信息技術經過幾十年的擴散儲備後,21世紀的前30年可能是信息技術提高生產率的黃金時期。
1.2 從逗信息時代新階段地的高度認識逗大數據地
中國已開始進入信息時代,但許多人的思想還停留在工業時代。經濟和科技工作中出現的許多問題,其根源是對時代的認識不到位。18-19世紀中國落後挨打,根源是滿清政府沒有認識到時代變了,我們不能重犯歷史性的錯誤。
中央提出中國進入經濟逗新常態地以後,媒體上有很多討論,但多數是為經濟增速降低做解釋,很少有從時代改變的角度論述逗新常態地的文章。筆者認為,經濟新常態意味著中國進入了以信息化帶動新型工業化、城鎮化和農業現代化的新階段,是經濟和社會管理的躍遷,不是權宜之計,更不是倒退。
大數據、移動互聯網、社交網路、雲計算、物聯網等新一代信息技術構成的IT架構逗第三平台地是信息社會進入新階段的標志,對整個經濟的轉型有引領和帶動作用。媒體上經常出現的互聯網、創客、逗第二次機器革命地、逗工業4.0地等都與大數據和雲計算有關。大數據和雲計算是新常態下提高生產率的新杠桿,所謂創新驅動發展就是主要依靠信息技術促進生產率的提高。
1.3 大數據可能是中國信息產業從跟蹤走向引領的突破口
中國的大數據企業已經有相當好的基礎。全球十大互聯網服務企業中國佔有4席(阿里巴巴、騰訊、網路和京東),其他6個Top10 互聯網服務企業全部是美國企業,歐洲和日本沒有互聯網企業進入Top10。這說明中國企業在基於大數據的互聯網服務業務上已處於世界前列。在發展大數據技術上,我國有可能改變過去30年技術受制於人的局面,在大數據應用上中國有可能在全世界起到引領作用。
但是,企業的規模走在世界前列並不表示我國在大數據技術上領先。實際上,國際上目前流行的大數據主流技術沒有一項是我國開創的。開源社區和眾包是發展大數據技術和產業的重要途徑,但我們對開源社區的貢獻很小,在全球近萬名社區核心志願者中,我國可能不到200名。我們要吸取過去基礎研究為企業提供核心技術不夠的教訓,加強大數據基礎研究和前瞻技術研究,努力攻克大數據核心和關鍵技術。
2 理解大數據需要上升到文化和認識論的高度
2.1 數據文化是一種先進文化
數據文化的本質是尊重客觀世界的實事求是精神,數據就是事實。重視數據就是強調用事實說話、按理性思維的科學精神。中國人的傳統習慣是定性思維而不是定量思維。目前許多城市在開展政府數據開放共享工作,但是發現多數老百姓對政府要開放的數據並不感興趣。要讓大數據走上健康的發展軌道,首先要大力弘揚數據文化。本文講的數據文化不只是大數據用於文藝、出版等文化產業,而是指全民的數據意識。全社會應認識到:信息化的核心是數據,只有政府和大眾都關注數據時,才能真正理解信息化的實質;數據是一種新的生產要素,大數據的利用可以改變資本和土地等傳統要素在經濟中的權重。
有人將逗上帝與數據共舞地歸納為美國文化的特點之一,說的是美國人既有對神的誠意,又有通過數據求真的理性。美國從鍍金時代到進步主義時期完成了數據文化的思維轉變,南北戰爭之後人口普查的方法被應用到很多領域,形成了數據預測分析的思維方式。近百年來美國和西方各國的現代化與數據文化的傳播滲透有密切關系,我國要實現現代化也必須強調數據文化。
提高數據意識的關鍵是要理解大數據的戰略意義。數據是與物質、能源一樣重要的戰略資源,數據的採集和分析涉及每一個行業,是帶有全局性和戰略性的技術。從硬技術到軟技術的轉變是當今全球性的技術發展趨勢,而從數據中發現價值的技術正是最有活力的軟技術,數據技術與數據產業的落後將使我們像錯過工業革命機會一樣延誤一個時代。
2.2 理解大數據需要有正確的認識論
歷史上科學研究是從邏輯演繹開始的,歐幾里得幾何的所有定理可從幾條公理推導出來。從伽利略和牛頓開始,科學研究更加重視自然觀察和實驗觀察,在觀察基礎上通過歸納方法提煉出科學理論,逗科學始於觀察地成為科學研究和認識論的主流。經驗論和唯理論這兩大流派都對科學的發展做出過重大貢獻,但也暴露出明顯的問題,甚至走入極端。理性主義走向極端就成為康德所批判的獨斷主義,經驗主義走入極端就變成懷疑論和不可知論。
20世紀30年代,德國哲學家波普爾提出了被後人稱為逗證偽主義地的認識論觀點,他認為科學理論不能用歸納法證實,只能被試驗發現的反例逗證偽地,因而他否定科學始於觀察,提出逗科學始於問題地的著名觀點[3]。證偽主義有其局限性,如果嚴格遵守證偽法則,萬有引力定律、原子論等重要理論都可能被早期的所謂反例扼殺。但逗科學始於問題地的觀點對當前大數據技術的發展有指導意義。
大數據的興起引發了新的科學研究模式:逗科學始於數據地。從認識論的角度看,大數據分析方法與逗科學始於觀察地的經驗論較為接近,但我們要牢記歷史的教訓,避免滑入否定理論作用的經驗主義泥坑。在強調逗相關性地的時候不要懷疑逗因果性地的存在;在宣稱大數據的客觀性、中立性的時候,不要忘了不管數據的規模如何,大數據總會受制於自身的局限性和人的偏見。不要相信這樣的預言:逗採用大數據挖掘,你不需要對數據提出任何問題,數據就會自動產生知識地。面對像大海一樣的巨量數據,從事數據挖掘的科技人員最大的困惑是,我們想撈的逗針地是什麼看這海里究竟有沒有逗針地看也就是說,我們需要知道要解決的問題是什麼。從這個意義上講,逗科學始於數據地與逗科學始於問題地應有機地結合起來。
對逗原因地的追求是科學發展的永恆動力。但是,原因是追求不完的,人類在有限的時間內不可能找到逗終極真理地。在科學的探索途中,人們往往用逗這是客觀規律地解釋世界,並不立即追問為什麼有這樣的客觀規律。也就是說,傳統科學並非只追尋因果性,也可以用客觀規律作為結論。大數據研究的結果多半是一些新的知識或新的模型,這些知識和模型也可以用來預測未來,可以認為是一類局部性的客觀規律。科學史上通過小數據模型發現一般性規律的例子不少,比如開普勒歸納的天體運動規律等;而大數據模型多半是發現一些特殊性的規律。物理學中的定律一般具有必然性,但大數據模型不一定具有必然性,也不一定具有可演繹性。大數據研究的對象往往是人的心理和社會,在知識階梯上位於較高層,其自然邊界是模糊的,但有更多的實踐特徵。大數據研究者更重視知行合一,相信實踐論。大數據認識論有許多與傳統認識論不同的特點,我們不能因其特點不同就否定大數據方法的科學性。大數據研究挑戰了傳統認識論對因果性的偏愛,用數據規律補充了單一的因果規律,實現了唯理論和經驗論的數據化統一,一種全新的大數據認識論正在形成。
3 正確認識大數據的價值和效益
3.1 大數據的價值主要體現為它的驅動效應
人們總是期望從大數據中挖掘出意想不到的逗大價值地。實際上大數據的價值主要體現在它的驅動效應,即帶動有關的科研和產業發展,提高各行各業通過數據分析解決困難問題和增值的能力。大數據對經濟的貢獻並不完全反映在大數據公司的直接收入上,應考慮對其他行業效率和質量提高的貢獻。大數據是典型的通用技術,理解通用技術要採用逗蜜蜂模型地:蜜蜂的效益主要不是自己釀的蜂蜜,而是蜜蜂傳粉對農業的貢獻。
電子計算機的創始人之一馮·諾依曼曾指出:逗在每一門科學中,當通過研究那些與終極目標相比頗為朴實的問題,發展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。地我們不必天天期盼奇跡出現,多做一些逗頗為朴實地的事情,實際的進步就在扎扎實實的努力之中。媒體喜歡宣傳一些令人驚奇的大數據成功案例,對這些案例我們應保持清醒的頭腦。據Intel中國研究院首席工程師吳甘沙在一次報告中透露,所謂逗啤酒加尿布地的數據挖掘經典案例,其實是Teradata公司一位經理編出來的逗故事地,歷史上並沒有發生過[4]。即使有這個案例,也不說明大數據分析本身有什麼神奇,大數據中看起來毫不相關的兩件事同時或相繼出現的現象比比皆是,關鍵是人的分析推理找出為什麼兩件事物同時或相繼出現,找對了理由才是新知識或新發現的規律,相關性本身並沒有多大價值。
有一個家喻戶曉的寓言可以從一個角度說明大數據的價值:一位老農民臨終前告訴他的3個兒子,他在他家的地中埋藏了一罐金子,但沒有講埋在哪裡。
他的兒子們把他家所有的地都深挖了一遍,沒有挖到金子,但由於深挖了土地,從此莊稼收成特別好。數據收集、分析的能力提高了,即使沒有發現什麼普適的規律或令人完全想不到的新知識,大數據的價值也已逐步體現。
3.2 大數據的力量來自逗大成智慧地
每一種數據來源都有一定的局限性和片面性,只有融合、集成各方面的原始數據,才能反映事物的全貌。事物的本質和規律隱藏在各種原始數據的相互關聯之中。不同的數據可能描述同一實體,但角度不同。對同一個問題,不同的數據能提供互補信息,可對問題有更深入的理解。因此在大數據分析中,匯集盡量多種來源的數據是關鍵。
數據科學是數學(統計、代數、拓撲等)、計算機科學、基礎科學和各種應用科學融合的科學,類似錢學森先生提出的逗大成智慧學地[5]。錢老指出:逗必集大成,才能得智慧地。大數據能不能出智慧,關鍵在於對多種數據源的集成和融合。IEEE計算機學會最近發布了2014年的計算機技術發展趨勢預測報告,重點強調逗無縫智慧(seamless intelligence)地。發展大數據的目標就是要獲得協同融合的逗無縫智慧地。單靠一種數據源,即使數據規模很大,也可能出現逗瞎子摸象地一樣的片面性。數據的開放共享不是錦上添花的工作,而是決定大數據成敗的必要前提。
大數據研究和應用要改變過去各部門和各學科相互分割、獨立發展的傳統思路,重點不是支持單項技術和單個方法的發展,而是強調不同部門、不同學科的協作。數據科學不是垂直的逗煙囪地,而是像環境、能源科學一樣的橫向集成科學。
3.3 大數據遠景燦爛,但近期不能期望太高
交流電問世時主要用作照明,根本想像不到今天無處不在的應用。大數據技術也一樣,將來一定會產生許多現在想不到的應用。我們不必擔心大數據的未來,但近期要非常務實地工作。人們往往對近期的發展估計過高,而對長期的發展估計不足。Gartner公司預測,大數據技術要在5~10年後才會成為較普遍採用的主流技術,對發展大數據技術要有足夠的耐心。
大數據與其他信息技術一樣,在一段時間內遵循指數發展規律。指數發展的特點是,從一段歷史時期衡量(至少30年),前期發展比較慢,經過相當長時間(可能需要20年以上)的積累,會出現一個拐點,過了拐點以後,就會出現爆炸式的增長。但任何技術都不會永遠保持逗指數性地增長,一般而言,高技術發展遵循Gartner公司描述的技術成熟度曲線(hype cycle),最後可能進入良性發展的穩定狀態或者走向消亡。
需要採用大數據技術來解決的問題往往都是十分復雜的問題,比如社會計算、生命科學、腦科學等,這些問題絕不是幾代人的努力就可以解決的。宇宙經過百億年的演化,才出現生物和人類,其復雜和巧妙堪稱絕倫,不要指望在我們這一代人手中就能徹底揭開其奧妙。展望數百萬年甚至更長遠的未來,大數據技術只是科學技術發展長河中的一朵浪花,對10~20年大數據研究可能取得的科學成就不能抱有不切實際的幻想。
4 從復雜性的角度看大數據研究和應用面臨的挑戰
大數據技術和人類探索復雜性的努力有密切關系。20世紀70年代,新三論(耗散結構論、協同論、突變論)的興起對幾百年來貫穿科學技術研究的還原論發起了挑戰。1984年蓋爾曼等3位諾貝爾獎得主成立以研究復雜性為主的聖菲研究所,提出超越還原論的口號,在科技界掀起了一場復雜性科學運動。雖然雷聲很大,但30年來並未取得預期的效果,其原因之一可能是當時還沒有出現解決復雜性的技術。
集成電路、計算機與通信技術的發展大大增強了人類研究和處理復雜問題的能力。大數據技術將復雜性科學的新思想發揚光大,可能使復雜性科學得以落地。復雜性科學是大數據技術的科學基礎,大數據方法可以看作復雜性科學的技術實現。大數據方法為還原論與整體論的辯證統一提供了技術實現途徑。大數據研究要從復雜性研究中吸取營養,從事數據科學研究的學者不但要了解20世紀的逗新三論地,可能還要學習與超循環、混沌、分形和元胞自動機等理論有關的知識,擴大自己的視野,加深對大數據機理的理解。
大數據技術還不成熟,面對海量、異構、動態變化的數據,傳統的數據處理和分析技術難以應對,現有的數據處理系統實現大數據應用的效率較低,成本和能耗較大,而且難以擴展。這些挑戰大多來自數據本身的復雜性、計算的復雜性和信息系統的復雜性。
4.1 數據復雜性引起的挑戰
圖文檢索、主題發現、語義分析、情感分析等數據分析工作十分困難,其原因是大數據涉及復雜的類型、復雜的結構和復雜的模式,數據本身具有很高的復雜性。目前,人們對大數據背後的物理意義缺乏理解,對數據之間的關聯規律認識不足,對大數據的復雜性和計算復雜性的內在聯系也缺乏深刻理解,領域知識的缺乏制約了人們對大數據模型的發現和高效計算方法的設計。形式化或定量化地描述大數據復雜性的本質特徵及度量指標,需要深入研究數據復雜性的內在機理。人腦的復雜性主要體現在千萬億級的樹突和軸突的鏈接,大數據的復雜性主要也體現在數據之間的相互關聯。理解數據之間關聯的奧秘可能是揭示微觀到宏觀逗涌現地規律的突破口。大數據復雜性規律的研究有助於理解大數據復雜模式的本質特徵和生成機理,從而簡化大數據的表徵,獲取更好的知識抽象。為此,需要建立多模態關聯關系下的數據分布理論和模型,理清數據復雜度和計算復雜度之間的內在聯系,奠定大數據計算的理論基礎。
4.2 計算復雜性引起的挑戰
大數據計算不能像處理小樣本數據集那樣做全局數據的統計分析和迭代計算,在分析大數據時,需要重新審視和研究它的可計算性、計算復雜性和求解演算法。大數據樣本量巨大,內在關聯密切而復雜,價值密度分布極不均衡,這些特徵對建立大數據計算範式提出了挑戰。對於PB級的數據,即使只有線性復雜性的計算也難以實現,而且,由於數據分布的稀疏性,可能做了許多無效計算。
傳統的計算復雜度是指某個問題求解時需要的時間空間與問題規模的函數關系,所謂具有多項式復雜性的演算法是指當問題的規模增大時,計算時間和空間的增長速度在可容忍的范圍內。傳統科學計算關注的重點是,針對給定規模的問題,如何逗算得快地。而在大數據應用中,尤其是流式計算中,往往對數據處理和分析的時間、空間有明確限制,比如網路服務如果回應時間超過幾秒甚至幾毫秒,就會丟失許多用戶。大數據應用本質上是在給定的時間、空間限制下,如何逗算得多地。從逗算得快地到逗算得多地,考慮計算復雜性的思維邏輯有很大的轉變。所謂逗算得多地並不是計算的數據量越大越好,需要探索從足夠多的數據,到剛剛好的數據,再到有價值的數據的按需約簡方法。
基於大數據求解困難問題的一條思路是放棄通用解,針對特殊的限制條件求具體問題的解。人類的認知問題一般都是NP難問題,但只要數據充分多,在限制條件下可以找到十分滿意的解,近幾年自動駕駛汽車取得重大進展就是很好的案例。為了降低計算量,需要研究基於自舉和采樣的局部計算和近似方法,提出不依賴於全量數據的新型演算法理論,研究適應大數據的非確定性演算法等理論。
4.3 系統復雜性引起的挑戰
大數據對計算機系統的運行效率和能耗提出了苛刻要求,大數據處理系統的效能評價與優化問題具有挑戰性,不但要求理清大數據的計算復雜性與系統效率、能耗間的關系,還要綜合度量系統的吞吐率、並行處理能力、作業計算精度、作業單位能耗等多種效能因素。針對大數據的價值稀疏性和訪問弱局部性的特點,需要研究大數據的分布式存儲和處理架構。
大數據應用涉及幾乎所有的領域,大數據的優勢是能在長尾應用中發現稀疏而珍貴的價值,但一種優化的計算機系統結構很難適應各種不同的需求,碎片化的應用大大增加了信息系統的復雜性,像昆蟲種類一樣多(500多萬種)的大數據和物聯網應用如何形成手機一樣的巨大市場,這就是所謂逗昆蟲綱悖論地[6]。為了化解計算機系統的復雜性,需要研究異構計算系統和可塑計算技術。
大數據應用中,計算機系統的負載發生了本質性變化,計算機系統結構需要革命性的重構。信息系統需要從數據圍著處理器轉改變為處理能力圍著數據轉,關注的重點不是數據加工,而是數據的搬運;系統結構設計的出發點要從重視單任務的完成時間轉變到提高系統吞吐率和並行處理能力,並發執行的規模要提高到10億級以上。構建以數據為中心的計算系統的基本思路是從根本上消除不必要的數據流動,必要的數據搬運也應由逗大象搬木頭地轉變為逗螞蟻搬大米地。
5 發展大數據應避免的誤區
5.1 不要一味追求逗數據規模大地
大數據主要難點不是數據量大,而是數據類型多樣、要求及時回應和原始數據真假難辨。現有資料庫軟體解決不了非結構化數據,要重視數據融合、數據格式的標准化和數據的互操作。採集的數據往往質量不高是大數據的特點之一,但盡可能提高原始數據的質量仍然值得重視。腦科學研究的最大問題就是採集的數據可信度差,基於可信度很差的數據難以分析出有價值的結果。
一味追求數據規模大不僅會造成浪費,而且效果未必很好。多個來源的小數據的集成融合可能挖掘出單一來源大數據得不到的大價值。應多在數據的融合技術上下功夫,重視數據的開放與共享。所謂數據規模大與應用領域有密切關系,有些領域幾個PB的數據未必算大,有些領域可能幾十TB已經是很大的規模。
發展大數據不能無止境地追求逗更大、更多、更快地,要走低成本、低能耗、惠及大眾、公正法治的良性發展道路,要像現在治理環境污染一樣,及早關注大數據可能帶來的逗污染地和侵犯隱私等各種弊端。
5.2 不要逗技術驅動地,要逗應用為先地
新的信息技術層出不窮,信息領域不斷冒出新概念、新名詞,估計繼逗大數據地以後,逗認知計算地、逗可穿戴設備地、逗機器人地等新技術又會進入炒作高峰。我們習慣於跟隨國外的熱潮,往往不自覺地跟著技術潮流走,最容易走上逗技術驅動地的道路。實際上發展信息技術的目的是為人服務,檢驗一切技術的唯一標準是應用。我國發展大數據產業一定要堅持逗應用為先地的發展戰略,堅持應用牽引的技術路線。技術有限,應用無限。各地發展雲計算和大數據,一定要通過政策和各種措施調動應用部門和創新企業的積極性,通過跨界的組合創新開拓新的應用,從應用中找出路。
5.3 不能拋棄逗小數據地方法
流行的逗大數據地定義是:無法通過目前主流軟體工具在合理時間內採集、存儲、處理的數據集。這是用不能勝任的技術定義問題,可能導致認識的誤區。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業碰到的數據處理多數還是逗小數據地問題。我們應重視實際碰到的問題,不管是大數據還是小數據。
統計學家們花了200多年,總結出認知數據過程中的種種陷阱,這些陷阱不會隨著數據量的增大而自動填平。大數據中有大量的小數據問題,大數據採集同樣會犯小數據採集一樣的統計偏差。Google公司的流感預測這兩年失靈,就是由於搜索推薦等人為的干預造成統計誤差。
大數據界流行一種看法:大數據不需要分析因果關系、不需要采樣、不需要精確數據。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結合、白盒與黑盒研究相結合、大數據方法與小數據方法相結合。
5.4 要高度關注構建大數據平台的成本
目前全國各地都在建設大數據中心,呂梁山下都建立了容量達2 PB以上的數據處理中心,許多城市公安部門要求存儲3個月以上的高清監控錄像。這些系統的成本都非常高。數據挖掘的價值是用成本換來的,不能不計成本,盲目建設大數據系統。什麼數據需要保存,要保存多少時間,應當根據可能的價值和所需的成本來決定。大數據系統技術還在研究之中,美國的E級超級計算機系統要求能耗降低1 000倍,計劃到2024年才能研製出來,用現在的技術構建的巨型系統能耗極高。
我們不要攀比大數據系統的規模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數據應用,因地制宜發展大數據。發展大數據與實現信息化的策略一樣:目標要遠大、起步要精準、發展要快速。
Ⅱ 大數據定義、思維方式及架構模式
大數據定義、思維方式及架構模式
一、大數據何以為大
數據現在是個熱點詞彙,關於有了大數據,如何發揮大數據的價值,議論紛紛,而筆者以為,似乎這有點搞錯了原因與結果,就象關聯關系,有A的時候,B與之關聯,而有B的時候,A卻未必關聯,筆者還是從通常的4個V來描述一下我所認為的大數據思維。
1、大數據的量,數據量足夠大,達到了統計性意義,才有價值。筆者看過的一個典型的案例就是,例如傳統的,收集幾千條數據,很難發現血緣關系對遺傳病的影響,而一旦達到2萬條以上,那麼發現這種影響就會非常明顯。那麼對於我們在收集問題時,是為了發現隱藏的知識去收集數據,還是不管有沒有價值地收集,這還是值得商榷的。其實收集數據,對於數據本身,還是可以劃分出一些標准,確立出層級,結合需求、目標來收集,當然有人會說,這樣的話,將會導致巨大的偏差,例如說喪失了數據的完整性,有一定的主觀偏向,但是筆者以為,這樣至少可以讓收集到的數據的價值相對較高。
2、大數據的種類,也可以說成數據的維度,對於一個對象,採取標簽化的方式,進行標記,針對需求進行種類的擴充,和數據的量一樣,筆者認為同樣是建議根據需求來確立,但是對於標簽,有一個通常採取的策略,那就是推薦標簽和自定義標簽的問題,分類法其實是人類文明的一大創舉,採取推薦標簽的方式,可以大幅度降低標簽的總量,而減少後期的規約工作,數據收集時擴充量、擴充維度,但是在數據進入應用狀態時,我們是希望處理的是小數據、少維度,而通過這種推薦、可選擇的方式,可以在標准化基礎上的自定義,而不是毫無規則的擴展,甚至用戶的自定義標簽給予一定的限制,這樣可以使維度的價值更為顯現。
3、關於時效性,現在進入了讀秒時代,那麼在很短的時間進行問題分析、關聯推薦、決策等等,需要的數據量和數據種類相比以前,往往更多,換個說法,因為現在時效性要求高了,所以處理數據的方式變了,以前可能多人處理,多次處理,現在必須變得單人處理、單次處理,那麼相應的信息系統、工作方式、甚至企業的組織模式,管理績效都需要改變,例如筆者曾經工作的企業,上了ERP系統,設計師意見很大,說一個典型案例,以往發一張變更單,發出去工作結束,而上了ERP系統以後,就必須為這張變更單設定物料代碼,設置需要查詢物料的存儲,而這些是以前設計師不管的,又沒有為設計師為這些增加的工作支付獎勵,甚至因為物料的缺少而導致變更單不能發出,以至於設計師工作沒有完成,導致被處罰。但是我們從把工作一次就做完,提升企業的工作效率角度,這樣的設計變更與物料集成的方式顯然是必須的。那麼作為一個工作人員,如何讓自己的工作更全面,更完整,避免王府,讓整個企業工作更具有時間的競爭力,提高數據的數量、種類、處理能力是必須的。
4、關於大數據價值,一種說法是大數據有大價值,還有一種是相對於以往的結構化數據、少量數據,現在是大數據了,所以大數據的單位價值下降。筆者以為這兩種說法都正確,這是一個從總體價值來看,一個從單元數據價值來看的問題。而筆者提出一個新的關於大數據價值的觀點,那就是真正發揮大數據的價值的另外一個思路。這個思路就是針對企業的問題,首先要說什麼是問題,筆者說的問題不是一般意義上的問題,因為一說問題,大家都以為不好、錯誤等等,而筆者的問題的定義是指狀態與其期望狀態的差異,包括三種模式,
1)通常意義的問題,例如失火了,必須立即撲救,其實這是三種模式中最少的一種;
2)希望保持狀態,
3)期望的狀態,這是比原來的狀態高一個層級的。
我們針對問題,提出一系列解決方案,這些解決方案往往有多種,例如員工的培訓,例如設備的改進,例如組織的方式的變化,當然解決方案包括信息化手段、大數據手段,我們一樣需要權衡大數據的方法是不是一種相對較優的方法,如果是,那麼用這種手段去解決,那麼也就是有價值了。例如筆者知道的一個案例,一個企業某產品部件偶爾會出現問題,企業經歷數次後決定針對設備上了一套工控系統,記錄材料的溫度,結果又一次出現問題時,進行分析認為,如果工人正常上班操作,不應該有這樣的數據記錄,而經過與值班工人的質詢,值班工人承認其上晚班時睡覺,沒有及時處理。再往後,同樣的問題再沒有再次發生。
總結起來,筆者以為大數據思維的核心還是要落實到價值上,面向問題,收集足夠量的數據,足夠維度的數據,達到具有統計學意義,也可以滿足企業生產、客戶需求、甚至競爭的時效要求,而不是一味為了大數據而大數據,這樣才是一種務實、有效的正確思維方式,是一線大數據的有效的項目推進方式,在這樣的思維模式基礎上,採取滾雪球方式,把大數據逐步展開,才真正贏來大數據百花齊放的春天。
二、大數據思維方式
大數據研究專家舍恩伯格指出,大數據時代,人們對待數據的思維方式會發生如下三個變化:
1)人們處理的數據從樣本數據變成全部數據;
2)由於是全樣本數據,人們不得不接受數據的混雜性,而放棄對精確性的追求;
3)人類通過對大數據的處理,放棄對因果關系的渴求,轉而關注相關關系。
事實上,大數據時代帶給人們的思維方式的深刻轉變遠不止上述三個方面。筆者認為,大數據思維最關鍵的轉變在於從自然思維轉向智能思維,使得大數據像具有生命力一樣,獲得類似於「人腦」的智能,甚至智慧。
1、總體思維
社會科學研究社會現象的總體特徵,以往采樣一直是主要數據獲取手段,這是人類在無法獲得總體數據信息條件下的無奈選擇。在大數據時代,人們可以獲得與分析更多的數據,甚至是與之相關的所有數據,而不再依賴於采樣,從而可以帶來更全面的認識,可以更清楚地發現樣本無法揭示的細節信息。
正如舍恩伯格總結道:「我們總是習慣把統計抽樣看作文明得以建立的牢固基石,就如同幾何學定理和萬有引力定律一樣。但是,統計抽樣其實只是為了在技術受限的特定時期,解決當時存在的一些特定問題而產生的,其歷史不足一百年。如今,技術環境已經有了很大的改善。在大數據時代進行抽樣分析就像是在汽車時代騎馬一樣。
在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數據的主要方式。」也就是說,在大數據時代,隨著數據收集、存儲、分析技術的突破性發展,我們可以更加方便、快捷、動態地獲得研究對象有關的所有數據,而不再因諸多限制不得不採用樣本研究方法,相應地,思維方式也應該從樣本思維轉向總體思維,從而能夠更加全面、立體、系統地認識總體狀況。
2、容錯思維
在小數據時代,由於收集的樣本信息量比較少,所以必須確保記錄下來的數據盡量結構化、精確化,否則,分析得出的結論在推及總體上就會「南轅北轍」,因此,就必須十分注重精確思維。然而,在大數據時代,得益於大數據技術的突破,大量的非結構化、異構化的數據能夠得到儲存和分析,這一方面提升了我們從數據中獲取知識和洞見的能力,另一方面也對傳統的精確思維造成了挑戰。
舍恩伯格指出,「執迷於精確性是信息缺乏時代和模擬時代的產物。只有5%的數據是結構化且能適用於傳統資料庫的。如果不接受混亂,剩下95%的非結構化數據都無法利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶」。也就是說,在大數據時代,思維方式要從精確思維轉向容錯思維,當擁有海量即時數據時,絕對的精準不再是追求的主要目標,適當忽略微觀層面上的精確度,容許一定程度的錯誤與混雜,反而可以在宏觀層面擁有更好的知識和洞察力。
3、相關思維
在小數據世界中,人們往往執著於現象背後的因果關系,試圖通過有限樣本數據來剖析其中的內在機理。小數據的另一個缺陷就是有限的樣本數據無法反映出事物之間的普遍性的相關關系。而在大數據時代,人們可以通過大數據技術挖掘出事物之間隱蔽的相關關系,獲得更多的認知與洞見,運用這些認知與洞見就可以幫助我們捕捉現在和預測未來,而建立在相關關系分析基礎上的預測正是大數據的核心議題。
通過關注線性的相關關系,以及復雜的非線性相關關系,可以幫助人們看到很多以前不曾注意的聯系,還可以掌握以前無法理解的復雜技術和社會動態,相關關系甚至可以超越因果關系,成為我們了解這個世界的更好視角。舍恩伯格指出,大數據的出現讓人們放棄了對因果關系的渴求,轉而關注相關關系,人們只需知道「是什麼」,而不用知道「為什麼」。我們不必非得知道事物或現象背後的復雜深層原因,而只需要通過大數據分析獲知「是什麼」就意義非凡,這會給我們提供非常新穎且有價值的觀點、信息和知識。也就是說,在大數據時代,思維方式要從因果思維轉向相關思維,努力顛覆千百年來人類形成的傳統思維模式和固有偏見,才能更好地分享大數據帶來的深刻洞見。
4、智能思維
不斷提高機器的自動化、智能化水平始終是人類社會長期不懈努力的方向。計算機的出現極大地推動了自動控制、人工智慧和機器學習等新技術的發展,「機器人」研發也取得了突飛猛進的成果並開始一定應用。應該說,自進入到信息社會以來,人類社會的自動化、智能化水平已得到明顯提升,但始終面臨瓶頸而無法取得突破性進展,機器的思維方式仍屬於線性、簡單、物理的自然思維,智能水平仍不盡如人意。
但是,大數據時代的到來,可以為提升機器智能帶來契機,因為大數據將有效推進機器思維方式由自然思維轉向智能思維,這才是大數據思維轉變的關鍵所在、核心內容。眾所周知,人腦之所以具有智能、智慧,就在於它能夠對周遭的數據信息進行全面收集、邏輯判斷和歸納總結,獲得有關事物或現象的認識與見解。同樣,在大數據時代,隨著物聯網、雲計算、社會計算、可視技術等的突破發展,大數據系統也能夠自動地搜索所有相關的數據信息,並進而類似「人腦」一樣主動、立體、邏輯地分析數據、做出判斷、提供洞見,那麼,無疑也就具有了類似人類的智能思維能力和預測未來的能力。
「智能、智慧」是大數據時代的顯著特徵,大數據時代的思維方式也要求從自然思維轉向智能思維,不斷提升機器或系統的社會計算能力和智能化水平,從而獲得具有洞察力和新價值的東西,甚至類似於人類的「智慧」。
舍恩伯格指出,「大數據開啟了一個重大的時代轉型。就像望遠鏡讓我們感受宇宙,顯微鏡讓我們能夠觀測到微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄勢待發」。
大數據時代將帶來深刻的思維轉變,大數據不僅將改變每個人的日常生活和工作方式,改變商業組織和社會組織的運行方式,而且將從根本上奠定國家和社會治理的基礎數據,徹底改變長期以來國家與社會諸多領域存在的「不可治理」狀況,使得國家和社會治理更加透明、有效和智慧。
Ⅲ 大數據的理想與現實之間
大數據的理想與現實之間
我與數據打了25年的交道,經歷了從電信、網通到聯通的多次重組,親身參與了數據專業線從弱勢群體逐漸發展壯大的全過程。一直想找個機會,談談我的體會,但是沒有下這個決心動筆。最近,受范總原創《「一篇文看懂Hadoop」讀後感》的鼓舞,想從數據工作實務的角度分享一下我的想法,就當拋磚引玉吧。
1. 關於數據中心的定位我們就按照論文里通常的套路開始吧。首先「什麼是數據?」通俗的理解就是:如果把企業比作一個「生產線」,數據就是在這個「生產線」上各項活動所產生的,以各種形式存放在各個系統中或者其他載體上的信息,把這些信息按照一定的屬性和規則進行分類加工就形成了數據,它反映著企業經營發展的狀況,記錄著企業用戶的使用情況,還有產業鏈上各個參與者的狀況。 受現代企業的部門設置、專業線管理架構的影響,企業完整的「生產線」被各部門分割,數據散落在由各部門管理的系統中,這就是大型企業通常的業務和數據管理的現狀~~「職責分割、數據分散」。那麼,如何反映企業整體的發展現狀呢?通常是公司月度經營分析會上,財務部門的分析報告中,匯報公司的總體情況,而市場、集團客戶等部門的報告分別匯報本專業條線的經營情況。曾經出現的情況就是財務部門匯報公司總體利潤下降,而各業務部門紛紛完成任務形勢一片大好的反差。老闆心裡納悶~~「你們都完成了任務,敢情就我沒完成任務?」聯通重組以來,頂著來自省里還有其他專業的壓力,一直在推行數據的集中。信息化部把各省、各系統中的數以億計的用戶明細數據在集團層面進行了集中存儲,並經過統一的規則加工數據,再加上後來的分析應用,不僅使每個月統計的用戶發展數據更加真實了,還發現地市層面違規經營、業績造假的行為。集團董事長召開全國地市級工作會議,點名批評、撤換了幾個地市老總。當時,地市老總還在雲里霧里~~「我都沒有這么詳細的數據,董事長怎麼知道的?」這就是數據在打破部門和省分之間的壁壘,使領導層能縱觀企業真實情況,「知其然,知其所以然」方面發揮的至關重要的作用。近兩年來,聯通通過與外部公司的合作,使用脫敏的用戶標簽數據為企業創造了真金白銀的實際價值,「數據」的應用價值日益突出,真正成為企業的又一寶貴資源。而之前,企業內部並沒有這么一個專門的部門是站在全局的角度,承擔起「數據資源」管理者的角色的,這就是成立「數據中心」的初衷,也是其定位和義不容辭的責任。聯通數據中心的成立,是「數據線」這個弱勢專業有史以來擺脫依附關系成為獨立二級部門的第一次,也是對於聯通信息化部門實踐數據集中整合、應用,支撐公司管理方面取得成果的高度肯定。說起這個,數據線工作的人都會有深深的共鳴,這裡面有多少苦衷啊。2. 主動還是被動?都是「支撐」惹的禍「數據中心」脫身於信息化部門,而信息化部門的基本定位就是「支撐」,就是要「有求必應」。我們熟悉的場景是每個月的那麼幾天,業務部門的人員為了寫分析報告,需要些報表以外的數據進行分析,給數據部門打電話,然後心急火燎地等待他們提供的數據結果。另一場景,數據部門的人員被各部門各種的數據需求折騰得團團轉,為了提供數據,加班到天亮。曾經有負責數據服務的處室,在總結年度工作時用到的數據是「提供報表上萬張」。經分系統在用戶的堅持下,開發了大量內容相近、格式不同的報表。一方面是用戶層出不窮的需求無法滿足,另一面卻是系統里大量的報表沒有人訪問。因為用戶無法自己獲取數據,日常數據服務工作顯得相當被動。其實從內容上看,一個企業的數據是唯一的,只是各部門因為關注的角度不同,提出了不同的展現要求,實際上在數據層面有較高的重疊性。如果想要在減少需求量的同時,提高用戶滿意度,就需要數據管理部門的人員具備高度的綜合能力,這個人不僅要熟悉公司的業務、流程、部門的職責分工,還要有很好的溝通能力,能夠正確理解、綜合、引導用戶的需求,然後在總體框架下將整合後的、被驗證過的需求在系統中固化。如果能力強,從個人層面,還是可以主動地做一些事情的。但是,要想改變數據工作的被動局面,就需要數據管理部門不再局限於「支撐」的角色,而是應該站在」數據資源管理者」的角度,主動地從數據、應用、管控、系統四個方面,形成一個體系化的數據管理架構,並指導日常工作和系統建設。 上圖是2009年聯通開展的數據管理體系研究工作的成果,是對數據工作的一次很好的總結和提升。它是數據管理體系L0架構,揭示了數據管理工作的組成部分以及各個部分之間的關系。與其他專業線不同,數據專業的管理核心是」數據」,數據質量、生命周期和安全管理都是核心的管控內容,而組織(人員、制度)和系統是數據產生價值的基本保障。數據、應用、管控、系統四個方面的內容缺一不可,同時又存在相互關聯、不斷優化的過程(流程),絕對不是建幾個系統那麼簡單,這也是數據專業管理的難度所在。 上面這張圖就是對數據工作的流程很好的詮釋,數據部門要想扭轉被動的局面,首先必須有自己完整的架構(數據、應用、系統、流程、管理制度)。而這一架構的形成,是需要通過以下4個步驟:正確評估自身能力現狀;找到公司業務戰略、目標對數據專業的期望和差距;有選擇性地確定數據工作的戰略目標和階段性計劃後組織實施的;在完成階段性計劃之後,還需要評估能力提升的結果,以便對現狀形成新的評價,循序漸進,有效積累。信息化的同事對於數據、應用、系統這三項內容都容易理解,但是,對於制度和流程就不太容易理解了。制度就是游戲規則,規定了該誰做,做什麼,怎麼做,做到什麼程度。流程則是為了明確一件工作的步驟和涉及的部門之間的關系。目前流程的缺失帶來太多的問題,常見的場景就是一項業務已經下線了,我們的系統中還在展示;新的業務已經為公司創造價值了,其收入還沒有在財務報表中單獨體現,不能及時反映這項業務的發展狀況;系統中數據和報表功能已經具備了,業務部門還在要求數據部門人工提供數據,用戶的需求無法及時傳遞到建設環節。
解決這些問題的根本就是必須形成閉環的數據工作流程,在數據生產、服務、建設、維護內部各個環節的有效溝通的同時,加入到公司運營、網路、管理的前端環節,第一時間參與產品策劃、基建計劃、科目調整等前期工作,才能確保數據工作的有效積累和正常運轉。
3、誰在用數據?他的核心需求是什麼?在清楚了定位和工作內容之後,首先要明確的就是工作目標,而目標的確定就需要了解數據的使用者是誰,他們的核心需求是什麼。那麼,誰是數據的需求方呢?站在企業經營的角度看,通常把數據需求分為:內部需求和外部需求。具體包括:(1)內部需求是數據服務於企業管理的職責所在。從管理層級上看,包括集團及分子公司、省級分公司;從管理職責上分就是公司管理層、職能部門、基層操作人員。管理層的訴求就是通過數據掌握公司運營的整體情況,知道「發生了什麼?什麼是主要原因?我應該去找誰?」你給我10個指標都多,因為這10個指標也許是反方向變化的,我要自己判斷哪個是核心指標。管理層需要的是「簡潔但不簡單」,這個要求也是最高的。「如何讓領導的桌面變得簡潔?」如果這樣的問題你沒有想過,領導層對你的工作就很難滿意。滿足領導層需求的最好辦法就是提供綜合指數,就像是溫度計,或者上證指數,一個指標就能縱覽全局。而這一個指數背後是高度綜合的評價體系,需要專門的研究與大量的實踐檢驗。 (上圖為DW1.0設計的領導首頁UI規范,這是一個工作台,包括:問題發現、任務指派和問題反饋三個功能。中間是對目前公司當月總體情況的評價結果,雷達圖中顯示綜合評價指標池中業務發展、財務狀況、企業運營、創新能力四類指標值與目標值的差距,並支持預警提示和問題的下鑽探索。頁面下方,是熱點信息和信息反饋的連接,支持領導任務指派和問題反饋。)職能部門是我們打交道最多的,他們的訴求就是獲取本專業的數據支持日常管理。應用最多的就是每月的經營分析,有的部門使用的是自己的報表體系,有的部門基本靠數據部門支撐,有的部門基本沒有什麼可用的數據,有的部門乾脆重新建立了自己的系統進行模型沉澱。從數據的應用層次看,我們能夠提供給職能部門使用的還停留在數據的粗加工層面。「哪個是我們最賺錢的產品?哪些是我們含金量最高的用戶?我們應該採用什麼樣的策略?我們採取的措施收效如何?」太多的問題需要用數據來回答。現在是離開數據部門的後台提數,職能部門的人自己基本拿不到數據,做不了事情。什麼時候他們能自己取數自己分析,什麼時候職能部門的用戶滿意度就能提升了。基層操作人員是與用戶最接近的環節,他們能夠用到的數據確實非常少。近年來的激發基層單元活力的工作,對數據服務於基層提出了更多的要求。但是,一個基於產品線的用戶級粒度的收入數據,與一個基於管理主體的成本數據,怎麼能夠支撐一線人員的資源配置和績效管理?數據層面為基層人員做的還非常少。最後為我們的用戶說幾句吧,如果我是一個世界500強的用戶,第一次走進聯通的營業廳辦業務,聯通能不能第一時間給我提供大客戶級的服務而不要等我給聯通創造了多少收入之後才發現我的價值?如果我使用了聯通10年以上的寬頻業務,聯通能不能辨識出我的價值,給我提供VIP級的一體化服務?聯通能不能通過我喜歡的方式、在我方便的時間、通過更加便捷的手段,推薦給我貼心的服務,而不是關注於挖掘我的隱私?以上用戶的訴求,背後都是大量的數據作為支撐的。公司經營策略中說了多少年的「以客戶為中心」,但是從數據指標體繫上看,仍然是「以產品為中心」。數據層面確實應該為我們的用戶做點什麼了。 上面這張圖,幫助我們換個角度去思考我們的工作目標,我們應該站在數據的使用者的角度,考慮應該做什麼,能做什麼,做了些什麼,形成我們的工作目標。不能再固守傳統的工作模式,數據工作需要總結和創新。(2)外部需求是數據服務於社會,為企業創造價值的體現。近年來,由於聯通數據集中的優勢,與招商、螞蟻金服多家企業進行合作,開拓了手機終端、用戶信用指數等多項應用,為企業創造了新的收入來源。(我不了解的工作,沒有發言權)「去年9月國務院印發《促進大數據發展行動綱要》稱,國家政府數據統一開放平台將在2018年底前建成,率先在氣象、環境、信用、交通、醫療、衛生等20餘項重要領域,實現公共數據資源合理適度向社會開放。」「在政府和市場的雙重催動下,那些原本封存在伺服器里的陳年數據,成為一座座蘊藏豐富的「金礦」,興奮的企業和研究人員一邊著手搜尋數據,一邊將有價值數據按需篩選出來重構。然而,能真正做深度挖掘的企業並不多,這一領域正在等待著「殺手級」應用的出現,助推金融、醫療健康、零售業、製造業等各行業產生根本性的變革。」~《大數據的痛點》聯通正經歷著和社會上其他領域一樣的探索過程,首先是完成了自身數據的集中整合,接下來就是考慮外部數據整合和應用的事情。對於聯通而言,外部用戶包括:政府主管部門、資本市場監管和審計機構,有意向的合作夥伴。對外服務合作,特別是收費服務,產品化的要求也就更高。另外,作為一個國企有它必須承擔的社會責任,聯通的大數據應用也許能夠在治理交通擁堵、解決看病難等社會問題、提升居民幸福指數方面發揮點兒自己的作用。各行業的大數據都有同樣的感覺,目前缺少「殺手級」的應用。個人認為,「殺手級」應用首先應該是基於大數據的分析預測能力與個性化需求相結合的結果,比如:高德導航提供每條路的擁堵峰值的預測,用戶輸入出行計劃時,就可以預測到一天甚至一周分時段的擁堵情況,選擇出行時間,而不是已經在路上了,再糾結於選擇哪條路。再比如,最近微信發布的電子發票功能,在為用戶解決實際問題,提高效率的同時,撬動企業級的應用,從個人應用深入到企業內部,讓銀行進一步感覺無力。另外,最近很高興地收到了高德地圖推出的早高峰的預警信息。我想無論怎樣的應用,都要站在親身體驗的角度,問問自己需要的是什麼,再用負責任和踏實的態度,沉下心來把問題解決到最好,就不會被評價成「簡單粗暴」了。4、什麼東西需要系統來實現?~~復制、流程、積累,歸根到底還是積累最近接連幾次有其他部門的朋友跟我抱怨,現在提一張報表的需求需要很長的時間,跟新的同事溝通多次根本不知道我們想要什麼,真是無語。這樣的事情已經是人員變動之後的常態了。小的事情看,無論是市場部的分析人員、信息化部的需求管理人員、廠商的開發人員,換了人,就會出現一段時間「歸零」的狀況。大的事情看,人換了,之前的工作沒有積累,後來的人根本不明白之前工作做到什麼程度了,這項工作似乎也「歸零」了。另一個場景,每個月市場部分析人員獲取數據編寫分析報告,經營分析會開過之後,就「塵埃落定」了。數據部門加班為市場部人員提供的數據及材料,每年都花費了大量的費用。而這些支出到底創造了什麼價值?是不是就是為了領導聽起匯報來賞心悅目?我們真的需要坐下來好好想想了。曾經見過一個市場部的同事,使用Excel做了一個很復雜的模板,就為了把每月的數據匯總成逐月的數據,然後計算同比、環比、構成、繪制趨勢圖,而這些東西,用技術手段很容易實現的。為什麼他們不把這個模板變成系統能力,讓系統幫他?之前曾經有技術弟跟我說,現在懂業務的人才是最有價值的,沒有技術實現不了的事兒,主要是要知道用技術做什麼。再好的技術也要想好了要做什麼,能做什麼。個人認為,系統要做的事情就是復制、流程和積累,人都沒有解決的問題,系統也不可能替你解決。如果你已經擁有成熟的模板,系統就可以把它復制用於各月、全國,在提高效率的同時,避免了人為操作的錯誤。如果你制定了完善的閉環流程,系統就能幫助你嚴格地執行。但是,最最有價值的還是積累,不僅數據應用、流程的積累,還有固化在系統中的「知識」的積累。它幫助後來的人熟悉數據,也不會因為人員的變動讓工作歸零。「積累」,是需要時時刻刻想到的事兒。 上面這張圖,從大數據應用價值、系統能力層次的角度顯示了能力積累的層級,也幫助我們很快地定位到我們目前能夠達到的層級,清楚自己努力的目標。我們是在滿足於提供數據粗加工的原材料,還是已經嵌入到企業的生產環節中,形成了商業合作模式?5、數據專業發展的關鍵是什麼?~~人,還是人。從2008年聯通公司重組到2012年數據中心成立,經過了4年的時間,期間多少艱辛不用多說。(此處略去301個字。)做什麼事兒也離不開人,特別是數據專業,需要一批懂數據、用數據、踏實肯干、耐得住寂寞的人,團隊才是最寶貴的資源。而人才隊伍的建設必須具備的條件包括:(1)支持優勝劣汰的幹部任免制度;(2)支持留住最優質的員工薪酬體系;(3)幫助員工快速成長的有效的培訓交流、知識積累機制;(4)支持我們擁有競爭力的自主開發團隊的薪酬體系;(5)支持我們選擇最優質的合作夥伴的招標流程;(6)合作夥伴意識到自身的不足,專心積累,認真做事,和我們一起成長。6、總結最後,按照「自己的事兒、別人的事兒、老天爺的事兒」的分類方法,說說我們能做點兒什麼「自己的事兒」吧:(1)首先要有穩定的數據管理架構,包括了數據、應用、系統、制度。這樣的架構與公司戰略目標相結合,形成演進路線和年度工作目標,通過年度目標的達成,循序漸進地逐步實現。數據管理架構需要在數據中心內部(集團、省級分公司),以及公司管理層、信息化部內部、其他業務部門之間達成共識,並堅定地、不打折扣地一起去推進實施。(2)明確崗位職責和分工界面(集團、省級分公司),並保持相對穩定,避免「臨時的因事兒設崗」。定期組織員工培訓、溝通,做好知識傳遞、信息共享,年度工作目標在員工層面達成共識,使新來的員工盡快進入新角色。通過專題研究組的形式邀請省公司參與數據的能力建設,調動省公司層面的積極性,養成數據中心人人「看數據、用數據」、「發現問題、解決問題」的良好習慣,做好自我完善、形成有效積累,形成「成長型」數據專業團隊。(3)建立定期的用戶(數據服務對象)溝通制度,主動介紹我們的數據架構和系統能力的提升情況,職責分工及年度工作目標,在用戶層面達成共識。引導用戶更多地使用系統能力並從中獲益,讓用戶真實地感受到效率的提升,並願意和我們一起來積累。(4)多方位整合身邊資源,在完善自身能力、提高方法論、產品化水平等方面與合作夥伴達成共識,共同進步。引進咨詢機構及高校專業人士參與開展綜合指數、客戶指標體系等多項專題研究,提升數據產品化和創新能力。(5)建立一個閉環的工作流程,使相對後端的數據流程參與到企業運營的前端流程中,以便及時反映企業的經營的變化,定期更新指標體系、報表架構及相關應用,避免前後脫節的問題,有效實施數據及應用的生命周期管理。說了這么多,一方面是因為這些年積攢的心裡話不吐不快,另一方面想著這個專業能抓住機會,取得更好的發展成果。想起某位領導多少年前說的那句話~~「有為才有位」。乘著大數據的東風,我們的隊伍已經再次壯大,但是,「理想很豐滿,現實很骨感」,我們更應該意識到差距和肩上的責任,切忌浮躁,要腳踏實地。希望新來的同事們盡快適應,進入角色吧。
Ⅳ 大數據發展方向在於用戶的需求和期望
大數據發展方向在於用戶的需求和期望
大數據技術的主要任務是從內部和外部數據源中找出所需的數據,並對這些數據進行高效快捷的評估,最終提供決策支撐。全球對大數據技術和服務的投資在增長,目前,大數據在美國最為發達,包括德國在內的歐洲地區在這一領域稍顯落後。不過,現在業內人士已經注意到了這一趨勢,各個企業中的IT部門正在感受到發展的壓力。
期望和前提
數據評估和報告在大多數企業中早已不是新鮮事物,只是如今舊的數據評估和報告工具已經無法滿足新的需求:現在的專業人士要求盡量實現數據實時分析,目前的基礎設施、數據結構、解決工具以及商業模式根本無法保質保量地完成這個要求。企業現在面臨兩個選擇:對現有技術進行擴展,或者實現技術升級。大數據技術就是比較理想的新技術。
討論熱點
過去幾年,大數據討論中比較熱的話題是技術問題和數據組織問題。經過幾年的發展,人們對這些問題的理解有了深入發展,又開啟了新的討論話題。現在,專業人士討論的焦點問題是工作量優化,未來關於工作量和新的商業模式的討論還會更多。2011年和2012年大數據的項目比較少,主要以測試安裝為主。預測,今年和明年這一領域會出現大幅增長。對於企業來說,大數據技術既是挑戰,也是機遇。
戰略和解決方案
所以,大數據勢必成為ICT(,信息通信技術)戰略的一部分。數據訪問和融合也變得越來越重要。2013年和2014年人們關注的熱點將從技術轉移到信息查找和知識獲取。「軟體定義」(Softwaredefined)、融合技術、開源軟體及平台是大數據基礎設施建設中最核心的問題。其中,開源軟體與平台還需要經過一個商業適應的過程。許多企業把投資重點放在機器生成數據的實時分析上,因為這可以加快企業的發展。終端用戶希望解決方案可以簡單易操作。要實現應用程序和移動解決方案的可視化和直觀互動,就要實現大數據的「消費化」.因此,由於缺乏大數據分析的方法和技術,許多企業將使用「現成的」解決方案。
市場透明度還不夠
企業還有許多待解答的問題。對於許多IT負責人來說,可衡量的商業收益、數據安全、數據法律以及可使用數據的准確定義這些問題都不夠透明。對於企業來說,數據正在加速成為運作資源和生產要素。要實現從技術到信息和知識獲取的轉變、使用開放源、進行實時分析,企業就要對技能、解決方案和服務投資。許多企業對這一領域了解不多,需要有人為他們解釋技術、組織、法律以及文化方面的問題。
總的來說,企業在獲取大數據技術和分析方面的信息以及咨詢需求都非常大。對於這一領域的ICT供應商和服務商來說,這是一個絕好的發展壯大的機會。要制定正確的市場營銷策略,獲得漂亮的銷售成績,關鍵就在於了解用戶環境中IT和商業決策者的要求和期望。
Ⅳ 現在大數據的發展趨勢
主要有幾點發展趨勢:
一是流式架構的更替,最早大數據生態沒有辦法統一批處理和流計算,只能採用Lambda架構,批的任務用批計算引擎,流式任務採用流計算引擎,比如批處理採用MapRece,流計算採用Storm。後來Spark試圖從批的角度統一流處理和批處理,近年來純流架構的Flink異軍突起,由於其架構設計合理,生態健康,近年來發展特別快。
二是大數據技術的雲化,一方面是公有雲業務的成熟,眾多大數據技術都被搬到了雲上,其運維方式和運行環境都發生了較大變化,帶來計算和存儲資源更加的彈性變化,另一方面,私有部署的大數據技術也逐漸採用容器、虛擬化等技術,期望更加精細化地利用計算資源。
三是異構計算的需求,近年來在通用CPU之外,GPU、FPGA、ASIC等晶元發展迅猛,不同晶元擅長不同的計算任務,大數據技術開始嘗試根據不同任務來調用不同的晶元,提升數據處理的效率。
四是兼容智能類的應用,隨著深度學習的崛起,AI類的應用越來越廣泛,大數據的技術棧在努力兼容AI的能力,通過一站式的能力來做數據分析和AI應用,這樣開發者就能在一個工具站中編寫SQL任務,調用機器學習和深度學習的演算法來訓練模型,完成各類數據分析的任務。
Ⅵ 當下大數據發展的 8 個要點
作者 | 章劍鋒
筆者從 2008 年開始工作到現在也有 11 個年頭了,一路走來都在和數據打交道,做過大數據底層框架內核的開發(Hadoop,Pig,Tez,Spark,Livy),也做過上層大數據應用開發(寫 MapRece Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做數據可視化,用 R 做數據分析)。今天我想藉此機會和大家聊聊我所理解的大數據現狀和未來。
首先讓我們來聊聊什麼是大數據。大數據這個概念已經出來很多年了(超過10年),但一直沒有一個准確的定義(也許也並不需要)。數據工程師(DataEngineer)對大數據的理解會更多從技術和系統的角度去理解,而數據分析人員(Data Analyst)對大數據理解會從產品的角度去理解,所以數據工程師(Data Engineer) 和數據分析人員(Data Analyst)所理解的大數據肯定是有差異的。我所理解的大數據是這樣的,大數據不是單一的一種技術或者產品,它是所有與數據相關的綜合學科。看大數據我會從 2 個維度來看,一個是數據流的維度(下圖的水平軸),另外一個是技術棧的維度(下圖的縱軸)。
其實我一直不太喜歡張口閉口講「大數據」,我更喜歡說「數據」。因為大數據的本質在於「數據」,而不是「大」。由於媒體一直重點宣揚大數據的「大」,所以有時候我們往往會忽然大數據的本質在「數據」,而不是「大」,「大」只是你看到的表相,本質還是數據自身。
在我們講清楚大數據的含義之後,我們來聊聊大數據目前到底處在一個什麼樣的位置。從歷史發展的角度來看,每一項新技術都會經歷下面這樣一個技術成熟度曲線。
當一項新技術剛出來的時候人們會非常樂觀,常常以為這項技術會給人類帶來巨大的變革,對此持有過高的期望,所以這項技術一開始會以非常快的速度受到大家追捧,然後到達一個頂峰,之後人們開始認識到這項新技術並沒有當初預想的那麼具有革命性,然後會過於悲觀,之後就會經歷泡沫階段。等沉寂一定階段之後,人們開始回歸理性,正視這項技術的價值,然後開始正確的應用這項技術,從此這項技術開始走向穩步向前發展的道路。(題外話,筆者在看這幅圖的時候也聯想到了一個男人對婚姻看法的曲線圖,大家自己腦補)。
1、從大數據的歷史來看,大數據已經經歷了 2 個重要階段
兩個重要階段是指過高期望的峰值和泡沫化的底谷期 。現在正處於穩步向前發展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大數據大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然後慢慢走向下降通道(當然這張曲線並不會和上面這張技術成熟度曲線完全擬合,比如技術曲線處在下降通道有可能會使討論這項技術的搜索量增加)。
接下來我想講一下我對大數據領域未來趨勢的幾個判斷。
2、數據規模會繼續擴大,大數據將繼續發揚光
前面已經提到過,大數據已經度過了過高期望的峰值和泡沫化的底谷期,現在正在穩步向前發展。做這樣判斷主要有以下 2 個原因:
上游數據規模會繼續增長,特別是由於 IOT 技術的發展和成熟,以及未來 5G 技術的鋪開。在可預測的未來,數據規模仍將繼續快速增長,這是能夠帶動大數據持續穩定向前發展的基本動力。 下游數據產業還有很多發展的空間,還有很多數據的價值我們沒有挖掘出來。雖然現在人工智慧,區塊鏈搶去了大數據的風口位置,也許大數據成不了未來的主角,但大數據也絕對不是跑龍套的,大數據仍將扮演一個重要而基礎的角色。可以這么說,只要有數據在,大數據就永遠不會過時。我想在大部分人的有生之年,我們都會見證大數據的持續向上發展。
3、數據的實時性需求將更加突出
之前大數據遇到的最大挑戰在於數據規模大(所以大家會稱之為「大數據」),經過工業界多年的努力和實踐,規模大這個問題基本已經解決了。接下來幾年,更大的挑戰在於速度,也就是實時性。而大數據的實時性並不是指簡單的傳輸數據或者處理數據的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大數據系統的實時性。所以大數據的實時性,包括以下幾個方面:
快速獲取和傳輸數據 快速計算處理數據 實時可視化數據 在線機器學習,實時更新機器學習模型目前以 Kafka,Flink 為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支持,相信未來在實時可視化數據以及在線機器學習方面會有更多優秀的產品涌現出來。當大數據的實時性增強之後,在數據消費端會產生更多有價值的數據,從而形成一個更高效的數據閉環,促進整個數據流的良性發展。
4、大數據基礎設施往雲上遷移勢不可擋
目前IT基礎設施往雲上遷移不再是一個大家還需要爭論的問題,這是大勢所趨。當然我這邊說的雲並不單單指公有雲,也包括私有雲,混合雲。因為由於每個企業的業務屬性不同,對數據安全性的要求不同,不可能把所有的大數據設施都部署在公有雲上,但向雲上遷移這是一個未來註定的選擇。目前各大雲廠商都提供了各種各樣的大數據產品以滿足各種用戶需求,包括平台型(PAAS) 的 EMR ,服務型 (SAAS) 的數據可視化產品等等。大數據基礎設施的雲化對大數據技術和產品產生也有相應的影響。大數據領域的框架和產品將更加 Cloud Native 。
計算和存儲的分離。我們知道每個公有雲都有自己對應的分布式存儲,比如 AWS 的 S3 。 S3 在一些場合可以替換我們所熟知的 HDFS ,而且成本更低。而 S3 的物理存儲並不是在 EC2 上面,對 EC2 來說, S3 是 remote storage 。所以如果你要是 AWS 上面做大數據開發和應用,而且你的數據是在 S3 上,那麼你就自然而然用到了計算和存儲的分離。 擁抱容器,與 Kubernate 的整合大勢所趨,我們知道在雲環境中 Kuberneate 基本上已經是容器資源調度的標准。 更具有彈性(Elastic)。 與雲上其他產品和服務整合更加緊密。5、大數據產品全鏈路化
全鏈路化是指提供端到端的全鏈路解決方案,而不是簡單的堆積一些大數據產品組件。以 Hadoop 為代表的大數據產品一直被人詬病的主要問題就是用戶使用門檻過高,二次開發成本太高。全鏈路化就是為了解決這一問題,用戶需要的並不是 Hadoop,Spark,Flink 等這些技術,而是要以這些技術為基礎的能解決業務問題的產品。 Cloudera 的從 Edge 到 AI 是我比較認同的方案。大數據的價值並不是數據本身,而是數據背後所隱藏的對業務有影響的信息和知識。下面是一張摘自 wikipedia 的經典數據金字塔的圖。
大數據技術就是對最原始的數據進行不斷處理加工提煉,金字塔每上去一層,對應的數據量會越小,同時對業務的影響價值會更大更快。而要從數據(Data) 最終提煉出智慧(Wisdom),數據要經過一條很長的數據流鏈路,沒有一套完整的系統保證整條鏈路的高效運轉是很難保證最終從數據中提煉出來有價值的東西的,所以大數據未來產品全鏈路化是另外一個大的趨勢。
6、大數據技術往下游數據消費和應用端轉移
上面講到了大數據的全鏈路發展趨勢,那麼這條長長的數據鏈路目前的狀況是如何,未來又會有什麼樣的趨勢呢?
我的判斷是未來大數據技術的創新和發力會更多的轉移到下游數據消費和應用端。之前十多年大數據的發展主要集中在底層的框架,比如最開始引領大數據風潮的 Hadoop ,後來的計算引擎佼佼者 Spark,Flink 以及消息中間件 Kafka ,資源調度器 Kubernetes 等等,每個細分領域都涌現出了一系列優秀的產品。總的來說,在底層技術框架這塊,大數據領域已經基本打好了基礎,接下來要做的是如何利用這些技術為企業提供最佳用戶體驗的產品,以解決用戶的實際業務問題,或者說未來大數據的側重點將從底層走向上層。之前的大數據創新更偏向於 IAAS 和 PAAS ,未來你將看到更多 SAAS 類型的大數據產品和創新。從近期一些國外廠商的收購案例,我們可以略微看出一些端倪。1、2019 年 6 月 7 日,谷歌宣布以 26 億美元收購了數據分析公司 Looker,並將該公司並入 Google Cloud。2、2019 年 6 月 10 日,Salesforce 宣布以 157 億美元的全股票交易收購 Tableau ,旨在夯實在數據可視化以及幫助企業解讀所使用和所積累的海量數據的其他工具方面的工作。3、2019 年 9 月初,Cloudera 宣布收購 Arcadia Data 。 Arcadia Data 是一家雲原生 AI 驅動的商業智能實時分析廠商。面對最終用戶的大數據產品將是未來大數據競爭的重點,我相信會未來大數據領域的創新也將來源於此,未來 5 年內大概率至少還會再出一個類似 Looker 這樣的公司,但是很難再出一個類似 Spark 的計算引擎。
7、底層技術的集中化和上層應用的全面開花
學習過大數據的人都會感嘆大數據領域的東西真是多,特別是底層技術,感覺學都學不來。經過多年的廝殺和競爭,很多優秀的產品已經脫穎而出,也有很多產品慢慢走向消亡。比如批處理領域的 Spark 引擎基本上已經成為批處理領域的佼佼者,傳統的 MapRece 除了一些舊有的系統,基本不太可能會開發新的 MapRece 應用。 Flink 也基本上成為低延遲流處理領域的不二選擇,原有的 Storm 系統也開始慢慢退出歷史舞台。同樣 Kafka 也在消息中間件領域基本上占據了壟斷地位。未來的底層大數據生態圈中將不再有那麼多的新的技術和框架,每個細分領域都將優勝劣汰,走向成熟,更加集中化。未來更大的創新將更多來來自上層應用或者全鏈路的整合方面。在大數據的上層應用方面未來將會迎來有更多的創新和發展,比如基於大數據上的BI產品, AI 產品等等,某個垂直領域的大數據應用等等,我相信未來我們會看到更多這方面的創新和發展。
8、開源閉源並駕齊驅
大數據領域並不是只有 Hadoop,Spark,Flink 等這類大家耳熟能詳的開源產品,還有很多優秀的閉源產品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。這些產品雖然沒有開源產品那麼受開發者歡迎,但是他們對於很多非互聯網企業來說是非常受歡迎的。因為對於一個企業來說,採用哪種大數據產品有很多因素需要考慮,否開源並不是唯一標准。產品是否穩定,是否有商業公司支持,是否足夠安全,是否能和現有系統整合等等往往是某些企業更需要考慮的東西,而閉源產品往往在這類企業級產品特性上具有優勢。
最近幾年開源產品受公有雲的影響非常大,公有雲可以無償享受開源的成果,搶走了開源產品背後的商業公司很多市場份額,所以最近很多開源產品背後的商業公司開始改變策略,有些甚至修改了 Licence 。不過我覺得公有雲廠商不會殺死那些開源產品背後的商業公司,否則就是殺雞取卵,殺死開源產品背後的商業公司,其實就是殺死開源產品的最大技術創新者,也就是殺死開源產品本身。我相信開源界和公有雲廠商最終會取得一個平衡,開源仍然會是一個主流,仍然會是創新的主力,一些優秀的閉源產品同樣也會占據一定的市場空間。
最後我想再次總結下本文的幾個要點:
1、目前大數據已經度過了最火的峰值期和泡沫化的底谷期,現在正處於穩步向前發展的階段。2、數據規模會繼續擴大,大數據將繼續發揚光大3、 數據的實時性需求將更加突出4、大數據基礎設施往雲上遷移勢不可擋5、大數據產品全鏈路化6、大數據技術往下游數據消費和應用端轉移7、底層技術的集中化和上層應用的全面開花8、開源閉源並駕齊驅
Ⅶ 大數據的生命周期的九個階段
大數據的生命周期的九個階段
企業建立大數據的生命周期應該包括這些部分:大數據組織、評估現狀、制定大數據戰略、數據定義、數據收集、數據分析、數據治理、持續改進。
一、大數據的組織
沒有人,一切都是妄談。大數據生命周期的第一步應該是建立一個專門預算和獨立KPI的「大數據規劃、建設和運營組織」。包括高層的首席數據官,作為sponsor,然後是公司數據管理委員會或大數據執行籌劃指導委員會,再往下就是大數據的項目組或大數據項目組的前身:大數據項目預研究團隊或大數據項目籌備組。這個團隊是今後大數據戰略的制定和實施者的中堅力量。由於人數眾多,建議引入RACI模型來明確所有人的角色和職責。
二、大數據的現狀評估和差距分析
定戰略之前,先要做現狀評估,評估前的調研包括三個方面:一是對外調研:了解業界大數據有哪些最新的發展,行業頂尖企業的大數據應用水平如何?行業的平均尤其是主要競爭對手的大數據應用水準如何?二是對內客戶調研。管理層、業務部門、IT部門自身、我們的最終用戶,對我們的大數據業務有何期望?三是自身狀況摸底,了解自己的技術、人員儲備情況。最後對標,作差距分析,找出gap。
找出gap後,要給出成熟度現狀評估。一般而言,一個公司的大數據應用成熟度可以劃分為四個階段:初始期(僅有概念,沒有實踐);探索期(已經了解基本概念,也有專人進行了探索和探討,有了基本的大數據技術儲備);發展期(已經擁有或正在建設明確的戰略、團隊、工具、流程,交付了初步的成果);成熟期(有了穩定且不斷成熟的戰略、團隊、工具、流程,不斷交付高質量成果)。
三、大數據的戰略
有了大數據組織、知道了本公司大數據現狀、差距和需求,我們就可以制定大數據的戰略目標了。大數據戰略的制定是整個大數據生命周期的靈魂和核心,它將成為整個組織大數據發展的指引。
大數據戰略的內容,沒有統一的模板,但有一些基本的要求:
1. 要簡潔,又要能涵蓋公司內外干係人的需求。
2. 要明確,以便清晰地告訴所有人我們的目標和願景是什麼。
3. 要現實,這個目標經過努力是能達成的。
四、大數據的定義
我認為:「數據不去定義它,你就無法採集它;無法採集它,你就無法分析它;無法分析它,你就無法衡量它;無法衡量它,你就無法控制它;無法控制它,你就無法管理它;無法管理它,你就無法利用它」。所以「在需求和戰略明確之後,數據定義就是一切數據管理的前提」。
五、 數據採集
1. 大數據時代的數據源很廣泛,它們可能來自於三個主要方面:現有公司內部網各應用系統產生的數據(比如辦公、經營生產數據),也有來自公司外互聯網的數據(比如社交網路數據)和物聯網等。
2.大數據種類很多,總的來講可以分為:傳統的結構化數據,大量的非結構化數據(比如音視頻等)。
3. 數據採集、挖掘工具很多。可以基於或集成hadoop的ETL平台、以互動式探索及數據挖掘為代表的數據價值發掘類工具漸成趨勢。
4. 數據採集的原則:在數據源廣泛、數據量巨大、採集挖掘工具眾多的背景下,大數據決策者必須清楚地確定數據採集的原則:「能夠採集到的數據,並不意味著值得或需要去採集它。需要採集的數據和能夠採集到的數據的"交集",才是我們確定要去採集的數據。」
六、數據處理和分析
業界有很多工具能幫助企業構建一個集成的「數據處理和分析平台」。對企業大數據管理者、規劃者來講,關鍵是「工具要滿足平台要求,平台要滿足業務需求,而不是業務要去適應平台要求,平台要去適應廠商的工具要求」。那麼這個集成的平台應該有怎樣的能力構成呢?它應該能檢索、分類、關聯、推送和方便地實施元數據管理等。見下圖:
七、 數據呈現
大數據管理的價值,最終要通過多種形式的數據呈現,來幫助管理層和業務部門進行商業決策。大數據的決策者需要將大數據的系統與BI(商業智能)系統和KM(知識管理)系統集成。下圖就是大數據的各種呈現形式。
八、 審計、治理與控制
1.大數據的審計、治理和控制指的是大數據管理層,組建專門的治理控制團隊,制定一系列策略、流程、制度和考核指標體系,來監督、檢查、協調多個相關職能部門的目標,從而優化、保護和利用大數據,保障其作為一項企業戰略資產真正發揮價值。
2.大數據的治理是IT治理的組成部分,大數據的審計是IT審計的組成部分,這個體系要統籌規劃和實施,而不是割裂的規劃和實施。
3.大數據的審計、治理與控制的核心是數據安全、數據質量和數據效率。
九、 持續改進
基於不斷變化的業務需求和審計與治理中發現的大數據整個生命周期中暴露的問題,引入PDCA等方法論,去不斷優化策略、方法、流程、工具,不斷提升相關人員的技能,從而確保大數據戰略的持續成功!
Ⅷ 大數據生命周期的多個階段分析
大數據生命周期的多個階段分析
如今,各個企業對於大數據的應用都甚為積極,但企業在建立大數據的生命周期時應注意,其中包括了這些部分:大數據組織、評估現狀、制定大數據戰略、數據定義、數據收集、數據分析、數據治理、持續改進這幾方面,下面就來詳細了解下。
大數據的現狀評估和差距分析
在定戰略之前,先要做必要的現狀評估,評估前的調研包括三個方面:一是對外調研:了解業界大數據有哪些最新的發展,行業頂尖企業的大數據應用水平如何?行業的平均尤其是主要競爭對手的大數據應用水準如何?二是對內客戶調研。管理層、業務部門、IT部門自身、我們的最終用戶,對我們的大數據業務有何期望?三是自身狀況摸底,了解自己的技術、人員儲備情況。最後對標,作差距分析,找出gap。找出gap後,要給出成熟度現狀評估。一個公司的大數據應用成熟度可以劃分為四個階段:初始期;探索期;發展期;成熟期。
大數據的發展戰略
有了大數據組織、知道了本公司大數據現狀、差距和需求,企業就可以制定大數據的戰略目標了。大數據戰略的制定是整個大數據生命周期的靈魂和核心,它將成為整個組織大數據發展的指引。大數據戰略的內容,沒有統一的模板,但有一些基本的要求:
要現實,這個目標經過努力是能達成的。
要簡潔,又要能涵蓋公司內外干係人的需求。
要明確,以便清晰地告訴所有人我們的目標和願景是什麼。
對於大數據的定義
如果不對大數據進行定義,你將無法採集到它,你沒法採集它就不能分析它;而不能分析它,你就不能衡量它的價值,既然不能衡量它的價值,你也就無法真正的控制它;如果你不能很好的控制它,那麼你就無法管理並且利用它。在需求和戰略明確之後,數據定義就是一切數據管理的前提。
Ⅸ 大數據的優勢
毫無疑問,各行各業因為大幅爆發的數據而正變得蒸蒸日上。在這10年中,幾乎所有行業都或多或少的受到這 巨變的影響。科技滲透到各個領域,並且已經成為每個處理單元的必要元素。談到IT行業,具體來說,軟體和自動化是較基本的術語,並且用於處理循環的每個階段。
大數據時代」帶來對人們的關鍵性的考驗是如何在爆炸的信息中處理數據,新的數據產生是個很自然的過程,但「處理」是很關鍵的。目前大數據解決信息量爆炸的情況下很多一是數據量大,二是非結構性比較多,像微博、微信是非結構性的。
相較於穩定性而言,企業更關心的是敏捷性和創新性,通過大數據技術,可以幫助公司及時實現這 願望。大數據分析不僅使企業能夠跟隨瞬息萬變的潮流而不斷更新,而且還具有預測未來發展趨勢的能力,使企業占據有競爭力的優勢。
大數據席捲了 ,並帶來了驚人的利益,這 力量無需多說。大數據使IBM、亞馬遜等 公司受益,這些公司通過利用大數據開發 些前沿的技術,為客戶提供高端服務。
「採用大數據,雲計算和移動戰略的企業發展狀況超過沒有採用這些技術的同行53%。」——《福布斯》
在戴爾開展的 項調查中顯示,採用大數據、雲計算以及移動戰略的企業中,優勢更加明顯,也就是,這些企業中有53%採用大數據起步較晚或者尚未採用,在這 結果令人驚訝不已。
雖然大數據尚處於初 階段,但通過在處理過程中,融合這 理念,將為企業贏得50%的利潤。顯然,在如今的商業中,大數據顯現的驚人優勢並不亞於石油或煤炭帶來的利益。
掌握數據能力,開采「暗數據」
著名的咨詢公司Gartner公司對暗數據的定義是「組織在正常業務活動過程中收集、處理和存儲的信息資產,通常不能用於其他目的」。
然而,大數據系統的出現使得這些公司能夠將尚未開拓的數據投入使用,並從中提取有意義的信息。過去沒有被認可或認為毫無用處的數據突然成為公司的財富,這 點令人驚訝不已。通過大數據分析,這些公司可以加快流程,從而降低運營成本。
軟體正在吞噬整個 數據爭奪戰正在打響
我們目前處於數據驅動型經濟中,如果無法分析當前或未來的趨勢,任何組織都無法生存下去。搶奪數據已經成為決定下 步行動方案的關鍵。
客戶逐漸成為所有組織的焦點,對於及時滿足客戶的需求這 任務非常迫切。只有在強大的軟體支持下,業務戰略才有可能會支撐和加速業務運營。這較終促成了強大的大數據技術的需求,可以以許多方式使組織受益。
決策指導 更智能更快速更精準
在這個激烈的競爭時代,人人都想脫穎而出。但問題是如何實現這 期望 雖然公司與競爭對手持有相同的運營模式,但公司應當如何展現其獨 無二 答案在於公司採用的策略。為了表現優於競爭對手,做出良好和智慧決策的能力在每 步中發揮關鍵作用。這些決定不僅應該是好的決定,而且應該盡可能做出又快又明智的決定,使公司能夠在積好的主動出擊。
將大數據分析納入流程的做法揭示了非結構化數據,從而有助於管理者以系統的方式分析其決策,並在需要時採取替代方法。
以用戶為 用戶行為數據是營銷關鍵
現在客戶有機會隨時隨地購物,在相關信息幫助下,對於公司需要做出比之前更敏捷的反應這 要求而言具有更大的挑戰。但是公司將如何不斷地實現這 點呢 答案是藉助「大數據」。客戶動向是不斷變化的,因此營銷人員的策略也應該做出相應調整。通過整合過去和實時數據來評估客戶的品味和喜好,這樣可以使公司採取更快捷的應對措施。
例如,亞馬遜通過利用強大的大數據引擎的能力,從 個以產品為基礎的公司發展成為囊括1.52億客戶在內的大型市場參與者。亞馬遜旨在通過跟蹤客戶的購買趨勢,並為營銷人員提供他們即時需要的所有相關信息,從而來為客戶服務。此外,亞馬遜通過實時監控 15億種產品,成功滿足了客戶的需求。
通過數據倉庫使數據資產變現
這些公司越來越大,因此不同的流程產生不同的數據。資料倉儲中的許多重要信息仍然無法訪問。然而,公司已經能夠使用大數據分析這 武器來挖掘這座大山,讓分析師和工程師深入研究,並提供新穎而又有意義的見解。
經過這番分析,有 件事值得肯定的是,這是 個高度數字化和技術驅動時代的開端,並伴隨著強大的實時大數據分析能力。
更多營銷方式