『壹』 大數據時代三個「關鍵詞」
「十三五」時期,實施國家大數據戰略,就是把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新。落實這一決策部署,要做的工作很多,其中,面向全社會普及大數據常識,既是打基礎的工作,也是必不可少的環節。本文將圍繞大數據時代三個「關鍵詞」,做些必要闡釋。
關鍵詞1
數據化:信息社會的重要標志
數據化有狹義和廣義之分。從狹義看,數據化是指將事物及其運動轉化為可識別信息的過程。從廣義看,數據化是指利用基礎數據全面認知並優化改造客觀世界的過程。數據是一種客觀存在,把這些客觀存在的數據找出來,就是數據化的過程。如何有效獲取數據?其重要手段就是利用大數據,這本身也是數據化的集中體現。
大數據不同於小數據。相對於大數據而言,過去我們熟悉的標准化統計數據就是小數據。大數據之所以在網路時代快速發展,是因為有一系列幕後的推動力量,包括摩爾定律的作用、互聯網與移動互聯網的發展,以及社交網路、感測設備、智能終端、智能製造的出現等,正是這些力量促使了大數據爆發性增長。從種類上看,大數據不僅包括傳統的統計數據,還包括實時、連續發生的交易數據、行為數據、感測數據,等等。其基本特點是多雜碎快。
大數據之所以重要,是因為它能做很多過去的小數據做不了的事情。大數據的作用可以簡單歸納為5個效應:一是識別效應,它可以識別身份、位置、狀態、真假;二是重現效應,它可以再現過去的場景,實現過程的追溯;三是關聯效應,通過對數據的相關分析、聯想分析、聚類分析,可以找出事物之間的聯系;四是溢價效應,大數據的應用可以產生新的數據,有利於發現事物變化的內在規律;五是預測效應,利用大數據可以對經濟、天氣、災害、疾病以及人類的行為進行預測分析。
數據化是信息社會的重要標志。人類經過農業社會、工業社會,現在已經進入了信息社會。信息社會一定是高度信息化的社會,也一定是高度數據化的社會。尤其是大數據技術的出現,使過去不可計量、存儲、分析和共享的很多東西都被數據化了,這標志人類在尋求量化世界的道路上前進了一大步,人們認識世界的能念胡力有了空前提高。就像我們現已熟知的定式、公理、公式,客觀上早就存在,一經被人發現就變得非常有價值,成為我們行動的利器。數據也是這樣,過去我們沒有技術和手段,不能大量發現和捕捉到它。現在我們有了大數據技術,就離發現事物的本質及其變化規律更近了。所以說,有了大數據,所有可以數據化的信息都被數據化了,人類認識和改變世界的能力也就大大提升了。
關鍵詞2
升維:數據化能力決定競爭能力
「升維」一詞來自於科幻作家劉慈欣的小說《三體》。在這里借用這個詞彙想表達的是,人類從農業社會、工業社會到信息社會,就是一個不斷升維的過程。對於農業社會而言,工業社會就是升維。對於工業社會來講,信息社會就是升維。信息社會與工業社會之間的競爭,不是在一個維度,更不在一個層次。
信息革命已經將人類帶進了信息社會。所謂信息社會,就是建立在工業社會之上,全面實現信息化,並體現出以人為本、可持續和包容發展理念的新型社會。今天的中國,正處在重要轉型期。雖然我們面臨許多困難和挑戰,但在創新、協調、綠色、開放、共享的新發展理念引領下,新型工業化、信息化、城鎮化、農業現代化和綠色化進程勢必持續向前。因此,當工業社會升維到信息社會時,我們的城鎮和鄉村也會隨之加快信息化進程。
僅以城市為例,工業化城市升維到信息化城市,而信息化城市的重要標志之一,就是高度數據化。城市的基礎設施、經濟、社會、政務、生活等都將在「升維」的過程中實現高度的數據化。概括地講,就是一切都將「用數據說話,靠數據決策仔沒攔,依數據行動」。信息革命是推動城市數據化的主要動力。我認為,未來的推動力將會來自以下幾個方面:一是信息化,全球經濟發展的推動力;二是網路化,連接一切;三是寬頻化,「極速」寬頻不是夢;四是智能化,智能產品、智能工廠大量涌現;五是服務化,服務環節創造的價值可以佔到90%以上;六是社會化,管理運營的社會化;七是生態化,從價值鏈向生態圈轉型;八是平台化,企業運營、政府治理都將平台化。圍繞上述發展趨勢,決定城市競爭力的核心要素,將包括:數據採集能力、數據處理能力、數據傳播能力、數據利用能力、數據安全能力等。未來城市之間的競爭將體現為數據化能力之間的競爭。
關鍵詞3
數據開放:大數據察豎戰略的突破口
實施國家大數據戰略,關鍵在於推進數據資源開放共享。推進大數據戰略,並不需要政府花錢大量補貼和建立這一領域的新興產業,只需加快政府數據開放共享,就能催生一個重要的新增長點——新型的服務業。建立大數據的基礎設施,可以讓經濟增長潛力迅速迸發出來,這是因為公司可以用這些數據創造價值,進而可能創造新的服務行業。數據已經在那兒了,開放沒有什麼成本,贏得的卻是新的發展機會。
需要說明的是,大數據戰略中的數據開放,與我們常說的信息公開有所不同。以往的信息公開往往是政府將加工好的信息放到網上去,而數據開放則強調開放更多的基礎數據,比如,交通大數據、通信大數據等。讓基礎數據流動起來,才能夠真正釋放其應有的價值,才能夠通過這些數據去整合資源,創造出新的商業模式和新的業態。近年來,霍營北大青鳥發現國內已有不少城市和企業開展了類似的數據開放應用活動,通過數據開放產生經濟和社會價值的實踐,讓人們逐漸認識到數據的價值和數據開放的重要性。總之,信息社會已經來臨,現在的行動,決定未來。
『貳』 當下大數據發展的 8 個要點
作者 | 章劍鋒
筆者從 2008 年開始工作到現在也有 11 個年頭了,一路走來都在和數據打交道,做過大數據底層框架內核的開發(Hadoop,Pig,Tez,Spark,Livy),也做過上層大數據應用開發(寫 MapRece Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做數據可視化,用 R 做數據分析)。今天我想藉此機會和大家聊聊我所理解的大數據現狀和未來。
首先讓我們來聊聊什麼是大數據。大數據這個概念已經出來很多年了(超過10年),但一直沒有一個准確的定義(也許也並不需要)。數據工程師(DataEngineer)對大數據的理解會更多從技術和系統的角度去理解,而數據分析人員(Data Analyst)對大數據理解會從產品的角度去理解,所以數據工程師(Data Engineer) 和數據分析人員(Data Analyst)所理解的大數據肯定是有差異的。我所理解的大數據是這樣的,大數據不是單一的一種技術或者產品,它是所有與數據相關的綜合學科。看大數據我會從 2 個維度來看,一個是數據流的維度(下圖的水平軸),另外一個是技術棧的維度(下圖的縱軸)。
其實我一直不太喜歡張口閉口講「大數據」,我更喜歡說「數據」。因為大數據的本質在於「數據」,而不是「大」。由於媒體一直重點宣揚大數據的「大」,所以有時候我們往往會忽然大數據的本質在「數據」,而不是「大」,「大」只是你看到的表相,本質還是數據自身。
在我們講清楚大數據的含義之後,我們來聊聊大數據目前到底處在一個什麼樣的位置。從歷史發展的角度來看,每一項新技術都會經歷下面這樣一個技術成熟度曲線。
當一項新技術剛出來的時候人們會非常樂觀,常常以為這項技術會給人類帶來巨大的變革,對此持有過高的期望,所以這項技術一開始會以非常快的速度受到大家追捧,然後到達一個頂峰,之後人們開始認識到這項新技術並沒有當初預想的那麼具有革命性,然後會過於悲觀,之後就會經歷泡沫階段。等沉寂一定階段之後,人們開始回歸理性,正視這項技術的價值,然後開始正確的應用這項技術,從此這項技術開始走向穩步向前發展的道路。(題外話,筆者在看這幅圖的時候也聯想到了一個男人對婚姻看法的曲線圖,大家自己腦補)。
1、從大數據的歷史來看,大數據已經經歷了 2 個重要階段
兩個重要階段是指過高期望的峰值和泡沫化的底谷期 。現在正處於穩步向前發展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大數據大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然後慢慢走向下降通道(當然這張曲線並不會和上面這張技術成熟度曲線完全擬合,比如技術曲線處在下降通道有可能會使討論這項技術的搜索量增加)。
接下來我想講一下我對大數據領域未來趨勢的幾個判斷。
2、數據規模會繼續擴大,大數據將繼續發揚光
前面已經提到過,大數據已經度過了過高期望的峰值和泡沫化的底谷期,現在正在穩步向前發展。做這樣判斷主要有以下 2 個原因:
上游數據規模會繼續增長,特別是由於 IOT 技術的發展和成熟,以及未來 5G 技術的鋪開。在可預測的未來,數據規模仍將繼續快速增長,這是能夠帶動大數據持續穩定向前發展的基本動力。 下游數據產業還有很多發展的空間,還有很多數據的價值我們沒有挖掘出來。雖然現在人工智慧,區塊鏈搶去了大數據的風口位置,也許大數據成不了未來的主角,但大數據也絕對不是跑龍套的,大數據仍將扮演一個重要而基礎的角色。可以這么說,只要有數據在,大數據就永遠不會過時。我想在大部分人的有生之年,我們都會見證大數據的持續向上發展。
3、數據的實時性需求將更加突出
之前大數據遇到的最大挑戰在於數據規模大(所以大家會稱之為「大數據」),經過工業界多年的努力和實踐,規模大這個問題基本已經解決了。接下來幾年,更大的挑戰在於速度,也就是實時性。而大數據的實時性並不是指簡單的傳輸數據或者處理數據的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大數據系統的實時性。所以大數據的實時性,包括以下幾個方面:
快速獲取和傳輸數據 快速計算處理數據 實時可視化數據 在線機器學習,實時更新機器學習模型目前以 Kafka,Flink 為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支持,相信未來在實時可視化數據以及在線機器學習方面會有更多優秀的產品涌現出來。當大數據的實時性增強之後,在數據消費端會產生更多有價值的數據,從而形成一個更高效的數據閉環,促進整個數據流的良性發展。
4、大數據基礎設施往雲上遷移勢不可擋
目前IT基礎設施往雲上遷移不再是一個大家還需要爭論的問題,這是大勢所趨。當然我這邊說的雲並不單單指公有雲,也包括私有雲,混合雲。因為由於每個企業的業務屬性不同,對數據安全性的要求不同,不可能把所有的大數據設施都部署在公有雲上,但向雲上遷移這是一個未來註定的選擇。目前各大雲廠商都提供了各種各樣的大數據產品以滿足各種用戶需求,包括平台型(PAAS) 的 EMR ,服務型 (SAAS) 的數據可視化產品等等。大數據基礎設施的雲化對大數據技術和產品產生也有相應的影響。大數據領域的框架和產品將更加 Cloud Native 。
計算和存儲的分離。我們知道每個公有雲都有自己對應的分布式存儲,比如 AWS 的 S3 。 S3 在一些場合可以替換我們所熟知的 HDFS ,而且成本更低。而 S3 的物理存儲並不是在 EC2 上面,對 EC2 來說, S3 是 remote storage 。所以如果你要是 AWS 上面做大數據開發和應用,而且你的數據是在 S3 上,那麼你就自然而然用到了計算和存儲的分離。 擁抱容器,與 Kubernate 的整合大勢所趨,我們知道在雲環境中 Kuberneate 基本上已經是容器資源調度的標准。 更具有彈性(Elastic)。 與雲上其他產品和服務整合更加緊密。5、大數據產品全鏈路化
全鏈路化是指提供端到端的全鏈路解決方案,而不是簡單的堆積一些大數據產品組件。以 Hadoop 為代表的大數據產品一直被人詬病的主要問題就是用戶使用門檻過高,二次開發成本太高。全鏈路化就是為了解決這一問題,用戶需要的並不是 Hadoop,Spark,Flink 等這些技術,而是要以這些技術為基礎的能解決業務問題的產品。 Cloudera 的從 Edge 到 AI 是我比較認同的方案。大數據的價值並不是數據本身,而是數據背後所隱藏的對業務有影響的信息和知識。下面是一張摘自 wikipedia 的經典數據金字塔的圖。
大數據技術就是對最原始的數據進行不斷處理加工提煉,金字塔每上去一層,對應的數據量會越小,同時對業務的影響價值會更大更快。而要從數據(Data) 最終提煉出智慧(Wisdom),數據要經過一條很長的數據流鏈路,沒有一套完整的系統保證整條鏈路的高效運轉是很難保證最終從數據中提煉出來有價值的東西的,所以大數據未來產品全鏈路化是另外一個大的趨勢。
6、大數據技術往下游數據消費和應用端轉移
上面講到了大數據的全鏈路發展趨勢,那麼這條長長的數據鏈路目前的狀況是如何,未來又會有什麼樣的趨勢呢?
我的判斷是未來大數據技術的創新和發力會更多的轉移到下游數據消費和應用端。之前十多年大數據的發展主要集中在底層的框架,比如最開始引領大數據風潮的 Hadoop ,後來的計算引擎佼佼者 Spark,Flink 以及消息中間件 Kafka ,資源調度器 Kubernetes 等等,每個細分領域都涌現出了一系列優秀的產品。總的來說,在底層技術框架這塊,大數據領域已經基本打好了基礎,接下來要做的是如何利用這些技術為企業提供最佳用戶體驗的產品,以解決用戶的實際業務問題,或者說未來大數據的側重點將從底層走向上層。之前的大數據創新更偏向於 IAAS 和 PAAS ,未來你將看到更多 SAAS 類型的大數據產品和創新。從近期一些國外廠商的收購案例,我們可以略微看出一些端倪。1、2019 年 6 月 7 日,谷歌宣布以 26 億美元收購了數據分析公司 Looker,並將該公司並入 Google Cloud。2、2019 年 6 月 10 日,Salesforce 宣布以 157 億美元的全股票交易收購 Tableau ,旨在夯實在數據可視化以及幫助企業解讀所使用和所積累的海量數據的其他工具方面的工作。3、2019 年 9 月初,Cloudera 宣布收購 Arcadia Data 。 Arcadia Data 是一家雲原生 AI 驅動的商業智能實時分析廠商。面對最終用戶的大數據產品將是未來大數據競爭的重點,我相信會未來大數據領域的創新也將來源於此,未來 5 年內大概率至少還會再出一個類似 Looker 這樣的公司,但是很難再出一個類似 Spark 的計算引擎。
7、底層技術的集中化和上層應用的全面開花
學習過大數據的人都會感嘆大數據領域的東西真是多,特別是底層技術,感覺學都學不來。經過多年的廝殺和競爭,很多優秀的產品已經脫穎而出,也有很多產品慢慢走向消亡。比如批處理領域的 Spark 引擎基本上已經成為批處理領域的佼佼者,傳統的 MapRece 除了一些舊有的系統,基本不太可能會開發新的 MapRece 應用。 Flink 也基本上成為低延遲流處理領域的不二選擇,原有的 Storm 系統也開始慢慢退出歷史舞台。同樣 Kafka 也在消息中間件領域基本上占據了壟斷地位。未來的底層大數據生態圈中將不再有那麼多的新的技術和框架,每個細分領域都將優勝劣汰,走向成熟,更加集中化。未來更大的創新將更多來來自上層應用或者全鏈路的整合方面。在大數據的上層應用方面未來將會迎來有更多的創新和發展,比如基於大數據上的BI產品, AI 產品等等,某個垂直領域的大數據應用等等,我相信未來我們會看到更多這方面的創新和發展。
8、開源閉源並駕齊驅
大數據領域並不是只有 Hadoop,Spark,Flink 等這類大家耳熟能詳的開源產品,還有很多優秀的閉源產品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。這些產品雖然沒有開源產品那麼受開發者歡迎,但是他們對於很多非互聯網企業來說是非常受歡迎的。因為對於一個企業來說,採用哪種大數據產品有很多因素需要考慮,否開源並不是唯一標准。產品是否穩定,是否有商業公司支持,是否足夠安全,是否能和現有系統整合等等往往是某些企業更需要考慮的東西,而閉源產品往往在這類企業級產品特性上具有優勢。
最近幾年開源產品受公有雲的影響非常大,公有雲可以無償享受開源的成果,搶走了開源產品背後的商業公司很多市場份額,所以最近很多開源產品背後的商業公司開始改變策略,有些甚至修改了 Licence 。不過我覺得公有雲廠商不會殺死那些開源產品背後的商業公司,否則就是殺雞取卵,殺死開源產品背後的商業公司,其實就是殺死開源產品的最大技術創新者,也就是殺死開源產品本身。我相信開源界和公有雲廠商最終會取得一個平衡,開源仍然會是一個主流,仍然會是創新的主力,一些優秀的閉源產品同樣也會占據一定的市場空間。
最後我想再次總結下本文的幾個要點:
1、目前大數據已經度過了最火的峰值期和泡沫化的底谷期,現在正處於穩步向前發展的階段。2、數據規模會繼續擴大,大數據將繼續發揚光大3、 數據的實時性需求將更加突出4、大數據基礎設施往雲上遷移勢不可擋5、大數據產品全鏈路化6、大數據技術往下游數據消費和應用端轉移7、底層技術的集中化和上層應用的全面開花8、開源閉源並駕齊驅
『叄』 大數據未來的發展前景怎麼樣
2015年左右,大數據相關政策規劃密集出台,同期為大數據企業新增數量頂峰時期。近年來,我國大數據產業迎來新的發展機遇期,產業規模日趨成熟。大數據產業主體從「硬」設施向「軟」服務轉變的態勢將更加明顯,面向金融、政務、電信、醫療等領域的大數據服務將實現倍增創新。
大數據企業數量持續增長,增速與政策出台密切相關
根據IT桔子統計,大數據企業的快速增長階段出現在2013-2015年,增長速度在2015年達到最高峰。2015年後,市場日趨成熟,企業新增開始趨於放緩,大數據產業逐漸走向成熟。
—— 更多數據及分析請參考前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》。
『肆』 大數據的發展趨勢是怎樣的
2018年中國大數據產業規模分析預測
據前瞻產業研究院發布的《大數據產業發展前景與投資戰略規劃分析報告》統計數據顯示,截止到2017年中國大數據產業規模為3820.4億元。預計2018年中國大數據產業規模將達4974.2億元。隨著智慧城市、數字經濟、新舊動能轉換、轉型升級等概念持續引領產業增長,預計到了2020年中國大數據產業規模將超8000億元,達到了8354.7億元。
2015-2020年中國大數據產業規模統計情況及預測
數據來源:前瞻產業研究院整理
我國大數據產業發展展望分析
1、大數據政策體系持續完善。從2014年至今我國涉及到大數據發展與應用的國家政策規定已多達63個,其中國家大數據發展頂層設計1個,國家層面頂層規劃4個,重點行業領域發展應用31個,重點工作推進25個,重點區域發展2個。大數據戰略已上升為國家戰略高度,各部委從戰略規劃、技術能力提升、應用與管理三個層面積極落實推進大數據發展政策。
2、大數據產業生態正在形成。大量的異質性企業,藉助大數據互相依存,形成了共生、再生、乃至互生的價值循環體系。不同的行業,形成業務交叉、數據通聯、運營協同的產業融合機制。不同的經濟主體,藉助大數據,形成跨地域、跨行業、跨系統的社會協同平台。
具備新型的「價值循環體系」、「產業融合機制」、「社會協同平台」屬性的業態,稱之為產業生態。產業生態在數字經濟中,是一個基礎的經濟單元。無數個經濟單元疊加、化合,構成數字經濟。
大數據驅動的產業生態,與以往不同,離散的「生產單元」之間的數據融合,成為產業生態的核心,是和過去以「消費」為主導的互聯網經濟發展模式,形成鮮明的對比。這是數字重組產業的開端。
3、大數據技術體系多元發展。大數據產業是一個典型的技術密集型產業,隨著數據資源量的不斷增加,大數據技術也呈現著多元發展的勢頭。但是大數據帶來的技術方面的挑戰,遠遠不止於處理工具,事實上對傳統的網路結構、計算模型、安全體系,提出了全方位的課題。
主要包括以下幾個方面:一是數據處理能力不斷提升,網路承載能力要滿足「數據摩爾定律」的需要(數據摩爾定律,指數據在未來18個月內,數據量將增加一倍)。二是安全可控體系不斷完善,需要建立自主可控的安全防護體系、身份識別體系。必須在網路空間實現4W的機制,在網路空間中,安全能力必須能夠對任何一個單體,掌握「在任何時間、任何地點的狀態」的數據。三是跨領域的建模技術發展迅速,需要參考仿生學、腦科學,建立起「社會計算」的模型,構建「智能大腦」,應對日益增長的海量數據和多方面、多層次應用需求。
4、創新型的大數據公司茁壯成長。在政策、技術和產業生態等多方面利好的推動下,近幾年來,大數據創業公司不斷涌現,得到不少風投機構的追逐。2010年以來,大數據領域成功融資的企業數量逐年增加,2014年進入爆發期,環比上升193.55%,2015年以來持續穩步增長,2016年獲得融資的企業數量達到400多家。2017年大數據產業資本依舊瘋狂,經過前瞻產業研究院初步統計,2017年前三個月便有150多家企業獲得融資,大數據領域持續獲得資本市場的高度青睞,其中數據挖掘與分析、行業化應用(如醫療、金融、旅遊等)和垂直化應用(如智能營銷、業務管理、移動開發服務等)三個方向最受資本關注。大數據領域的創新、創業欣欣向榮,給國家大數據戰略順利實施,奠定了人才基礎、技術基礎。
『伍』 大數據未來的發展前景怎麼樣呢
從我國數據產量和存量來看,廣東、北京、浙江、江蘇、上海、等地區數據資源較為豐富,東部地區數據產量和存量均高於西部地區。從省際數據流量來看,東部地區月均互聯網省際出口總流量佔全國比重超過一半。
在以北上廣為代表的東部地區數據資源豐富的背景下,其大數據產業發展水平快於其他地區省份。其中,北上廣大數據企業數量佔全國比重近70%,廣東和北京大數據發展水平較高。
東部地區數據產量整體高於西部,省際數據流量遠高於其他地區
2019年,我國數據產量總規模為3.9ZB。從數據產量的地區分布看,2019年全國數據產量排名前十位的省份為廣東、北京、浙江、江蘇、上海、山東、四川、河南、河北和湖南。
從人均數據產量來看,2019年人均數據產量排名前十位的省份分別是北京、上海、浙江、天津、廣東、內蒙古、西藏、海南、江蘇和遼寧。整體來看,東部地區數據產量和人均數據產量均高於西部地區。
—— 更多數據來請參考前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》
『陸』 我國的大數據發展現狀如何
我國大數據產業開始已進入深化階段
中國大數據產業從萌芽到如今漸成體系,已走過將近10個年頭。「十四五」開局之年,大數據產業也進入了集成創新、深度應用的新階段。大數據在醫療、工業、交通等領域的融合應用技術加快創新突破,大數據融合應用重點從虛擬經濟轉變為實體經濟;大數據底層技術方面,信息安全、模式識別、語言工程、計算機輔助設計、高性能計算等加快突破,大數據技術領域逐漸補齊短板,並進一步強化長板。
—— 更多本行業研究分析詳見前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》
『柒』 大數據科學新發展展望 四大趨勢不可阻擋
大數據科學新發展展望:四大趨勢不可阻擋但無論技術熱點如何變換,我們能看到的是,隨著行業沉下心來進行實質的落地,大數據生態也越來越細分。今天就我和大家來談談大數據領域的一些新變化、新趨勢。就發展趨勢而言,這個可以放在第一位來講講。多年來,數據已經在企業中不斷快速積累。物聯網(IoT) 更是不斷加速數據的生成。對於許多企業來說,大數據的解決方案就是利用類似於開源的Apache Hadoop等技術作為基礎支持,創建數據湖(DataLake),即創建整個企業的數據管理平台,用於以本機格式存儲企業的所有數據。數據湖將通過提供一個單一的數據存儲庫來消除信息孤島,整個組織都可以使用該存儲庫來進行業務分析、數據挖掘等各種應用。當有了數據湖之後,大家會傾向於認為這東西將會成為一個全方位和萬能的大數據集,例如點擊流數據、物聯網數據、日誌數據等都會被要求進入這個湖中,而這些數據很難處理的問題卻會被忽略。但是,除非你知道數據湖裡具體有什麼,並且能夠訪問到合適的數據進行分析,否則數據湖再大也沒有意義。因此,最後大家都會意識到許多數據湖是表現不佳的資源,人們不知道其中存儲著什麼內容,如何進行訪問,或者如何從這些數據中獲取洞察力。但是,方便地找到想要的東西、同時管理好許可權並不容易。除了數據湖以外,治理的另一個主題是以安全的、可審計的方式為任何人提供對可靠數據的便捷訪問。所以,站在管理並使用好公司數據資產的角度而言,數據治理猶如公司的頂層制度和宣言一樣需要被重視,並且用相應的策略、流程等來進行落實。最終目的是通過實現數據治理,來提升數據管理、確保數據質量、形成開放共享的新局面等。此外,數據治理也是決策、職能以及操作流程有機組合的系統,並且人們對這些數據資產承擔責任。在大多數大型企業里,大數據的採用是從少數獨立項目開始的,個推也是如此:譬如這里做一點Hadoop集群,那裡用一用分析工具,跑一個簡單業務模型,以及意識到需要設立一些新的職位(數據科學家、首席數據官)等等。現在,業務場景越來越豐富,異質性也越來越突出,各種各樣的工具在整個企業范圍內得到了使用。在公司的組織范圍內,集中化的「數據科學部門」正在逐漸讓位於更加去中心化的組織,原因在於集中化的部門越來越走向瓶頸,也更容易造成資源的流失。這個由數據科學家、數據工程師以及數據分析師組成的群體,正日益嵌入到不同的業務部門里。因此,對於平台來說需求已經很明顯了,那就是要讓一切都能協作到一起來,因為大數據的成功正是建立在設立一條由技術、人以及流程組成的裝配線基礎之上的。因此,一些全新的協作平台類型(譬如Jupyter等)正在加快出現,引領著所謂的DataOps(與DevOps對應)領域的發展。數據科學家(DataScientist)依然是市場上炙手可熱的爭奪對象。但是我們在周圍卻很少見到這類人,哪怕是財富前1000強的公司也為無法招到更多「數據科學家」而感到困擾。而在一些組織里,數據科學部門正在從使能者演變為瓶頸。與此同時,AI的大眾化以及自服務工具的蔓延使得數據科學技能有限的數據工程師,甚至是數據分析師在執行一些基本操作時變得更加容易了,而這些操作直到最近仍然是數據科學家的領地。在自動化工具的幫助下,企業大量的大數據工作,尤其是那些簡單枯燥的工作,將由數據工程師和數據分析師進行處理,而不必麻煩有著深厚技術技能的數據科學家。當然,即便如此,數據科學家目前還不需要太過「恐懼」。在可預見的未來里,自服務工具和自動化模型將會「增強」數據科學家而不是消滅他們,會解放他們,讓他們把焦點放在需要判斷、創造力、社會化技能或者需要垂直行業知識的任務上,那樣才能更加體現科學家的名號。大數據管理員(BDA)也對標於資料庫管理員(DBA),雖然兩個英文字母只是變換了一下順序,但是其內涵相差甚遠。一個非常明顯的趨勢是,企業將對一個新崗位角色產生需求,即大數據管理員。DBA大家已經非常熟悉,但它與大數據時代下的數據管理員,有非常大的差別。數據管理員處於數據使用者和數據工程師之間。為了取得成功,數據管理員在進行大數據系統的維護工作之外,還必須了解數據的含義以及掌握應用於數據中的一些技術。數據管理員需要清楚整個組織內需要執行的數據分析類型,哪些數據集非常適用於這項工作,以及如何將數據從原始狀態轉換為數據使用者執行這項工作所需的形態和形式。數據管理員應使用像自助服務數據平台這樣的系統來加快數據使用者訪問基本數據集的端到端流程,而無需製作無數的數據副本。以上四個方面是數據科學在實踐發展中提出的新需求,誰能在這些方面得到好的成績,誰便會在這個大數據時代取得領先的位置。從2012年開始,幾乎人人(至少是互聯網界)言必稱大數據,似乎不和大數據沾點邊都不好意思和別人聊天。從2016年開始,大數據系統逐步開始在企業中進入部署階段,大數據的炒作逐漸散去,隨之而來的是應用的蓬勃發展期,一些代表成熟技術的標志性IPO在國內外資本市場也不斷出現。轉眼間,大數據幾年前經歷的泡沫正在無可爭議地轉移到人工智慧身上。可以說,在過去的一年,AI所經歷的共同意識「大爆炸」與當年的大數據相比,有過之而無不及。最近風口又轉移到區塊鏈上了,某種程度上也成為業內人士焦慮的一種誘因了。