① 大數據三大核心技術:拿數據、算數據、賣數據!
大數據的由來
對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
1
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大數據的應用領域
大數據無處不在,大數據應用於各個行業,包括金融、 汽車 、餐飲、電信、能源、體能和 娛樂 等在內的 社會 各行各業都已經融入了大數據的印跡。
製造業,利用工業大數據提升製造業水平,包括產品故障診斷與預測、分析工藝流程、改進生產工藝,優化生產過程能耗、工業供應鏈分析與優化、生產計劃與排程。
金融行業,大數據在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。
汽車 行業,利用大數據和物聯網技術的無人駕駛 汽車 ,在不遠的未來將走入我們的日常生活。
互聯網行業,藉助於大數據技術,可以分析客戶行為,進行商品推薦和針對性廣告投放。
電信行業,利用大數據技術實現客戶離網分析,及時掌握客戶離網傾向,出台客戶挽留措施。
能源行業,隨著智能電網的發展,電力公司可以掌握海量的用戶用電信息,利用大數據技術分析用戶用電模式,可以改進電網運行,合理設計電力需求響應系統,確保電網運行安全。
物流行業,利用大數據優化物流網路,提高物流效率,降低物流成本。
城市管理,可以利用大數據實現智能交通、環保監測、城市規劃和智能安防。
體育 娛樂 ,大數據可以幫助我們訓練球隊,決定投拍哪種 題財的 影視作品,以及預測比賽結果。
安全領域,政府可以利用大數據技術構建起強大的國家安全保障體系,企業可以利用大數據抵禦網路攻擊,警察可以藉助大數據來預防犯罪。
個人生活, 大數據還可以應用於個人生活,利用與每個人相關聯的「個人大數據」,分析個人生活行為習慣,為其提供更加周到的個性化服務。
大數據的價值,遠遠不止於此,大數據對各行各業的滲透,大大推動了 社會 生產和生活,未來必將產生重大而深遠的影響。
大數據方面核心技術有哪些?
大數據技術的體系龐大且復雜,基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數據處理框架,主要分為下面幾個方面:數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。
數據採集與預處理
對於各種來源的數據,包括移動互聯網數據、社交網路的數據等,這些結構化和非結構化的海量數據是零散的,也就是所謂的數據孤島,此時的這些數據並沒有什麼意義,數據採集就是將這些數據寫入數據倉庫中,把零散的數據整合在一起,對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、資料庫日誌的採集、關系型資料庫的接入和應用程序的接入等。在數據量比較小的時候,可以寫個定時的腳本將日誌寫入存儲系統,但隨著數據量的增長,這些方法無法提供數據安全保障,並且運維困難,需要更強壯的解決方案。
Flume NG
Flume NG作為實時日誌收集系統,支持在日誌系統中定製各類數據發送方,用於收集數據,同時,對數據進行簡單處理,並寫到各種數據接收方(比如文本,HDFS,Hbase等)。Flume NG採用的是三層架構:Agent層,Collector層和Store層,每一層均可水平拓展。其中Agent包含Source,Channel和 Sink,source用來消費(收集)數據源到channel組件中,channel作為中間臨時存儲,保存所有source的組件信息,sink從channel中讀取數據,讀取成功之後會刪除channel中的信息。
NDC
Logstash
Logstash是開源的伺服器端數據處理管道,能夠同時從多個來源採集數據、轉換數據,然後將數據發送到您最喜歡的 「存儲庫」 中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇,可以在同一時間從眾多常用的數據來源捕捉事件,能夠以連續的流式傳輸方式,輕松地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。
Sqoop
Sqoop,用來將關系型資料庫和Hadoop中的數據進行相互轉移的工具,可以將一個關系型資料庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中,也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapRece 作業(極其容錯的分布式並行計算)來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。
流式計算
流式計算是行業研究的一個熱點,流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析,可以對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋,目前大數據流分析工具有很多,比如開源的strom,spark streaming等。
Strom集群結構是有一個主節點(nimbus)和多個工作節點(supervisor)組成的主從結構,主節點通過配置靜態指定或者在運行時動態選舉,nimbus與supervisor都是Storm提供的後台守護進程,之間的通信是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集群上運行的topology(包括topology的發布、任務指派、事件處理時重新指派任務等)。supervisor進程等待nimbus分配任務後生成並監控worker(jvm進程)執行任務。supervisor與worker運行在不同的jvm上,如果由supervisor啟動的某個worker因為錯誤異常退出(或被kill掉),supervisor會嘗試重新生成新的worker進程。
Zookeeper
Zookeeper是一個分布式的,開放源碼的分布式應用程序協調服務,提供數據同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置,那麼對這個地方的配置感興趣的所有的都可以獲得變更,省去了手動拷貝配置的繁瑣,還很好的保證了數據的可靠和一致性,同時它可以通過名字來獲取資源或者服務的地址等信息,可以監控集群中機器的變化,實現了類似於心跳機制的功能。
數據存儲
Hadoop作為一個開源的框架,專為離線和大規模數據分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用於數據存儲。
HBase
HBase,是一個分布式的、面向列的開源資料庫,可以認為是hdfs的封裝,本質是數據存儲、NoSQL資料庫。HBase是一種Key/Value系統,部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用伺服器,來增加計算和存儲能力。
Phoenix
Phoenix,相當於一個Java中間件,幫助開發工程師能夠像使用JDBC訪問關系型資料庫一樣訪問NoSQL資料庫HBase。
Yarn
Yarn是一種Hadoop資源管理器,可為上層應用提供統一的資源管理和調度,它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成:一個全局的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。
Mesos
Mesos是一款開源的集群管理軟體,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。
Redis
Redis是一種速度非常快的非關系資料庫,可以存儲鍵與5種不同類型的值之間的映射,可以將存儲在內存的鍵值對數據持久化到硬碟中,使用復制特性來擴展性能,還可以使用客戶端分片來擴展寫性能。
Atlas
Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來,Atlas相當於連接它的客戶端,在前端應用看來,Atlas相當於一個DB。Atlas作為服務端與應用程序通訊,它實現了MySQL的客戶端和服務端協議,同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節,同時為了降低MySQL負擔,它還維護了連接池。Atlas啟動後會創建多個線程,其中一個為主線程,其餘為工作線程。主線程負責監聽所有的客戶端連接請求,工作線程只監聽主線程的命令請求。
Ku
Ku是圍繞Hadoop生態圈建立的存儲引擎,Ku擁有和Hadoop生態圈共同的設計理念,它運行在普通的伺服器上、可分布式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎,可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Ku不但提供了行級的插入、更新、刪除API,同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲,既可以進行隨機讀寫,也可以滿足數據分析的要求。Ku的應用場景很廣泛,比如可以進行實時的數據分析,用於數據可能會存在變化的時序數據應用等。
在數據存儲過程中,涉及到的數據表都是成千上百列,包含各種復雜的Query,推薦使用列式存儲方法,比如parquent,ORC等對數據進行壓縮。Parquet 可以支持靈活的壓縮選項,顯著減少磁碟上的存儲。
數據清洗
MapRece作為Hadoop的查詢引擎,用於大規模數據集的並行計算,」Map(映射)」和」Rece(歸約)」,是它的主要思想。它極大的方便了編程人員在不會分布式並行編程的情況下,將自己的程序運行在分布式系統中。
隨著業務數據量的增多,需要進行訓練和清洗的數據會變得越來越復雜,這個時候就需要任務調度系統,比如oozie或者azkaban,對關鍵任務進行調度和監控。
Oozie
Oozie是用於Hadoop平台的一種工作流調度引擎,提供了RESTful API介面來接受用戶的提交請求(提交工作流作業),當提交了workflow後,由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業),然後向Oozie提交Workflow,Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當調用Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因,用戶程序不必等待作業執行完成(因為有些大作業可能會執行很久(幾個小時甚至幾天))。Oozie在後台以非同步方式,再將workflow對應的Action提交給hadoop執行。
Azkaban
Azkaban也是一種工作流的控制引擎,可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、認證、調度以及對工作流執行過程中的監控等;Azkaban Executor Server用來調度工作流和任務,記錄工作流或者任務的日誌。
流計算任務的處理平台Sloth,是網易首個自研流計算平台,旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平台,其特點是易用、實時、可靠,為用戶節省技術方面(開發、運維)的投入,幫助用戶專注於解決產品本身的流計算需求
數據查詢分析
Hive
Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結構化的數據映射為一張資料庫表,並提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數據,它完全依賴於HDFS和MapRece。可以將Hive理解為一個客戶端工具,將SQL操作轉換為相應的MapRece jobs,然後在hadoop上面運行。Hive支持標準的SQL語法,免去了用戶編寫MapRece程序的過程,它的出現可以讓那些精通SQL技能、但是不熟悉MapRece 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規模數據集上很方便地利用SQL 語言查詢、匯總、分析數據。
Hive是為大數據批量處理而生的,Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大數據處理上的瓶頸 。Hive 將執行計劃分成map->shuffle->rece->map->shuffle->rece…的模型。如果一個Query會被編譯成多輪MapRece,則會有更多的寫中間結果。由於MapRece執行框架本身的特點,過多的中間過程會增加整個Query的執行時間。在Hive的運行過程中,用戶只需要創建表,導入數據,編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。
Impala
Impala是對Hive的一個補充,可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop,用來進行大數據實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大數據,同時數據也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapRece批處理,而是通過使用與商用並行關系資料庫中類似的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據,從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹,而不是一連串的MapRece任務,相比Hive沒了MapRece啟動時間。
Hive 適合於長時間的批處理查詢分析,而Impala適合於實時互動式SQL查詢,Impala給數據人員提供了快速實驗,驗證想法的大數據分析工具,可以先使用Hive進行數據轉換處理,之後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來說:Impala把執行計劃表現為一棵完整的執行計劃樹,可以更自然地分發執行計劃到各個Impalad執行查詢,而不用像Hive那樣把它組合成管道型的map->rece模式,以此保證Impala有更好的並發性和避免不必要的中間sort與shuffle。但是Impala不支持UDF,能處理的問題有一定的限制。
Spark
Spark擁有Hadoop MapRece所具有的特點,它將Job中間輸出結果保存在內存中,從而不需要讀取HDFS。Spark 啟用了內存分布數據集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。
Nutch
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬蟲。
Solr
Solr用Java編寫、運行在Servlet容器(如Apache Tomcat或Jetty)的一個獨立的企業級搜索應用的全文搜索伺服器。它對外提供類似於Web-service的API介面,用戶可以通過http請求,向搜索引擎伺服器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請求,並得到XML格式的返回結果。
Elasticsearch
Elasticsearch是一個開源的全文搜索引擎,基於Lucene的搜索伺服器,可以快速的儲存、搜索和分析海量的數據。設計用於雲計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。
還涉及到一些機器學習語言,比如,Mahout主要目標是創建一些可伸縮的機器學習演算法,供開發人員在Apache的許可下免費使用;深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟體庫TensorFlow等,常用的機器學習演算法比如,貝葉斯、邏輯回歸、決策樹、神經網路、協同過濾等。
數據可視化
對接一些BI平台,將分析得到的數據進行可視化,用於指導決策服務。主流的BI平台比如,國外的敏捷BI Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數等。
在上面的每一個階段,保障數據的安全是不可忽視的問題。
基於網路身份認證的協議Kerberos,用來在非安全網路中,對個人通信以安全的手段進行身份認證,它允許某實體在非安全網路環境下通信,向另一個實體以一種安全的方式證明自己的身份。
控制許可權的ranger是一個Hadoop集群許可權框架,提供操作、監控、管理復雜的數據許可權,它提供一個集中的管理機制,管理基於yarn的Hadoop生態圈的所有數據許可權。可以對Hadoop生態的組件如Hive,Hbase進行細粒度的數據訪問控制。通過操作Ranger控制台,管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、資料庫、表、欄位許可權。這些策略可以為不同的用戶和組來設置,同時許可權可與hadoop無縫對接。
簡單說有三大核心技術:拿數據,算數據,賣數據。
② 大數據有哪些重要的作用
主要由以下三點作用:
第一,對大數據的處理分析正成為新一代信息技術融合應用的結點。移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。
第二,大數據是信息產業持續高速增長的新引擎。面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。
第三,大數據利用將成為提高核心競爭力的關鍵因素。各行各業的決策正在從「業務驅動」 轉變「數據驅動」。
③ 大數據未來的前景怎麼樣
大數據行業發展前景十分的好,比如現在很多的人工智慧也需要大數據技術的支持,沒有大數據的支持,人工智慧將無法智能,這將進一步擴大大數據人才的缺口。
並且大數據自身就能夠打造出龐大的價值空間,隨著大數據應用於各行各業,並改變著各行各業,同時也引領大數據人才的變革,在國家及當地政府支持下,大數據在快速發展。
廣大的學生群體、跨行就業、在職提升等人群都想進入大數據行業,但是又比較擔心大數據的就業前景不好,因此大數據的就業前景備受大家關注。
大數據領域的就業崗位有以下幾個特點:
1、就業崗位多
大數據技術本身具有一個天然的產業鏈,這條產業鏈涉及到諸多環節,包括數據採集、數據傳輸、數據存儲、數據安全、數據分析、數據呈現和數據應用等,這些環節會釋放出大量的人才需求。
2、人才類型覆蓋廣
大數據領域不僅人才需求量大,同時需要各種不同層次的人才,既需要具備創新能力的研究型人才,也需要應用型人才和技能型人才,隨著大數據技術逐漸開始落地應用,大數據人才需求正在從創新型人才向應用型人才和技能型人才過渡,而這部分人才的規模也比較龐大。
3、行業覆蓋廣
大數據人才的就業渠道不僅僅包括科技公司和互聯網公司,隨著產業結構升級的不斷推進,廣大傳統行業也將陸續釋放出大量的大數據崗位,這是大數據就業的一個重要特點。從目前的行業特徵來看,首先釋放出大數據人才需求的行業包括金融、通信、醫療、出行和教育等行業,未來傳統製造業也會釋放出大量的崗位需求。
4、薪資待遇高
隨著大數據、人工智慧產品的應用,傳統行業的諸多崗位將逐漸開始升級,人力資源的崗位附加值將逐漸提升,所以可以預見未來大數據領域的薪資待遇將不斷提升。從近些年大數據方向研究生的就業薪資待遇來看,整體的薪資待遇還是比較可觀的,而且在逐年提升。
④ 如何通過大數據分析提升商品管理
數據的集中趨勢分析是用來反映數據的一般水平,常用的指標有平均值、中位數和眾數等。各指標的具體意義如下:
平均值:是衡量數據的中心位置的重要指標,反映了一些數據必然性的特點,包括算術平均值、加權算術平均值、調和平均值和幾何平均值。
中位數:是另外一種反映數據的中心位置的指標,其確定方法是將所有數據以由小到大的順序排列,位於中央的數據值就是中位數。
眾數:是指在數據中發生頻率最高的數據值。
如果各個數據之間的差異程度較小,用平均值就有較好的代表性;而如果數據之間的差異程度較大,特別是有個別的極端值的情況,用中位數或眾數有較好的代表性。
⑤ 大數據時代如何提升挖掘能力
利用它將數據轉化為商業智能,提高企業的核心競爭力。從投資的角度來看,如對數據研究所支付的費用少於研究成果所帶來的價值,數據挖掘就值得去做。正如修行的省悟過程一樣,要將數據挖掘引入公司,並非只有一種途徑。
⑥ 大數據成為提升公共服務質量和效率的重要手段是從什麼視角看大數據的價值體現
大數據成為提升公共服務質量和效率的重要手段是從政府、民眾、企業視角看大數據的價值體現。
在各類公共服務之中,政府公共服務部門亟須搭建快速、精準、高效的數字化辦公流程和政務服務模式,為政府、民眾和企業提供快捷、精準、高效、方便的公共服務,實現政府從粗放式管理向精細化管理轉變、從單兵式管理向協作式管理轉變、從線下實體化管理向線上網路化管理轉變。
大數據的價值體現在以下幾個方面:
(1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷。
(2)做小而美模式的中小微企業可以利用大數據做服務轉型。
(3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
⑦ 高校如何利用大數據來提升招生與錄取的質量
摘要:大數據時代的到來,對大學的招生、就業來說既是機遇也是挑戰,大學的招生、就業模式必須不斷創新,從而適應數據化時代的發展。本文在大數據時代背景下,分析了大學招生和就業人才培養聯動機制,提出了具體措施。
⑧ 大數據都體現在哪些方面
第一:大數據技術不斷提升數據自身的價值。大數據技術的核心訴求之一就是數據的價值化,大數據產業鏈幾乎都是圍繞數據價值化來打造的,隨著大數據技術的不斷發展,數據的價值必然會越來越大。
第二:人工智慧離不開數據。數據作為人工智慧發展的三個重要基礎,在未來的智能化時代也將扮演著重要的角色,所以數據的價值也必然會隨著人工智慧技術的發展而得到提升。在工業互聯網時代,人工智慧技術是一個重要的發展趨勢,藉助於人工智慧技術,工業互聯網能夠發揮出更大的作用,從而能夠為廣大的行業企業賦能。
第三:數據是互聯網的價值載體。互聯網發展到現在,急需一個體現互聯網價值的載體,而數據就是這個天然的載體,相信隨著互聯網的不斷發展,互聯網整合社會資源的能力會越來越強,數據的價值也會不斷得到攀升。由於互聯網無處不在,所以通過數據來承載互聯網價值也比較方便,未來通過互聯網來實現「價值交換」也是一個比較明顯的發展趨勢。
⑨ 如何應用大數據提升智慧園區綜合管理
信息技術的高速發展,不斷推動著信息技術服務業業務向細分化、多樣化方向發展,促使新產品、新業態大量涌現,進而創造新的市場空間,帶動產業升級優化。大數據產業化進程加速,信息技術服務業由傳統PC時代向新興技術轉移的節奏開始加速。企業專注自身優勢領域的同時,亟需結合新興技術支撐自身發展,開放合作成為產業主要趨勢。於此同時,信息技術產業的競爭正從單一企業競爭演進到以聚合生態圈協同效應的全產業鏈競爭,生態圈建設的重要性凸顯。根據2016年全國工業和信息化工作會議報告,2016年主要預期目標軟體和信息技術服務業收入14%左右。根據國務院印發的《促進大數據發展行動綱要》(以下簡稱「《綱要》」),全球范圍內,運用大數據推動經濟發展、完善社會治理、提升政府服務和監管能力正成為趨勢,有關發達國家相繼制定實施大數據戰略性文件,大力推動大數據發展和應用。目前,我國互聯網、移動互聯網用戶規模居全球第一,擁有豐富的數據資源和應用市場優勢,大數據部分關鍵技術研發取得突破,涌現出一批互聯網創新企業和創新應用,一些地方政府已啟動大數據相關工作。堅持創新驅動發展,加快大數據部署,深化大數據應用,已成為穩增長、促改革、調結構、惠民生和推動政府治理能力現代化的內在需要和必然選擇。
《綱要》明確指出,①2018年底前建成國家政府數據統一開放平台;②到2020年,形成一批具有國際競爭力的大數據處理、分析、可視化軟體和硬體支撐平台等產品。③培育10家國際領先的大數據核心龍頭企業,500家大數據應用、服務和產品製造企業。實現關鍵部門的關鍵設備安全可靠。④2020年底前,逐步實現信用、交通、醫療、衛生、就業、社保、地理、文化、教育、科技、資源、農業、環境、安監、金融、質量、統計、氣象、海洋、企業登記監管等民生保障服務相關領域的政府數據集向社會開放。⑤中小微企業公共服務大數據。形成全國統一的中小微企業公共服務大數據平台。這是國家大數據戰略的一個頂層設計,發展大數據是國家戰略。雖然目前看來,人力資源的配給與現有的資料庫管理技術基本是足夠的,但是未來,如果人類管理數據的效率不能保持同步提升,人類在大數據時代將無法對數據進行有效管理。大數據管理技術以及開放的大數據生態圈將促使大數據行業的快速發展。
(一)大數據市場競爭格局
大數據產業屬技術密集型產業,競爭更多是技術實力與創新能力的比拼,離數據越近的產業環節,產業價值越大。能掌控大數據實時集成、海量信息處理和管理、雲存儲等技術的廠商將成為產業的主導者,主導未來大數據產業技術發展方向,促進商業模式創新。大數據產業鏈現在已經初現雛形,圍繞大數據的產生與集聚、組織與管理、分析與發現、應用與服務各層級正在加速構建。目前,在大數據產業鏈上有三種大數據公司:
(1)基於數據本身的公司(數據擁有者):擁有數據,不具有數據分析的能力;(2)基於技術的公司(技術提供者):技術供應商或者數據分析公司等;(3)基於思維的公司(服務提供者):挖掘數據價值的大數據應用公司。
(二)大數據產業進入壁壘
1、數據資源壁壘
大數據時代的一大特點就是,數據成為企業核心資產,豐富的高質量數據資源是大數據產業發展的前提。近幾年在互聯網產業及金融、電信信息化快速發展的帶動下,我國數據資源總量有了快速增長,已達到全球的13%,但其他行業受信息化水平制約,數據儲量仍不豐富。對數據的掌握決定對市場的支配權;越靠近最終用戶的企業,將在產業鏈中擁有越大的發言權。
2、技術壁壘
兩類企業將在大數據產業鏈處於重要地位。一種是掌握海量有效數據的企業,第二種是有強大數據分析能力的企業。關鍵是誰擁有更多、更准、更有價值的數據。中國大數據應用處在起步階段。淘寶、騰訊以及網路這些互聯網巨頭是率先使用大數據技術的用戶,但他們主要基於開源軟體自主開發大數據應用。行業進入需要具有較高的技術層次,技術和產品的創新能力是推動公司取得競爭優勢的關鍵因素。
3、政策壁壘
為把握大數據時代戰略機遇,我國要加速營造良好的大數據產業生態環境,政府應不斷完善政策法規,創建適度寬松的發展環境,提升中國在世界信息產業的地位;IT廠商應聚焦技術創新與服務模式創新,洞察用戶需求,提供高可用性的整體性解決方案;行業用戶應當通過雲平台實現數據大集中,形成企業數據資產;同時深度分析挖掘大數據的價值,推動企業智能決策。
4、專利壁壘
保護知識產權是軟體與信息技術服務產業發展的重要因素,只有保護好知識產權,才能保護和提高開發商開發軟體的積極性,才能促進軟體產業的蓬勃發展,十二五規劃對知識產權的保護力度進一步增大,這將對專利壁壘起到良好的促進作用。
(三)影響大數據產業發展的有利因素和不利因素
l 大數據產業發展的有利因素
1、國家政策大力支持
公司處於國家行業政策鼓勵和重點支持發展的行業。發展和提升軟體和信息技術服務業,對於推動信息化和工業化深度融合,培育和發展戰略性新興產業,建設創新型國家,加快經濟發展方式轉變和產業結構調整,提高國家信息安全保障能力和國際競爭力具有重要意義。為此國家出台《國務院關於印發進一步鼓勵軟體產業和集成電路產業發展若干政策的通知》、《國務院關於加快培育和發展戰略性新興產業的決定》、《軟體和信息技術服務業十二五發展規劃》、《關於印發促進大數據發展行動綱要的通知》等政策,從稅收、研究經費、進出口優惠、人才培養、知識產權保護、市場開發和投融資等方面給予了較為全面的政策支持。根據國家發展規劃,預期未來國家還將出台更多針對軟體和信息產業的專門政策,這將有力地推動我國軟體和信息產業的健康穩步發展。
2、大數據技術開發應用前景廣闊
國家計劃在2018年底前建成國家政府數據統一開放平台,率先在信用、交通、醫療、衛生、就業、社保、地理、文化、教育、科技、資源、農業、環境、安監、金融、質量、統計、氣象、海洋、企業登記監管等重要領域實現公共數據資源合理適度向社會開放,帶動社會公眾開展大數據增值性、公益性開發和創新應用,充分釋放數據紅利,與雲計算、物聯網、移動互聯網等新一代信息技術融合發展,與傳統產業協同發展新業態、新模式,促進傳統產業轉型升級和新興產業發展,激發大眾創業、萬眾創新活力。
l 行業發展的不利因素
1、產業創新體系不健全,核心技術缺乏
長久以來,我國信息化建設過程中存在著「重硬輕軟」的思想傾向。在軟體產品開發層面,民眾版權意識薄弱,盜版現象嚴重。另外,國內企業普遍規模較小、自主創新能力不足。創新能力不足是制約中國信息產業尤其是軟體和信息服務業發展的瓶頸。目前,行業內雖已涌現出一些具有自主知識產權的高技術、高附加值的產品,但從總體上看,多數企業或產品尚沒有自己的自主知識產權或核心技術,企業依靠產品的低水平重復開發、國外知名品牌產品代理銷售等業務生存的現象較為普遍。
2、人才結構矛盾突出
軟體和信息技術服務業是一個知識密集型產業,具有高技術含量和高附加值的特點,其發展需離不開大量的高素質人才。目前,我國軟體行業從業人員數量規模可觀,但高層次、復合型、領軍型人才依然缺乏,尤其是在經營管理、技術創新等方面具有國際化視野的高端人才較為匱乏,這已經成為制約中國軟體和信息技術服務業發展的關鍵因素之一。
3、大數據行業發展仍在初級階段
我國的大數據產業具備良好基礎,發展前景廣闊。一是一批世界級的互聯網公司在大數據應用上不斷推陳出新,智能搜索、廣告、電商、社交等藉助大數據技術持續進化,互聯網金融、O2O(online
to offline)等應用藉助大數據向線下延伸。二是大數據技術緊跟國際先進水平,具備建設和運營世界最大規模大數據平台的能力,單集群規模達5000 到10000
台伺服器,數據管理規模達到EB(1EB=1018B)級別,在機器學習等方面也有所突破。三是當前和未來一段時間,我國面臨著經濟結構轉型升級、政府和公共服務改進提升等緊迫任務,這些方面大數據都有廣闊的應用前景。大數據在全球的發展還都處於初期,技術、制度、觀念等方面都需要改變。對我國來說,數據資源不豐富,數據開放程度較低、技術差距大,技術水平不高,技術擴散不暢和法律法規不完善是限制當前大數據發展的主要問題,金鵬信息智慧園區軟體。