商用大數據生態圈_什麼是大數據時代

① 大數據變現,電信運營商只需往前邁一步

大數據變現,電信運營商只需往前邁一步

經過多年的技術積累和市場培育，大數據已經從「炒作」走向落地。全球主流的電信運營商普遍認識到大數據所蘊藏的高價值，開始積極探索如何將手中掌握的大量數據資源變現。目前，電信運營商的大數據探索主要集中在如何利用大數據分析用戶行為、優化網路質量和推動業務創新等方面。數據堂創始人、CEO齊紅威在接受《人民郵電》報記者采訪時指出，這些對於大數據的內部利用，往往需要對原有系統進行大規模改造，而且無法直接快速地帶來收入的增長，其實電信運營商可以用另一種思路，在基本不改造現有系統的情況下，立竿見影地獲得可觀的收益。

國務院為大數據發展「定調」

齊紅威具有十多年的數據挖掘研發應用經驗，曾任NEC中國研究院研發部部長、高級研究員。「大數據的本質特徵並不是『規模大』」，他闡述了對於大數據的理解。

現在人們對於大數據的認識普遍存在著誤區，認為當數據量達到一定量（TB級或PB級）就是大數據，其實不然，區分大數據與海量數據的標准並不取決於其數據量，從技術上講，「非結構化」數據才是大數據最典型的特徵。現實生活中80%的數據都是非結構化的，解讀這些數據，蘊藏著巨大的商業價值，這才是大數據。從商業模式上講，大數據就是移動互聯網產生的大量的關於人的數據。

近日，國務院總理李克強主持召開國務院常務會議，討論並通過了《關於促進大數據發展的行動綱要》，對消除信息孤島、支持大數據產業發展、強化信息安全等提出了明確要求。

齊紅威認為，這是一個極大的利好消息。「大數據作為全球發展的戰略資源，未來將像石油一樣，影響到世界格局。對於中國而言，大數據是國家戰略轉型升級的基礎，依靠數據和互聯網相結合的方式，減少中間環節，提升傳統行業運作效率。以前，一些地方政府或者企業雖然都認識到大數據的價值，但對於發展大數據仍心存顧慮：能不能做？做到什麼程度？『紅線』在哪裡？《綱要》的推出相當於政府給大數據發展定了調——不僅要做，而且要做大做強。」

大數據變現的閉環已經形成

2014年是大數據的商用元年，許多行業開始利用大數據真正地產生價值，齊紅威認為：「現在很像電商井噴式發展前的2006年、2007年，市場培育已經完成，生態圈初具規模，商業模式逐漸成熟。價值萬億的大數據市場的大門已經打開。」

齊紅威將大數據生態圈劃分為雲計算服務商、數據提供商、數據服務商和數據應用商四部分，實現從」數據流「到」資金流「分享共贏的商業運作模式。

其中，雲計算服務商主要負責提供計算、存儲和帶寬等基礎能力。

數據服務商則提供各種數據，包括政府大數據（公安、交通等）、行業大數據（電信、金融、電力等）、互聯網大數據（互聯網企業的用戶數據、互聯網公共數據）以及線下大數據等。

「現在網路上隨時都在產生海量的數據，但線下的許多資源都還沒有被數據化，這些數據同樣價值連城。」他透露，數據堂獨家推出了一款名為「眾客堂」的眾包平台，普通用戶可以通過該應用上傳照片、錄音等提供線下的數據並獲得一定的酬勞，目前「眾客堂」的眾客數量在全球范圍內已超過40萬。這些線下數據已經開始產生價值，例如，自拍照幫助美顏相機優化美顏程序；大量的購物小票分析出商品的價格走勢和促銷信息；語音數據幫助語音交互系統提高識別准確度等。

數據應用商則利用經過初步處理的大數據開發各類應用，例如徵信、個性化旅遊和交通服務等。他認為，「數據應用商將『百花齊放』，規模有望達到數萬家。」

數據服務商是大數據變現閉環形成的關鍵，具有三大功能：第一，連接數據提供商和應用商的紐帶，免去了雙方一一洽談的麻煩；第二，匯總大數據的平台，將各領域數據提供商的大數據整合、融合起來，將產生1+1大於2的價值，實現數據增值；第三，對大數據進行初步分析、過濾和分類，「數據服務商從提供商那兒收來的是『小麥』，但應用商需要的是『麵粉』，所以服務商就要完成把『小麥』加工成『麵粉』的工作。」

「簡單地說，數據服務商就相當於『數據銀行』，接收各方的『存款』，再將這些『資金』包裝成不同的產品後貸款給有需要的人，搭建數據共享的『生命線』，達成商業共贏，實現大數據變現的閉環。」齊紅威表示。

數據堂是國內首家也是唯一一家在新三板上市的大數據服務商，團隊的主創人員都有著十多年在大數據領域的技術積累，並在大數據產業發展過程中有著先發優勢，經過多年的數據源積累，已獲得金融徵信、交通地理、人工智慧、商家貨價等多領域的大數據，與國內外多家數據提供商和應用商建立了合作關系，摸索出一套適應我國國情的商業模式。

電信運營商如何從「數據銀行」提現

「電信運營商坐擁著一大片未被開發的『油田』。」齊紅威認為，電信運營商擁有著海量的高價值數據，例如掌握著用戶的各類地理位置信息、商業活動、搜索歷史和社交網路信息等大數據，具有維度豐富、群體性強、連續性好、網路行為全覆蓋和關聯性強等獨特優勢，「關鍵是如何將這些大數據變現，實現數據價值。」

齊紅威逐一分析並回應了目前電信運營商在發展大數據時普遍存在的幾點顧慮：

一是「能不能做」的問題。現在國家已經明確表示要大力支持大數據發展，在政策方面為電信運營商發展大數據鋪平了道路。

二是「投入與收益」問題。與數據服務商合作，電信運營商幾乎不需要改造現有系統就可以通過大數據獲利，預計產生的價值有望達到億萬元級別。

三是「競爭」問題。數據服務商只生產「麵粉」不生產「麵包」，不會與電信運營商形成業務競爭。

四是「數據安全」問題。數據堂獨創了一種模式——不「取走」數據提供商的數據，只是將軟體嵌入到數據提供商的系統中，最終只生成數據結果，經數據提供商審核後再將相關結果提供給數據應用商，這就有效地消除了可能出現的信息泄漏風險。

齊紅威表示，阻礙電信運營商挖掘大數據價值的障礙已經被一一清除，他們只需「向前邁一步」，即可擁抱蘊藏著無限商機的大數據時代。

「如果說大數據的發展是一場數萬米的馬拉松比賽的話，那麼現在才剛剛跑了1000多米。」但齊紅威同時指出，大數據發展已進入高速發展期，2015年將是各方布局大數據的關鍵時期，未來兩三年將初步奠定大數據市場的格局，大數據將迎來超過十年的上升期。

以上是小編為大家分享的關於大數據變現,電信運營商只需往前邁一步的相關內容，更多信息可以關注環球青藤分享更多干貨

② 大數據分析，挖掘和應用服務能力建設情況指的是什麼

1. 開源大數據生態圈
Hadoop HDFS、Hadoop MapRece, HBase、Hive 漸次誕生，早期Hadoop生態圈逐步形成。
開源生態圈活躍，並免費專，但Hadoop對技術要屬求高，實時性稍差。

2. 商用大數據分析工具
一體機資料庫/數據倉庫（費用很高）

IBM PureData(Netezza), Oracle Exadata, SAP Hana等等。

數據倉庫（費用較高）
Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

數據集市（費用一般）
QlikView、 Tableau 、國內永洪科技Yonghong Data Mart 等等。

前端展現
用於展現分析的前端開源工具有JasperSoft，Pentaho, Spagobi, Openi, Birt等等。
用於展現分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、國內永洪科技Yonghong Z-Suite等等。
-

③ 如何打造大數據生態圈

互聯網生態圈是用抄互襲聯網來完善企業的生態。企業內所有跟互聯網有關的元素都屬於互聯網生態圈。具體包括企業pc互聯網網站、手機智能網站、移動app、微信平台、oa辦公系統、終端智能交互機、後台大數據以及在線互聯網培訓。這些模塊構成了一個完整的、良性的、有效的企業互聯網生態圈。
跟企業傳統的互聯網結構相比，鴨梨科技互聯網生態圈能夠一站式解決企業所有的互聯網問題，可以減少企業大部分的溝通成本和時間成本。通過整體的解決方案,幫助中國的中小企業能夠實現轉型升級，產業結構的調整。

④ 大數據學什麼框架什麼是生態圈

大數據平台中的主流框架主要有以下三種：

(一)Hadoop生態圈

HDFS：分布式文件系統，解決版大權數據的存儲
Yarn(MapRece)：分布式計算框架，解決大數據的計算
Hive：Hadoop中的數據分析引擎，支持SQL
HBase：基於HDFS的NoSQL資料庫
ZooKeeper：分布式協調服務，可以用於實現HA(高可用架構)
其他

(二)Spark生態圈

Spark Core：Spark的核心，用於離線計算
Spark SQL：Spark的數據分析引擎，支持SQL語句
Spark Streaming：Spark的流式計算引擎，但本質依然是離線計算
MLlib：機器學習框架

(三)Flink生態圈

Flink DataSet：Flink批處理(離線計算)API
Flink DataStream：Flink流處理(實時計算)API
Flink Table&SQL：Flink的數據分析引擎，支持SQL語句
MLlib：機器學習框架

⑤ 用於分析大數據的工具有什麼

當前用於分析大數據的工具主要有開源與商用兩個生態圈。

開源大數據生態圈：

1、Hadoop HDFS、HadoopMapRece, Hbase、Hive 漸次誕生，早期Hadoop生態圈逐步形成。

2、. Hypertable是另類。它存在於Hadoop生態圈之外，但也曾經有一些用戶。

3、NoSQL，membase、MongoDB

商用大數據生態圈：

1、一體機資料庫/數據倉庫：IBM PureData(Netezza), OracleExadata, SAP Hana等等。

2、數據倉庫：TeradataAsterData, EMC GreenPlum, HPVertica 等等。

3、數據集市：QlikView、 Tableau 、以及國內的Yonghong Data Mart 。

⑥ 什麼是大數據時代

大數據時代

（巨量資料（IT行業術語））
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫，麥肯錫稱：「數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對於海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈餘浪潮的到來。」「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日，卻因為近年來互聯網和信息行業的發展而引起人們關注。
中文名
大數據時代
外文名
Big data
提出者
麥肯錫
類屬
科技名詞
目錄
1 產生背景
2 影響
▪ 大數據
▪ 大數據的精髓
▪ 數據價值
▪ 可視化
3 特徵
4 案例分析
5 產業崛起
6 提供依據
7 應對措施

產生背景
編輯

進入2012年，大數據（big data）一詞越來越多地被提及，人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據，並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面，進入美國白宮官網的新聞，現身在國內一些互聯網主題的講座沙龍中，甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大，它決定著企業的未來發展，雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患，但是隨著時間的推移，人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱，「大數據」時代已經降臨，在商業、經濟及其他領域中，決策將日益基於數據和分析而作出，而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說：「這是一場革命，龐大的數據資源使得各個領域開始了量化進程，無論學術界、商界還是政府，所有領域都將開始這種進程。」[2]

影響
編輯

大數據
現在的社會是一個高速發展的社會，科技發達，信息流通，人們之間的交流越來越密切，生活也越來越方便，大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨，大數據（Big data）也吸引了越來越多的關注。大數據（Big data）通常用來形容一個公司創造的大量非結構化和半結構化數據，這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起，因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會，大數據的應用越來越彰顯他的優勢，它佔領的領域也越來越大，電子商務、O2O、物流配送等，各種利用大數據進行發展的領域正在協助企業不斷地發展新業務，創新運營模式。有了大數據這個概念，對於消費者行為的判斷，產品銷售量的預測，精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象：互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大，以至於不能用G或T來衡量。
大數據到底有多大？一組名為「互聯網上一天」的數據告訴我們，一天之中，互聯網產生的全部內容可以刻滿1.68億張DVD；發出的郵件有2940億封之多（相當於美國兩年的紙質信件數量）；發出的社區帖子達200萬個（相當於《時代》雜志770年的文字量）；賣出的手機為37.8萬台，高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年，數據量已經從TB（1024GB=1TB）級別躍升到PB（1024TB=1PB）、EB（1024PB=1EB）乃至ZB(1024EB=1ZB)級別。國際數據公司（IDC）的研究結果表明，2008年全球產生的數據量為0.49ZB，2009年的數據量為0.8ZB，2010年增長為1.2ZB，2011年的數量更是高達1.82ZB，相當於全球每人產生200GB以上的數據。而到2012年為止，人類生產的所有印刷材料的數據量是200PB，全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱，整個人類文明所獲得的全部數據中，有90%是過去兩年內產生的。而到了2020年，全世界所產生的數據規模將達到今天的44倍。[5] 每一天，全世界會上傳超過5億張圖片，每分鍾就有20小時時長的視頻被分享。然而，即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信，以及上傳的全部圖片、視頻與音樂，其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段，而隨著技術成熟，我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一，而從2005年起，用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%，達到了4000億美元。[5]

大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變：是全部數據，而不是隨機采樣；是大體方向，而不是精確制導；是相關關系，而不是因果關系。[6]
A.不是隨機樣本，而是全體數據：在大數據時代，我們可以分析更多的數據，有時候甚至可以處理和某個特別現象相關的所有數據，而不再依賴於隨機采樣(隨機采樣，以前我們通常把這看成是理所應當的限制，但高性能的數字技術讓我們意識到，這其實是一種人為限制);
B.不是精確性，而是混雜性：研究數據如此之多，以至於我們不再熱衷於追求精確度;之前需要分析的數據很少，所以我們必須盡可能精確地量化我們的記錄，隨著規模的擴大，對精確度的痴迷將減弱;擁有了大數據，我們不再需要對一個現象刨根問底，只要掌握了大體的發展方向即可，適當忽略微觀層面上的精確度，會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系，而是相關關系：我們不再熱衷於找因果關系，尋找因果關系是人類長久以來的習慣，在大數據時代，我們無須再緊盯事物之間的因果關系，而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生，但是它會提醒我們這件事情正在發生。

數據價值
大數據時代，什麼最貴?
十年前，葛大爺曾說過，「21世紀什麼最貴?」——「人才」，深以為然。只是，十年後的今天，大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據，數據的增長從未停歇，甚至呈井噴式增長。[7]
一分鍾內，微博推特上新發的數據量超過10萬；社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字，意味著什麼？
它意味著，一種全新的致富手段也許就擺在面前，它的價值堪比石油和黃金。
事實上，當你仍然在把微博等社交平台當作抒情或者發議論的工具時，華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」，先人一步用其預判市場走勢，而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值：
●1、華爾街根據民眾情緒拋售股票；
●2、對沖基金依據購物網站的顧客評論，分析企業產品銷售狀況；
●3、銀行根據求職網站的崗位數量，推斷就業率；
●4、投資機構搜集並分析上市企業聲明，從中尋找破產的蛛絲馬跡；
●5、美國疾病控制和預防中心依據網民搜索，分析全球范圍內流感等病疫的傳播狀況；
●6、美國總統奧巴馬的競選團隊依據選民的微博，實時分析選民對總統競選人的喜好。[1]

可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時，成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要，以至於其獲取、儲存、搜索、共享、分析，乃至可視化地呈現，都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前，是怎樣一幅壯觀的景象？在後台注視著這一切，會不會有接近上帝俯視人間星火的感覺？」
這個問題我曾請教過劉建國，中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道，劉建國曾任至網路的首席技術官，在這樣一家每天需應對網民各種搜索請求1.7億次（2013年約為8.77億次）的網站中，如果只是在後台靜靜端坐，可能片刻都不能安心吧。網路果然在提供搜索服務之外，逐漸增添了網路指數，後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題，他想了很久，似乎陷入了回憶，嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺，美國洛杉磯就有企業宣稱，他們將全球夜景的歷史數據建立模型，在過濾掉波動之後，做出了投資房地產和消費的研究報告。
在數據可視化呈現方面，我最新接收到的故事是，一位在美國思科物流部門工作的朋友，很聰明的印度裔小夥子，被Facebook高價挖角，進入其數據研究小組。他後來驚訝地發現，裡面全是來自物流企業、供應鏈方面的技術人員和專家，「Facebook想知道，能不能用物流的角度和流程的方式，分析用戶的路徑和行為。」

特徵
編輯
數據量大（Volume）
第一個特徵是數據量大。大數據的起始計量單位至少是P（1000個T）、E（100萬個T）或Z（10億個T）。
類型繁多（Variety）
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求。
價值密度低（Value）
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何通過強大的機器演算法更迅速地完成數據的價值「提純」，是大數據時代亟待解決的難題。
速度快、時效高（Velocity）
第四個特徵是處理速度快，時效性要求高。這是大數據區分於傳統數據挖掘最顯著的特徵。
既有的技術架構和路線，已經無法高效處理如此海量的數據，而對於相關組織來說，如果投入巨大採集的信息無法通過及時處理反饋有效信息，那將是得不償失的。可以說，大數據時代對人類的數據駕馭能力提出了新的挑戰，也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。[2]

案例分析
編輯
個案一
你開心他就買你焦慮他就拋[2]
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一，就是利用電腦程序分析全球3.4億微博賬戶的留言，進而判斷民眾情緒，再以「1」到「50」進行打分。根據打分結果，霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單：如果所有人似乎都高興，那就買入；如果大家的焦慮情緒上升，那就拋售。
這一招收效顯著——當年第一季度，霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司（IBM）估測，這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街，這一時效至關重要。曾經，華爾街2%的企業搜集微博等平台的「非正式」數據；如今，接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃，和微博推特是合作夥伴。它分析數據，告訴廣告商什麼是正確的時間，誰是正確的用戶，什麼是應該發表的正確內容，備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture（著名的網頁流量分析工具）公司，你可以知道有多少人訪問你的網站，以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉，進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化：他把客戶請到辦公室，將包含這些公司的數據圖譜展現出來——有些是普通的時間軸，有些像蒲公英，有些則是鋪滿整個畫面的泡泡，泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型，弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈：
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生，早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外，但也曾經有一些用戶。
3、NoSQL，membase、MongoDb
商用大數據生態圈：
1、一體機資料庫/數據倉庫：IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫：TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市：QlikView、 Tableau 、以及國內的Yonghong Data Mart 。

產業崛起
編輯
越來越多的政府、企業等機構開始意識到數據正在成為組織最重要的資產，數據分析能力正在成為組織的核心競爭力。具體有以下三大案例：
1、2012年3月22日，奧巴馬政府宣布投資2億美元拉動大數據相關產業發展，將「大數據戰略」上升為國家意志。奧巴馬政府將數據定義為「未來的新石油」，並表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分，未來，對數據的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
2、聯合國也在2012年發布了大數據政務白皮書，指出大數據對於聯合國和各國政府來說是一個歷史性的機遇，人們如今可以使用極為豐富的數據資源，來對社會經濟進行前所未有的實時分析，幫助政府更好地響應社會和經濟運行。
3、而最為積極的還是眾多的IT企業。麥肯錫在一份名為《大數據，是下一輪創新、競爭和生產力的前沿》的專題研究報告中提出，「對於企業來說，海量數據的運用將成為未來競爭和增長的基礎」，該報告在業界引起廣泛反響。
IBM則提出，上一個十年，他們拋棄了PC，成功轉向了軟體和服務，而這次將遠離服務與咨詢，更多地專注於因大數據分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為，「數據將成為一切行業當中決定勝負的根本因素，最終數據將成為人類至關重要的自然資源。」
在國內，網路已經致力於開發自己的大數據處理和存儲系統；騰訊也提出2013年已經到了數據化運營的黃金時期，如何整合這些數據成為未來的關鍵任務。
事實上，自2009年以來，有關「大數據」主題的並購案層出不窮，且並購數量和規模呈逐步上升的態勢。其中，Oracle對Sun、惠普對Autonomy兩大並購案總金額高達176億美元，大數據的產業價值由此可見一斑。[1-2]

提供依據
編輯
大數據是信息通信技術發展積累至今，按照自身技術發展邏輯，從提高生產效率向更高級智能階段的自然生長。無處不在的信息感知和採集終端為我們採集了海量的數據，而以雲計算為代表的計算技術的不斷進步，為我們提供了強大的計算能力，這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界[1-2] 。
大數據雖然孕育於信息通信技術的日漸普遍和成熟，但它對社會經濟生活產生的影響絕不限於技術層面，更本質上，它是為我們看待世界提供了一種全新的方法，即決策行為將日益基於數據分析做出，而不是像過去更多憑借經驗和直覺做出。
事實上，大數據的影響並不僅僅限於信息通信產業，而是正在「吞噬」和重構很多傳統行業，廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中，數據分析的技術與手段更是得到廣泛的應用，傳統企業如沃爾瑪通過數據挖掘重塑並優化供應鏈，新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析，為用戶提供更加專業化和個性化的服務。
最讓人吃驚的例子是，社交媒體監測平台DataSift監測了Facebook（臉譜） IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。在Facebook開盤前Twitter上的情感逐漸轉向負面，25分鍾之後Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時，Facebook股價在8分鍾之後也開始了回彈。最終當股市接近收盤、Twitter上的情感轉向負面時，10分鍾後Facebook的股價又開始下跌。最終的結論是：Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動。
這僅僅只是基於社交網路產生的大數據「預見未來」的眾多案例之一，此外還有谷歌通過網民搜索行為預測流感爆發等例子。不僅在商業方面，大數據在社會建設方面的作為同樣令人驚嘆，智能電網、智慧交通、智慧醫療、智慧環保、智慧城市等的蓬勃興起，都與大數據技術與應用的發展息息相關。
「大數據」可能帶來的巨大價值正漸漸被人們認可，它通過技術的創新與發展，以及數據的全面感知、收集、分析、共享，為人們提供了一種全新的看待世界的方法。更多地基於事實與數據做出決策，這樣的思維方式，可以預見，將推動一些習慣於靠「差不多」運行的社會發生巨大變革。

應對措施
編輯
一個好的企業應該未雨綢繆，從現在開始就應該著手准備，為企業的後期的數據收集和分析做好准備，企業可以從下面六個方面著手，這樣當面臨鋪天蓋地的大數據的時候，以確保企業能夠快速發展，具體為下面六點。
目標
幾乎每個組織都可能有源源不斷的數據需要收集，無論是社交網路還是車間感測器設備，而且每個組織都有大量的數據需要處理，IT人員需要了解自己企業運營過程中都產生了什麼數據，以自己的數據為基準，確定數據的范圍。
准則
雖然每個企業都會產生大量數據，而且互不相同、多種多樣的，這就需要企業IT人員在現在開始收集確認什麼數據是企業業務需要的，找到最能反映企業業務情況的數據。
重新評估
大數據需要在伺服器和存儲設施中進行收集，並且大多數的企業信息管理體系結構將會發生重要大變化，IT經理則需要准備擴大他們的系統，以解決數據的不斷擴大，IT經理要了解公司現有IT設施的情況，以組建處理大數據的設施為導向，避免一些不必要的設備的購買。
重視大數據技術
大數據是最近幾年才興起的詞語，而並不是所有的IT人員對大數據都非常了解，例如如今的Hadoop，MapRece，NoSQL等技術都是2013年剛興起的技術，企業IT人員要多關注這方面的技術和工具，以確保將來能夠面對大數據的時候做出正確的決定。
培訓企業的員工
大多數企業最缺乏的是人才，而當大數據到臨的時候，企業將會缺少這方面的採集收集分析方面的人才，對於一些公司，特別是那種人比較少的公司，工作人員面臨大數據將是一種挑戰，企業要在平時的時候多對員工進行這方面的培訓，以確保在大數據到來時，員工也能適應相關的工作。
培養三種能力
Teradata大中華區首席執行官辛兒倫對新浪科技表示，隨著大數據時代的到來，企業應該在內部培養三種能力。第一，整合企業數據的能力；第二，探索數據背後價值和制定精確行動綱領的能力；第三，進行精確快速實時行動的能力。
做到上面的幾點，當大數據時代來臨的時候，面臨大量數據將不是束手無策，而是成竹在胸，而從數據中得到的好處也將促進企業快速發展。
望採納，謝謝

⑦ hadoop是怎麼存儲大數據的

Hadoop本身是抄分布式框襲架，如果在hadoop框架下，需要配合hbase，hive等工具來進行大數據計算。如果具體深入還要了解HDFS，Map/Rece，任務機制等等。如果要分析還要考慮其他分析展現工具。

大數據還有分析才有價值

用於分析大數據的工具主要有開源與商用兩個生態圈。開源大數據生態圈：1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生，早期Hadoop生態圈逐步形成。2、. Hypertable是另類。它存在於Hadoop生態圈之外，但也曾經有一些用戶。3、NoSQL，membase、MongoDb商用大數據生態圈：1、一體機資料庫/數據倉庫：IBM PureData(Netezza), OracleExadata, SAP Hana等等。2、數據倉庫：TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、數據集市：QlikView、 Tableau 、以及國內的Yonghong Data Mart 。

⑧ 一文看懂大數據的技術生態圈

一文看懂大數據的技術生態圈

大數據本身是個很寬泛的概念，Hadoop生態圈（或者泛生態圈）基本上都是為了處理超過單機尺度的數據處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆，各有各的用處，互相之間又有重合。你可以用湯鍋直接當碗吃飯喝湯，你可以用小刀或者刨子去皮。但是每個工具有自己的特性，雖然奇怪的組合也能工作，但是未必是最佳選擇。

大數據，首先你要能存的下大數據。傳統的文件系統是單機的，不能橫跨不同的機器。HDFS（Hadoop Distributed FileSystem）的設計本質上是為了大量的數據能橫跨成百上千台機器，但是你看到的是一個文件系統而不是很多文件系統。比如你說我要獲取/hdfs/tmp/file1的數據，你引用的是一個文件路徑，但是實際的數據存放在很多不同的機器上。你作為用戶，不需要知道這些，就好比在單機上你不關心文件分散在什麼磁軌什麼扇區一樣。HDFS為你管理這些數據。存的下數據之後，你就開始考慮怎麼處理數據。雖然HDFS可以為你整體管理不同機器上的數據，但是這些數據太大了。一台機器讀取成T上P的數據（很大的數據哦，比如整個東京熱有史以來所有高清電影的大小甚至更大），一台機器慢慢跑也許需要好幾天甚至好幾周。對於很多公司來說，單機處理是不可忍受的，比如微博要更新24小時熱博，它必須在24小時之內跑完這些處理。那麼我如果要用很多台機器處理，我就面臨了如何分配工作，如果一台機器掛了如何重新啟動相應的任務，機器之間如何互相通信交換數據以完成復雜的計算等等。這就是MapRece / Tez / Spark的功能。MapRece是第一代計算引擎，Tez和Spark是第二代。MapRece的設計，採用了很簡化的計算模型，只有Map和Rece兩個計算過程（中間用Shuffle串聯），用這個模型，已經可以處理大數據領域很大一部分問題了。那什麼是Map什麼是Rece？考慮如果你要統計一個巨大的文本文件存儲在類似HDFS上，你想要知道這個文本里各個詞的出現頻率。你啟動了一個MapRece程序。Map階段，幾百台機器同時讀取這個文件的各個部分，分別把各自讀到的部分分別統計出詞頻，產生類似（hello, 12100次），（world，15214次）等等這樣的Pair（我這里把Map和Combine放在一起說以便簡化）；這幾百台機器各自都產生了如上的集合，然後又有幾百台機器啟動Rece處理。Recer機器A將從Mapper機器收到所有以A開頭的統計結果，機器B將收到B開頭的詞彙統計結果（當然實際上不會真的以字母開頭做依據，而是用函數產生Hash值以避免數據串化。因為類似X開頭的詞肯定比其他要少得多，而你不希望數據處理各個機器的工作量相差懸殊）。然後這些Recer將再次匯總，（hello，12100）＋（hello，12311）＋（hello，345881）= （hello，370292）。每個Recer都如上處理，你就得到了整個文件的詞頻結果。這看似是個很簡單的模型，但很多演算法都可以用這個模型描述了。Map＋Rece的簡單模型很黃很暴力，雖然好用，但是很笨重。第二代的Tez和Spark除了內存Cache之類的新feature，本質上來說，是讓Map/Rece模型更通用，讓Map和Rece之間的界限更模糊，數據交換更靈活，更少的磁碟讀寫，以便更方便地描述復雜演算法，取得更高的吞吐量。有了MapRece，Tez和Spark之後，程序員發現，MapRece的程序寫起來真麻煩。他們希望簡化這個過程。這就好比你有了匯編語言，雖然你幾乎什麼都能幹了，但是你還是覺得繁瑣。你希望有個更高層更抽象的語言層來描述演算法和數據處理流程。於是就有了Pig和Hive。Pig是接近腳本方式去描述MapRece，Hive則用的是SQL。它們把腳本和SQL語言翻譯成MapRece程序，丟給計算引擎去計算，而你就從繁瑣的MapRece程序中解脫出來，用更簡單更直觀的語言去寫程序了。有了Hive之後，人們發現SQL對比Java有巨大的優勢。一個是它太容易寫了。剛才詞頻的東西，用SQL描述就只有一兩行，MapRece寫起來大約要幾十上百行。而更重要的是，非計算機背景的用戶終於感受到了愛：我也會寫SQL！於是數據分析人員終於從乞求工程師幫忙的窘境解脫出來，工程師也從寫奇怪的一次性的處理程序中解脫出來。大家都開心了。Hive逐漸成長成了大數據倉庫的核心組件。甚至很多公司的流水線作業集完全是用SQL描述，因為易寫易改，一看就懂，容易維護。自從數據分析人員開始用Hive分析數據之後，它們發現，Hive在MapRece上跑，真雞巴慢！流水線作業集也許沒啥關系，比如24小時更新的推薦，反正24小時內跑完就算了。但是數據分析，人們總是希望能跑更快一些。比如我希望看過去一個小時內多少人在充氣娃娃頁面駐足，分別停留了多久，對於一個巨型網站海量數據下，這個處理過程也許要花幾十分鍾甚至很多小時。而這個分析也許只是你萬里長征的第一步，你還要看多少人瀏覽了跳蛋多少人看了拉赫曼尼諾夫的CD，以便跟老闆匯報，我們的用戶是猥瑣男悶騷女更多還是文藝青年／少女更多。你無法忍受等待的折磨，只能跟帥帥的工程師蟈蟈說，快，快，再快一點！於是Impala，Presto，Drill誕生了（當然還有無數非著名的交互SQL引擎，就不一一列舉了）。三個系統的核心理念是，MapRece引擎太慢，因為它太通用，太強壯，太保守，我們SQL需要更輕量，更激進地獲取資源，更專門地對SQL做優化，而且不需要那麼多容錯性保證（因為系統出錯了大不了重新啟動任務，如果整個處理時間更短的話，比如幾分鍾之內）。這些系統讓用戶更快速地處理SQL任務，犧牲了通用性穩定性等特性。如果說MapRece是大砍刀，砍啥都不怕，那上面三個就是剔骨刀，靈巧鋒利，但是不能搞太大太硬的東西。這些系統，說實話，一直沒有達到人們期望的流行度。因為這時候又兩個異類被造出來了。他們是Hive on Tez / Spark和SparkSQL。它們的設計理念是，MapRece慢，但是如果我用新一代通用計算引擎Tez或者Spark來跑SQL，那我就能跑的更快。而且用戶不需要維護兩套系統。這就好比如果你廚房小，人又懶，對吃的精細程度要求有限，那你可以買個電飯煲，能蒸能煲能燒，省了好多廚具。上面的介紹，基本就是一個數據倉庫的構架了。底層HDFS，上面跑MapRece／Tez／Spark，在上面跑Hive，Pig。或者HDFS上直接跑Impala，Drill，Presto。這解決了中低速數據處理的要求。那如果我要更高速的處理呢？如果我是一個類似微博的公司，我希望顯示不是24小時熱博，我想看一個不斷變化的熱播榜，更新延遲在一分鍾之內，上面的手段都將無法勝任。於是又一種計算模型被開發出來，這就是Streaming（流）計算。Storm是最流行的流計算平台。流計算的思路是，如果要達到更實時的更新，我何不在數據流進來的時候就處理了？比如還是詞頻統計的例子，我的數據流是一個一個的詞，我就讓他們一邊流過我就一邊開始統計了。流計算很牛逼，基本無延遲，但是它的短處是，不靈活，你想要統計的東西必須預先知道，畢竟數據流過就沒了，你沒算的東西就無法補算了。因此它是個很好的東西，但是無法替代上面數據倉庫和批處理系統。還有一個有些獨立的模塊是KV Store，比如Cassandra，HBase，MongoDB以及很多很多很多很多其他的（多到無法想像）。所以KV Store就是說，我有一堆鍵值，我能很快速滴獲取與這個Key綁定的數據。比如我用身份證號，能取到你的身份數據。這個動作用MapRece也能完成，但是很可能要掃描整個數據集。而KV Store專用來處理這個操作，所有存和取都專門為此優化了。從幾個P的數據中查找一個身份證號，也許只要零點幾秒。這讓大數據公司的一些專門操作被大大優化了。比如我網頁上有個根據訂單號查找訂單內容的頁面，而整個網站的訂單數量無法單機資料庫存儲，我就會考慮用KV Store來存。KV Store的理念是，基本無法處理復雜的計算，大多沒法JOIN，也許沒法聚合，沒有強一致性保證（不同數據分布在不同機器上，你每次讀取也許會讀到不同的結果，也無法處理類似銀行轉賬那樣的強一致性要求的操作）。但是丫就是快。極快。每個不同的KV Store設計都有不同取捨，有些更快，有些容量更高，有些可以支持更復雜的操作。必有一款適合你。除此之外，還有一些更特製的系統／組件，比如Mahout是分布式機器學習庫，Protobuf是數據交換的編碼和庫，ZooKeeper是高一致性的分布存取協同系統，等等。有了這么多亂七八糟的工具，都在同一個集群上運轉，大家需要互相尊重有序工作。所以另外一個重要組件是，調度系統。現在最流行的是Yarn。你可以把他看作中央管理，好比你媽在廚房監工，哎，你妹妹切菜切完了，你可以把刀拿去殺雞了。只要大家都服從你媽分配，那大家都能愉快滴燒菜。你可以認為，大數據生態圈就是一個廚房工具生態圈。為了做不同的菜，中國菜，日本菜，法國菜，你需要各種不同的工具。而且客人的需求正在復雜化，你的廚具不斷被發明，也沒有一個萬用的廚具可以處理所有情況，因此它會變的越來越復雜。

以上是小編為大家分享的關於一文看懂大數據的技術生態圈的相關內容，更多信息可以關注環球青藤分享更多干貨

導航:首頁 > 網路數據 > 商用大數據生態圈

商用大數據生態圈

與商用大數據生態圈相關的資料

友情鏈接