『壹』 請問大數據的關鍵技術有哪些
1.分布式存儲系統(HDFS)。2.MapRece分布式計算框架。3.YARN資源管理平台。4.Sqoop數據遷移工具。5.Mahout數據挖掘演算法版庫。權6.HBase分布式資料庫。7.Zookeeper分布式協調服務。8.Hive基於Hadoop的數據倉庫。9.Flume日誌收集工具。
『貳』 大數據處理對電子商務的影響有哪些
電子商務:通俗來說就是企業通過網路,把線下的業務移到線上去開展,完成商品或者服務的銷售交易。
大數據:指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。
近幾年來,互聯網產業高速發展,很多傳統企業通過電子商務,開展網路營銷,線上產生交易的數據量是線下無法比的,因而就產生了處理巨量資料,也就是大數據的急迫需求,解決不好,就成為電子商務發展的瓶頸。反之,大數據處理的成功發展,也促進了企業加速開展電子商務,為互聯網產業的發展注入新動力。
一、大數據處理模式
在電子商務領域內,信息的大批量處理如果是以PB、EB、ZB為計量單位,則這些信息就構成了大數據。以往的計算機處理模式已經很難對這些大數據進行高效率的處理,勢必會影響電子商務的總體發展。因此對大數據時代的計算機處理模式進行革新是獲得電商行業整體突破的基本保證。傳統的數據處理模式是資料庫集群模式,大數據處理模式的基本要求是建構雲計算Map Rece處理體系,使信息的分解處理和結果合並成為可能。
(一)資料庫集群模式
集群模式的基本運行原理是將同一種應用程序通過不同的工作方法相互協調共同完成,在面對客戶端的數據請求時,為其提供單一映像,並將這些映像通過一定的連接技術和方法與硬體系統進行連接,整體上建構一個鬆散耦合的集合。簡單來說,資料庫集群模式實現了資料庫技術和集群技術的結合。資料庫集群模式的運行較為平穩,具有多方面的技術優勢,例如強大的靠擴展性、整體的可靠性等等。
但是在面對大數據處理時,資料庫集群也表現出了一定的缺陷。這些缺陷主要包含以下方面:第一是可擴展性補不強。如果系統功能節點的硬體基礎設施選擇的是Pc伺服器,那麼將會出現系統線纜繁雜、硬體高度復雜化和架設安裝難度大等問題,對其擴展性造成了一定的限制;第二是數據通信受限。目前運行高速互聯網的必備條件是將 PCI插槽與主機進行連接。但是PCI的數據傳送能力有限,不能滿足節點間的數據通信要求;第三是提升空間小。這種空間主要是指資料庫數據集的可擴展空間,在進行數據處理時如何解決系統的安全性、運算速度和可擴展性是資料庫集群模式要面對的重要問題。此外,資料庫集群模式還存在兼容性、可靠性、容錯性、對異質條件支持能力等方面的局限性。
(二)Map Rece框架
雲計算構架主要是由低端伺服器進行大規模集群構成的數據處理技術,在數據存儲容量和數據處理能力上具有絕對的優勢。由於雲計算平台在運行中的可靠性和可擴展性等功能,目前眾多的大型企業或單位都將其作為web搜索和大數據分析的主要平台,如中國移動、淘寶、網易、網路等等。Map Rece框架主要包含三個方面的內容,即並行編程模型Map Rece、分布式文件系統(HDFs)、並行執行引擎。
Map Rece的設計是由google完成的,主要是進行大數據集的計算處理工作,代表了分析技術的整體發展狀態。Map Rece在進行數據處理時,先將對象進行抽象化處理,使其以映射和化簡操作對的形式呈現出來,其中映射部分進行數據的過濾,化簡部分進行數據的聚集工作,在工作中均以良好的界面進行管理工作。對Map Rece計算過程進行分解,可以將其工作原理理解為將大數據集進行解構,解構之後的結果是形成了數量眾多的小數據集,通過集群節點對這些小數據集進行分別處理,由此得出中間結果,將這些結果通過節點進行合並,就可以得出對整個大數據集的處理結果。
二、大數據時代電子商務IT技術設施的革新
IT基礎設施是保證電子商務系統運行的前提,對其進行技術革新能夠使其快速適應電子商務大數據時代。在後互聯網技術時代,電子商務企業廣泛採用的IT基礎設施一般是PC伺服器。隨著數據信息處理規模的擴大和處理能力的要求不斷增強,電子商務企業對於IT基礎設施的革新正朝著小型化和集群化方向發展,與此同時,電商企業還需要不斷地投入大量的人力和技術實現IT基礎設施的維護、升級和更新。
(一)數據倉庫的發展
從近期對電子商務信息處理數據的研究可以發現,在系統運行中出現的大數據仍在以驚人的速度發展和增長,其特點也表現為明顯的分布式發展和異構性趨勢。傳統的資料庫如具備一般數據處理功能和信息分析技術的資料庫以及BI技術已經很大程度上不能滿足PB級的數據量處理要求。這種大規模數據的發展促使電子商務數據倉庫系統出現了非常明顯的變革,也即是數據量數量級不斷上調,目前已經實現了由TB向PB的邁進,並且仍呈現出爆炸性的增長態勢。
根據對現今電商數據量發展狀況及趨勢的研究,可以發現電子商務數據倉庫將會呈現以下特點:第一,未來兩年電商數據倉庫的最大數據量將會達到甚至超過 1OOPB,並且其增長速度也將呈現出前所未有的變化,遠遠超過摩爾定律;第二,對數據的分析方式實現質的變化,將從常規化分析向深度化分析轉變;第三,中低端硬體組成的大規模集群硬體平台將會代替高端伺服器構成的基礎設施硬體支持平台,基礎設施進一步向集群化發展;由於硬體系統的革新將會對並行資料庫產生了重要影響,使其規模不斷擴大,由此帶來的成本也將逐漸增長。總體來講,目前電子商務將會出現大規模革新的直接因素是數據量的大規模增長和深度分析的現實要求。
(二)雲計算構架
雲計算構架是一種針對分布式網路計算而設計的新型數據處理模式,在應用中已經表現出了良好的適應性。在網路環境中進行計算、存儲、軟體等在線服務時較傳統構架有顯著的性能提升。在目前應用於電子商務領域內的雲計算構架來講,其具備了以下特徵:按需自助服務(on Demand self-service)、可度量服務(measured service)、池化資源(resource pooling)、泛化網路訪問((broad network access)以及快速彈性(rapid elasticity)。
三、大數據處理對電子商務的影響
雲計算的發展歷史並不長,首次引入雲計算技術的是淘寶網,其所有交易都是基於自建系統完成的,而阿里雲也成為我國首家開展雲計算供應的公司。雲計算對於大數據的超強處理能力使其對電子商務的發展起到了推波助瀾的作用,主要影響表現在以下方面。
(一)信息檢索能力
電子商務平台雖然很大程度上改變了消費者的購物方式,但是就營銷方式來說,商品數量和種類依然是影響消費者選擇商家的主要因素。在電子商務領域內,商品數量和種類呈現出結構的繁雜化發展甚至是非結構化發展趨勢。這些都為 IT基礎設施以及信息處理技術提出了挑戰,大數據處理技術由於其具備的靈活性和功能強大的檢索服務使其能夠引領電子商務信息處理技術的新方向。
雲計算的檢索服務可以根據客戶的實際需求和交易習慣對大量的信息進行篩選和顯示,其智能性和高效性也是傳統IT基礎設施多不能比擬的。此外,雲平台還具有信息推薦功能,根據網上交易整體情況篩選熱點商品予以展示,提高了交易的針對性和檢索效率。雲計算性能的優勢還體現在對人類部分思維進行描述的功能上,解決了長期以來計算機信息處理不能夠准確把握人類語言和知識應用的難題,使數據的處理實現了功能的深度發掘。這種技術優勢表現在實際交易中就是電商平台能夠對用戶輸入的語言進行迅速的反映,並能准確地提供用戶所需耍的商品信息。這種處理過程極大地提高了信息服務的效率和質量,使用戶滿意度得到了很大的提升。
(二)彈性處理能力
電子商務信息處理系統的工作性質使其必須具有強大的彈性處理能力,並能夠在極短的時間內做出反映以應對在系統運行中出現的各種問題。這些問題的出現並不是偶然的,而是隨著用戶的並發訪問以及商家集體營銷活動造成的大量訂單信息所導致的,這些情況在當前的電商系統運行中是比較常見的,這就需要系統在面臨突然增長的業務量時具有強大的擴容能力和數據的存儲能力。
雲計算技術的出現在理論上實現了信息的無上限存儲能力以及超大規模信息處理能力,使其能夠輕松地應對TB數量級的信息乃至PB數量級的信息處理。而這一功能的實施並不需要企業對硬體系統進行更換,而且能夠以比較低的成本享用雲計算存儲處理信息服務,在此基礎上對應用系統機型全方位的布局並保證了彈性處理能力的實現,使資源達到了最優化配置。
(三)信息處理安全性能
網路系統面臨的最大難題是信息安全問題,保證交易安全和用戶信息安全更是電商企業應時刻關注的話題。信息時代的一大特徵是將信息轉化為可利用的資源,甚至是直接創造經濟價值的信息資本。電子商務領域內,大數據就是企業生存發展的重要資本,對於大數據的掌控能力將成為衡量企業核心競爭力的主要標志。但是大數據的出現同樣給信息資源的安全帶來了極大的挑戰,由於其結構復雜,數量巨多,並且大多是具有敏感性的信息,很容易成為網路攻擊的目標。
大數據處理技術在應對信息安全是進行了性能的全面評估,使其能夠及時、精確地定位各類網路攻擊或非正常現象,並將這些異常數據收集整理通過分析實施預防措施。雲計算技術的安全性還體現在將安全可靠的信息轉化為雲服務,並將這些信息託管在雲端,為用戶的信息提供了專業化的信息防護措施和保密方案。
四、大數據處理的發展趨勢
信息技術的發展歷史並不長遠,但是在每個發展階段都會出現具有標志性的技術類型和產品。在目前,信息技術的熱點以及將會對信息產業產生重大影響的無疑是雲計算技術和大數據處理f司題。在電子商務環境中大數據處理將會發展出更多強大和多元的功能,具體發展趨勢有以下幾點。
(一)大數據處理服務和產品的多樣化
目前電子商務平台的服務和產品正在向著多元化的方向發展,除了電商企業之外,政府機構、大型集團企業、行政事業單位等都加入或正在加入構建雲環境下的數據處理服務平台,並且可以實現對沒有充足IT能力的小型電子商務企業進行服務和產品的輸出。
(二)新型的電子商務運營模式
雲計算的出現不僅對IT技術設施進行了大規模和深度的革新,同時其帶來的眾多產品如長尾效應、經濟效應、眾包、個性化服務等對於經濟學概念的再認知也產生了重大的影響。這些變革有助於盈利性企業的經營模式做出重大的調整,進而加快了向服務經濟社會發展的步伐。隨著信息技術的進一步發展和現有技術的逐步完善,傳統經濟模式必將會受到嚴重的沖擊,商業模式也會隨之產生整體性的變動甚至是根本性的改變,並且在變化中不斷進行新技術、新方法和新思路的探索。
(三)IT設施將成為企業核心競爭力的重要組成部分
企業的核心競爭力包含多方面的內容,但可以確定的是都是對企業發展具有重大影響的因素。隨著現代信息化時代的發展和信息技術在各個領域內的廣泛使用,企業成產、管理、經營等模塊的信息化將會對企業能否適應社會的發展以及在日益激烈的市場中保持其競爭力產生舉足輕重的作用。通過對IT基礎設施進行引進和革新,能在最大限度內實現資源的最佳配置,提高生產質量和效率,降低企業運營成本,提升企業的整體管理水平。特別是對於信息技術依賴程度高的電子商務企業,雲計算構架和大數據處理技術的可擴展性相當可觀,為海量信息的存儲、整合和管理提供了安全可靠的環境,通過IT基礎設施的技術優勢,為突破電子商務行業的發展上限提供了可能。
『叄』 為什麼Google的BigQuery在大數據並發處理中脫穎而出
大數據大數據並不僅僅是大量的數據。他的真正意義在於根據相關的數據背景,來完成一個更加完整的報告。舉個例子,如果你把你的CRM數據加入到你網站的數據分析當中,你可能就會找到你早就知道的高價值用戶群。她們是女性,住在西海岸,年齡30至45,花費了大量的時間在Pinterest和Facebook。
現在你已經被這些知識武裝起來了,那就是如何有效的設定和獲取更多高價值的用戶。
類似Tableau和谷歌這樣的公司給用戶帶來了更加強大的數據分析工具(比如:大數據分析)。Tableau提供了一個可視化分析軟體的解決方案,每年的價格是2000美金。谷歌提供了BigQuery工具,他可以允許你在數分鍾內分析你的數據,並且可以滿足任何的預算要求。
大數據是什麼?
由於大數據往往是一個混合結構、半結構化和非結構化的數據,因此大數據變得難以關聯、處理和管理,特別是和傳統的關系型資料庫。當談到大數據的時候,高德納公司(Gartner Group,成立於1979年,它是第一家信息技術研究和分析的公司)的分析師把它分成個3個V加以區分:
量級(Volume):大量的數據
速率(Velocity):高速的數據產出
多樣性(Variety):多種類型和來源的數據。
正如我們所說,大部分的企業每一天在不同的領域都在產出大量的數據。這里給出一組樣本數據的來源及類型,他們都是企業在做大數據分析時潛在的收集和聚合數據的方式:
網站分析
移動分析
設備/感測器數據
用戶數據(CRM)
統一的企業數據(ERP)
社交數據
會計系統
銷售點系統
銷售體系
消費者數據(例如益佰利的數據、鄧氏商聯的數據或者普查數據)
公司內部電子表格
公司內部資料庫
位置數據(空間位置、GPS定位的位置)
天氣數據
但是針對無限的數據來源,不要去做太多事情。把焦點放在相關的數據上,並且從小的數據開始。通常以2-3種數據源開始是一個好的建議,比如網站數據、消費者數據和CRM,這些會讓你得到一些有價值的見解。在你最初進入大數據分析之後,你可以開始添加數據源來促進你的分析,並且公布更多的分析結果。
想要獲得更多關於大數據細節的知識,可以去查閱維基網路的大數據詞條。
大數據的好處
大數據提供了一種識別和利用高價值機會的前瞻性方法。如果你想,那麼大數據可以提供如下好處:
根據數據背景獲得更完整的情況
利用數據驅動做出更好的商業決策
降低商業風險
市場上最好的解決方案
開發出更好的定製化產品或服務
更好的預測客戶的需求和想法
迅速適應市場
在實時數據的趨勢和預測上更加主動
建立精確的生命價值周期(LTV)、地圖和用戶類型
閱讀更長和更復雜的屬性窗口(用於網站點擊流數據)
對通過細分的更復雜的導航進行可視化,並且改善你的轉化漏斗(用於網站點擊流數據)
並不適用所有人
請記住,大數據分析並不適合所有人。如果你沒有安裝並且制定分析中的目標、沒有準備好歸因模型、再營銷和高級細分,那麼你就沒有為大數據做好准備。
如果你把谷歌分析使用到了極限,特別是由於他的采樣數據。那麼你已經准備好接觸大數據的皮毛了。
入門級大數據解決方案
目前有一大批面向企業級的大數據解決方案,比如甲骨文、SAP,、IBM、EMC和惠普。但是。這篇文章是面向尋找入門級大數據解決方案的中小型企業的讀者。下面我們將討論數據分析的輸出,並且分享兩個相對廉價的解決方案,從而幫助你開始使用大數據分析。
分析結果的輸出
目前對於大多數企業而言,數據分析主要還是針對核心數據。然而在未來,數據分析將不會採用采樣數據,並且會結合其他來源的數據,使用更加復雜的工具(比如Tableau)去分析他。谷歌分析是一個偉大的工具,但是你能獲得的結果目前已經到達極致了。
匯總數據的第一步往往是你輸出數據分析的過程。
如果你是一個谷歌分析高級版的用戶,這將很容易被推進。因為谷歌分析高級版集成了BigQuery功能來幫助企業推動大數據分析。(學習更多的關於數據分析及BigQuery的集成,請查看視頻)
如果你是一個谷歌分析標准版的用戶,也不用擔心。我們已經開發了一個工具,它可以導出未采樣的谷歌分析數據,並且把數據推送到BigQuery,或者其他的可以做大數據分析的數據倉庫或者數據工具中。
(註:你可能也注意到了其他的可以導出谷歌分析未采樣數據的工具,但是不同的是,這是我們的主要工作。作為一個谷歌分析工具的咨詢公司,我們不得不經常幫助客戶導出未采樣的數據做報告用。但是當我們發現了其他工具的一些問題時,我們不得不自己創建一個更可靠的解決方案。)
一旦你導出了你的數據,你可以做好准備把它導入到一個大數據分析工具中進行存儲、處理和可視化。這就給我們帶來了最好的入門級大數據解決方案。
『肆』 為什麼說谷歌三件寶是大數據的技術起源
因為,Google是大數據鼻祖。很多人提起大數據,必然會想起Google 的「三駕馬車」(也稱谷歌三寶):GFS、MapRece、BigTable。正所謂三篇論文定大數據之江山,它激發了大數據技術開源時代的到來,百花齊放,爭相鬥艷,成就了Hadoop的輝煌十載。尤其是近年來,大數據技術的發展,不論是襲鄭凳技術的迭代,還是生態圈的繁榮,都遠超人們的想像。從 Spark 超越 Hadoop 勇攀高峰,到 Flink 橫空出世挑戰 Spark 成為大數據處理領域一顆耀叢瞎眼的拍旅新星,再到如今 Google 又決心用 Apache Beam 一統天下。大數據開源技術的發展可謂是繼往開來,跌宕起伏,波瀾壯闊,儼然一副綿綿不斷的輝煌畫卷。
『伍』 大數據處理
大數據技術,就是從各種類型的數據中快速獲得有價值信息的技術。大數據領域已經涌現出了大量新的技術,它們成為大數據採集、存儲、處理和呈現的有力武器。
大數據處理關鍵技術一般包括:大數據採集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。
六、大數據展現與應用技術
大數據技術能夠將隱藏於海量數據中的信息和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。在我國,大數據將重點應用於以下三大領域:商業智能、政府決策、公共服務。例如:商業智能技術,政府決策技術,電信數據信息處理與挖掘技術,電網數據信息處理與挖掘技術,氣象信息分析技術,環境監測技術,警務雲應用系統(道路監控、視頻監控、網路監控、智能交通、反電信詐騙、指揮調度等公安信息系統),大規模基因序列分析比對技術,Web信息挖掘技術,多媒體數據並行化處理技術,影視製作渲染技術,其他各種行業的雲計算和海量數據處理應用技術等。
『陸』 關於大數據你不可不知的大企業及大布局
關於大數據你不可不知的大企業及大布局_數據分析師考試
如果說有一家科技公司准確定義了「大數據」概念的話,那一定是谷歌。根據搜索研究公司康姆斯科(Comscore)的調查,僅2012年3月一個月的時間,谷歌處理的搜索詞條數量就高達122億條。
谷歌不僅存儲了它的搜索結果中出現的網路連接,還會儲存所有人搜索關鍵詞的行為,它能夠精準地記錄下人們進行搜索行為的時間、內容和方式。這些數據能夠讓谷歌優化廣告排序,並將搜索流量轉化為盈利模式。谷歌不僅能追蹤人們的搜索行為,而且還能夠預測出搜索者下一步將要做什麼。換言之,谷歌能在你意識到自己要找什麼之前預測出你的意圖。這種抓取、存儲並對海量人機數據進行分析,然後據此進行預測的能力,就是所謂的「大數據」。
2012:大數據十字路口?
為什麼大數據突然變得這么火?為什麼《紐約時報》把2012年定義為「大數據的十字路口」?
大數據之所以進入主流大眾的視野,源自三種趨勢的合力:
第一,許多高端消費品公司加強了對大數據的應用。社交網路巨擎 Facebook 使用大數據來追蹤用戶在其網路的行為,通過識別你在它的網路中的好友,從而給出新的好友推薦建議,用戶擁有越多的好友,他們與 Facebook之間的黏度就越高。更多的好友意味著用戶會分享更多照片、發布更多狀態更新、玩更多的游戲。
商業網站LinkdIn則使用大數據在求職者和招聘職位之間建立關聯。有了LinkdIn,獵頭們再也不用向潛在的受聘者打陌生電話來碰運氣,而可以通過簡單的搜索找出潛在受聘者並聯系他們。與此相似,求職者也可以通過聯系網站上其他人,自然而然地將自己推銷給潛在的僱主。
第二,以上兩家公司都在2012年早些時候陸續上市。Facebook 在納斯達克上市,LinkedIn 在紐約證券交易所上市。這兩家企業和谷歌一樣,雖然表面上是消費品公司,然而其本質是大數據企業。除去這兩家,Splunk 也在 2012 年完成了上市,它是一家幫助大中型企業提供運營智能的大數據企業。這些企業的公開上市提高了華爾街對於大數據的興趣。這種興趣帶來了空前的盛況——矽谷的風險投資家們開始前仆後繼地投資大數據企業。大數據將引發下一波創業大潮,而這次浪潮有望讓矽谷在未來幾年取代華爾街。
第三,亞馬遜、Facebook、LinkedIn 和其他以數據為核心消費品的活躍用戶們,開始期待自己在工作中也能獲得暢通無阻地使用大數據的體驗,而不再僅僅限於生活娛樂。用戶們此前一直想不通,既然互聯網零售商亞馬遜可以推薦閱讀書目、推薦電影、推薦可供購買的產品,為什麼他們所在的企業卻做不到類似的事情。
比如,既然汽車租賃公司擁有客戶過去租車的信息和現有可用車輛庫存的信息,這些公司為何就不能在向不同的租車人提供合適的車輛方面做得更智能一點?公司還可以通過新的技術,將公開信息利用起來——比如某個特定市場的狀況,會議活動信息,以及其他可能會影響市場需求和供給的事件。通過將內部供應鏈數據和外部市場數據結合在一起,公司就可以更加精確地預測什麼車輛可用,以及可用時間。
與此類似,零售商應當可以將來自外部的公開數據和內部數據結合在一起,利用這種混合的數據進行產品定價和市場布局。同時還可以同時考慮影響現貨供應能力的多種因素以及消費者購物習慣,包括哪兩種產品相搭配會賣得更好,這樣零售商就可以提升消費者的平均購買量,從而獲得更高的利潤。
谷歌的行動
谷歌的體量和規模,使它擁有比其他大多數企業更多的應用大數據的途徑。谷歌的優勢之一在於,它擁有一支軟體工程師部隊,這使得谷歌能夠從無到有地建立大數據技術。
谷歌的另一個優勢在於它所擁有的基礎設施。谷歌搜索引擎本身的設計,就旨在讓它能夠無縫鏈接成千上萬的伺服器。如果出現更多的處理或存儲需要,抑或某台伺服器崩潰,谷歌的工程師們只要再添加更多的伺服器就能輕松搞定。
谷歌軟體技術的設計也秉持著同樣的基礎設施理念。MapRece(谷歌開發的編程工具,用於大規模數據集的並行運算。——譯者注)和谷歌文件系統(Google File System)就是兩個典型的例子。《連線》雜志在 2012年初夏曾報道稱,這兩個軟體系統「重塑了谷歌建立搜索索引的方式」。
為數眾多的企業如今開始使用Hadoop, 它是MapRece和谷歌文件系統的一種開源衍生產品。Hadoop允許橫跨多台電腦,對龐大的數據集合進行分布式處理。在其他企業剛剛開始使用Hadoop的時候,谷歌早已多年深耕大數據技術,這讓它在行業中獲得了巨大的領先優勢。
如今谷歌正在進一步開放數據處理領域,將其和更多第三方共享。谷歌最近剛剛推出web服務BigQuery。該項服務允許使用者對超大量數據集進行互動式分析。按照谷歌目前的狀況,「超大量」,意味著數十億行數據。BigQuery 就是按指令在雲端運行的數據分析。
除此以外,谷歌還坐擁人們在谷歌網站進行搜索及經過其網路時所產生的大量機器數據。用戶所輸入的每一個搜索請求,都會讓谷歌知道他在尋找什麼,所有人類行為都會在互聯網上留下痕跡路徑,而谷歌佔領了一個絕佳的點位來捕捉和分析該路徑。
不僅如此,谷歌在搜索之外還有更多獲取數據的途徑。企業安裝「谷歌分析(Google Analytics)」之類的產品來追蹤訪問者在其站點的足跡,而谷歌也可獲得這些數據。網站還使用「谷歌廣告聯盟(Google Adsense)」,將來自谷歌廣告客戶網的廣告展示在其站點,因此,谷歌不僅可以洞察自己網站上廣告的展示效果,同樣還可以對其他廣告發布站點的展示效果一覽無余。
將所有這些數據集合在一起所帶來的結果是:企業不僅從最好的技術中獲益,同樣還可以從最好的信息中獲益。在信息技術方面,許多企業可謂耗資巨大,然而在信息技術的組成部分之一——信息領域,谷歌所進行的龐大投入和所獲得的巨大成功,卻罕有企業能望其項背。
亞馬遜步步緊逼
谷歌並不是惟一一個推行大數據的大型技術公司。互聯網零售商亞馬遜已經採取了一些激進的舉動,令其有可能成為谷歌的最大威脅。
曾有分析者預測,亞馬遜2015年營收將超過1000億美元,它即將趕超沃爾瑪成為世界最大的零售商。如同谷歌一樣,亞馬遜也要處理海量數據,只不過它處理數據帶有更強的電商傾向。消費者們在亞馬遜的網站上對想看的電視節目或是想買的產品所進行的每一次搜索,都會讓亞馬遜對該消費者的了解有所增加。基於搜索和產品購買行為,亞馬遜就可以知道接下來應該推薦什麼產品。而亞馬遜的聰明之處還不止於此,它還會在網站上持續不斷地測試新的設計方案,從而找出轉化率最高的方案。
你會認為亞馬遜網站上的某段頁面文字只是碰巧出現的嗎?如果你這樣認為的話,你應該再好好想一想。整個網站的布局、字體大小、顏色、按鈕以及其他所有的設計,其實都是在多次審慎測試後的最優結果。
以數據為導向的方法並不僅限於以上領域,按一位前員工的說法,亞馬遜的企業文化就是冷冰冰的數據導向型文化。數據顯示出什麼是有效的、什麼是無效的,新的商業投資項目必須要有數據的支撐。對數據的長期專注讓亞馬遜能夠以更低的售價提供更好的服務。消費者常常會完全跳過谷歌之類的搜索引擎,直接去亞馬遜網站搜索商品、並進行購買。
爭奪消費者控制權的戰爭硝煙還在彌漫擴散,蘋果、亞馬遜、谷歌,以及微軟,這四家公認的巨頭如今不僅在互聯網上廝殺,在移動領域同樣打得難解難分。鑒於消費者們把越來越多的時間花在手機和平板電腦等移動設備上,坐在電腦前的時間越來越少,因此,那些能進入消費者掌中移動設備的企業,將在銷售和獲取消費者行為信息方面更具有優勢。企業掌握的消費者群體和個體信息越多,它就越能夠更好地制定內容、廣告和產品。
從支撐新興技術企業的基礎設施到消費內容的移動設備,令人難以置信的是,亞馬遜的觸角已觸及到更為廣闊的領域。亞馬遜在幾年前就預見了將伺服器和存儲基礎設施開放給其他人的價值。「亞馬遜網路服務(Amazon Web Services,簡稱 AWS)」是亞馬遜公司知名的面向公眾的雲服務提供者,為新興企業和老牌公司提供可擴展的運算資源。雖然AWS 成立的時間不長,但已有分析者估計它每年的銷售額超過15億美元。
AWS所提供的運算資源為企業開展大數據行動鋪平了道路。當然,企業依然可以繼續投資建立以私有雲為形式的自有基礎設施,而且很多企業還會這樣做。但是如果企業想盡快利用額外的、
可擴展的運算資源,他們還可以方便快捷地在亞馬遜的公共雲上使用多個伺服器。如今亞馬遜引領潮流、備受矚目,靠的不僅是它自己的網站和Kindle之類新的移動設備,支持著數千個熱門站點的基礎設施同樣功不可沒。
AWS帶來的結果是,大數據分析不再需要企業在IT上投入固定成本,如今,獲取數據、分析數據都能夠在雲端簡單迅速地完成。換句話說,企業過去由於無法存儲而不得不拋棄數據,如今它們有能力獲取和分析規模空前的數據。
實現信息優勢
AWS之類的服務與Hadoop之類的開源技術相結合,意味著企業終於能夠嘗到信息技術在多年以前向世人所描繪的果實。
數十年來,人們對所謂「信息技術」的關注一直偏重於其中的「技術」部分。首席信息官的職責只不過是對伺服器、存儲和網路的購買及管理。而今,信息以及對信息的分析和存儲、依據信息進行預測的能力,正成為企業競爭優勢的來源。
信息技術剛剛興起的時候,較早應用信息技術的企業能夠更快地發展,超越他人。微軟在20世紀90年代樹立起威信,這不僅僅得益於它開發了世界上應用最為廣泛的操作系統,還在於它當時在公司內部將電子郵件作為標准溝通機制。
在許多企業仍在猶豫是否採用電子郵件的時候,電子郵件事實上已經成為微軟討論招聘、產品決策、市場戰略之類事務的機制。雖然群發電子郵件的交流在如今已是司空見慣,但在當時,這樣的舉措讓微軟較之其他未採用電子郵件的公司,更加具有速度和協作優勢。擁抱大數據、在不同的組織之間民主化地使用數據,將會給企業帶來與之相似的優勢。諸如谷歌和Facebook之類的企業已經從「數據民主」中獲益。
通過將內部數據分析平台開放給所有跟自己的公司相關的分析師、管理者和執行者,谷歌、Facebook 及其他一些公司已經讓組織中的所有成員都能向數據提出跟商業有關的問題、獲得答案
並迅速行動。 以Facebook為例,它將大數據推廣成為內部的服務,這意味著該服務不僅是為工程師設計的,也是為終端用戶——生產線管理人員設計的,他們需要運用查詢來找出有效的方案。因此,管理者們不需要等待幾天或是幾周的時間來找出網站的哪些改變最有效,或者哪些廣告方式效果最好,他們可以使用內部的大數據服務,而該服務就是為了滿足其需求而設計的,這使得數據分析的結果很容易就可以在員工之間被分享。
過去的二十年是信息技術的時代,接下來二十年的主題仍會是信息技術。這些企業能夠更快地處理數據,而公共數據資源和內部數據資源一體化將帶來獨特的洞見,使他們能夠遠遠超越競爭對手。如同我所撰寫的《大數據的八大定律》(The Top 8 Laws Of Big Data)所言,你分析數據的速度越快,它的預測價值就越大。企業如今正在漸漸遠離批量處理(批量處理指先存儲數據,事件之後再慢慢進行分析處理),轉向實時分析來獲取競爭優勢。
對於高管們而言,好消息是:來自於大數據的信息優勢不再只屬於谷歌、亞馬遜之類的大企業。Hadoop之類的開源技術讓其他企業同樣可以擁有這樣的優勢。老牌財富100強企業和新興初創公司,都能夠以合理的價格,利用大數據來獲得競爭優勢。
大數據的顛覆
大數據帶來的顛覆,不僅是與以往相比可以獲取和分析更多數據的能力,更重要的是獲取和分析等量數據的價格也正在顯著下降,而價格越低,銷量就會越高。然而,隱含其中的諷刺關系正如所謂的「傑文斯悖論」(Jevons Paradox)。經濟學家傑文斯通過觀察工業革命得出該悖論,並以他的名字命名(傑文斯悖論的核心是,資源利用率的提高導致價格降低 , 最終會增加資源的使用量。——譯者注)。科技進步使儲存和分析數據的方式變得更有效率,公司將做更多的數據分析,因此並沒有減少工作。簡而言之,這就是大數據帶來的顛覆。
從亞馬遜到谷歌,從IBM到惠普和微軟,大量的大型技術公司紛紛投身大數據,而基於大數據解決方案,更多初創型企業如雨後春筍般涌現,實現開放源和共享雲。大公司致力於橫向的大數據解決方案,與此同時,小公司則專注於為重要垂直業務提供應用程序。有些產品優化銷售效率,還有些產品通過將不同渠道的營銷業績與實際的產品使用數據相關聯,為未來營銷活動提供建議。這些大數據應用(Big Data Applications,簡稱BDA)意味著小公司不必在內部開發或配備所有大數據技術;在很多情況下,它們可以利用基於雲端的服務來滿足數據分析需求。在技術之外,這些小企業還會開發一些產品,追蹤記錄與健康相關的指標並據此提出改善人們行為的建議。諸如此類的產品有望減少肥胖,提高生活質量,同時降低醫療成本。
大數據路線圖
產業分析研究公司福雷斯特(Forrester)估計,企業數據的總量在以每年 94% 的增長率飆升。這樣的高速增長之下,每個企業都需要一個大數據路線圖。至少,企業應制訂獲取數據的戰略,獲取范圍應從內部電腦系統的常規機器日誌,到線上的用戶交互記錄。即使企業當時並不知道這些數據有什麼用也要這樣做,這些數據的用處隨後或許會突然被發現。
數據所具有的價值遠遠高於你最初的期待,千萬不要隨便拋棄數據。企業還需要一個計劃以應對數據的指數型增長。照片、即時信息以及電子郵件的數量非常龐大,由手機、GPS 及其他設備構成的「感應器」釋放出的數據量甚至還要更大。
理想情況下,企業應該具備一種能夠讓數據分析貫穿於整個組織的視野,分析應該盡可能地接近實時。通過觀察谷歌、亞馬遜、Facebook和其他科技領袖企業,你可以看到大數據之下的種種可能。管理者需要做的就是在組織中融入大數據戰略。
谷歌和亞馬遜這樣的企業,應用大數據進行決策已數年有餘,它們在數據處理上已經獲得了廣泛的成功。而現在,你也可以擁有同樣的能力。
以上是小編為大家分享的關於關於大數據你不可不知的大企業及大布局的相關內容,更多信息可以關注環球青藤分享更多干貨
『柒』 淺談Flink的基石——Google Dataflow模型
最近正在褲山深入地研究與重度使用Flink,中途了解到它實際上就是Google Dataflow模型的一種implementation。我是個喜歡刨根問底的人,於是就閱讀了Dataflow的原始論文與其他相關資料,順便寫篇東西來總結下。看官如果對Flink有了解的話,就會發現Flink的設計與Dataflow模型高度貼合。
Dataflow模型在2015年由一群來自Google的大佬提出,目前Google Cloud上也有對應的服務提供,名字就叫Cloud Dataflow,通過Apache Beam主打「簡單的流式與批量大數據處理」(Simplified stream and batch data processing),官網在 這里 。
Dataflow模型的思想集中體現在論文 《The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing》 中。這個題目很長,但是值得推敲一番:
Google的大佬們認為,當我們提「流式」(stream)這個詞時,實際上表達的意思就是在源源不斷的連續數據上進行處理。反之,當我們提「批量」(batch)這個詞時,就意味著在有限的一塊或多塊數據上進行處理,亦即「有界」。論文中傾向於用無界/有界來代替流式/批量,因為後者聽起來像是在描述計算引擎的語義,而前者才是數據本身的特徵。
對無界數據的處理必然要及時輸出結果,否則就毫無意義。而輸出的結果天然是有界數據,因此在Dataflow模型中皮純尺,批量處理可以作為流式處理的一個子問題,目的是達到批流融合。這與傳統Lambda架構(官網在 這里 )相比無疑是先進的,因為後者需要維護兩套不同的組件分別用來做流式和批量處理,非常繁瑣。
我們都理解在數據的生成、採集、傳輸過程中,不可避免地會帶來各種各樣的延遲,這就意味著處理無界數據時,其順序很有可能與業務邏輯的原始順序不同。舉個淺燃高顯的例子:某用戶在7時55分瀏覽了某商品的詳情頁面,然後在7時56分加入購物車,57分下單購買,但日誌隊列中的順序可能會變成「下單→加入購物車→瀏覽」。
在Lambda架構下的批量處理中,亂序數據造成問題的可能性往往很小。但是在Dataflow的批流融合構想下,必須正確地處理亂序數據才能保證整個大數據服務的正確性,因此非常重要。下面就來深入地看看Dataflow如何解決論文題目中的這些要點。
我們首先要分辨清楚Dataflow中最重要的一對基礎概念,即事件時間(event time)和處理時間(processing time),說起來也很簡單:
下圖示出事件時間和處理時間的關系。在理想情況下,數據總能及時地被處理,兩者的關系應該是如虛線所示。但由於各種延遲的存在,實際情況更多地表現為紅色粗箭頭,兩者之間會有一些差距(skew)。
將事件時間和處理時間區別對待,並且採用事件時間作為時間特徵,是Dataflow的一大進步。
Dataflow將上述無界數據的處理問題分解為4個子問題來考慮:
這樣一來就清晰多了。為了解決上面的4個子問題,Dataflow提出了以下這些方案:
至於最基本的What問題,當然是用戶自己要考慮的了。下面分別討論這三個模型。
在大學計算機網路課程中,我們都學過窗口的概念,大家明白就好。
前面已經提到過,對無界數據的處理必然要及時輸出結果,否則就毫無意義。那麼要處理哪個時間范圍的數據呢?通過窗口就可以將無界數據時域地劃分為一個個的有限數據集,進而能在其上做分組、聚合、連接等比較高級的操作。下圖示出亂序事件時間的一種窗口。
也就是說,Dataflow通過窗口模型將傳統流處理中的(key, value)二元組改進為(key, value, event_time, window)四元組。
常見的開窗方式有三種,即固定(fixed/tumbling)窗口,滑動(sliding)窗口,會話(session)窗口,如下圖所示。
固定窗口顯然是最簡單的,比如一個5分鍾的固定窗口: [7:00, 7:05), [7:05, 7.10), [7:10, 7.15), ... 。滑動窗口對我們來說也是老熟人,例如一個窗口時長1小時,滑動時長10分鍾的滑動窗口就是以下的時間區間: [7:00, 8:00), [7:10, 8:10), [7:20, 8:20), ... 。
會話窗口則不那麼常見一些,它是Google在實踐中總結出來的,通俗地說就是在一個key連續出現時才形成窗口,如果該key持續不出現超過一定時長,之後再出現就被劃分到下一個窗口。這種方式比較靈活,並且容易想到它可以用於用戶行為檢測、異常檢測等方面。
如果我們不採用事件時間作為時間特徵,而用處理時間的話,就沒有必要考慮觸發模型,因為窗口的邊界與數據沒關系。但是一旦用事件時間,由於數據會遲到,窗口的邊界就會模糊,也就是無從知道窗口裡的數據是否已經齊活了,觸發結果的物化變成了一道難題。所以在這里又引入了一個重要的概念,就是水印(watermark)。
水印本質上是個時間戳,對一個無界數據源而言,水印T就表示已經接收到所有t <= T的數據,其他t > T的數據都將被視為遲到,接下來就可以進行輸出。在講解事件時間和處理時間時,圖中的紅色箭頭就是實際的水印時間。
顯然,如果沒有延遲的數據,或者我們能對輸入數據有完整的感知,那麼水印就是理想的(ideal)。但無界數據源本身決定了我們不可能完整感知到輸入數據的特徵,所以水印的設定大多是啟發式(heuristic)的,亦即根據歷史指標盡量保證窗口內數據的完整性,但不能確保100%可靠,太快和太慢都不行。當然,也可以根據業務情況,採用更加簡單暴力的方式(如周期性打水印、計數打水印)等,優勢是比較靈活,不過就更加不可靠了。
既然啟發式水印不能確保100%可靠,那麼就必須用遲到數據修正之前窗口的正確性,亦即增量更新,也叫做回填(backfill)。Dataflow原生定義了以下三種回填策略:
有以下輸入示例。
注意事件時間從12:00開始而處理時間從12:05開始。理想水印線如圖中細線所示,實際水印則是粗線,說明有遲到數據。
下圖是採用與Spark Streaming類似的微批次(micro-batch)手段進行處理的流程圖,可見是根據processing time進行處理,與event time並沒有關系。
下圖則是與Flink類似的固定窗口+流式處理機制。
由這張圖可以看出啟發式水印的問題:數據9在水印觸發時實際上還沒有到,也就是水印太快了。而數據7要到8觸發水印時才會輸出,也就是水印太慢了。
邊看球邊寫的,三心二意並且水平有限,嘛就這樣吧~
『捌』 簡要描述大數據產生背後的技術原因急!
大數據技術來的發展,歷經了多源個階段,而真正大數據技術開始成熟,是來自於Google在2004年提出了的分布式數據系統(Google file system,GFS)、分布式計算系統MapRece和分布式資料庫BigTable,基於這套體系,大數據處理技術開始走向成熟。
2014年以後,整體大數據的技術棧已經趨於穩定,由於雲計算、人工智慧等技術發展,還有晶元、內存端的變化,大數據技術也在發生相應的變化。
最早大數據生態沒有辦法統一批處理和流計算,只能採用Lambda架構,批的任務用批計算引擎,流式任務採用流計算引擎,比如批處理採用MapRece,流計算採用Storm。
後來Spark試圖從批的角度統一流處理和批處理,Spark Streaming採用了micro-bach的思路來處理流數據。近年來純流架構的Flink異軍突起,由於其架構設計合理,生態健康,近年來發展特別快。而Spark近期也拋棄了自身微批處理的架構,轉向了純流架構Structure Streaming,未來霸主還未見分曉。