一張圖阿里大數據之路_馬雲布局的大數據有多牛

❶ 如何看待阿里成立大文娛版塊

今年5月10日，阿里巴巴市值超過了3000億美元，什麼概念。相當於 3個中石化、4.4個建行、5個網路、10個萬科，這頭巨大的醒獅備受矚目。去年6月，阿里宣布成立大文娛版塊，向文娛版塊發力。萬事開頭難，然而在競爭激烈的泛娛樂版塊，阿里能夠有這樣的勇氣和魄力花大力氣希望在這上面分一杯羹，其實在一定程度上為文娛市場解渴。在優質內容緊缺的時代，確實也需要越來越多的企業有這樣的擔當去嘗試。兩個月前，阿里宣布收購大麥，今天剛看到新聞，原新浪總編周曉鵬出任阿里文娛集團副總裁，負責UC頭條和大魚號（土豆）的內容生態方面業務。UC作為阿里文娛集團的重要的組成部分，是阿里大文娛板塊的核心旗艦。周小鵬的加入，用他接受媒體采訪時說的話：演算法能力結合阿里體系內打通的各種內容資源和用戶特徵數據資源，能夠做的事情想想就令人興奮。其實現在看來，阿里大文娛的生態已經初見雛形，大文娛版塊一年下來，說長不長，說短不短，對於一個放長線釣大魚的企業來說，現在斷定他的未來，似乎還為時過早。

❷ 阿里巴巴大數據將嚴重威脅國家安全嗎

阿里巴巴大數據對個人隱私的威脅的確存在，但並不是沒有解決的辦法，即便擔憂對國家安全產生威脅，也不必動輒高呼「國有化」。

阿里巴巴並不能掌握「各種戰略資源的流轉」，阿里的大數據本身就包含各種商品流轉的數據，通過各種商品的流轉很容易分析出國家各種資源的流轉，由此繪制出中國各種戰略資源的流轉及節點圖。顯然，無論戰時還是平時，這樣一份戰略資源的流轉及節點圖都可用作瓦解國家安全的導航圖。
首先，雖然阿里巴巴在中國電商中占據主導地位，但據國家統計局和商務部數據顯示，阿里巴巴還遠未達到掌握絕大多數商品流轉數據的程度。
更重要的是，阿里巴巴即便掌握商品流轉的數據，距離分析出各種資源的流轉也很遠，更不要說在目前的佔有規模下分析出「各種戰略資源的流轉」。
事實上，在今年稍早些時候，在葯品領域，阿里巴巴曾面臨過更具體的指責。南方周末報道稱，按照國家食葯總局的監管要求，中國各類葯品從生產、流通、經營和消費等所有節點的全部信息，將會儲存在「阿里雲」上。當時就有人認為，阿里健康將就此「運用大數據的研究方法，分析葯品電子監管碼所蘊含的信息，能夠繪制出國內的疾病發生的時間、地域、周期，進而掌握國人的健康情況；甚至還能通過葯品流轉，繪制出中國各種戰略資源節點圖。」
僅憑阿里巴巴掌握了很多電子商務數據，就認為這些數據有可能被製作成「瓦解國家安全的導航圖」，是聳人聽聞的說法。
大數據的能力不應該被過度誇大，聲稱「大數據威脅國家安全」的這篇文章，還一個說法是，「阿里巴巴的大數據和雲計算簡直就是有史以來最為強大的情報搜集和分析系統——通過其大數據和雲計算，中國人的一舉一動及行為偏好都可以盡在其掌握之中。」這種說法完全是過分虛誇了大數據的能力。

❸ 從IT到DT 阿里大數據背後的商業秘密

從IT到DT：阿里大數據背後的商業秘密

空氣污染究竟在多大程度上影響了人們的網購行為？有多少比重的線上消費屬於新增消費？為什麼中國的「電商百佳縣」中浙江有41個而廣東只有4個？
這些電商的秘密就隱藏在阿里巴巴商業生態的「大數據」中。
「未來製造業的最大能源不是石油，而是數據。」阿里巴巴董事局主席馬雲如此形容「數據」的重要意義。
在他看來，阿里巴巴本質上是一家數據公司，做淘寶的目的是為了獲得零售的數據和製造業的數據；做螞蟻金服的目的是建立信用體系；做物流不是為了送包裹，而是這些數據合在一起，「電腦會比你更了解你」。與此同時，產業的發展也正在從IT時代走向以大數據技術為代表的DT時代。
而在阿里巴巴內部，由電子商務、互聯網金融、電商物流、雲計算與大數據等構成的阿里巴巴互聯網商業生態圈，也正是阿里研究院所紮根的「土壤」。
具體而言，阿里巴巴平台的所有海量數據來自於數百萬充滿活力的小微企業、個人創業者以及數億消費者，阿里研究院通過對他們的商務活動和消費行為等進行研究分析，從某種程度上可以反映出一個地方乃至宏觀經濟的結構和發展趨勢。
而隨著阿里巴巴生態體系的不斷拓展和延伸，阿里巴巴的數據資源一定程度上將能夠有效補充傳統經濟指標在衡量經濟冷暖方面存在的滯後性，幫助政府更全面、及時、准確地掌握微觀經濟的運行情況。
從IT到DT
不同於一些企業以技術研究為導向的研究院，阿里研究院副院長宋斐告訴《第一財經日報》記者，阿里研究院定位於面向研究者和智庫機構，主要的研究方向包括未來研究（如信息經濟）、微觀層面上的模式創新研究（如C2B模式、雲端制組織模式）、中觀層面上的產業互聯網化研究（如電商物流、互聯網金融、農村電商等）、宏觀層面上新經濟與傳統經濟的互動研究（如互聯網與就業、消費、進出口等）、互聯網治理研究（如網規、電商立法）等。
具體到數據領域，就是在阿里巴巴互聯網商業生態基礎上，從企業數據、就業數據、消費數據、商品數據和區域數據等入手，通過大數據挖掘和建模，開發若干數據產品與服務。
例如，將互聯網數據與宏觀經濟統計標准對接的互聯網經濟數據統計標准，包括了中國城市分級標准；網路消費結構分類標准；網上商品與服務分類標准等。
而按經濟主題劃分的經濟信息統計資料庫則包括商品信息統計資料庫；網購用戶消費信息統計資料庫；小企業與就業統計資料庫；區域經濟統計資料庫。
還有反映電商經濟發展的「晴雨表」——阿里巴巴互聯網經濟系列指數。其中包括反映網民消費意願的阿里巴巴消費者信心指數aCCI、反映網購商品價格走勢的阿里巴巴全網網購價格指數aSPI和固定籃子的網購核心價格指數aSPI-core、反映網店經營狀態的阿里巴巴小企業活躍度指數aBAI、反映區域電子商務發展水平的阿里巴巴電子商務發展指數aEDI等等。其中，現有aSPI按月呈報給國家統計局。
而面向地方政府決策與分析部門的數據產品「阿里經濟雲圖」，則將分階段地推出地方經濟總覽、全景分析、監測預警以及知識服務等功能。宋斐告訴記者，其數據可覆蓋全國各省、市、區縣各級行政單位，地方政府用戶經過授權後，可以通過阿里經濟雲圖看到當地在阿里巴巴平台上產生的電子商務交易規模、結構特徵及發展趨勢。
「藉助數據可視化和多維分析功能，用戶可以對當地優勢產業進行挖掘、對消費趨勢與結構變動進行監測、與周邊地區進行對比等等。」宋斐表示，該產品未來還可以提供API服務模式，以整合更多的宏觀經濟數據和社會公開數據，為當地經濟全貌進行畫像，給大數據時代的政府決策體系帶來新的視角和工具。
數據會「說話」
對於如何利用「大數據」，馬雲在公司內部演講中曾提到：「未來幾年內，要把一切業務數據化，一切數據業務化。」
其中，後半句話可以理解為，讓阿里巴巴各項業務所產生、積累的大數據來豐富阿里的生態，同時讓生態蘊含的數據產生新的價值，再反哺生態，這是一個相輔相成的循環邏輯。
宋斐對記者舉例稱，螞蟻金服旗下的芝麻信用已獲得人民銀行個人徵信牌照批准籌備，未來將通過分析大量的網路交易及行為數據，如用戶信用歷史、行為偏好、履約能力、身份特質、人脈等信息，對用戶進行信用評估，這些信用評估可以幫助互聯網金融企業對用戶的還款意願及還款能力做出結論，繼而為用戶提供快速授信及現金分期服務。本質上來說，「芝麻信用」是一套徵信系統，該系統收集來自政府、金融系統的數據，還會充分分析用戶在淘寶、支付寶等平台的行為記錄。
再如，對於如火如荼的農村電商領域，阿里研究院從2010年就已開始對「沙集模式」個案進行研究，後續一系列基於數據和案例調研所驅動的農村電商研究成果，對於地方政府科學決策，推動當地農村電子商務發展、創造就業和發展地方經濟起到了助力作用。到2014年底，全國已經涌現了212個淘寶村，而阿里巴巴也在這一年啟動千縣萬村計劃,將在三至五年內投資100億元,在農村建立起電子商務服務體系。
除了通過數據分析去助力業務外，宋斐告訴記者，有時候大數據報告可能會與傳統的印象結論差異很大。
以區域電子商務為例，在阿里研究院發布的2014年中國電商百強縣排行榜中，浙江有41個縣入圍，福建有16個，而廣東只有4個，這個結果與傳統的印象相差比較大。而事實上，這是因為浙江和廣東兩省電商發展在地理分布、產業結構等方面的明顯不同而帶來的。
再如，外界常常認為網路零售替代了線下零售，但事實上，麥肯錫《中國網路零售革命：線上購物助推經濟增長》的研究報告，通過借鑒阿里研究中心（阿里研究院前身）和淘寶網UED用戶研究團隊的大量報告與數據，最後發現：「約60%的線上消費確實取代了線下零售；但剩餘的40%則是如果沒有網路零售就不會產生的新增消費。」
「這一研究成果，有助於社會各界准確認識網路零售與線下零售的關系，共同探索和建設良好的商業發展環境。」

❹ 馬雲布局的大數據有多牛

你好：阿里在09年就把大數據作為一項公司基本戰略，要知道那個時候甚至還沒幾個內人開始談論「大數據」，可以說在容大數據方面相比於國內其他互聯網公司，阿里是走在前面的。
按馬雲的話講，我們正從information technology轉向data technology。數據是靈魂。也許並不能保證大數據能給阿里巴巴賺很多錢，但是阿里認為數據對人類有用，所以他們做了。
舉一個阿里CTO認為大數據應用和價值的例子：淘寶小貸團隊，很小的隊伍，完全依賴數據對客戶的信用程度作分析，將數據轉化為信用，將信用轉化為財富，這是傳統商業銀行冗雜的審核程序，低效和高成本所不能比的。更重要的是，這個項目給近百萬的小商戶提供了生命線，哪怕只貸一元錢。沒有哪個銀行會這么做。大數據應該是未來發展的方向。

❺ 阿里雲的MaxCompute數加（原ODPS）用的怎樣

我覺得他們在開發這個的時候，可能考慮了很多中國的傳統元素，所以在設計方面比較的符合中國的國情，不管是用戶的體驗方式還是怎樣，都特別的能夠拉好感。

但是從程序員的角度來說，我覺得它們的功能和模型做的也還是一般，雖然說在系統方面兼容性更好，但是缺點也還是蠻多的。

層次

之所以這樣說，是因為他整個層次是非常豐富的，他很好的做了分層，也就是說，給不同的軟體提供了不同的接入口，最底層是Linux+PC Server，上層軟體是飛天，飛天是阿里雲09年開始開發的一款分布式系統軟體，主要提供分布式存儲和分布式計算的調度、編程框架。開發語言是C++, 2013年該系統在生產環境支持調度5000台機器的集群。

總結

總的來說，他們開發的初衷是好的，但是出來的效果並不盡如人意，後續可能還要再看。

❻ 7.阿里大數據——大數據建模

數據模型就是數據組織和存儲方法，它強調從業務、數據存取和使用角度合理存儲數據。
適合業務和基礎數據存儲環境的模型，大數據能獲得以下好處：

大數據系統需要數據模型方法來幫助更好的組織和存儲數據，以便在性能、成本、效率和質量之間取得最佳平衡。

不管是Hadoop、Spark還是阿里巴巴集團的MaxCompute系統，仍然在大規模使用SQL進行數據的加工和處理，仍然在用Table存儲數據，仍然在使用關系理論描述數據之間的關系，只是在大數據領域，基於其數據存取的特點在關系數據模型的範式上有了不同的選擇而已。

從全企業的高度設計一個3NF模型，用實體關系（Entity Relationship，ER）模型描述企業業務，在範式理論上符合3NF。數據倉庫中的3NF與OLTP中不同過，有以下特點：

ER模型建設數據倉庫的出發點是整合數據，為數據分析決策服務。建模步驟分為三個階段：

維度建模從分析決策的需求出發構建模型，為分析需求服務，因此它重點關注用戶如何更快速地完成需求分析，同時具有較好的大規模復雜查詢的響應性能。其典型代表事星形模型，以及在一些特殊場景下使用的雪花模型。其設計步驟如下：

它是ER模型的衍生，其設計的出發點也是為了實現數據的整合，但不能直接用於數據分析決策。它強調建立一個可審計的基礎數據層，也就是強調數據的歷史性、可追溯性和原子性，而不要求對數據進行過度的一致性處理和整合。該模型由一下幾部分組成：

Anchor對Data Vault模型做了進一步規范化處理，設計的初衷是一個高度可擴展的模型，其核心思想是所有的擴展只是添加而不是修改，因此將模型規范到6NF，基本變成了k-v結構化模型。組成如下：

經歷了多個階段：

❼ 阿里巴巴如何利用大數據提高財務信息的例子

財務信息只有你們那財務去管。

❽ 阿里的總監將大數據、數字化的經驗，總結成資料干貨，可以收藏

阿里把企業的數字化轉型劃分為「數字化重構」和「數字化增長」兩大類別，這個概念是不是聽著很難懂？

重構，就是轉型嘛；增長，就是更進一步嘛，說白了還是原來的老樣子，換了個解釋而已。

說到數字化轉型，我覺得這是一個非常好的話題，甚至能衍生出很多干貨，無論是傳統企業，還是頂尖的互聯網大公司，如阿里騰訊，老闆都在朝這個方向努力。

所以和大數據有關的知識，還是很有必要學習的。

我給大家整理了很多干貨，我從一個10年從業者和管理者的角度，這份干貨，無論是底層幹活的，中層管控的，上層布局的，都能夠很清楚的學習到。

涉及到的方面還是很廣的：大數據、數倉、中台、AI、IT規劃、大數據平台、BI工具。

我是怎麼總結的？

從架構入手，到每個模塊的分解，再到每個地方的注意點，基本上就行了，太細的也不是通過文字去說清楚的。

只要能做到，看了干貨資料，能對實際工作產生指導，就可以了。

這只是一部分，還有更多，自己來看就好。

❾ 大數據之路

人類從「IT時代」進入「DT時代」。本書介紹了阿里巴巴的大數據系統架構，為了滿足不斷變化的業務需求，同時實現系統的 高擴展性 、 靈活性 以及 數據展現的高性能 。
數據體系主要包括： 數據採集 、 數據計算 、 數據服務 和 數據應用 四大層次。

事實表包括引用的維度和描述具體業務的度量。

事實表中一條記錄描述的業務的細節程度稱為粒度。粒度可以使用兩種方式來表示：（1）維度屬性組合（2）所表示的具體業務含義。

事實包括可加性、半可加性和不可加性三種類型：
半可加性：只可以針對特定維度做聚合，例如庫存（不能按照日期，可按照倉庫聚合）。
可加性：可以按照任意維度聚合。
不可加性：完全不具備可加性。（例如：比率，事實表可以拆分存儲分子分母）

維度屬性也可以存到事實表中，稱為 退化維度 。

事實表有三種類型：事務事實表、周期快照事實表、累計快照事實表。
事務事實表描述的是業務過程上的原子事務，也稱為 原子事實表 。
周期快照事實表是按照周期性規律的時間間隔記錄事實。
累計快照事實表：累計快照事實表用來表示過程開始和結束過程之間的關鍵步驟事件，覆蓋整個生命周期，通常用多個日期欄位記錄關鍵時間點，記錄會隨著時間變化而修改。

事實表設計原則：
原則1：盡可能包含所有與業務過程相關的事實。
即時存在冗餘，也盡可能存儲。

原則2：只選擇與業務過程相關的事實。

原則3：分解不可加事實為可加的組件。
例如：不存成單率，轉而存儲成單數和提單數。

原則4：選擇維度和事實前，必須先聲明粒度。
建議粒度設置的越細越好，這樣可以最大限度的提高靈活性。可以通過業務描述或者維度屬性組合的方式來定義粒度。

原則5：在同一個事實表中，不應該有不同粒度的事實。
例如：一個事實表中不應該包含某些精確到訂單粒度的度量，同時又包含只精確到城市的度量。

原則6：事實的單位一致。

原則7：盡量處理掉事實表中的null值。
SQL中大於，小於的條件不適用與null值，所以盡量用數值替代null，例如0.

原則8：使用退化維度增加事實表的易用性。
在Kimball的維度設計模型中，分拆出單獨的維度表，為了節省存儲。但是為了減少使用時的關聯次數，可以多使用退化維度提供事實表易用性。

事實表設計方法：
1.選擇業務過程及確定事實表類型。2. 聲明粒度。3.確定維度。4.確定事實。5.冗餘維度（設計退化維度）。

事務事實表，即針對業務過程構建的一類事實表，用來跟蹤定義業務過程的個體行為，提供豐富的分析能力，作為數據倉庫原子的明細數據。

單事務事實表，即針對每一個業務過程設計一個事實表，這樣可以方便地對每一個業務過程進行分析研究。

表示同一個事實表包含不同的業務過程。多事務事實表有兩種實現方法：（1）使用兩個不同的事實欄位來保存各自業務過程。（2）使用同一個欄位保存，但是增加一個業務過程標簽。
下面舉例說明，淘寶交易事務事實表同時包含下單、支付和成功完結三個過程，三個過程粒度一致，可以放在一個事實表。下面確定維度和事實，該表中的下單度量、支付度量和成功完結度量信息分別存在不同欄位，如果不是當前業務處理，則用0來處理。
當不同業務過程的度量比較相似、差異不大時使用第二種事實表（使用一個欄位保存），當不同業務過程的度量差異大時，使用第一種（多欄位保存）。

對於單事務事實表和多事務事實表的選擇上，可以從以下一些方面來區分：
業務過程、粒度和維度（不同業務過程粒度相同，並且維度相似時，可以選用單事務事實表）、事實、下游業務使用、計算存儲成本。電商環境下，有父子訂單的概念，店鋪多商品各生成一個訂單，在一個店鋪合成一個父訂單。

1.事實完整性：事實表包含與其描述的過程有關的所有事實。
2.事實一致性：明確存儲每一個事實以確保度量一致性。例如，有下單商品數和商品價格2個事實，同時保存下單金額（價格*商品數）。這樣下游使用時，直接取下單金額，而不是再次計算，以保證指標的一致性。
3.事實可加性：為確保下游使用時，指標的可聚合性，盡量保存原始數，而不是計算後的比率指標。

對於事務度量，事務性事實表可以很好地表徵。但是對於一些 狀態度量 ，例如買賣家累計交易金額、商品庫存、買賣家星級、溫度（事務事實表無法聚合得到）等，事務事實表的效率較低或者無法處理。為了解決狀態度量問題，引入周期性快照事實表（也稱為 快照事實表 ）。

1.用快照采樣狀態：快照事實表以預定的間隔采樣狀態度量。
2.快照粒度：快照事實表通常總是被多維聲明，即快照需要采樣的周期以及什麼將被采樣。
3.密度和稠密性：稠密性是快照事實表的重要特徵。事務事實表一般都是稀疏的，只要發生業務才會有相應記錄。
4.半可加性：快照事實表的狀態度量都是半可加的，例如商品庫存，只針對商品維度可加，對日期維度不可加。

設計快照事實表，首先確定快照粒度，然後確定采樣的狀態度量。下面介紹幾個快照事實表實例。
單維度每天快照事實表、混合維度每天快照事實表，這兩種快照表都可以從事務事實表匯總得到。另外的一種產出模式是直接使用操作型系統作為數據源來加工，例如淘寶賣家的星級評分是在操作型系統中計算得出的，倉庫直接拿來這部分數據加入事實表。全量快照事實表，是特殊類型的周期快照表，例如設計無事實的事實表來記錄評論的狀態度量。

對於研究事件之間的時間間隔需求時，累計快照事實表能較好符合需求。
特點：
1.數據不斷更新：例如，在下單、支付和確認收貨三個業務過程中，事務事實表會生成3條記錄，而累計快照表會不斷更新一條記錄（不生成新記錄）。
2.多業務過程日期：
累計快照表適用於具有較明確起止時間的短生命周期的實體，對於每個實體都經歷從誕生到消亡等步驟。
3.存儲歷史全量數據。

1.事件類的，例如瀏覽日誌。
2.條件范圍資格類的，例如客戶和銷售人員的分配情況。

主要是提前聚合，為了增加數據訪問的效率（不用再聚合了），減少數據不一致的情況。這類聚集匯總數據，被稱為「公共匯總層」。
聚集的基本步驟：1.確定聚集維度。2.確定一致性上鑽。3.確定聚集事實。

元數據主要記錄數據倉庫中模型的定義、各層級間映射關系、監控數據倉庫的數據狀態及ETL任務的運行狀態。元數據分為 技術元數據 和 業務元數據 。
阿里巴巴技術元數據包括：
數據表、列等信息；ETL作業的信息；數據同步、任務調度、計算任務等信息。數據質量和運維相關元數據。
阿里巴巴業務元數據包括：
維度屬性、業務過程、指標等。數據應用元數據，例如數據報表、數據產品等。

元數據價值：
元數據在數據管理方面為集團數據在計算、存儲、成本、質量、安全、模型等治理領域上提供數據支持。

阿里MaxCompute提供了archive壓縮方法，採用了具有更高壓縮比壓縮演算法，將數據以RAID file的形式存儲。這樣可以節省空間，但是恢復起來也更復雜，所以適用於冷備份的數據。

MaxCompute基於列存儲，通過修改表的數據重分布，避免列熱點，將會節省一定存儲空間。

存儲治理項以元數據為基礎，列出例如「62天內未訪問的分區」、「數據無更新的任務列表」等等管理項推動ETL優化。形成現狀分析、問題診斷、管理優化、效果反饋的存儲治理項優化的閉環。

生命周期管理的目的是用最少的存儲成本來滿足最大業務需求，實現數據價值最大化。
1.周期性刪除策略：
2.徹底刪除策略：主要針對無用表，ETL中間過程表。
3.永久保存策略：
4.極限存儲策略：
5.冷數據管理策略：針對重要且訪問頻率低的數據。
6.增量表merge全量表策略：

將一個數據表的成本分為存儲成本和計算成本，除此之外，上游表對該表的掃描成本也應該計入。相應的計費分別核算為：計算付費、存儲付費和掃描付費。數據資產的成本管理分為數據成本計量和數據使用計費。

導航:首頁 > 網路數據 > 一張圖阿里大數據之路

一張圖阿里大數據之路

層次

與一張圖阿里大數據之路相關的資料

友情鏈接