㈠ 從IT到DT 阿里大數據背後的商業秘密
從IT到DT:阿里大數據背後的商業秘密
空氣污染究竟在多大程度上影響了人們的網購行為?有多少比重的線上消費屬於新增消費?為什麼中國的「電商百佳縣」中浙江有41個而廣東只有4個?
這些電商的秘密就隱藏在阿里巴巴商業生態的「大數據」中。
「未來製造業的最大能源不是石油,而是數據。」阿里巴巴董事局主席馬雲如此形容「數據」的重要意義。
在他看來,阿里巴巴本質上是一家數據公司,做淘寶的目的是為了獲得零售的數據和製造業的數據;做螞蟻金服的目的是建立信用體系;做物流不是為了送包裹,而是這些數據合在一起,「電腦會比你更了解你」。與此同時,產業的發展也正在從IT時代走向以大數據技術為代表的DT時代。
而在阿里巴巴內部,由電子商務、互聯網金融、電商物流、雲計算與大數據等構成的阿里巴巴互聯網商業生態圈,也正是阿里研究院所紮根的「土壤」。
具體而言,阿里巴巴平台的所有海量數據來自於數百萬充滿活力的小微企業、個人創業者以及數億消費者,阿里研究院通過對他們的商務活動和消費行為等進行研究分析,從某種程度上可以反映出一個地方乃至宏觀經濟的結構和發展趨勢。
而隨著阿里巴巴生態體系的不斷拓展和延伸,阿里巴巴的數據資源一定程度上將能夠有效補充傳統經濟指標在衡量經濟冷暖方面存在的滯後性,幫助政府更全面、及時、准確地掌握微觀經濟的運行情況。
從IT到DT
不同於一些企業以技術研究為導向的研究院,阿里研究院副院長宋斐告訴《第一財經日報》記者,阿里研究院定位於面向研究者和智庫機構,主要的研究方向包括未來研究(如信息經濟)、微觀層面上的模式創新研究(如C2B模式、雲端制組織模式)、中觀層面上的產業互聯網化研究(如電商物流、互聯網金融、農村電商等)、宏觀層面上新經濟與傳統經濟的互動研究(如互聯網與就業、消費、進出口等)、互聯網治理研究(如網規、電商立法)等。
具體到數據領域,就是在阿里巴巴互聯網商業生態基礎上,從企業數據、就業數據、消費數據、商品數據和區域數據等入手,通過大數據挖掘和建模,開發若干數據產品與服務。
例如,將互聯網數據與宏觀經濟統計標准對接的互聯網經濟數據統計標准,包括了中國城市分級標准;網路消費結構分類標准;網上商品與服務分類標准等。
而按經濟主題劃分的經濟信息統計資料庫則包括商品信息統計資料庫;網購用戶消費信息統計資料庫;小企業與就業統計資料庫;區域經濟統計資料庫。
還有反映電商經濟發展的「晴雨表」——阿里巴巴互聯網經濟系列指數。其中包括反映網民消費意願的阿里巴巴消費者信心指數aCCI、反映網購商品價格走勢的阿里巴巴全網網購價格指數aSPI和固定籃子的網購核心價格指數aSPI-core、反映網店經營狀態的阿里巴巴小企業活躍度指數aBAI、反映區域電子商務發展水平的阿里巴巴電子商務發展指數aEDI等等。其中,現有aSPI按月呈報給國家統計局。
而面向地方政府決策與分析部門的數據產品「阿里經濟雲圖」,則將分階段地推出地方經濟總覽、全景分析、監測預警以及知識服務等功能。宋斐告訴記者,其數據可覆蓋全國各省、市、區縣各級行政單位,地方政府用戶經過授權後,可以通過阿里經濟雲圖看到當地在阿里巴巴平台上產生的電子商務交易規模、結構特徵及發展趨勢。
「藉助數據可視化和多維分析功能,用戶可以對當地優勢產業進行挖掘、對消費趨勢與結構變動進行監測、與周邊地區進行對比等等。」宋斐表示,該產品未來還可以提供API服務模式,以整合更多的宏觀經濟數據和社會公開數據,為當地經濟全貌進行畫像,給大數據時代的政府決策體系帶來新的視角和工具。
數據會「說話」
對於如何利用「大數據」,馬雲在公司內部演講中曾提到:「未來幾年內,要把一切業務數據化,一切數據業務化。」
其中,後半句話可以理解為,讓阿里巴巴各項業務所產生、積累的大數據來豐富阿里的生態,同時讓生態蘊含的數據產生新的價值,再反哺生態,這是一個相輔相成的循環邏輯。
宋斐對記者舉例稱,螞蟻金服旗下的芝麻信用已獲得人民銀行個人徵信牌照批准籌備,未來將通過分析大量的網路交易及行為數據,如用戶信用歷史、行為偏好、履約能力、身份特質、人脈等信息,對用戶進行信用評估,這些信用評估可以幫助互聯網金融企業對用戶的還款意願及還款能力做出結論,繼而為用戶提供快速授信及現金分期服務。本質上來說,「芝麻信用」是一套徵信系統,該系統收集來自政府、金融系統的數據,還會充分分析用戶在淘寶、支付寶等平台的行為記錄。
再如,對於如火如荼的農村電商領域,阿里研究院從2010年就已開始對「沙集模式」個案進行研究,後續一系列基於數據和案例調研所驅動的農村電商研究成果,對於地方政府科學決策,推動當地農村電子商務發展、創造就業和發展地方經濟起到了助力作用。到2014年底,全國已經涌現了212個淘寶村,而阿里巴巴也在這一年啟動千縣萬村計劃,將在三至五年內投資100億元,在農村建立起電子商務服務體系。
除了通過數據分析去助力業務外,宋斐告訴記者,有時候大數據報告可能會與傳統的印象結論差異很大。
以區域電子商務為例,在阿里研究院發布的2014年中國電商百強縣排行榜中,浙江有41個縣入圍,福建有16個,而廣東只有4個,這個結果與傳統的印象相差比較大。而事實上,這是因為浙江和廣東兩省電商發展在地理分布、產業結構等方面的明顯不同而帶來的。
再如,外界常常認為網路零售替代了線下零售,但事實上,麥肯錫《中國網路零售革命:線上購物助推經濟增長》的研究報告,通過借鑒阿里研究中心(阿里研究院前身)和淘寶網UED用戶研究團隊的大量報告與數據,最後發現:「約60%的線上消費確實取代了線下零售;但剩餘的40%則是如果沒有網路零售就不會產生的新增消費。」
「這一研究成果,有助於社會各界准確認識網路零售與線下零售的關系,共同探索和建設良好的商業發展環境。」
㈡ 阿里巴巴:什麼才是大數據思維
大數據實際上是營銷的科學導向的自然演化。大數據思維有三個緯度——定量思維、相關思維、實驗思維。
第一,定量思維,即提供更多描述性的信息,其原則是一切皆可測。不僅銷售數據、價格這些客觀標准可以形成大數據,甚至連顧客情緒(如對色彩、空間的感知等)都可以測得,大數據包含了與消費行為有關的方方面面;第二,相關思維,一切皆可連,消費者行為的不同數據都有內在聯系。這可以用來預測消費者的行為偏好;第三,實驗思維,一切皆可試,大數據所帶來的信息可以幫助制定營銷策略。
這就是三個大數據運用遞進的層次:首先是描述,然後是預測,最後產生攻略。
㈢ 為什麼阿里巴巴會斥資百億在烏蘭察布市建立大數據平台
為了推進華為、蘋果北方數據、阿里巴巴、優刻得、中聯利信、同舟匯通等大數據項目建設運營,集寧區藉助京蒙對口幫扶,在察哈爾工業園區內規劃建設了 6.5 平方公里的大數據產業園,推動大數據項目的發展及信息化建設、信息產業發展。
阿里雲已經走在了亞洲雲計算的前列,如今它已經正式對外宣布,會在中國的烏蘭察布市建立一個大數據中心。消息一出,引得無數人摸不著頭腦,都不知道啊,阿里雲為什麼要在這個名不見經傳的城市,做這么重要的戰略布局。
加大大數據產業基礎設施投資力度,同時也在加快數據中心建設之步伐,2019年,共續建、新建及擬建數據中心項目 8 項,計劃總投資 171.8億元,總佔地面積 1220 畝,承載 100 萬台伺服器。不難看出烏蘭察布市現在正在以數據存儲、產品研發、數據交易為核心的大數據中心建成後,將鑄就高新科技產業載體,夯實大數據產業發展的基礎層,進一步拓展上下游產業和配套產業,實現產業體系全覆蓋的准備進行中。
這就是為什麼阿里巴巴為什麼會斥資百億在烏蘭察布市建立大數據平台。不僅滿足當下以及未來大數據產業發展、互聯網經濟發展需求,提高傳統勞動力數字技能、提升數字化素養,也符合烏蘭察布市政府以及國家對此的重視,讓其共同來努力推動「互聯網+」及雲計算、電子信息產品製造、電子商務和服務外包等關聯產業協同發展,傾力打造成為面向華北、服務京津冀的大數據與雲計算中心,打響「草原雲谷」的品牌,擎畫大數據產業發展的藍圖,深化大數據和雲計算各領域應用。
㈣ 如何搭建大數據分析平台
1、 搭建大數據分析平台的背景
在大數據之前,BI就已經存在很久了,簡單把大數據等同於BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。BI是達成業務管理的應用工具,沒有BI,大數據就沒有了價值轉化的工具,就無法把數據的價值呈現給用戶,也就無法有效地支撐企業經營管理決策;大數據則是基礎,沒有大數據,BI就失去了存在的基礎,沒有辦法快速、實時、高效地處理數據,支撐應用。 所以,數據的價值發揮,大數據平台的建設,必然是囊括了大數據處理與BI應用分析建設的。
2、 大數據分析平台的特點
數據攝取、數據管理、ETL和數據倉庫:提供有效的數據入庫與管理數據用於管理作為一種寶貴的資源。
Hadoop系統功能:提供海量存儲的任何類型的數據,大量處理功率和處理能力幾乎是無限並行工作或任務
流計算在拉動特徵:用於流的數據、處理數據並將這些流作為單個流。
內容管理特徵:綜合生命周期管理和文檔內容。
數據治理綜合:安全、治理和合規解決方案來保護數據。
3、 怎樣去搭建大數據分析平台
大數據分析處理平台就是整合當前主流的各種具有不同側重點的大數據處理分析框架和工具,實現對數據的挖掘和分析,一個大數據分析平台涉及到的組件眾多,如何將其有機地結合起來,完成海量數據的挖掘是一項復雜的工作。我們可以利用億信一站式數據分析平台(ABI),可以快速構建大數據分析平台,該平台集合了從數據源接入到ETL和數據倉庫進行數據整合,再到數據分析,全部在一個平台上完成。
億信一站式數據分析平台(ABI)囊括了企業全部所需的大數據分析工具。ABI可以對各類業務進行前瞻性預測分析,並為企業各層次用戶提供統一的決策分析支持,提升數據共享與流轉能力。
㈤ 阿里巴巴怎樣起家,又如何發展起來的
1999年9月,馬雲帶領下的18位創始人在杭州的公寓中正式成立了阿里巴巴集團,集團的首個網站是英文全球批發貿易市場阿里巴巴。同年阿里巴巴集團推出專注於國內批發貿易的中國交易市場(稱「1688」)。
1999年10月,阿里巴巴集團從數家投資機構融資500萬美元。
2000年1月,阿里巴巴集團從軟銀等數家投資機構融資2,000萬美元。
2004年12月,阿里巴巴集團關聯公司的第三方網上支付平台支付寶推出。
2007年11月,阿里巴巴網路有限公司在香港聯交所主板掛牌上市。同月,阿里巴巴集團成立網路廣告平台阿里媽媽。
2008年4月,淘寶網推出專注於服務第三方品牌及零售商的淘寶商城。
2011年6月16日,阿里巴巴集團宣布將淘寶網分拆為三家公司一淘網、淘寶網、淘寶商城。
2014年9月19日,阿里巴巴集團於紐約證券交易所正式掛牌上市,股票代碼「BABA」。
2015年2月10日,阿里巴巴集團宣布與螞蟻金服集團完成重組,螞蟻金服為支付寶的母公司。
2015年11月6日,阿里巴巴集團和優酷土豆集團宣布,雙方已經就收購優酷土豆股份簽署並購協議,根據這一協議,阿里巴巴集團將收購優酷土豆集團。這項交易將以全現金形式進行。
2018年8月15日,Kroger與阿里巴巴達成合作,在中國出售堅果、膳食補充類等產品。
2018年9月10日,馬雲宣布,2019年9月10日將不再擔任董事局主席,CEO張勇接任。
2019年6月6日,阿里巴巴集團提交上市公司年報。年報顯示,2019財年,阿里巴巴集團收入達3768.44億元。年報中,阿里還公布了最新的38位合夥人名單。
馬雲
阿里巴巴集團主要創始人,於2013年5月出任阿里巴巴集團執行主席。自1999年集團成立以來直至2013年5月,馬雲一直兼任主席及首席執行官,同時是浙江馬雲公益基金會創立者。
馬雲擔任日本軟銀的董事,世界經濟論壇(WEF)基金會董事、英國政府特別經濟顧問、浙商總會會長、中國企業傢俱樂部主席。2016年1月,成為聯合國「可持續發展目標」的倡導者。
蔡崇信
1999年加入阿里巴巴集團,是公司創始人之一,於2013年5月出任阿里巴巴集團執行副主席。此前,蔡崇信一直擔任集團首席財務官及董事會成員。自2015年9月,擔任阿里健康非執行董事。蔡崇信現擔任多家獲阿里巴巴集團投資的公司之董事。
張勇
2007年加盟阿里巴巴集團,於2015年5月出任阿里巴巴集團首席執行官。他同時是阿里巴巴集團董事及阿里巴巴合夥人創始成員。自2013年9月起,擔任阿里巴巴首席運營官。同時擔任美國和香港多家上市公司的董事,包括阿里健康、海爾電器、銀泰商業集團和微博等。
㈥ 盤點阿里旅行周年:這樣用大數據顛覆行業
盤點阿里旅行周年:這樣用大數據顛覆行業
日前在阿里旅行成立一周年的時候,總裁李少華剛剛發送了《寫給阿里旅行的365天》的全員信。郵件指出:阿里旅行提供的是旅行行業的「水電煤」;將阿里平台上寶貴的大數據應用起來,幫助旅行商家和合作夥伴更高效的連接消費者,以用戶為中心重構供需關系,以平台大數據支撐個性化服務。
這句話理解起來可能有點深奧,不過將旅遊之前和旅遊中用戶遭遇的各種坑與阿里旅行這1年來做的事情串起來,或許就能明白他們是如何利用大數據在顛覆行業了。
先說今年微文在兩次旅行前辦理簽證中親身遭遇到的一些坑吧:
1、因為窮所以我很早之前就開始准備十一期間旅遊的事,貨比三家後在某家B2C旅遊網站選擇了出境游,之後按照網站工作人員的提示開始准備漫長的簽證材料,好不容易經過漫長的等待資料全湊齊郵給那家B2C網站的客服,等了幾天卻被客服告知我提交的資料不符,而且時間也比較緊張了,他們那裡沒辦法幫我辦簽證,讓我自己想辦法解決。我憤怒的提出退款,結果被告知酒店和機票都已經預定,沒有辦法做退款處理。最後我索性死馬當活馬醫,告訴客服如果不遞交材料那是他們的問題,如果遞交上去使館沒出簽,我自己承擔責任。最後順利拿到簽證,出去玩。
2、今年8月我的在某家創業型B2C網站上續簽美國簽證(選擇他們是因為他們自稱專注於美國旅遊,非常專業),結果客服一會告訴我照片不符合要求,一會告訴我缺這個少那個,可我是按照美國大使館網上提供的資料來准備的啊,幾次溝通無果,最後沒辦法找了他們聯合創始人問題才得以解決,最終一張紙的材料我也沒補交,大使館給了10年的美簽。
經過這兩件事情我就在捉摸,很多時候不是大使館不給旅遊者發簽證,而是你委託的商業公司在想盡辦法給用戶製造門檻和難題,既然互聯網是以用戶體驗為核心競爭力的行業,那有為什麼會出現在線旅行行業處處刁難客戶的情況呢?
後來經過高人指點終於明白,原來很多做在線旅行的互聯網公司不好判斷申請簽證的人是否可信賴,如果一旦出現旅客在境外逾期滯留,會非常影響這些互聯網公司同使館的信任度,最終影響到其業務,所以才導致了上述情況的出現。
那麼有沒有可能用大數據來解決這個難題呢?肯定有,問題是由於這些做在線旅遊的互聯網公司數據往往不夠全面,所以大數據雖然在做,但是卻不夠准確,很多時候還是只能由人工來判斷。那麼號稱數據最全的阿里有沒有可能做這件事兒呢?
就在我思考這個問題的時候,發現他們已經開始做了,下面不妨先來盤點一下阿里旅行這一年的重要事件:
1、今年3月,阿里旅行推出信用住計劃,芝麻信用良好的用戶在阿里旅行預定信用住酒店,就可體驗「零押金無擔保急速退房「服務。與傳統模式相比:用戶在阿里旅行預訂
酒店時,芝麻分達到600分即可選擇信用住。先入住後付款,無需擔保零押金,離店時也無需排隊,只需把門卡放到前台,系統會自動從用戶的支付寶賬戶里扣除房費。
2、隨後阿里旅行發布了與芝麻信用結合的「未來酒店」戰略,首間未來酒店樣板店坐落在浙江杭州的學院路,不論來自什麼預訂渠道的用戶,不管是否提前預訂了酒店,在辦理入住時,均可通過掃碼的形式實時進行信用判定,滿足芝麻信用分要求——600分即可馬上開始體驗信用住的便捷,不用交押金即可直接領房卡入住,退房時也不用等查房和排隊付款,將房卡交給前台即可離店,房費將通過支付寶自動扣除。
3、今年6月,阿里旅行與盧森堡大公國駐上海總領事館簽署合作協議,正式將盧森堡納入便捷在線簽證目的地。當用戶的芝麻信用分符合阿里旅行規定的標准,便可在阿里旅行·去啊的簽證頻道選擇在線簽證服務。傳統簽證一般需要5-10天,而在線簽只需2-3天且不需要提供繁瑣的紙質材料。在此之前,新加坡作為首個便捷在線簽證目的地已經在阿里旅行簽證頻道正式上線。接下來,阿里旅行還會在法國、英國、韓國、日本、比利時、斯里蘭卡等出境游熱門目的地展開在線簽證。公開數據顯示,目前每分鍾就有16.8個人通過阿里旅行買了簽證/入台證辦理服務。
4、9月22日,阿里旅行啟動「未來景區」戰略,遊客可以先遊玩再付款,免去排隊買票之苦,在景區里也可以「身無分文」,全程用手機付款吃喝玩樂,更可使用手機進行景區游覽導航,尋衛生間找停車場都不再發愁。深圳東部華僑城已經率先加入「未來景區」戰略,黃山、烏鎮、古北水鎮、海昌集團在全國的8個極地海洋館也將於近期上線。在「未來景區」遊玩時,只要芝麻信用分達到600分,即可提前一天在阿里旅行客戶端進行預約,預約成功後會獲得一個二維碼,到了景區門口可以直接掃碼入園,不需再另外排隊買票或換票,而門票錢會在遊客刷碼入園後24小時自動從支付寶賬戶中扣除,不需要再另外執行任何操作。
事實上,無論是信用住、未來酒店、未來景區還是在線簽證,這些便捷服務背後都在於螞蟻信用進行掛鉤,而螞蟻信用的背後則是通過大數據對用戶進行篩選和再判斷,通過大數據取代人工審核。此外,阿里在旅遊行業投資的窮游、在路上、佰程旅行網及石基信息等公司的數據也將對阿里旅行提供支持。
最後不得不感慨一下,早知道在線旅遊的B2C這么不靠譜我當時就應該選擇阿里旅行。而未來一旦像我這樣的小白用戶開始嘗試並習慣通過芝麻信用與阿里旅行掛鉤的方式選擇出行的時候,阿里旅行的勢能也就無法撼動了。
1969年7月20日,美國宇航員阿姆斯特朗登月後說,這是我個人的一小步,但卻是全人類的一大步。對於僅僅成立1年的阿里旅行而言,單一產品上的改進或許只是一小步,但是將芝麻信用、大數據與用戶體驗掛鉤的思路確是互聯網的一大進步。
以上是小編為大家分享的關於盤點阿里旅行周年:這樣用大數據顛覆行業的相關內容,更多信息可以關注環球青藤分享更多干貨
㈦ 阿里的總監將大數據、數字化的經驗,總結成資料干貨,可以收藏
阿里把企業的數字化轉型劃分為「數字化重構」和「數字化增長」兩大類別,這個概念是不是聽著很難懂?
重構,就是轉型嘛;增長,就是更進一步嘛,說白了還是原來的老樣子,換了個解釋而已。
說到數字化轉型,我覺得這是一個非常好的話題,甚至能衍生出很多干貨,無論是傳統企業,還是頂尖的互聯網大公司,如阿里騰訊,老闆都在朝這個方向努力。
所以和大數據有關的知識,還是很有必要學習的。
我給大家整理了很多干貨,我從一個10年從業者和管理者的角度,這份干貨,無論是底層幹活的,中層管控的,上層布局的,都能夠很清楚的學習到。
涉及到的方面還是很廣的:大數據、數倉、中台、AI、IT規劃、大數據平台、BI工具。
我是怎麼總結的?
從架構入手,到每個模塊的分解,再到每個地方的注意點,基本上就行了,太細的也不是通過文字去說清楚的。
只要能做到,看了干貨資料,能對實際工作產生指導,就可以了。
這只是一部分,還有更多,自己來看就好。
㈧ 7.阿里大數據——大數據建模
數據模型就是數據組織和存儲方法,它強調從業務、數據存取和使用角度合理存儲數據。
適合業務和基礎數據存儲環境的模型,大數據能獲得以下好處:
大數據系統需要數據模型方法來幫助更好的組織和存儲數據,以便在性能、成本、效率和質量之間取得最佳平衡。
不管是Hadoop、Spark還是阿里巴巴集團的MaxCompute系統,仍然在大規模使用SQL進行數據的加工和處理,仍然在用Table存儲數據,仍然在使用關系理論描述數據之間的關系,只是在大數據領域,基於其數據存取的特點在關系數據模型的範式上有了不同的選擇而已。
從全企業的高度設計一個3NF模型,用實體關系(Entity Relationship,ER)模型描述企業業務,在範式理論上符合3NF。數據倉庫中的3NF與OLTP中不同過,有以下特點:
ER模型建設數據倉庫的出發點是整合數據,為數據分析決策服務。建模步驟分為三個階段:
維度建模從分析決策的需求出發構建模型,為分析需求服務,因此它重點關注用戶如何更快速地完成需求分析,同時具有較好的大規模復雜查詢的響應性能。其典型代表事星形模型,以及在一些特殊場景下使用的雪花模型。其設計步驟如下:
它是ER模型的衍生,其設計的出發點也是為了實現數據的整合,但不能直接用於數據分析決策。它強調建立一個可審計的基礎數據層,也就是強調數據的歷史性、可追溯性和原子性,而不要求對數據進行過度的一致性處理和整合。該模型由一下幾部分組成:
Anchor對Data Vault模型做了進一步規范化處理,設計的初衷是一個高度可擴展的模型,其核心思想是所有的擴展只是添加而不是修改,因此將模型規范到6NF,基本變成了k-v結構化模型。組成如下:
經歷了多個階段:
㈨ 阿里,騰訊和百度的互聯網大數據應用有何不同
網路、阿里巴巴和騰訊三大互聯網企業都擁有大數據,三大互聯網巨頭的數據都用來優化自己業務的運營效果,從這個層面看,其數據價值應用場景比較類似。但由於其業務和商業模式的不同決定了三者數據資產的不同,也決定了三者未來大數據策略的不同,尤其是基於大數據的開放和合作角度看,網路和阿里巴巴相對更加開放。對於重視大數據開放和合作的互聯網企業,他們最為期待的是借著大數據開放的策略,與更多的傳統行業交換更多的數據,從而更好的豐富其在線下數據,形成線上和線下數據的協同,從中拓展新的商業模式,如智能硬體和大數據健康。
從數據類型看,騰訊數據最為全面,這與其互聯網業務全面相關,其最為突出的是社交數據和游戲數據,其中:社交數據最為核心的是關系鏈數據、用戶間的互動數據、用戶產生的文字、圖片和視頻內容;游戲數據主要包括大型網游數據、網頁游戲數據和手機游戲數據,游戲數據中最為核心的是游戲的活躍行為數據和付費行為數據,騰訊的數據最大的特點是基於社交的各種用戶行為和娛樂數據。阿里最為突出的是電商數據,尤其是用戶在淘寶和天貓上的商品瀏覽、搜索、點擊、收藏和購買等數據,其數據最大特點是從瀏覽到支付形成的用戶漏斗式轉化數據。網路的數據以用戶搜索的關鍵詞、爬蟲抓取的網頁、圖片和視頻數據為主,網路的數據特點是通過搜索關鍵詞更直接反映用戶興趣和需求,網路的數據以非結構化數據更多。
網路、阿里巴巴和騰訊的數據應用場景
網路、阿里巴巴和騰訊的數據應用場景都有共同的體系,該體系一共分為七層,代表了企業不同層面的數據價值應用場景,形成了企業運營的數據價值金字塔:
(1)數據基礎平台層。金字塔的最底層也是整個金字塔的基礎層,如果基礎層搭建不好,上面的應用層也很難在企業運營中發揮效果,這一層的技術目標是實現數據的有效存儲、計算和質量管理;業務目標是把企業的所有用戶(客戶)數據用唯一的ID串起來,包括用戶(客戶)的畫像(如性別、年齡等)、行為以及興趣愛好等,以達到全面的了解用戶(客戶)的目的;
(2)業務運營監控層。這一層首要的是搭建業務運營的關鍵數據體系,在此基礎上通過智能化模型開發出來的數據產品,監控關鍵數據的異動,通過各種分析模型等可以快速定位數據異動的原因,輔助運營決策;
(3)用戶/客戶體驗優化層。這一層主要是通過數據來監控和優化用戶/客戶的體驗問題。這裡面既運用了結構化的數據來監控,也運用非結構化的數據(如文本)來監控體驗的問題。前者更多的是應用各種用戶(客戶)體驗監測的模型或者工具來實現,後者更多的是通過監測微博、論壇和企業內部的客戶反饋系統的文本來發現負面的口碑,以及時的優化產品或服務;
(4)精細化運營和營銷層。這一層主要通過數據驅動業務精細化運營和營銷。主要可以分為四方面:第一,構建基於用戶的數據提取和運營工具,以方便運營和營銷人員通過人群定向把客戶提取出來,從而對客戶進行營銷或運營活動;第二方面,通過數據挖掘的手段提升客戶對活動的響應;第三,通過數據挖掘的手段進行客戶生命周期管理;第四,主要是用個性化推薦演算法基於用戶不同的興趣和需求推薦不同的商品或者產品,以實現推廣資源效率和效果最大化,如淘寶商品的個性化推薦;
(5)數據對外服務和市場傳播層面。數據對外服務一般為服務該互聯網企業的客戶或用戶,如網路通過提供網路輿情、網路代言人、網路指數等服務其廣告主客戶;淘寶通過數據魔方、淘寶情報和在雲端等產品服務其客戶;騰訊通過騰訊分析和騰訊雲分析等服務其開放商客戶。在市場傳播層面,主要通過有趣的數據信息圖譜和數據可視化產品來實現(如淘寶指數、網路指數、網路春節遷徙地圖)。
(6)經營分析層面。主要通過分析師對大數據進行統計,形成經驗分析周報、月報和季度報告等,對用戶經營情況和收入完成等情況進行分析,發現問題,優化經營策略。
(7)戰略分析層面。這方面既要結合內部的大數據形成決策層的數據視圖,也要結合外部數據尤其是各種競爭情報監控數據、國外趨勢研究數據來輔助決策層進行戰略分析。
雖然網路、阿里巴巴和騰訊在企業運營的數據價值的應用體繫上有共同的特點,但由於企業的商業模式以及數據資產不同,他們在整體的大數據發展策略也有顯著的不同。
網路大數據策略
網路大數據最重要的是來源是通過爬蟲搜集的100多個國家的近萬億網頁數據,數據量是在EB級的規模。網路的數據非常多樣化,其收集的數據既有為非結構化的或者半結構化的數據,包括網頁數據、視頻和圖片等數據,也有結構化的數據,如用戶的點擊行為數據,廣告客戶的付費行為數據等。
網路大數據主要服務三類人群:一類是互聯網網民,通過大數據和自然語言處理技術讓網民的搜索更加准確;第二類是廣告主,通過大數據讓廣告主的廣告和搜索關鍵詞的匹配度更高,或者和網民正在看的網頁內容匹配度更高;第三類是,也是在重點推進的網路大數據引擎,重點是服務傳統行業擁有一定規模數據的企業。
網路大數據引擎代表了互聯網企業數據服務能力開放和合作的趨勢,網路大數據引擎由以下三方面構成:
開放雲:網路的大規模分布式計算和超大規模存儲雲,開放雲大數據開放的是基礎設施和硬體能力。過去的網路雲主要面向開發者,大數據引擎的開放雲則是面向有大數據存儲和處理需求的「大開發者」。據網路相關人員稱,網路開放雲還擁有CPU利用率高、彈性高、成本低等特點。網路是全球首家大規模商用ARM伺服器的公司,而ARM架構的特徵是能耗小和存儲密度大,同時網路還是首家將GPU(圖形處理器)應用在機器學習領域的公司,實現了能耗節省的目的。
數據工廠:數據工廠為網路將海量數據組織起來的軟體能力,與資料庫軟體的作用類似,不同的是數據工廠是被用作處理TB級甚至更大的數據。網路數據工廠支持超大規模異構數據查詢,支持SQL-like以及更復雜的查詢語句,支持各種查詢業務場景。同時網路數據工廠還將承載對於TB級別大表的並發查詢和掃描,大查詢、低並發時每秒可達百GB。
網路大腦:網路大腦將網路此前在人工智慧方面的能力開放出來,主要是大規模機器學習能力和深度學習能力。此前它們被應用在語音、圖像、文本識別,以及自然語言和語義理解方面,並通過網路Inside等平台開放給了智能硬體。現在這些能力將被用來對大數據進行智能化的分析、學習、處理、利用,並對外開放。
網路將基礎設施能力、軟體系統能力以及智能演算法技術打包在一起,通過大數據引擎開放出來之後,擁有大數據的行業可以將自己的數據接入到這個引擎進行處理。從架構來看,企業或組織也可以只選擇三件套中的一種來使用,例如數據存放在自己的雲,但要運用網路大腦的一些智能演算法或者數據存放在網路雲,自己寫演算法。
網路大數據引擎的作用
我們可以從兩方面來具體看網路大數據引擎的作用:
(1)對於 *** 機構:如交通部門有車聯網、物聯網、路網監控、船聯網、碼頭車站監控等地方的大數據,如果這些數據與網路的搜索記錄、全網數據、LBS數據結合,在利用網路大數據引擎的大數據能力,則可以實現智能路徑規劃和運力管理;衛生部門擁有流感法定報告數據、全國流感樣病例哨點監測和病原學監測數據,如果和網路的搜索記錄及全網數據結合,便可進行流感預測、疫苗接種指導。
(2)對於企業:很多企業也擁有海量大數據,不過很多企業的大數據處理和挖掘能力比較弱,如果應用網路大數據引擎,則可以對海量數據進行可靠低成本的存儲,進行智能化的由淺入深的價值挖掘。如在2014年4月的網路技術開放日上,中國平安便介紹了如何利用網路的大數據能力加強消費者理解和預測,細分客戶群制定個性化產品和營銷方案。
阿里巴巴大數據策略
阿里巴巴大數據整體發展方向是以激活生產力為目的的DT(data technology,數據技術驅動)數據時代發展。阿里巴巴大數據未來將由「基於雲計算的數據開放+大數據工具化應用」組成:
(1)基於雲計算的數據開放。雲計算使中小企業可以在阿里雲上獲得數據存儲、數據處理服務,也可以構建自己的數據應用。雲計算是數據開放的基礎,雲計算可以為全球的數據開發者提供數據工作平台,阿里分布式的存儲平台和在這個平台上的演算法工具,可以更好的為數據開發者所用;同時,阿里巴巴還需要做好數據的脫敏,把數據的商業定義,每個標簽打得足夠清晰,能夠讓全球的數據開發者在阿里巴巴平台展開數據思維,讓數據為 *** 所用、消費者所用以及行業所用。阿里的大數據開放之後,線上線下的數據能夠串聯起來,所有人都是數據提供方,也是數據的使用者。
(2)在大數據應用上,馬雲已經在整個數據應用上確定了兩個方針:
第一個方針:從IT到DT(數據技術),DT就是點燃整個數據和激發整個數據的力量,被管理所用,被社會所用,被銷售所用,為製造業所用,為消費者信用所用。前文已經分析道,阿里巴巴的數據資產是以電商為主,其中,淘寶和天貓每天會產生豐富多樣的數據,阿里巴巴已經沉澱了包括交易、金融、生活服務等多種類型的數據。這些數據能夠幫助阿里巴巴進行數據化運營(如下圖)。
另外一個其最為重要的應用是金融領域——小微金融。在小微金融企業融資領域。由於銀行無法掌握小微企業真實的經營數據,不僅導致很多企業無法拿到貸款,還因為數據類型的不足導致整個判斷流程過長,阿里已經通過其電商數據中的交易、信用、SNS等多種數據來決定是否可以發放貸款以及放貸的額度。
第二個方針:讓阿里巴巴的數據、讓阿里巴巴的工具能夠成為中國商業的基礎設施。阿里巴巴已經開始在轉型,阿里將由自己直接面對消費者變成支持網商面對消費者,阿里會根據其已有的運營和數據經驗,開發更多的工具,幫助網商成長,讓網商們更懂得用最好的工具、服務去服務好消費者。正如馬雲所言「我相信沒有一個網商不希望擁有自己的客戶,沒有一個網商不希望知道客戶對自己的體驗到底好還是壞,如何持久的擁有這些客戶,我們覺得一個國家的經濟,應該讓給企業家群體去做,我們覺得淘寶網商未來的經濟,是應該留給網商們去決定,而不是我們去做決定」。
騰訊大數據策略
騰訊的大數據目前更多的是為騰訊企業內部運營服務,相對於阿里和網路,數據開放程度並不高。因此,對於騰訊我們主要重點介紹騰訊大數據在服務企業內部的應用場景和服務。
騰訊90%以上的數據已經實現集中化管理,數據集中在數據平台部,有超過100多個產品的數據已經集中管理起來,而且是集中存儲在騰訊自研數據倉庫(TDW)。騰訊大數據從數據應用的不同環節可以分為四個層面,包括數據分析、數據挖掘、數據管理和數據可視化:
(1)數據分析層有四個產品:自助分析、用戶畫像、實時多維度分析和異動智能定位工具。自助分析可以幫助非技術人員通過簡單的條件配置實現數據的統計和展示功能;用戶畫像則是對某一群用戶或者某一業務的用戶實現自動化的人群畫像;實時多維度分析工具則是可以對某一指標可以實現實時的多個維度的切分,方便分析人員從不同角度對某一指標進行多維度分析;異動智能定位工具則實現數據異動問題的智能化定位。
(2)數據挖掘層面的產品應用有:精準廣告系統、用戶個性化推薦引擎和客戶生命周期管理。精準廣告系統如廣點通,是基於騰訊大社交平台的海量數據為基礎,通過精準推薦演算法,以智能定向推廣位導向實現廣告精準投放;用戶個性化推薦引擎根據每位用戶的興趣和喜好,通過個性化推薦演算法(協同過濾、基於內容推薦、圖演算法、貝葉斯等),實現產品的個性化推薦需求;客戶生命周期管理系統,則是基於大數據,根據用戶/客戶的所處的不同生命周期進行數據挖掘,建立預測、預警和用戶特徵模型,以根據用戶/客戶所處的不同生命周期特點進行精細化運營和營銷。
(3)在數據管理層面則有:TDW(騰訊數據倉庫)、TDBank(數據銀行)、元數據管理平台和任務調度系統和數據監控。這一層面主要是實現數據的高效集中存儲、數據的業務指標定義管理、數據質量管理、計算任務的及時調度和計算以及數據問題的監控和告警。
(4)在數據可視化層面有:自助報表工具、騰訊羅盤、騰訊分析和騰訊雲分析等工具。自助報表工具可以自助化的實現結構相對簡單和邏輯相對簡單的報表。騰訊羅盤分為內部版和外部版,內部版則是服務於騰訊內部用戶(產品經理、運營人員和技術人員等)的高效報表工具,外部版則是服務於騰訊合作夥伴如開發商的報表工具。騰訊分析是網站分析工具,幫助網站主進行網站的全方位分析。騰訊雲分析則是幫助應用開發商決策和運營優化的分析工具。
總的來看,網路、阿里巴巴和騰訊三大互聯網企業都擁有大數據,三大互聯網巨頭的數據都用來優化自己業務的運營效果,從這個層面看,其數據價值應用場景比較類似。但由於其業務和商業模式的不同決定了三者數據資產的不同,也決定了三者未來大數據策略的不同,尤其是基於大數據的開放和合作角度看,網路和阿里巴巴相對更加開放。對於重視大數據開放和合作的互聯網企業,他們最為期待的是借著大數據開放的策略,與更多的傳統行業交換更多的數據,從而更好的豐富其在線下數據,形成線上和線下數據的協同,從中拓展新的商業模式,如智能硬體和大數據健康。
這個得從BAT各自的基因來分析。網路主要是以搜索產品,所以大數據對於網路來說主要用於搜索方面,使搜索更加的精準和匹配;阿里巴巴以電子商務為主,所以大數據對於阿里巴巴來說會主要用戶商品方面;騰訊主要是社交,所以大數據對於騰訊來說可能更多的應用於社會網路分析。大數據的主要用途為預測,所以BAT對於大數據的共同點都是為了通過對用戶的分析,進行更加准確的服務和營銷。
阿里有數據魔方,為賣家提供收費服務。
「互聯網」
和
「所有空間」
互聯網 就是指Inter上所有的信息
對網路來說
主要就是中文信息
所有空間
就是指網路中的所有用戶
建了網路空間
(博客+相冊+留言板)
顯然搜索後者
是不包括網路空間 以外的博客的
大數據是大量、高速、多變的信息,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理。大數據為企業獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
藉助大數據及相關技術,我們可針對不同行為特徵的客戶進行針對性營銷,甚至能從「將一個產品推薦給一些合適的客戶」到「將一些合適的產品推薦給一個客戶」,得以更聚焦客戶,進行個性化精準營銷。
大數據時代下的精準營銷是指通過大數據獲取對象的喜好,行為偏好,對不同對象進行不同營銷。大數據精準營銷的核心可以概括為幾大關鍵詞:用戶、需求、識別、體驗。
億美軟通推出數據雲服務,延續億美的客戶服務、客戶營銷、客戶管理的公司經營理念,通過龐大的消費數據資源,為客戶提供數據驗證,精準營銷等數據級服務。簡單說就是為企業提供數據驗證和數據篩選業務。
-
不用擔心,學好了就會有好的前景。{變數9}
1.大數據重預測,小數據重解釋;2.大數據重發現,而小數據重實證;3.大數據重相關,小數據重因果;4.大數據重全體,小數據重抽樣;5.大數據重感知,小數據重精確。
DCCI互聯網數據中心(DCCI DATA CENTER OF CHINA INTERNET,簡稱DCCI),互聯網監測研究權威機構&數據平台,互動營銷之測量、分析、優化服務提供者。以Panel軟體、代碼嵌入、海量數據挖掘、語義信息處理等多種領先技術手段為基礎,進行網站、用...
互聯網數據中心:是idc 他是主要存放網路數據的(網站+數據+下載站點等)囊括比較廣泛,任何的正規企業或者是中小型站長都是可以進行選擇的。
企業數據中心:它的更加具有針對性,它可以隸屬於互聯網數據中心的一部分的。
㈩ 如何創建一個大數據平台
所謂的大數據平台不是獨立存在的,比如網路是依賴搜索引擎獲得大數據並開展業務的,阿里是通過電子商務交易獲得大數據並開展業務的,騰訊是通過社交獲得大數據並開始業務的,所以說大數據平台不是獨立存在的,重點是如何搜集和沉澱數據,如何分析數據並挖掘數據的價值。
我可能還不夠資格回答這個問題,沒有經歷過一個公司大數據平台從無到有到復雜的過程。不過說說看法吧,也算是梳理一下想法找找噴。
這是個需求驅動的過程。
曾經聽過spotify的分享,印象很深的是,他們分享說,他們的hadoop集群第一次故障是因為,機器放在靠窗的地方,太陽曬了當機了(笑)。從簡單的沒有機房放在自家窗前的集群到一直到現在復雜的數據平台,這是一個不斷演進的過程。
對小公司來說,大概自己找一兩台機器架個集群算算,也算是大數據平台了。在初創階段,數據量會很小,不需要多大的規模。這時候組件選擇也很隨意,Hadoop一套,任務調度用腳本或者輕量的框架比如luigi之類的,數據分析可能hive還不如導入RMDB快。監控和部署也許都沒時間整理,用腳本或者輕量的監控,大約是沒有ganglia、nagios,puppet什麼的。這個階段也許算是技術積累,用傳統手段還是真大數據平台都是兩可的事情,但是為了今後的擴展性,這時候上Hadoop也許是不錯的選擇。
當進入高速發展期,也許擴容會跟不上計劃,不少公司可能會遷移平台到雲上,比如AWS阿里雲什麼的。小規模高速發展的平台,這種方式應該是經濟實惠的,省了運維和管理的成本,擴容比較省心。要解決的是選擇平台本身提供的服務,計算成本,打通數據出入的通道。整個數據平台本身如果走這條路,可能就已經基本成型了。走這條路的比較有名的應該是netflix。
也有一個階段,你發現雲服務的費用太高,雖然省了你很多事,但是花錢嗖嗖的。幾個老闆一合計,再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。這時候你大概需要一群靠譜的運維,幫你監管機器,之前兩三台機器登錄上去看看狀態換個磁碟什麼的也許就不可能了,你面對的是成百上千台主機,有些關鍵服務必須保證穩定,有些是數據節點,磁碟三天兩頭損耗,網路可能被壓得不堪重負。你需要一個靠譜的人設計網路布局,設計運維規范,架設監控,值班團隊走起7*24小時隨時准備出台。然後上面再有平台組真的大數據平台走起。
然後是選型,如果有技術實力,可以直接用社區的一整套,自己管起來,監控部署什麼的自己走起。這個階段部署監控和用戶管理什麼的都不可能像兩三個節點那樣人肉搞了,配置管理,部署管理都需要專門的平台和組件;定期Review用戶的作業和使用情況,決定是否擴容,清理數據等等。否則等機器和業務進一步增加,團隊可能會死的很慘,疲於奔命,每天事故不斷,進入惡性循環。
當然有金錢實力的大戶可以找Cloudera,Hortonworks,國內可以找華為星環,會省不少事,適合非互聯網土豪。當然互聯網公司也有用這些東西的,比如Ebay。
接下去你可能需要一些重量的組件幫你做一些事情。
比如你的數據接入,之前可能找個定時腳本或者爬log發包找個伺服器接收寫入HDFS,現在可能不行了,這些大概沒有高性能,沒有異常保障,你需要更強壯的解決方案,比如Flume之類的。
你的業務不斷壯大,老闆需要看的報表越來越多,需要訓練的數據也需要清洗,你就需要任務調度,比如oozie或者azkaban之類的,這些系統幫你管理關鍵任務的調度和監控。
數據分析人員的數據大概可能漸漸從RDBMS搬遷到集群了,因為傳統資料庫已經完全hold不住了,但他們不會寫代碼,所以你上馬了Hive。然後很多用戶用了Hive覺得太慢,你就又上馬交互分析系統,比如Presto,Impala或者SparkSQL。
你的數據科學家需要寫ML代碼,他們跟你說你需要Mahout或者Spark MLLib,於是你也部署了這些。
至此可能數據平台已經是工程師的日常工作場所了,大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。
比如各個業務線數據各種數據表多的一塌糊塗,不管是你還是寫數據的人大概都不知道數據從哪兒來,接下去到哪兒去。你就自己搞了一套元數據管理的系統。
你分析性能,發現你們的數據都是上百Column,各種復雜的Query,裸存的Text格式即便壓縮了也還是慢的要死,於是你主推用戶都使用列存,Parquet,ORC之類的。
又或者你發現你們的ETL很長,中間生成好多臨時數據,於是你下狠心把pipeline改寫成Spark了。
再接下來也許你會想到花時間去維護一個門戶,把這些零散的組件都整合到一起,提供統一的用戶體驗,比如一鍵就能把數據從資料庫chua一下拉到HDFS導入Hive,也能一鍵就chua一下再搞回去;點幾下就能設定一個定時任務,每天跑了給老闆自動推送報表;或者點一下就能起一個Storm的topology;或者界面上寫幾個Query就能查詢Hbase的數據。這時候你的數據平台算是成型了。
當然,磕磕碰碰免不了。每天你都有新的問題和挑戰,否則你就要失業了不是?
你發現社區不斷在解決你遇到過的問題,於是你們架構師每天分出很多時間去看社區的進展,有了什麼新工具,有什麼公司發布了什麼項目解決了什麼問題,興許你就能用上。
上了這些亂七八糟的東西,你以為就安生了?Hadoop平台的一個大特點就是坑多。尤其是新做的功能新起的項目。對於平台組的人,老闆如果知道這是天然坑多的平台,那他也許會很高興,因為跟進社區,幫忙修bug,一起互動其實是很提升公司影響力的實情。當然如果老闆不理解,你就自求多福吧,招幾個老司機,出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上,因為數據平台還是亂世,三天不跟進你就不知道世界是什麼樣了。任何一個新技術,都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術,那需要小心再小心,技術主管也要有足夠的積累,能夠駕馭,知道收益和風險。