『壹』 阿里的總監將大數據、數字化的經驗,總結成資料干貨,可以收藏
阿里把企業的數字化轉型劃分為「數字化重構」和「數字化增長」兩大類別,這個概念是不是聽著很難懂?
重構,就是轉型嘛;增長,就是更進一步嘛,說白了還是原來的老樣子,換了個解釋而已。
說到數字化轉型,我覺得這是一個非常好的話題,甚至能衍生出很多干貨,無論是傳統企業,還是頂尖的互聯網大公司,如阿里騰訊,老闆都在朝這個方向努力。
所以和大數據有關的知識,還是很有必要學習的。
我給大家整理了很多干貨,我從一個10年從業者和管理者的角度,這份干貨,無論是底層幹活的,中層管控的,上層布局的,都能夠很清楚的學習到。
涉及到的方面還是很廣的:大數據、數倉、中台、AI、IT規劃、大數據平台、BI工具。
我是怎麼總結的?
從架構入手,到每個模塊的分解,再到每個地方的注意點,基本上就行了,太細的也不是通過文字去說清楚的。
只要能做到,看了干貨資料,能對實際工作產生指導,就可以了。
這只是一部分,還有更多,自己來看就好。
『貳』 阿里大數據營銷存在哪些問題
問題有如下幾點:
1、數據存在失真情況。數據的失真主要體現在兩個方面:一方面,消費者在注冊時可能會輸入虛假的個人信息或者是一人使用多個賬戶、使用他人賬戶等,其在網路操作過程中產生的數據信息本身就不真實,另一方面,由於網路技術的發展和消費者的個性化需求促使阿里巴巴每隔一段時間就要進行網站維護與更新,在這個過程中,會有不少用戶因為不熟悉新的界面而進行錯誤的操作,這些錯誤的操作信息也被阿里巴巴記錄,造成資料庫中真假信息混雜,嚴重影響了大數據的質量。
2、消費者的個人權益難以保障。直至目前,阿里巴巴仍沒有提出有效預防用戶信息泄露的方法或是用戶信息泄露之後的維護方法。
3、大數據營銷效果易出現兩極化。用戶在使用淘寶的過程中會將自己的手機號碼、郵箱等聯系方式提供給阿里巴巴,為了擴大經營,阿里巴巴會進一步分析資料庫中的客戶需求,針對不同的客戶,通過簡訊、郵件等形式向客戶推銷產品,這在某些方面增加了客戶,然而大多情況下這些信息會被消費者無視,更有甚者,會引起消費者的反感,因此,大數據營銷的效果如何,仍存在極大的不確定性,效果難以預料。
『叄』 阿里巴巴運用大數據包括哪些
大數據計算服務(MaxCompute,原ODPS)
Data IDE(原BASE)
數據集成(原CDP雲道)
大數據基礎服務包括 Maxcompute 分析型資料庫等
大數據分析於展現包括 Date V Quick BI 畫像分析等
大數據應用 包括 推薦引擎 企業圖譜
『肆』 安防「攪局者」阿里
阿里商業擴張的對象又多了一個千方。
昨日消息,阿里36億元入股智慧城市領域上市公司千方 科技 ,成為其第二大股東。
阿里的商業大盤上,「智慧城市」絕對是其中的重要籌碼,這個充斥著野心和荷爾蒙的「產品」,正因為邊界模糊而變得前景廣大。
那麼,面對諾大的智慧城市,商業利劍最佳的刺入點會在哪裡?
一個行業鮮少讓所有的從業者都能達成共識,AI行業是個例外,幾乎所有的從業者都認為: 智能安防、智慧交通會是最先爆發的 AI 產業。
如果說智慧交通、智能安防是各路玩家必須經過的一站,那麼在高手如雲的產業圈,阿里為什麼把綉球拋給了千方?
故事還要從兩年前說起。
2017年11月,千方 科技 以47億的「聘禮」,成功讓宇視 科技 「遠嫁」北京。
作為國內領先的安防企業,2018年宇視市場排名暫列全球第六;產品賣到全球145個國家;智能交通項目達330多個;並推出了人工智慧產品 「六山兩關」和人工智慧方案」AI Ready」。
作為智能交通系統集成領域的玩家,千方的入局,看傻了很多吃瓜群眾,但是驚艷了整個軌道交通市場。
於千方,作為一家上市公司,它長期專注於交通集成領域,將宇視招入麾下,可以快速將業務范疇延伸到安防製造領域,並且可以跳出智能交通這個井底,將業務觸角延伸到智慧城市這個國家新的大投資戰略上。
同時,也可以藉助宇視在公檢法、醫療、教育、能源、企業、零售等領域的資源,將自身在交通領域的集成產品拓展進去。
不出意外,2018年,千方 科技 取得了長足進步。
首先體現在證券市場,在整個2018年A股上證指數跌了近1000點,眾多「明星股」紛紛下跌的大背景下,千方 科技 在A股市場表現得非常堅韌,市值一直保持在原先的水平,不掉價。
其次,從產品層面來看,千方 科技 在車路協同領域,基於LTE-V標準的產品研發規模展開,已進入規模量產及系列化階段,車載單元、路側單元已通過工信部組織的互聯互通測試及無委的型號核准,這些都會成為千方 科技 在智能交通賽道競爭的絕對壁壘。
在戰略布局上,千方推出了「一體兩翼」發展戰略,「一體」是圍繞智慧城市保持大數據與人工智慧的優勢,「兩翼」是智慧交通和智能安防兩大業務版塊,也可以理解為千方與宇視。
此番布局,「恰巧」吻合了阿里的未來戰略布局。從這來看,阿里入股,屬意料之外,但也在情理之中。
阿里在安防行業「聞名」主要得益於城市大腦的快速復制落地。
在阿里技術委員會主席王堅眼裡,「城市大腦」具有人類登月般的重要意義。它像是杭州獻給整個世界的一個禮物,就像當年羅馬給了世界一個下水道,倫敦給了世界一輛地鐵,紐約給了世界一張電網。
眼下,阿里已經為包括雄安、澳門、吉隆坡在內的數十座海內外城市送去了厚禮。
與此同時,伴隨著項目落地也有一些聲音此起彼伏,很多業內人士認為,阿里做安防,醉翁之意不在酒,城市大腦背後實則是城市「數據」的殊命爭奪。
舉例來說,2017年,衢州市政府撥款4.37億元,要聯合阿里為這座古老的城市打造「城市大腦」。
4.37億元其實「並不多」。
按照項目方的說法,衢州「城市大腦」將分為多期進行建設,這筆資金主要用於城市大數據平台及軟體層建設所用。
通常,一個三四線城市,攝像頭總數預估在2000到10000路左右,建設大數據中心需要考慮到餘量配備,也就意味著上萬路的硬體搭建較為容易。比如湖南省會長沙市,攝像頭全部建滿應該能到10萬路左右。
以一萬路計算,視頻分析伺服器均價為30萬元/台,支持同時100多路數據分析,由此需要的伺服器可能3000萬元朝上(路數只代表原始數據量,而實際的價格往往是和分析的計算成本強相關,個體差異很大),其他各類數據分析假設與之對等,考慮到整個機房配置等,所需費用在2億元左右。
如果最後刨去人工等其他成本,阿里在每個城市的「城市大腦」項目上能夠獲得一定的營收,但利潤相比其主航道業務是小巫見大巫。(此前,阿里還以4.55 億元的價格中標海口「城市大腦」建設,具體金額都相差不大。)
即便如此,可以發現除了阿里,包括騰訊、京東、網路等互聯網巨頭都加足馬力,爭搶著進入這條賽道。投入產出比並不誘人的背後,這些互聯網企業為何要在建設智慧城市上花費如此大的精力?
某業內高管告訴雷鋒網,可以預見得到的未來趨勢是,硬體會為軟體服務,而不是相反。 全力進軍安防的互聯網公司們意圖已經非常明顯:要做物聯網時代的大數據運營商。
相關數據統計,到2025年,全球數據圈將增至175ZB(1ZB約為1萬億GB),而中國預計將以48.6ZB的數據量成為全球最大數據圈。
與此同時,「數據變現」問題一直以來都極大困擾著傳統的數據持有企業,相比之下,互聯網公司對於客群需求和消費行為的研究遠超於傳統公司,後者在流量「變現」的布局上顯得更加得心應手。
以往,包括阿里在內的互聯網廠商更多掌握的是用戶線上數據,而線下數據基本是一片空白。
這也就意味著,數據大戰中,誰掌握了更多的視頻監控路數,誰就能構建更加精準的用戶畫像,從而更好知悉、滿足用戶訴求,獲得大數據時代更大的話語權。
創新不是一個嶄新產品的誕生,而是現有的產品被賦予了新的用途,可以預見的是,線上數據與線下數據的打通,將為所有公司打開一扇從未涉足的世界的窗戶。
譬如,未來在新零售市場,通過視頻監控的鋪設,可以對線下海量商鋪形成覆蓋「店前」、「店中」、「收銀」各個環節的整套解決方案。
店前設備負責客流分析。當消費者走到門店前時,攝像頭開始抓拍,分析其是新客、老客還是VIP。
此外,在收銀台場景下,攝像頭還可以清晰地記錄購買者的客戶屬性,比如年齡、性別等;對商品的購買人群進行分析,有助於門店後期針對目標客戶進行更精準的商品推廣等。
店前、逛店、收銀對應著零售行業消費者的生命周期。
門前經過的是「遊客」,進店後成了「客戶」,再進入收銀環節就是「用戶」。利用這一整套的服務,相關互聯網企業可以幫助線下門店更好地了解門店的客流情況和店內銷售轉化。通過獲取和分析用戶數據實現從選址到營銷的全面賦能,把「遊客」最終變成「用戶」。
數據變現是一個很大的課題,也是一個很有趣的課題,因為它沒有界限、沒有方向,是一個完全的黑盒子,等待著每一個人去 探索 。
佳都集團董事長劉偉甚至認為,對於企業來說,數據是21世紀的石油;對於個人而言,數據是其生活的再現;對於政府來說,數據是基礎性的戰略資源。
有著明確目標的阿里,在智能安防市場,雖然有些遲到,但是玩起小步快跑來,這個互聯網巨頭絲毫不含糊,在龐大商業生態的加持下,阿裏手握幾張好牌。
從產品層面來看,阿里雲此前發布了雲邊端物聯網視頻服務Link Vision 1.0。
「 阿里這招非常狠,順利的話,他們可以做到視頻物聯網,真正實現城市大腦 。」對於這款產品,華泰科捷CEO傅劍輝如是說。
Link Vision 1.0包含了物聯網視頻開放平台和物聯網視頻AI解決方案,它可以幫助傳統攝像頭廠商與安防工程商更好實現數字化和智能化轉型。
也就是說它能從技術上解決中小企業盈利模式單一、畫質不佳、體驗欠佳、亦或是安全性得不到解決的現實問題。
阿里雲這一招數實際上與東方網力當年在模擬向數字轉換時做的聯網控制器有異曲同工之處。
其目的是將各種模擬的攝像機、DVR、DVS、模擬矩陣、IPC、NVR、網路矩陣用一個網關設備連接在一起,那麼它的核心就是今天所談的多媒體、數據網關。
阿里提出的這個邊緣化產品一來可以被部署到每一個城市中的每一個節點;其次,基於邊緣雲的視頻結構化運算,它能夠將很多消費級安防攝像機接入到阿里雲平台上,通過邊緣雲計算伺服器完成數據結構化。
如此,阿里便通過視頻物聯網拿到了城市視頻的數據,而這一點是阿里以前做不到的。
今天來看,華為也在搭建一張雲、海康也在織編一張雲,後期誰能夠拿到更多的視頻、更多的數據,後期的競爭力也就越強。
從戰略布局上看,本次入股千方也可以認為是一張絕佳好牌。
如果說產業經營是做『加法』,那麼投資並購就是做『乘法』。未來的市場份額爭奪會更偏向於報團取暖式進取,個人英雄式的單打獨斗已經成為過去。
一個企業的並購行為,從某種意義上來說,並不是簡單追求規模效益的推動,而是為未來的協同發展打好基礎。
阿里入股千方,無論就智慧城市大產業而言,還是針對智慧交通、智能安防等細分領域,都是一樁贏面更大的買賣。
安防也好、交通也罷,都是非常「重」的行業,此前很多大型企業在其中蟄伏良久,但最後都鎩羽而歸,主要原因就是產品豐富度不夠;另外不具有供應鏈優勢,一些與傳統視頻圖像相關的器件,如鏡頭等的供應能力存在不足,在機電控制方面也沒有足夠的積累。
阿里的優勢在於雲端,針對邊緣端來說,如果單個城市地去攻堅、去做重,費力不討好,選擇入股千方,聯手宇視無疑是最佳的入局方式。
早在戰國時期,諸侯並起、相互兼並,出現戰國七雄,歷經合縱連橫,最終秦王掃六合,一統天下。
兩千多年後,在全球一體化的趨勢下,貿易、技術、服務、管理、資源、資本、智力等一切推動經濟增長的要素都在不可逆轉地盪滌著各國的經濟邊界。
在這個過程中,投資並購就是資源整合、就是掃盪邊界、就是重新洗牌;同理,此路數在安防行業也同樣適用。
比如海康威視曾收購英國公司SHL,進一步開拓海外市場;大華股份也曾以2900萬美元收購FLIR旗下Lorex品牌,擴張北美銷售網路,如此等等。
行業需要攪局者。
183年前,一艘載有500名裝備槍械、木棍和戰斧的毛利人的英國海船在群島登陸。隨之,製造了針對島上莫里奧里人的大屠殺,並將倖存者作為奴隸驅使。
要知道,時間倒數千年,莫里奧人也是強大的波利尼西亞雄鷹,這一次相比來勢洶洶的毛利人,嚴重退化。
歷史 與商業從來都是驚人的相似,有著同等的規律使然。
從外企雄霸到海大宇並起再到各路英雄入局,安防前端AI與雲端AI業務間的戰場,從安防公司與AI公司兩大勢力之爭,進入安防公司、 科技 巨頭、AI公司三局鼎立的局面。
三類公司,戰術不同、戰略迥異。
從橫向講,海康、大華為「防禦派」;商湯、曠視為「革新派」; 阿里、華為為「進攻派」。
海康、大華等傳統安防巨頭的打法重「邊緣」,從上到下,保持軟硬一體化優勢;
商湯、曠視、地平線等AI獨角獸的戰略打法則從外向內,通過演算法進擊雲端,通過晶元主攻IPC,從而布局中心控制系統,基於頂層設計做服務;
阿里、華為等產業巨獸進軍安防的思路比較清晰,憑借較深的行業渠道積累搭建自己的平台,吸引更多合作夥伴,打造更大的泛安防生態圈。
今天來看,阿里的智慧城市版圖又多了千方、宇視兩個優質夥伴。雷鋒網雷鋒網雷鋒網
『伍』 為什麼阿里巴巴會斥資百億在烏蘭察布市建立大數據平台
為了推進華為、蘋果北方數據、阿里巴巴、優刻得、中聯利信、同舟匯通等大數據項目建設運營,集寧區藉助京蒙對口幫扶,在察哈爾工業園區內規劃建設了 6.5 平方公里的大數據產業園,推動大數據項目的發展及信息化建設、信息產業發展。
阿里雲已經走在了亞洲雲計算的前列,如今它已經正式對外宣布,會在中國的烏蘭察布市建立一個大數據中心。消息一出,引得無數人摸不著頭腦,都不知道啊,阿里雲為什麼要在這個名不見經傳的城市,做這么重要的戰略布局。
加大大數據產業基礎設施投資力度,同時也在加快數據中心建設之步伐,2019年,共續建、新建及擬建數據中心項目 8 項,計劃總投資 171.8億元,總佔地面積 1220 畝,承載 100 萬台伺服器。不難看出烏蘭察布市現在正在以數據存儲、產品研發、數據交易為核心的大數據中心建成後,將鑄就高新科技產業載體,夯實大數據產業發展的基礎層,進一步拓展上下游產業和配套產業,實現產業體系全覆蓋的准備進行中。
這就是為什麼阿里巴巴為什麼會斥資百億在烏蘭察布市建立大數據平台。不僅滿足當下以及未來大數據產業發展、互聯網經濟發展需求,提高傳統勞動力數字技能、提升數字化素養,也符合烏蘭察布市政府以及國家對此的重視,讓其共同來努力推動「互聯網+」及雲計算、電子信息產品製造、電子商務和服務外包等關聯產業協同發展,傾力打造成為面向華北、服務京津冀的大數據與雲計算中心,打響「草原雲谷」的品牌,擎畫大數據產業發展的藍圖,深化大數據和雲計算各領域應用。
『陸』 大數據數倉項目架構
雲上數據倉庫解決方案: https://www.aliyun.com/solution/datavexpo/datawarehouse
離線數倉架構
離線數倉特點
基於Serverless的雲上數據倉庫解決方案
架構特點
實時數倉架構
[圖片上傳失敗...(image-ec3d9a-1629814266849)]
實時數倉架構特點
秒級延遲,實時構建數據倉庫,架構簡單,傳統數倉平滑升級
架構特點
數據倉庫的輸入數據源和輸出系統分別是什麼?
輸入系統:埋點產生的用戶行為數據、javaEE後台產生的業務數據、個別公司有爬蟲數據。
輸出系統:報表系統、用戶畫像系統、推薦系統
1)Apache:運維麻煩,組件間兼容性需要自己調研。(一般大廠使用,技術實力雄厚,有專業的運維人員)
2)CDH:國內使用最多的版本,但 CM不開源,但其實對中、小公司使用來說沒有影響(建議使用)10000美金一個節點 CDP
3)HDP:開源,可以進行二次開發,但是沒有CDH穩定,國內使用較少
伺服器使用物理機還是雲主機?
1)機器成本考慮:
(1)物理機:以128G內存,20核物理CPU,40線程,8THDD和2TSSD硬碟,單台報價4W出頭,惠普品牌。一般物理機壽命5年左右。
(2)雲主機,以阿里雲為例,差不多相同配置,每年5W
2)運維成本考慮:
(1)物理機:需要有專業的運維人員(1萬*13個月)、電費(商業用戶)、安裝空調
(2)雲主機:很多運維工作都由阿里雲已經完成,運維相對較輕松
3)企業選擇
(1)金融有錢公司和阿里沒有直接沖突的公司選擇阿里雲(上海)
(2)中小公司、為了融資上市,選擇阿里雲,拉倒融資後買物理機。
(3)有長期打算,資金比較足,選擇物理機。
根據數據規模大家集群
屬於 研發部 /技術部/數據部,我們屬於 大數據組 ,其他還有後端項目組,前端組、測試組、UI組等。其他的還有產品部、運營部、人事部、財務部、行政部等。
大數據開發工程師=>大數據組組長=》項目經理=>部門經理=》技術總監
職級就分初級,中級,高級。晉升規則不一定,看公司效益和職位空缺。
京東:T1、T2應屆生;T3 14k左右 T4 18K左右 T5 24k-28k左右
阿里:p5、p6、p7、p8
小型公司(3人左右):組長1人,剩餘組員無明確分工,並且可能兼顧javaEE和前端。
中小型公司(3~6人左右):組長1人,離線2人左右,實時1人左右(離線一般多於實時),組長兼顧和javaEE、前端。
中型公司(5 10人左右):組長1人,離線3 5人左右(離線處理、數倉),實時2人左右,組長和技術大牛兼顧和javaEE、前端。
中大型公司(10 20人左右):組長1人,離線5 10人(離線處理、數倉),實時5人左右,JavaEE1人左右(負責對接JavaEE業務),前端1人(有或者沒有人單獨負責前端)。(發展比較良好的中大型公司可能大數據部門已經細化拆分,分成多個大數據組,分別負責不同業務)
上面只是參考配置,因為公司之間差異很大,例如ofo大數據部門只有5個人左右,因此根據所選公司規模確定一個合理范圍,在面試前必須將這個人員配置考慮清楚,回答時要非常確定。
IOS多少人 安卓多少人 前端多少人 JavaEE多少人 測試多少人
(IOS、安卓) 1-2個人 前端1-3個人; JavaEE一般是大數據的1-1.5倍,測試:有的有,有的沒有。1個左右。 產品經理1個、產品助理1-2個,運營1-3個
公司劃分:
0-50 小公司
50-500 中等
500-1000 大公司
1000以上 大廠 領軍的存在
轉自: https://blog.csdn.net/msjhw_com/article/details/116003357
『柒』 阿里巴巴大數據真的很牛嗎
剛剛參來加完阿里巴巴在北大的技術自論壇。有些可以作為回答而分享。
阿里巴巴在08年就把大數據作為一項公司基本戰略,要知道那個時候甚至還沒幾個人開始談論「大數據」,可以說在大數據方面相比於國內其他互聯網公司,阿里是走在前面的。
按馬雲的話講,我們正從information technology轉向data technology。數據是靈魂。也許並不能保證大數據能給阿里巴巴賺很多錢,但是阿里認為數據對人類有用,所以他們做了。
舉一個阿里CTO認為大數據應用和價值的例子:淘寶小貸團隊,很小的隊伍,完全依賴數據對客戶的信用程度作分析,將數據轉化為信用,將信用轉化為財富,這是傳統商業銀行冗雜的審核程序,低效和高成本所不能比的。更重要的是,這個項目給近百萬的小商戶提供了生命線,哪怕只貸一元錢。沒有哪個銀行會這么做。
我認為阿里巴巴已經是國內互聯網大數據的先驅,他們在做有意義的事情。
『捌』 7.阿里大數據——大數據建模
數據模型就是數據組織和存儲方法,它強調從業務、數據存取和使用角度合理存儲數據。
適合業務和基礎數據存儲環境的模型,大數據能獲得以下好處:
大數據系統需要數據模型方法來幫助更好的組織和存儲數據,以便在性能、成本、效率和質量之間取得最佳平衡。
不管是Hadoop、Spark還是阿里巴巴集團的MaxCompute系統,仍然在大規模使用SQL進行數據的加工和處理,仍然在用Table存儲數據,仍然在使用關系理論描述數據之間的關系,只是在大數據領域,基於其數據存取的特點在關系數據模型的範式上有了不同的選擇而已。
從全企業的高度設計一個3NF模型,用實體關系(Entity Relationship,ER)模型描述企業業務,在範式理論上符合3NF。數據倉庫中的3NF與OLTP中不同過,有以下特點:
ER模型建設數據倉庫的出發點是整合數據,為數據分析決策服務。建模步驟分為三個階段:
維度建模從分析決策的需求出發構建模型,為分析需求服務,因此它重點關注用戶如何更快速地完成需求分析,同時具有較好的大規模復雜查詢的響應性能。其典型代表事星形模型,以及在一些特殊場景下使用的雪花模型。其設計步驟如下:
它是ER模型的衍生,其設計的出發點也是為了實現數據的整合,但不能直接用於數據分析決策。它強調建立一個可審計的基礎數據層,也就是強調數據的歷史性、可追溯性和原子性,而不要求對數據進行過度的一致性處理和整合。該模型由一下幾部分組成:
Anchor對Data Vault模型做了進一步規范化處理,設計的初衷是一個高度可擴展的模型,其核心思想是所有的擴展只是添加而不是修改,因此將模型規范到6NF,基本變成了k-v結構化模型。組成如下:
經歷了多個階段:
『玖』 從IT到DT 阿里大數據背後的商業秘密
從IT到DT:阿里大數據背後的商業秘密
空氣污染究竟在多大程度上影響了人們的網購行為?有多少比重的線上消費屬於新增消費?為什麼中國的「電商百佳縣」中浙江有41個而廣東只有4個?
這些電商的秘密就隱藏在阿里巴巴商業生態的「大數據」中。
「未來製造業的最大能源不是石油,而是數據。」阿里巴巴董事局主席馬雲如此形容「數據」的重要意義。
在他看來,阿里巴巴本質上是一家數據公司,做淘寶的目的是為了獲得零售的數據和製造業的數據;做螞蟻金服的目的是建立信用體系;做物流不是為了送包裹,而是這些數據合在一起,「電腦會比你更了解你」。與此同時,產業的發展也正在從IT時代走向以大數據技術為代表的DT時代。
而在阿里巴巴內部,由電子商務、互聯網金融、電商物流、雲計算與大數據等構成的阿里巴巴互聯網商業生態圈,也正是阿里研究院所紮根的「土壤」。
具體而言,阿里巴巴平台的所有海量數據來自於數百萬充滿活力的小微企業、個人創業者以及數億消費者,阿里研究院通過對他們的商務活動和消費行為等進行研究分析,從某種程度上可以反映出一個地方乃至宏觀經濟的結構和發展趨勢。
而隨著阿里巴巴生態體系的不斷拓展和延伸,阿里巴巴的數據資源一定程度上將能夠有效補充傳統經濟指標在衡量經濟冷暖方面存在的滯後性,幫助政府更全面、及時、准確地掌握微觀經濟的運行情況。
從IT到DT
不同於一些企業以技術研究為導向的研究院,阿里研究院副院長宋斐告訴《第一財經日報》記者,阿里研究院定位於面向研究者和智庫機構,主要的研究方向包括未來研究(如信息經濟)、微觀層面上的模式創新研究(如C2B模式、雲端制組織模式)、中觀層面上的產業互聯網化研究(如電商物流、互聯網金融、農村電商等)、宏觀層面上新經濟與傳統經濟的互動研究(如互聯網與就業、消費、進出口等)、互聯網治理研究(如網規、電商立法)等。
具體到數據領域,就是在阿里巴巴互聯網商業生態基礎上,從企業數據、就業數據、消費數據、商品數據和區域數據等入手,通過大數據挖掘和建模,開發若干數據產品與服務。
例如,將互聯網數據與宏觀經濟統計標准對接的互聯網經濟數據統計標准,包括了中國城市分級標准;網路消費結構分類標准;網上商品與服務分類標准等。
而按經濟主題劃分的經濟信息統計資料庫則包括商品信息統計資料庫;網購用戶消費信息統計資料庫;小企業與就業統計資料庫;區域經濟統計資料庫。
還有反映電商經濟發展的「晴雨表」——阿里巴巴互聯網經濟系列指數。其中包括反映網民消費意願的阿里巴巴消費者信心指數aCCI、反映網購商品價格走勢的阿里巴巴全網網購價格指數aSPI和固定籃子的網購核心價格指數aSPI-core、反映網店經營狀態的阿里巴巴小企業活躍度指數aBAI、反映區域電子商務發展水平的阿里巴巴電子商務發展指數aEDI等等。其中,現有aSPI按月呈報給國家統計局。
而面向地方政府決策與分析部門的數據產品「阿里經濟雲圖」,則將分階段地推出地方經濟總覽、全景分析、監測預警以及知識服務等功能。宋斐告訴記者,其數據可覆蓋全國各省、市、區縣各級行政單位,地方政府用戶經過授權後,可以通過阿里經濟雲圖看到當地在阿里巴巴平台上產生的電子商務交易規模、結構特徵及發展趨勢。
「藉助數據可視化和多維分析功能,用戶可以對當地優勢產業進行挖掘、對消費趨勢與結構變動進行監測、與周邊地區進行對比等等。」宋斐表示,該產品未來還可以提供API服務模式,以整合更多的宏觀經濟數據和社會公開數據,為當地經濟全貌進行畫像,給大數據時代的政府決策體系帶來新的視角和工具。
數據會「說話」
對於如何利用「大數據」,馬雲在公司內部演講中曾提到:「未來幾年內,要把一切業務數據化,一切數據業務化。」
其中,後半句話可以理解為,讓阿里巴巴各項業務所產生、積累的大數據來豐富阿里的生態,同時讓生態蘊含的數據產生新的價值,再反哺生態,這是一個相輔相成的循環邏輯。
宋斐對記者舉例稱,螞蟻金服旗下的芝麻信用已獲得人民銀行個人徵信牌照批准籌備,未來將通過分析大量的網路交易及行為數據,如用戶信用歷史、行為偏好、履約能力、身份特質、人脈等信息,對用戶進行信用評估,這些信用評估可以幫助互聯網金融企業對用戶的還款意願及還款能力做出結論,繼而為用戶提供快速授信及現金分期服務。本質上來說,「芝麻信用」是一套徵信系統,該系統收集來自政府、金融系統的數據,還會充分分析用戶在淘寶、支付寶等平台的行為記錄。
再如,對於如火如荼的農村電商領域,阿里研究院從2010年就已開始對「沙集模式」個案進行研究,後續一系列基於數據和案例調研所驅動的農村電商研究成果,對於地方政府科學決策,推動當地農村電子商務發展、創造就業和發展地方經濟起到了助力作用。到2014年底,全國已經涌現了212個淘寶村,而阿里巴巴也在這一年啟動千縣萬村計劃,將在三至五年內投資100億元,在農村建立起電子商務服務體系。
除了通過數據分析去助力業務外,宋斐告訴記者,有時候大數據報告可能會與傳統的印象結論差異很大。
以區域電子商務為例,在阿里研究院發布的2014年中國電商百強縣排行榜中,浙江有41個縣入圍,福建有16個,而廣東只有4個,這個結果與傳統的印象相差比較大。而事實上,這是因為浙江和廣東兩省電商發展在地理分布、產業結構等方面的明顯不同而帶來的。
再如,外界常常認為網路零售替代了線下零售,但事實上,麥肯錫《中國網路零售革命:線上購物助推經濟增長》的研究報告,通過借鑒阿里研究中心(阿里研究院前身)和淘寶網UED用戶研究團隊的大量報告與數據,最後發現:「約60%的線上消費確實取代了線下零售;但剩餘的40%則是如果沒有網路零售就不會產生的新增消費。」
「這一研究成果,有助於社會各界准確認識網路零售與線下零售的關系,共同探索和建設良好的商業發展環境。」