導航:首頁 > 網路數據 > 阿里巴巴大數據的數據產品

阿里巴巴大數據的數據產品

發布時間:2024-01-09 14:45:14

⑴ 阿里巴巴運用大數據包括哪些

  1. 大數據計算服務(MaxCompute,原ODPS)

  2. Data IDE(原BASE)

  3. 數據集成(原CDP雲道)

  4. 大數據基礎服務包括 Maxcompute 分析型資料庫

  5. 大數據分析於展現包括 Date V Quick BI 畫像分析等

  6. 大數據應用 包括 推薦引擎 企業圖譜

⑵ 阿里研究院的數據產品

aSPI-core(alibaba Shopping Price Index-core 阿里巴巴網購核心商品價格指數)是固定籃子價格指數,其測度思路是選擇一個具有代表性的產品籃子,考察在不同的時點和不同的價格結構下,購買該產品籃子的費用變化程度以代表價格水平的變化,即大多數國家編制CPI價格指數使用的理論框架。aSPI-core通過創新篩選演算法圈定阿里零售平台上近100000種核心商品作為固定「籃子」,每月追蹤該特定籃子內商品和服務所需價格變化,以體現網購市場價格相對於宏觀經濟的敏感性。
aSPI-core由十大分類指數構成,分別是食品、煙酒及用品、衣著、家庭設備及維修服務、醫療保健和個人用品、交通和通信、娛樂教育文化用品及服務、居住、辦公用品及服務和愛好收藏投資十個大類。 以生活費用理論為基礎的阿里巴巴全網網購價格指數 (aSPI,即alibaba Shopping Price Index),在理論上能克服固定籃子指數面臨的這一缺陷。該價格指數衡量的是消費者獲得效用不變條件下,產品相對價格變動引發消費數量上的替代效應,所帶來的最小支出水平的變動。阿里巴巴全網網購價格指數(aSPI)正是建立在葉子類目每月加權成交均價基礎上,採用鏈式指數演算法,用以反映全網總體網購支出價格水平的變化。
aSPI與aSPI-core十大分類指數構成一致,具體分類佔比按月變動,權重變化比aSPI-core更具有實時性。兩者相輔相成,互為印證。 這是一款面向公眾媒體,結合開放的國家統計數據、區域經濟數據、電子商務行業數據以及阿里集團數據,圍繞地圖視角呈現的可視化在線交互產品。已上線的數據地圖beta版本涵蓋七大類數據,20餘個指標,其中單指標彩色中國、交互趨勢圖等功能設計為廣大業內人士和數據愛好者創造了極具趣味的探索環境,產品提供數據下載和分享,可在線對感興趣的話題進行討論。

⑶ 一文認識並讀懂大數據

一文認識並讀懂大數據

在寫這篇文章之前,我發現身邊很多IT人對於這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大數據和你有什麼關系?估計很少能 說出一二三來。究其原因,一是因為大家對新技術有著相同的原始渴求,至少知其然在聊天時不會顯得很「土鱉」;二是在工作和生活環境中真正能參與實踐大數據 的案例實在太少了,所以大家沒有必要花時間去知其所以然。

我希望有些不一樣,所以對該如何去認識大數據進行了一番思索,包括查閱了資料,翻閱了最新的專業書籍,但我並不想把那些零散的資料碎片或不同理解論述簡單規整並堆積起來形成毫無價值的轉述或評論,我很真誠的希望進入事物探尋本質。

如果你說大數據就是數據大,或者侃侃而談4個V,也許很有深度的談到BI或預測的價值,又或者拿Google和Amazon舉例,技術流可能會聊起 Hadoop和Cloud Computing,不管對錯,只是無法勾勒對大數據的整體認識,不說是片面,但至少有些管窺蠡測、隔衣瘙癢了。……也許,「解構」是最好的方法。

怎樣結構大數據?

首先,我認為大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。

其次,想要系統的認知大數據,必須要全面而細致的分解它,我著手從三個層面來展開:

第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大數據的特徵定義理解行業對大數據 的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從對大數據的現在和未來去洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角 審視人和數據之間的長久博弈。

第二層面是技術,技術是大數據價值體現的手段和前進的基石。我將分別從雲計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。

第三層面是實踐,實踐是大數據的最終價值體現。我將分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。

和大數據相關的理論? 特徵定義

最早提出大數據時代到來的是麥肯錫:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」

業界(IBM 最早定義)將大數據的特徵歸納為4個「V」(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一, 數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網路日誌、視頻、圖 片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最後這一點也是和傳統的數據挖掘技術有著本質的不同。

其實這些V並不能真正說清楚大數據的所有特徵,下面這張圖對大數據的一些相關特性做出了有效的說明。

古語雲:三分技術,七分數據,得數據者得天下。先不論誰說的,但是這 句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證,都是為了說明一個道理:在大數據時代已經到來的時候要用大數 據思維去發掘大數據的潛在價值。書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨 勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價 格打折數據,來預測用戶購買機票的時機是否合適。

那麼,什麼是大數據思維?維克托·邁爾-舍恩伯格認為,1-需要全部數據樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關系。

阿里巴巴的王堅對於大數據也有一些獨特的見解,比如,

「今天的數據不是大,真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。」

「非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。」

「你千萬不要想著拿數據去改進一個業務,這不是大數據。你一定是去做了一件以前做不了的事情。」

特別是最後一點,我是非常認同的,大數據的真正價值在於創造,在於填補無數個還未實現過的空白。

有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。

? 價值探討

大數據是什麼?投資者眼裡是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的數據。

如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。

Target 超市以20多種懷孕期間孕婦可能會購買的商品為基礎,將所有用戶的購買記錄作為數據來源,通過構建模型分析購買者的行為相關性,能准確的推斷出孕婦的具體臨盆時間,這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優惠卷。

Target的例子是一個很典型的案例,這樣印證了維克托·邁爾-舍恩伯格提過的一個很有指導意義的觀點:通過找出一個關聯物並監控它,就可以預測 未來。Target通過監測購買者購買商品的時間和品種來准確預測顧客的孕期,這就是對數據的二次利用的典型案例。如果,我們通過採集駕駛員手機的GPS 數據,就可以分析出當前哪些道路正在堵車,並可以及時發佈道路交通提醒;通過採集汽車的GPS位置數據,就可以分析城市的哪些區域停車較多,這也代表該區 域有著較為活躍的人群,這些分析數據適合賣給廣告投放商。

不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。

從大數據的價值鏈條來分析,存在三種模式:

1- 手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。

2- 沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,Oracle等。

3- 既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。

未來在大數據領域最具有價值的是兩種事物:1-擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;2-還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。

Wal-Mart作為零售行業的巨頭,他們的分析人員會對每個階段的銷售記錄進行了全面的分析,有一次他們無意中發現雖不相關但很有價值的數據,在 美國的颶風來臨季節,超市的蛋撻和抵禦颶風物品竟然銷量都有大幅增加,於是他們做了一個明智決策,就是將蛋撻的銷售位置移到了颶風物品銷售區域旁邊,看起 來是為了方便用戶挑選,但是沒有想到蛋撻的銷量因此又提高了很多。

還有一個有趣的例子,1948年遼沈戰役期間,司令員林彪要求每天要進行例常的「每日軍情匯報」,由值班參謀讀出下屬各個縱隊、師、團用電台報告的 當日戰況和繳獲情況。那幾乎是重復著千篇一律枯燥無味的數據:每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少,槍支、物資多少……有一天,參謀照例匯 報當日的戰況,林彪突然打斷他:「剛才念的在胡家窩棚那個戰斗的繳獲,你們聽到了嗎?」大家都很茫然,因為如此戰斗每天都有幾十起,不都是差不多一模一樣 的枯燥數字嗎?林彪掃視一周,見無人回答,便接連問了三句:「為什麼那裡繳獲的短槍與長槍的比例比其它戰斗略高?」「為什麼那裡繳獲和擊毀的小車與大車的 比例比其它戰斗略高?」「為什麼在那裡俘虜和擊斃的軍官與士兵的比例比其它戰斗略高?」林彪司令員大步走向掛滿軍用地圖的牆壁,指著地圖上的那個點說: 「我猜想,不,我斷定!敵人的指揮所就在這里!」果然,部隊很快就抓住了敵方的指揮官廖耀湘,並取得這場重要戰役的勝利。

這些例子真實的反映在各行各業,探求數據價值取決於把握數據的人,關鍵是人的數據思維;與其說是大數據創造了價值,不如說是大數據思維觸發了新的價值增長。

以上是小編為大家分享的關於一文認識並讀懂大數據的相關內容,更多信息可以關注環球青藤分享更多干貨

⑷ 阿里雲的主要產品

阿里雲的產品致力於提升運維效率,降低IT成本,令使用者更專注於核心業務發展。
雲伺服器ECS
一種簡單高效,處理能力可彈性伸縮的計算服務。助您快速構建更穩定、安全的應用。提升運維效率,降低IT成本,使您更專注於核心業務創新。

雲引擎ACE
一種彈性、分布式的應用託管環境,支持Java、PHP、Python、Node.js等多種語言環境。幫助開發者快速開發和部署服務端應用程序,並簡化系統維護工作。搭載了豐富的分布式擴展服務,為應用程序提供強大助力。
彈性伸縮
根據用戶的業務需求和策略,自動調整其彈性計算資源的管理服務。其能夠在業務增長時自動增加ECS實例,並在業務下降時自動減少ECS實例。
一種即開即用、穩定可靠、可彈性伸縮的在線資料庫服務。基於飛天分布式系統和高性能存儲,RDS支持MySQL、SQL Server、PostgreSQL和PPAS(高度兼容Oracle)引擎,並且提供了容災、備份、恢復、監控、遷移等方面的全套解決方案。
開放結構化數據服務OTS
構建在阿里雲飛天分布式系統之上的 NoSQL資料庫服務,提供海量結構化數據的存儲和實時訪問。OTS 以實例和表的形式組織數據,通過數據分片和負載均衡技術,實現規模上的無縫擴展。應用通過調用 OTS API / SDK 或者操作管理控制台來使用 OTS 服務。
開放緩存服務OCS
在線緩存服務,為熱點數據的訪問提供高速響應。
鍵值存儲KVStore for Redis
兼容開源Redis協議的Key-Value類型在線存儲服務。KVStore支持字元串、鏈表、集合、有序集合、哈希表等多種數據類型,及事務(Transactions)、消息訂閱與發布(Pub/Sub)等高級功能。通過內存+硬碟的存儲方式,KVStore在提供高速數據讀寫能力的同時滿足數據持久化需求。
數據傳輸
支持以資料庫為核心的結構化存儲產品之間的數據傳輸。 它是一種集數據遷移、數據訂閱及數據實時同步於一體的數據傳輸服務。 數據傳輸的底層數據流基礎設施為阿里雙11異地雙活基礎架構, 為數千下游應用提供實時數據流,已在線上穩定運行3年之久。
對象存儲OSS
阿里雲對外提供的海量、安全和高可靠的雲存儲服務。RESTFul API的平台無關性,容量和處理能力的彈性擴展,按實際容量付費真正使您專注於核心業務。
歸檔存儲
作為阿里雲數據存儲產品體系的重要組成部分,致力於提供低成本、高可靠的數據歸檔服務,適合於海量數據的長期歸檔、備份。
消息服務
一種高效、可靠、安全、便捷、可彈性擴展的分布式消息與通知服務。消息服務能夠幫助應用開發者在他們應用的分布式組件上自由的傳遞數據,構建松耦合系統。
CDN
內容分發網路將源站內容分發至全國所有的節點,縮短用戶查看對象的延遲,提高用戶訪問網站的響應速度與網站的可用性,解決網路帶寬小、用戶訪問量大、網點分布不均等問題。 負載均衡
對多台雲伺服器進行流量分發的負載均衡服務。負載均衡可以通過流量分發擴展應用系統對外的服務能力,通過消除單點故障提升應用系統的可用性。
專有網路VPC
幫助基於阿里雲構建出一個隔離的網路環境。可以完全掌控自己的虛擬網路,包括選擇自有 IP 地址范圍、劃分網段、配置路由表和網關等。也可以通過專線/VPN等連接方式將VPC與傳統數據中心組成一個按需定製的網路環境,實現應用的平滑遷移上雲。

開放數據處理服務ODPS
由阿里雲自主研發,提供針對TB/PB級數據、實時性要求不高的分布式處理能力,應用於數據分析、挖掘、商業智能等領域。阿里巴巴的離線數據業務都運行在ODPS上。
采雲間DPC
基於開放數據處理服務(ODPS)的DW/BI的工具解決方案。DPC提供全鏈路的易於上手的數據處理工具,包括ODPS IDE、任務調度、數據分析、報表製作和元數據管理等,可以大大降低用戶在數據倉庫和商業智能上的實施成本,加快實施進度。天弘基金、高德地圖的數據團隊基於DPC完成他們的大數據處理需求。
批量計算
一種適用於大規模並行批處理作業的分布式雲服務。批量計算可支持海量作業並發規模,系統自動完成資源管理,作業調度和數據載入,並按實際使用量計費。批量計算廣泛應用於電影動畫渲染,生物數據分析,多媒體轉碼,金融保險分析等領域。
數據集成
阿里集團對外提供的穩定高效、彈性伸縮的數據同步平台,為阿里雲大數據計算引擎(包括ODPS、分析型資料庫、OSPS)提供離線(批量)、實時(流式)的數據進出通道。
DDoS防護服務
針對阿里雲伺服器在遭受大流量的DDoS攻擊後導致服務不可用的情況下,推出的付費增值服務,用戶可以通過配置高防IP,將攻擊流量引流到高防IP,確保源站的穩定可靠。免費為阿里雲上客戶提供最高5G的DDoS防護能力。
安騎士
阿里雲推出的一款免費雲伺服器安全管理軟體,主要提供木馬文件查殺、防密碼暴力破解、高危漏洞修復等安全防護功能。
阿里綠網
基於深度學習技術及阿里巴巴多年的海量數據支撐, 提供多樣化的內容識別服務,能有效幫助用戶降低違規風險。
安全網路
一款集安全、加速和個性化負載均衡為一體的網路接入產品。用戶通過接入安全網路,可以緩解業務被各種網路攻擊造成的影響,提供就近訪問的動態加速功能。
DDoS高防IP
針對互聯網伺服器(包括非阿里雲主機)在遭受大流量的DDoS攻擊後導致服務不可用的情況下,推出的付費增值服務,用戶可以通過配置高防IP,將攻擊流量引流到高防IP,確保源站的穩定可靠。
網路安全專家服務
在雲盾DDoS高防IP服務的基礎上,推出的安全代維託管服務。該服務由阿里雲雲盾的DDoS專家團隊,為企業客戶提供私家定製的DDoS防護策略優化、重大活動保障、人工值守等服務,讓企業客戶在日益嚴重的DDoS攻擊下高枕無憂。
伺服器安全託管
為雲伺服器提供定製化的安全防護策略、木馬文件檢測和高危漏洞檢測與修復工作。當發生安全事件時,阿里雲安全團隊提供安全事件分析、響應,並進行系統防護策略的優化。
滲透測試服務
針對用戶的網站或業務系統,通過模擬黑客攻擊的方式,進行專業性的入侵嘗試,評估出重大安全漏洞或隱患的增值服務。
態勢感知
專為企業安全運維團隊打造,結合雲主機和全網的威脅情報,利用機器學習,進行安全大數據分析的威脅檢測平台。可讓客戶全面、快速、准確地感知過去、現在、未來的安全威脅。
雲監控
一個開放性的監控平台,可實時監控您的站點和伺服器,並提供多種告警方式(簡訊,旺旺,郵件)以保證及時預警,為您的站點和伺服器的正常運行保駕護航。
訪問控制
一個穩定可靠的集中式訪問控制服務。您可以通過訪問控制將阿里雲資源的訪問及管理許可權分配給您的企業成員或合作夥伴。 日誌服務
針對日誌收集、存儲、查詢和分析的服務。日誌服務可收集雲服務和應用程序生成的日誌數據並編制索引,提供實時查詢海量日誌的能力。
開放搜索
解決用戶結構化數據搜索需求的託管服務,支持數據結構、搜索排序、數據處理自由定製。 開放搜索為您的網站或應用程序提供簡單、低成本、穩定、高效的搜索解決方案。
媒體轉碼
為多媒體數據提供的轉碼計算服務。它以經濟、彈性和高可擴展的音視頻轉換方法,將多媒體數據轉碼成適合在PC、TV以及移動終端上播放的格式。
性能測試
全球領先的SaaS性能測試平台,具有強大的分布式壓測能力,可模擬海量用戶真實的業務場景,讓應用性能問題無所遁形。性能測試包含兩個版本,Lite版適合於業務場景簡單的系統,免費使用;企業版適合於承受大規模壓力的系統,同時每月提供免費額度,可以滿足大部分企業客戶。
移動數據分析
一款移動App數據統計分析產品,提供通用的多維度用戶行為分析,支持日誌自主分析,助力移動開發者實現基於大數據技術的精細化運營、提升產品質量和體驗、增強用戶黏性。 阿里雲旗下萬網域名,連續19年蟬聯域名市場NO.1,近1000萬個域名在萬網注冊!除域名外,提供雲伺服器、雲虛擬主機、企業郵箱、建站市場、雲解析等服務。2015年7月,阿里雲官網與萬網網站合二為一,萬網旗下的域名、雲虛擬主機、企業郵箱和建站市場等業務深度整合到阿里雲官網,用戶可以網站上完成網路創業的第一步。

⑸ 轉載:阿里巴巴為什麼選擇Apache Flink

本文主要整理自阿里巴巴計算平台事業部資深技術專家莫問在雲棲大會的演講。

合抱之木,生於毫末

隨著人工智慧時代的降臨,數據量的爆發,在典型的大數據的業務場景下數據業務最通用的做法是:選用批處理的技術處理全量數據,採用流式計算處理實時增量數據。在絕大多數的業務場景之下,用戶的業務邏輯在批處理和流處理之中往往是相同的。但是,用戶用於批處理和流處理的兩套計算引擎是不同的。

因此,用戶通常需要寫兩套代碼。毫無疑問,這帶來了一些額外的負擔和成本。阿里巴巴的商品數據處理就經常需要面對增量和全量兩套不同的業務流程問題,所以阿里就在想,我們能不能有一套統一的大數據引擎技術,用戶只需要根據自己的業務邏輯開發一套代碼。這樣在各種不同的場景下,不管是全量數據還是增量數據,亦或者實時處理,一套方案即可全部支持, 這就是阿里選擇Flink的背景和初衷

目前開源大數據計算引擎有很多選擇,流計算如Storm,Samza,Flink,Kafka Stream等,批處理如Spark,Hive,Pig,Flink等。而同時支持流處理和批處理的計算引擎,只有兩種選擇:一個是Apache Spark,一個是Apache Flink。

從技術,生態等各方面的綜合考慮。首先,Spark的技術理念是基於批來模擬流的計算。而Flink則完全相反,它採用的是基於流計算來模擬批計算。

從技術發展方向看,用批來模擬流有一圓輪定的技術局限性,並且這個局限性可能很難突破。而Flink基於流來模擬批,在技術上有更好的擴展性。從長遠來看,阿里決定用Flink做一個統一的、通用的大數據引擎作為未來的選型。

Flink是一個低延遲、高吞吐、統一的大數據計算引擎。在阿里巴巴的生產環境中,Flink的計算平台可以實現毫秒級的延遲情況下,每秒鍾處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數據的正確性。這樣就使得Flink大數據引擎可以提供金融級的數據處理能力橘仿信。

Flink在阿里的現狀

基於Apache Flink在阿里巴巴搭建的平台於2016年正式上線,並從阿里巴巴的搜索和推薦這兩大場景開始實現。目前阿里巴巴所有的業務,包括阿里巴巴所有子公司都採用了基於Flink搭建的實時計算平台。同時Flink計算平台運行在開源的Hadoop集群之上。採用Hadoop的YARN做為資源管理調度,以 HDFS作為數據存儲。因此,Flink可以和開源大數據軟體Hadoop無縫對接。

目前,這套基於Flink搭建的實時計算平台不僅服務於阿里巴巴集團內部,而且通過阿里雲的雲產品API向整個開發者生態提供基於Flink的雲產品支持。

Flink在阿里巴巴的大規模應用,表現如何?

規模: 一個系統是否成熟,規模是重要指標,Flink最初上線阿里巴巴只有數百台伺服器,目前規模已達上萬台,此等規模在全球范圍內也是屈指可數;

狀態數據: 基於Flink,內部積累起來的狀態數據已經是PB級別規模;

Events: 如今每天在Flink的計算平台上,處理的數據已經超過萬億條;

PS: 在峰值期間可以承擔每秒超過4.72億次的訪問,最典型的應用場景是阿里巴巴雙11大屏;

Flink的發展之路

接下來從開源技術的角度,來談一談Apache Flink是如何誕生的,它是如何成長的大帆?以及在成長的這個關鍵的時間點阿里是如何進入的?並對它做出了那些貢獻和支持?

Flink誕生於歐洲的一個大數據研究項目StratoSphere。該項目是柏林工業大學的一個研究性項目。早期,Flink是做Batch計算的,但是在2014年,StratoSphere裡面的核心成員孵化出Flink,同年將Flink捐贈Apache,並在後來成為Apache的頂級大數據項目,同時Flink計算的主流方向被定位為Streaming,即用流式計算來做所有大數據的計算,這就是Flink技術誕生的背景。

2014年Flink作為主攻流計算的大數據引擎開始在開源大數據行業內嶄露頭角。區別於Storm,Spark Streaming以及其他流式計算引擎的是:它不僅是一個高吞吐、低延遲的計算引擎,同時還提供很多高級的功能。比如它提供了有狀態的計算,支持狀態管理,支持強一致性的數據語義以及支持Event Time,WaterMark對消息亂序的處理。

Flink核心概念以及基本理念

Flink最區別於其他流計算引擎的,其實就是狀態管理。

什麼是狀態?例如開發一套流計算的系統或者任務做數據處理,可能經常要對數據進行統計,如Sum,Count,Min,Max,這些值是需要存儲的。因為要不斷更新,這些值或者變數就可以理解為一種狀態。如果數據源是在讀取Kafka,RocketMQ,可能要記錄讀取到什麼位置,並記錄Offset,這些Offset變數都是要計算的狀態。

Flink提供了內置的狀態管理,可以把這些狀態存儲在Flink內部,而不需要把它存儲在外部系統。這樣做的好處是第一降低了計算引擎對外部系統的依賴以及部署,使運維更加簡單;第二,對性能帶來了極大的提升:如果通過外部去訪問,如Redis,HBase它一定是通過網路及RPC。如果通過Flink內部去訪問,它只通過自身的進程去訪問這些變數。同時Flink會定期將這些狀態做Checkpoint持久化,把Checkpoint存儲到一個分布式的持久化系統中,比如HDFS。這樣的話,當Flink的任務出現任何故障時,它都會從最近的一次Checkpoint將整個流的狀態進行恢復,然後繼續運行它的流處理。對用戶沒有任何數據上的影響。

Flink是如何做到在Checkpoint恢復過程中沒有任何數據的丟失和數據的冗餘?來保證精準計算的?

這其中原因是Flink利用了一套非常經典的Chandy-Lamport演算法,它的核心思想是把這個流計算看成一個流式的拓撲,定期從這個拓撲的頭部Source點開始插入特殊的Barries,從上游開始不斷的向下游廣播這個Barries。每一個節點收到所有的Barries,會將State做一次Snapshot,當每個節點都做完Snapshot之後,整個拓撲就算完整的做完了一次Checkpoint。接下來不管出現任何故障,都會從最近的Checkpoint進行恢復。

Flink利用這套經典的演算法,保證了強一致性的語義。這也是Flink與其他無狀態流計算引擎的核心區別。

下面介紹Flink是如何解決亂序問題的。比如星球大戰的播放順序,如果按照上映的時間觀看,可能會發現故事在跳躍。

在流計算中,與這個例子是非常類似的。所有消息到來的時間,和它真正發生在源頭,在線系統Log當中的時間是不一致的。在流處理當中,希望是按消息真正發生在源頭的順序進行處理,不希望是真正到達程序里的時間來處理。Flink提供了Event Time和WaterMark的一些先進技術來解決亂序的問題。使得用戶可以有序的處理這個消息。這是Flink一個很重要的特點。

接下來要介紹的是Flink啟動時的核心理念和核心概念,這是Flink發展的第一個階段;第二個階段時間是2015年和2017年,這個階段也是Flink發展以及阿里巴巴介入的時間。故事源於2015年年中,我們在搜索事業部的一次調研。當時阿里有自己的批處理技術和流計算技術,有自研的,也有開源的。但是,為了思考下一代大數據引擎的方向以及未來趨勢,我們做了很多新技術的調研。

結合大量調研結果,我們最後得出的結論是:解決通用大數據計算需求,批流融合的計算引擎,才是大數據技術的發展方向,並且最終我們選擇了Flink。

但2015年的Flink還不夠成熟,不管是規模還是穩定性尚未經歷實踐。最後我們決定在阿里內部建立一個Flink分支,對Flink做大量的修改和完善,讓其適應阿里巴巴這種超大規模的業務場景。在這個過程當中,我們團隊不僅對Flink在性能和穩定性上做出了很多改進和優化,同時在核心架構和功能上也進行了大量創新和改進,並將其貢獻給社區,例如:Flink新的分布式架構,增量Checkpoint機制,基於Credit-based的網路流控機制和Streaming SQL等。

阿里巴巴對Flink社區的貢獻

我們舉兩個設計案例,第一個是阿里巴巴重構了Flink的分布式架構,將Flink的Job調度和資源管理做了一個清晰的分層和解耦。這樣做的首要好處是Flink可以原生的跑在各種不同的開源資源管理器上。經過這套分布式架構的改進,Flink可以原生地跑在Hadoop Yarn和Kubernetes這兩個最常見的資源管理系統之上。同時將Flink的任務調度從集中式調度改為了分布式調度,這樣Flink就可以支持更大規模的集群,以及得到更好的資源隔離。

另一個是實現了增量的Checkpoint機制,因為Flink提供了有狀態的計算和定期的Checkpoint機制,如果內部的數據越來越多,不停地做Checkpoint,Checkpoint會越來越大,最後可能導致做不出來。提供了增量的Checkpoint後,Flink會自動地發現哪些數據是增量變化,哪些數據是被修改了。同時只將這些修改的數據進行持久化。這樣Checkpoint不會隨著時間的運行而越來越難做,整個系統的性能會非常地平穩,這也是我們貢獻給社區的一個很重大的特性。

經過2015年到2017年對Flink Streaming的能力完善,Flink社區也逐漸成熟起來。Flink也成為在Streaming領域最主流的計算引擎。因為Flink最早期想做一個流批統一的大數據引擎,2018年已經啟動這項工作,為了實現這個目標,阿里巴巴提出了新的統一API架構,統一SQL解決方案,同時流計算的各種功能得到完善後,我們認為批計算也需要各種各樣的完善。無論在任務調度層,還是在數據Shuffle層,在容錯性,易用性上,都需要完善很多工作。

篇幅原因,下面主要和大家分享兩點:

● 統一 API Stack

● 統一 SQL方案

先來看下目前Flink API Stack的一個現狀,調研過Flink或者使用過Flink的開發者應該知道。Flink有2套基礎的API,一套是DataStream,一套是DataSet。DataStream API是針對流式處理的用戶提供,DataSet API是針對批處理用戶提供,但是這兩套API的執行路徑是完全不一樣的,甚至需要生成不同的Task去執行。所以這跟得到統一的API是有沖突的,而且這個也是不完善的,不是最終的解法。在Runtime之上首先是要有一個批流統一融合的基礎API層,我們希望可以統一API層。

因此,我們在新架構中將採用一個DAG(有限無環圖)API,作為一個批流統一的API層。對於這個有限無環圖,批計算和流計算不需要涇渭分明的表達出來。只需要讓開發者在不同的節點,不同的邊上定義不同的屬性,來規劃數據是流屬性還是批屬性。整個拓撲是可以融合批流統一的語義表達,整個計算無需區分是流計算還是批計算,只需要表達自己的需求。有了這套API後,Flink的API Stack將得到統一。

除了統一的基礎API層和統一的API Stack外,同樣在上層統一SQL的解決方案。流和批的SQL,可以認為流計算有數據源,批計算也有數據源,我們可以將這兩種源都模擬成數據表。可以認為流數據的數據源是一張不斷更新的數據表,對於批處理的數據源可以認為是一張相對靜止的表,沒有更新的數據表。整個數據處理可以當做SQL的一個Query,最終產生的結果也可以模擬成一個結果表。

對於流計算而言,它的結果表是一張不斷更新的結果表。對於批處理而言,它的結果表是相當於一次更新完成的結果表。從整個SOL語義上表達,流和批是可以統一的。此外,不管是流式SQL,還是批處理SQL,都可以用同一個Query來表達復用。這樣以來流批都可以用同一個Query優化或者解析。甚至很多流和批的運算元都是可以復用的。

Flink的未來方向

首先,阿里巴巴還是要立足於Flink的本質,去做一個全能的統一大數據計算引擎。將它在生態和場景上進行落地。目前Flink已經是一個主流的流計算引擎,很多互聯網公司已經達成了共識:Flink是大數據的未來,是最好的流計算引擎。下一步很重要的工作是讓Flink在批計算上有所突破。在更多的場景下落地,成為一種主流的批計算引擎。然後進一步在流和批之間進行無縫的切換,流和批的界限越來越模糊。用Flink,在一個計算中,既可以有流計算,又可以有批計算。

第二個方向就是Flink的生態上有更多語言的支持,不僅僅是Java,Scala語言,甚至是機器學習下用的Python,Go語言。未來我們希望能用更多豐富的語言來開發Flink計算的任務,來描述計算邏輯,並和更多的生態進行對接。

最後不得不說AI,因為現在很多大數據計算的需求和數據量都是在支持很火爆的AI場景,所以在Flink流批生態完善的基礎上,將繼續往上走,完善上層Flink的Machine Learning演算法庫,同時Flink往上層也會向成熟的機器學習,深度學習去集成。比如可以做Tensorflow On Flink, 讓大數據的ETL數據處理和機器學習的Feature計算和特徵計算,訓練的計算等進行集成,讓開發者能夠同時享受到多種生態給大家帶來的好處。

⑹ 阿里巴巴擁有的是什麼數據

阿里巴巴擁有的是交易數據和信用數據。大數輪鏈據的來源有交易數據、人為數據禪滲、賀桐脊機器和感測器數據,其中阿里巴巴擁有的是交易數據和信用數據,這兩種數據更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交數據、移動數據。如微博和高德。

⑺ 企業為什麼要做數據中台

數據中台在國內最成功的搭建就是阿里巴巴的"小前台、大中台"戰略,而其數據中台架構為阿里業務帶來的效果也是顯而易見的。

不光阿里的業務競爭對手騰訊、網易認可並推出自己的構想,很多上市公司都提出了數據中台的建設構想,依靠數據重塑業務鏈條。

與大型頭部互聯網公司的投資盛況相對的,市場也出現了不少唱衰的聲音,存在"爛尾"、"無效"等問題。

"你說我們要不要做個數據中台?"

總是會有這樣的提問出現,而發問的往往都是手握大型項目的高管們。可實際上,能提出這個問題的,又多數是看著別人做了中台,自己也想要跟風做一個,趕上趨勢,結果卻是"上中台,人下台"。

阿里巴巴董事長兼CEO張勇在湖畔大學分享時也說:如果一個企業奔著中台做中台,就是死。

那麼,企業到底需不需要建設數據中台?要建什麼樣的?要怎麼建?

數據中台能解決的問題

要想知道數據中台到底該不該推進,首先要知道數據中台到底能夠解決什麼問題。

⑻ 阿里雲的MaxCompute數加(原ODPS)用的怎樣

我覺得他們在開發這個的時候,可能考慮了很多中國的傳統元素,所以在設計方面比較的符合中國的國情,不管是用戶的體驗方式還是怎樣,都特別的能夠拉好感。


但是從程序員的角度來說,我覺得它們的功能和模型做的也還是一般,雖然說在系統方面兼容性更好,但是缺點也還是蠻多的。

層次

之所以這樣說,是因為他整個層次是非常豐富的,他很好的做了分層,也就是說,給不同的軟體提供了不同的接入口,最底層是Linux+PC Server,上層軟體是飛天,飛天是阿里雲09年開始開發的一款分布式系統軟體,主要提供分布式存儲和分布式計算的調度、編程框架。開發語言是C++, 2013年該系統在生產環境支持調度5000台機器的集群。



總的來說,他們開發的初衷是好的,但是出來的效果並不盡如人意,後續可能還要再看。

⑼ 阿里資料庫運用范圍

阿里資料庫運用范圍:大數據計算服務(MaxCompute,原ODPS),Data IDE(原BASE),數據集成(原CDP雲道),大數據基礎服務包括 Maxcompute 分析型資料庫等。

無需用戶自己考慮高可用、備份恢復等問題,而且阿里針對開源的資料庫做了部分優化。另外提供一些諸如監控、告警、備份、恢復、調優的手段。就是減輕用戶在業務無關方面的花銷,花小錢省下力氣聚焦在自己的業務上。

阿里資料庫特性:

實例創建快速選擇好需要的套餐後,RDS控制台會根據選擇的套餐優化配置參數,短短幾分鍾一個可以使用的資料庫實例就創建好了。

支持只讀實例RDS只讀實例面向對資料庫有大量讀請求而非大量寫請求的讀寫場景,通過為標准實例創建多個RDS只讀實例,賦予標准實例彈性的讀能力擴展,從而增加用戶的吞吐量。

故障自動切換主庫發生不可預知的故障(如:硬體故障)時,RDS將自動切換該實例下的主庫實例,恢復時間一般<5min。

閱讀全文

與阿里巴巴大數據的數據產品相關的資料

熱點內容
微信動態表情包搞笑 瀏覽:436
可以去哪裡找編程老師問問題 瀏覽:608
win10lol全屏 瀏覽:25
qq圖片動態動漫少女 瀏覽:122
sai繪圖教程視頻 瀏覽:519
如何分析載入減速法數據 瀏覽:672
手機怎麼免費轉換pdf文件格式 瀏覽:668
在哪個網站可以駕照年檢 瀏覽:89
iphone可以播放ape嗎 瀏覽:991
matlabp文件能破解嗎 瀏覽:817
四川省高三大數據考試是什麼 瀏覽:457
導出打開java文件 瀏覽:671
win10藍屏是硬碟壞了么 瀏覽:46
沈陽哪裡適合學編程 瀏覽:811
django19常用版本 瀏覽:521
三國志11保存在哪個文件夾 瀏覽:88
iphone4s加速 瀏覽:108
編程內存和顯卡哪個重要 瀏覽:672
android連接網路列印機 瀏覽:195
linuxsftp如何上傳文件 瀏覽:603

友情鏈接