① 為什麼阿里雲肖力:「雲計算大數據」應該反過來叫「雲數據大計算」
人類的認知總是被碾壓,而且猝不及防。沒辦法,名為「科技」的火車正開得越來越快 —— 中國引入互聯網才23年,中國首筆互聯網交易發生在9年前,智能手機也興起才幾年,這些卻都已成了生活中不可或缺的一部分。如今這列火車駛向一條名為」智能「的軌道,在可預見的未來又將開始新一輪加速。
5月23日上午,在雲棲大會·成都峰會上,阿里雲資深總監肖力用一場名為《通往智能之路》的演講,和在場的人聊了聊他的看法。
② BAT三巨頭開始挖掘大數據
BAT三巨頭開始挖掘大數據
阿里巴巴CTO即阿里雲負責人王堅博士說過一句話:雲計算和大數據,你們都理解錯了。
實際上,對於大數據究竟是什麼業界並無共識。大數據並不是什麼新鮮事物。信息革命帶來的除了信息的更高效地生產、流通和消費外,還帶來數據的爆炸式增長。「引爆點」到來之後,人們發現原有的零散的對數據的利用造成了巨大的浪費。移動互聯網浪潮下,數據產生速度前所未有地加快。人類達成共識開始系統性地對數據進行挖掘。這是大數據的初心。數據積累的同時,數據挖掘需要的計算理論、實時的數據收集和流通通道、數據挖掘過程需要使用的軟硬體環境都在成熟。
概念、模式、理論很重要,但在最具實干精神的互聯網領域,行動才是最好的答案。國內互聯網三巨頭BAT坐擁數據金礦,已陸續踏上了大數據掘金之路。
BAT都是大礦主,但礦山性質不同
數據如同蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。
網路擁有兩種類型的大數據:用戶搜索表徵的需求數據;爬蟲和阿拉丁獲取的公共web數據。
阿里巴巴擁有交易數據和信用數據。這兩種數據更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交數據、移動數據。如微博和高德。
騰訊擁有用戶關系數據和基於此產生的社交數據。這些數據可以分析人們的生活和行為,從裡面挖掘出政治、社會、文化、商業、健康等領域的信息,甚至預測未來。
下面,就將三家公司的情況一一掃描與分析。
一、網路:含著數據出生且擁有挖掘技術,研究和實用結合
搜索巨頭網路圍繞數據而生。它對網頁數據的爬取、網頁內容的組織和解析,通過語義分析對搜索需求的精準理解進而從海量數據中找准結果,以及精準的搜索引擎關鍵字廣告,實質上就是一個數據的獲取、組織、分析和挖掘的過程。
除了網頁外,網路還通過阿拉丁計劃吸收第三方數據,通過業務手段與葯監局等部門合作拿到封閉的數據。但是,盡管網路擁有核心技術和數據礦山,卻還沒有發揮出最大潛力。網路指數、網路統計等產品算是對數據挖掘的一些初級應用,與Google相比,網路在社交數據、實時數據的收集和由數據流通到數據挖掘轉換上有很大潛力,還有很多事情要做。
2月底在北京出差時,寫了一篇《搜索引擎的大數據時代》發在虎嗅。創造了零回復的記錄。盡管如此,仍然沒有打消我對搜索引擎在大數據時代深層次變革的思考。 搜索引擎在大數據時代面臨的挑戰有:更多的暗網數據;更多的WEB化但是沒有結構化的數據;更多的WEB化、結構化但是封閉的數據。這幾個挑戰使得數據正在遠離傳統搜索引擎。不過,搜索引擎在大數據上畢竟具備技術沉澱以及優勢。
接下來,網路會向企業提供更多的數據和數據服務。前期網路與寶潔、平安等公司合作,為其提供消費者行為分析和挖掘服務,通過數據結論指導企業推出產品,是一種典型的基於大數據的C2B模式。與此類似的還有Netflix的《紙牌屋》美劇,該劇的男主角凱文·史派西和導演大衛·芬奇都是通過對網路數據挖掘之後,根據受歡迎情況選中的。
網路還會利用大數據完成移動互聯網進化。核心攻關技術便是深度學習。基於大數據的機器學習將改善多媒體搜索效果和智能搜索,如語音搜索、視覺搜索和自然語言搜索。這將催生移動互聯網的革命性產品的出現。盡管網路已經出發,其在大數據上可做的事情還有很多。
在數據收集方面,網路需要聚合更多高價值的交易、社交和實時數據。例如加強自己貼吧知道的社交能力、盡快讓地圖服務與O2O結合進而掌握交易數據,以及推進移動App、穿戴式設備等數據收集系統。
在數據處理技術上,網路成立深度學習研究院加強自己在人工智慧領域的探索,在多媒體和中文自然語言處理領域已經有一些進展;雲存儲、雲計算的基礎設施建設也在逐步完善。但深度學習仍然是一個巨大的挑戰,網路等探索者還有很多待解問題,如:無監督式學習、立體圖像識別。
在數據變現方面,網路需將數據挖掘能力、數據內容聚合和提取等形成標准化的服務和產品,進而開拓大數據領域的企業和開發者市場。而不僅僅是頗為個性化、定製化地為大型企業提供解決。
網路的優勢體現在海量的數據、沉澱十多年的用戶行為數據、自然語言處理能力和深度學習領域的前沿研究。在技術人才方面網路是聚集國內最多大數據相關領域頂尖人才的公司。聽說網路前段時間花五千萬挖了數據挖掘、自然語言處理、深度學習領域的十來位大牛,包括一些學者和教授。例如Facebook科學家徐偉。
在挖人上,捨得花錢不夠,還得用心。對於真正的大牛來說,錢只是一個影響因素。能否實現自己的夢想,公司的資源能否幫助自己的研究至關重要。徐偉在回國前就曾問過其他從矽谷回國工程師的意見,得到答案是積極的,最終促成他作出決定。
總體來看,網路擁有大數據也具備大數據挖掘的能力,並且正在進行積極地准備和探索。在加強面向未來的研究和人才布局的同時,也注重實用性的技術產出。
二、騰訊:數據為產品所用,自產自銷
微創新提出者金錯刀有個關於騰訊的故事。 1999年騰訊公司剛剛成立不久,天使投資人劉曉松決定向其注資的一個主要原因就是因為他發現,「當時雖然他們的公司還很小,但已經有用戶運營的理念,後台對於用戶的每一個動作都有記錄和分析。」而另一個投資人卻因為馬化騰在公司很小時就花錢在數據上表示不滿。此後騰訊的產品生產及運營、騰訊游戲的崛起都離不開對數據的重視。
騰訊擁有社交大數據,在企鵝帝國完成數據的製造、流通、消費和挖掘。 騰訊大數據目前釋放價值更多是改進產品。據騰訊Q1財報,增值服務占總收入的78.7%;電子商務業務佔14.1%;網路廣告收入佔6.3%。從廣告收入比例可以看出騰訊的大數據在精準營銷領域暫時還未大量釋放出價值。與其產品線對應的GMAIL、Google+的Google以及社交巨頭Facebook則通過廣告賺得盆滿缽滿。
在筆者看來,騰訊的思路主要是補齊產品,注重QZONE、微信、電商等產品的後端數據打通。例如最近騰訊微博利用「大數據技術」實現好友關系自動分組、低質量信息自動過濾、優質信息分類閱讀等智能化功能。明顯的用數據改進產品的思路。 那麼如果騰訊要深入大數據挖掘缺少什麼呢?筆者認為其只需馬化騰「摁下啟動按鈕」。數據已經准備好了,就差模式,也就是找到需求或者能更深層次驅動大數據利用的產品,而不是用大數據改進自己的產品。騰訊還在觀望,等其他人去試錯驗證出一套模式或者產品後,自己可以「站在巨人肩上」。這是騰訊的典型思維。
在人才方面,騰訊很早便開始重金挖人。尤其是2010年在Google宣布退出中國後,Google圖片搜索創始人朱會燦、Google中國工程研究院副院長顏偉鵬、Google中日韓文搜索演算法的主要設計者,《浪潮之巔》及《數學之美》作者吳軍相繼加入騰訊。搜搜花了很多錢,但被認定為一款無法承載騰訊重託的產品,最後這些大牛都走了。大都回Google了。
騰訊在大數據領域也缺少技術帶頭人。其對公關也不重視。技術大牛很少出來做報告,更不會向網路、阿里那樣主動包裝宣傳技術大牛。其技術雖然低調,但執行力很強。據騰訊的程序員朋友說封閉開發、集體加班是常有的事情。但配套的重金激勵也能跟上。重金之下必有勇夫、騰訊用制度保障技術產出。另外騰訊在高校合作領先一步,在2010年便與清華大學合作成立了清華騰訊聯合實驗室。這么看騰訊的技術人才這塊似乎有短板。會不會到時候馬化騰按下啟動按鈕,發現沒數據挖掘能力呢?不會,騰訊搞不定數據挖掘,到時候依然可以挖到大牛,甚至讀論文來搞定這事兒。數據挖掘已較為成熟。數據挖掘實際是資料庫、統計學、機器學習三個領域的融合。在學術界已經發展多年。不過自然語言識別和深度學習等方面要趕上網路,就難了。除非將網路的數據和眾大牛一起倒騰過來。
總體來看,騰訊目前的大數據策略是先將產品補全,產品後台數據打通,形成穩定生態圈。本階段先利用大數據挖掘改進自己的產品。後期有成熟的模式合適的產品,則利用自家的社交及關系數據時,開展對大數據的進一步挖掘。
三、阿里巴巴:坐擁金數據,嘗試做面向未來的數據集市
阿里巴巴B2B出身,在外貿蓬勃的大環境下,依靠服務中小企業發家。淘寶、支付寶等toC的產品出生前,阿里並不依賴也不擅長技術。業界普遍認為阿里沒有技術基因。直到淘寶、支付寶以及天貓三個產品後,對海量用戶大並發量交易、海量貨架數據的管理、安全性等方面的嚴苛要求,阿里完成進化,在電商技術上取得不菲的成績。在一段時期阿里仍然浪費了手裡掌握的大量數據。這些數據還是「最值錢」的金數據。
數據挖掘無非是從原始數據提取價值。阿里現有的數據產品例如數據魔方、量詞統計、推薦系統、排行榜以及時光倒流相對來說是比較簡單的BI(商業智能),沒到大數據的階段。「大數據」浪潮襲來,阿里提出「數據、金融和平台」戰略。前所未有地重視起對數據的收集、挖掘和共享。馬雲在「退居」前動不動都對外提「數據」。有位阿里朋友甚至開玩笑說,馬雲英文名可以從Jack Ma改為Data Ma。阿里現CEO陸兆禧曾做過CDO,首席數據官。為了用數據來驅動阿里電商帝國,阿里還成立了橫跨各大事業部的「數據委員會」。
阿里的各項投資案也顯示其整合、利用和完善數據的野心:新浪微博的社交及媒體數據、高德的地圖數據和線下數據以及友盟的移動應用數據,都是其數據及平台戰略的一部分。數據戰略正在首席人工智慧官(CBO)車品覺領頭下逐步落地,王堅的雲為其提供基礎設施、基礎技術支撐。
就在馬雲退休之後,王堅對外透露其跟馬雲開玩笑說的一句話:阿里巴巴對數據的理解深度,不會超過蘇寧對電子商務的理解。估計馬雲不一定認同他這話。馬雲對大數據已經有著自己的理解和考量。馬雲曾經說過其對大數據的思考。大致意思是:現在從信息時代進入數據時代了。區別是信息時代更多的是精英玩的游戲。我比別人聰明,我能提取出信息出來;數據時代,別人比我聰明,將數據開放給更聰明的人處理,數據即資產,分析即服務。
計算機發展的過程是從象牙塔、到平民到草根。大數據也是這樣,一開始在象牙塔階段,少數精英公司才能玩;但到後面只要有數據就有價值。數據也有所有權,產生數據、流通數據、挖掘數據的都會獲得相應的價值。而阿里擅長的便是「建立市場」,建立一個數據交易市場。屆時任何個人和企業都可以將數據和挖掘服務拿上去,交易。初期阿里會將自己珍藏的電商和信用數據逐步放到上面。 有數據的人,拿上去賣,或者讓別人分析,分析即服務。沒有數據的人,即可以去買,也可以去幫別人挖掘,做礦工。
阿里並不是技術驅動,而是業務驅動的。因此在技術層面我們看到,基於前面提到的阿里大數據思路,其技術重心主要在系統層面。阿里擁有LVS(Linux Virtual Server,Linux虛擬伺服器)開源軟體創始人章文嵩,Linux Kernal、文件系統、大牛DBA等領域的大牛。從人才布局可以看到阿里擅長的技術領域,體現在對於並發訪問、電信級別的電商業務的支撐方面的得心應手。在去年雙十一期間,支撐了單日過億的訂單量。鐵道部奇葩網12306在日均40萬時已經不行了。
總體來看,阿里更多是在搭建數據的流通、收集和分享的底層架構。自己並不擅長似乎也不會著重來做數據挖掘的活兒。而是將自己擅長的「交易」生意擴展到數據。讓天下沒有難做的「數據生意」。
總結一下
移動互聯網浪潮下,現實世界正在加速數字化,每個人,每個物體、每件事情、每一個時間節點,都在向網上映射。空間和時間兩個維度的聯網,使得數字世界正在接近一步步模擬現實世界。歷史、現在和未來都會映射到網上。對大數據的挖掘正是對世界的二次發現和感知。BAT三巨頭已經出發。
③ 一場替換傳統資料庫的行動正在全球范圍悄然進行
隨著全球各大 科技 巨頭的競相加入,開源軟體技術已經活躍在各個信息技術領域當中。其中,大數據生態成為開源技術的直接受益者。開源技術適用於龐雜的數據管理系統,帶來敏捷、高效、可擴展以及可自控的管理能力,並幫助企業降低IT建設及維護成本。2018年雙11當天,阿里雲原生資料庫PolarDB輕松應對了0點0分0秒瞬時提升122倍的數據洪峰。Netflix也採用自研開源架構Metacat將海量數據集合成一個「單一」的數據倉庫,大幅提升管理能效。
當前,我國有越來越多的企業、人才加入到開源社區,貢獻力也「後來居上」,共同推進開源項目、開源生態的繁榮和可持續發展。
大數據生態成為開源技術重大「受益者」
近年來,在互聯網服務、多媒體以及科學研究等多個領域,都可見到大數據的身影。在大數據時代,不斷增長的數據量、快速處理數據的需求以及數據類型、結構和來源的多樣性給資料庫敏捷、高效、可擴展性以及個性化管理帶來了全新挑戰。
開源技術賦能了大數據生態的高質量發展。賽迪智庫信息化和軟體服務業所博士蒲松濤表示,經過了數十年的發展,開源軟體和開源工具已經應用到了大數據產業發展的各個環節,基於開源軟體,企業可以快速構建大數據應用平台,提供豐富的大數據開發和應用工具。
當前,幾乎各種規模的企業都在使用開源軟體和工具做大數據處理和基於數據的預測分析。開源界也涌現出了Hadoop、OpenStack、OpenShift、Maprece、docker等引領行業技術創新方向的重量級開源項目。
華泰人壽基於OpenShift架構打造易於管理的新IT系統,以提升企業競爭力,實現業務數字化轉型。在基礎設施上,引入紅帽OpenShift容器雲解決方案和紅帽Ceph分布式存儲。通過將保險業務上docker雲,實現華泰人壽業務的彈性伸縮和快速上線,加速其互聯網保險項目快速落地。
美國知名在線影片租賃提供商Netflix也採用了大數據發現服務的開源框架Metacat。由於Netflix的數據倉庫由許多大型的數據集組成,為了確保數據平台能夠基臘橫跨這些數據集成為一個「單一」的數據倉庫,Netflix開發的元數據服務Metacat,能讓數據的發生、發現、處理和管理變得更加快捷高效、處理搏逗滑精度大幅提升;同時還可兼容Spark、Presto、Pig和Hive架構。Netflix軟體架構師Ajoy Majumdar指出,開放開源是身為技術公司的競爭戰略,既能夠將自己的解決方案建立為行業標准和最佳實踐,又能建立Netflix的技術品牌,還能從共享生態中獲得反饋輸入並受益。
事實上,推動大數據應用高質量發展的主流開源平台還有很多,例如Spark、Shark、Bagel等。蒲松濤表示,這些開源平台大幅降低應用門檻,有效幫助企業實現工業級應用,進而帶動各行業大規模部署。此外,大數據還涌現出了一批開源支線平台。其中,Storm完全擺脫了經典的MapRece架構,重新設計了一個適用於流式計算的架構,以數據流為驅動觸發計算,計算時效性高,適應有向無環圖計算拓撲的設計,計算方式較為靈活,在業界得到了一定的部署應用。
開源社區供需「雙贏」中國力量已崛起
開源社區的建立為推動開源軟體發展、構建行業競爭優勢做出突出貢獻,隊伍的壯大需要每一位使用者持續不斷的貢獻智慧,以實現真正的「共贏」。開源的發展歷程中,極客、大公司、商業顛覆者輪番登場,開源技術的訴求也從商業驅動向生態驅動發展。中國工程院院士廖湘科指出,開源是軟體創新技術的主要來源,是生態抓手,而非贏利的切入點。
開源軟體的「共享和貢獻」機制吸引了眾多開發者的參與,給了每一位開發者「顛覆 游戲 規則」的權利。有了這種生態的加持,信息技術將被快速推進,各個參與者將持續獲利。對此,李飛飛表示,開源生態的受益者是開源技術的需求側和供給側雙方。從供給側角度來看,參與的人越多,思維碰撞而引發的迭代演進就會越快;從需求側角度來看,各個企業不僅可以免除被閉源系統「技術指攜綁定」,還可以在開源社區實現資料庫技術遷移,企業還可針對企業技術特徵進行資料庫的個性定製化,實現大量的應用和代碼的改造且系統間互相兼容。
中國開源軟體推進聯盟副 主席 兼秘書長劉澎在PostgreSQL .CN 2019上表示,當前國內越來越多的企業為開源做出重要貢獻,我國的開源實力已經崛起。以華為、阿里等為代表的開源軟體開發者已經逐漸與亞馬遜、微軟站到了同一高度,實現了從「使用者」到「引領者」的身份轉變。
目前,中國企業在Linux基金會中有1個白金會員(華為),1個金牌會員(阿里雲)和數十家銀牌會員(包括騰訊、中國移動、聯想等)。華為在多個開源社區貢獻排名前列。中國工程院院士倪光南認為,華為是開源軟體的優秀開發代表,通過引進、消化,實現創新發展,進而貢獻給整個開源社區。
阿里雲也成為 游戲 規則的重要改變者和全球雲資料庫領跑者之一。2018年,阿里雲資料庫成功進入Gartner資料庫魔力象限,這是該榜單首次出現中國公司。近日,Gartner發布的全球雲資料庫市場份額榜單中,阿里雲位居第三,超越了Oracle、IBM和谷歌。5月21日,阿里雲提供傳統資料庫一鍵遷移上雲能力,可以幫助企業將線下的MySQL、PostgreSQL和Oracle等資料庫輕松上雲,最快數小時內遷移完成。李飛飛表示,阿里雲自研的PolarDB雲原生資料庫的分布式存儲架構具有一寫多度、計算與存儲分離等優勢,幫助淘寶交易平台應對了雙11當天瞬時提升122倍的數據洪峰。
此外,國內還有包括網路、浪潮、瀚高等在內的眾多企業積極參與並貢獻到開源社區當中。人工智慧、自動駕駛等新興信息技術也成為開源項目的重要應用領域。
④ 如何看待阿里雲大數據專業認證,值得報名嗎
物聯網的正常運行和發展離不開大數據研究大數據絕對離不開計算機的雲計算技術計算機雲技術時代的到來將大數據處理變為了現實沒有計算機的雲計算技術,就不會有大數據的被分析和利用。大數據技術跟計算機雲計算技術的關系就像是一隻手的手心和手背,是絕對的密不可分,因為分析和處理大數據是無法用某一台計算機來完成的,它必須需要採用計算機的分布式架構,處理大數據的特色就是在於對那些海量性的數據進行分布老搜式的數據挖掘,但這種分布式的大數據挖掘,還必須依託計算機的分布式處理,因為計算機的分布式資料庫或是雲存儲以及計算機中的虛擬化技術,可以局早支撐起對大數據相關技術處理的能力。大桐含雀數據的分析必須要跟計算機的雲計算技術緊密連在一起,只有這樣,才能將大數據的價值變成資產性的價值,並將大數據處理真正變成一種現實。
⑤ 有哪些適合研究生階段參加的演算法/計算機比賽
適合研究生階段參加的演算法/計算機比賽有天池大數據競賽與全國人工智慧大賽。
天池大數據競賽
2015年3月23日,阿里雲計算宣布啟動新一賽季的天池大數據競賽。大賽將吸引全球新生代數據科學家,為預測手機黨購物喜好、余額寶資金流動、時尚穿衣搭配,提供更精準的數據分析模型。
大數據專家、阿里巴巴集團副總裁塗子沛介紹,比賽中勝出的優秀數據模型,不僅可用於參賽者的學術研究成果,還有機會走出實驗室,直接應用於淘寶、支付寶等真實的商業場景,影響中國乃至世界數以億計的用戶。
全國人工智慧大賽
全國人工智慧大賽(以下簡稱大賽)由深圳市人民政府主辦,深圳市科創委、鵬城實驗室及科技部指導成立的新一代人工智慧產業技術創新戰略聯盟(AITISA,以下簡稱「聯盟」)共同承辦。
人工智慧應用於4K/高清視頻處理是一個非常有前景的領域,而4K/高清視頻是5G時代的主流應用之一, 本屆大賽設置的「AI+4K HDR」賽道代表了科技和文化深度融合的未來方向。
⑥ 數據科學平台有哪些
1. kaggle
一個比較權威的全球性的數據競賽平台,也是一個很好的技術和數據分享社區。可以找到各個領域的比賽和數據,最重要的是可以找到很多有用的經驗貼和一個開源的代碼,可以幫助小白前進,小編做個幾個比賽,該平台對我的幫助很大,學到很多東西。該平台的比賽工作面試時認可度比較大。鏈接:https://www.kaggle.com
2.天池
天池是阿里雲創建的數據競賽平台,它和 Kaggle 很像。各個領域的比賽都有,賽制持續時間較長,會有一些直播教程和專業課程,比較利於新手入門。鏈接:https://tianchi.aliyun.com/competition/gameList/activeList
3.DataCastle
平台上多為企業的或者政府的比賽,包含數據演算法各個方向,數據量方面相對天池較少,參賽人數也次之。平台上也有類似kaggle的名人堂和和數據集,平台的社區活躍度不高。鏈接:https://www.dcjingsai.com/common/cmptIndex.html
4.Datafountain
DataFountain(DF)平台是CCF大數據與計算智能大賽指定的平台。CCF大數據與計算智能大賽(BigData & Computing Intelligence Contest,簡稱「BDCI」)是由中國計算機學會主辦的大數據及人工智慧領域演算法挑戰及應用創新大型賽事。鏈接:https://www.datafountain.cn
5.科賽-Kesci
科賽(Kesci.com)是聚合數據人才和行業問題的在線社區。平台2019年初開始轉型,接的比賽項目獎金較高,一些大型比賽會有一些培訓指南。鏈接:https://www.kesci.com
6.biendata
Biendata.com是一個人工智慧競賽學習平台,用戶可通過該平台報名並參加人工智慧領域各類賽事,獎金較豐富。鏈接:https://biendata.com
7.華為雲
華為雲平台的比賽多是基於華為的業務,有的是直接面向校招,比賽項目較多,包含軟體、AI、晶元等,獎金較多,有免費的gpu算力。鏈接:https://competition.huaweicloud.com/competitions
7.其它平台
網路點石:http://dianshi.bce..com/competition
JDATA:https://jdata.jd.com
京東大賽 : https://jdder.jd.com
騰訊廣告演算法大賽:https://algo.qq.com
愛奇藝ai競賽平台(多為視頻比賽) : http://challenge.ai.iqiyi.com
圖靈聯邦: https://www.turingtopia.com/competitionnew
訊飛開放平台:http://challenge.xfyun.cn
Flyai:https://www.flyai.com
螞蟻金服:https://dc.cloud.alipay.com
TinyMind: https://www.tinymind.cn/competitions/ai
拍拍貸:https://ai.ppdai.com
睡前Futurelab(只針對在校生):https://ai.futurelab.tv/contest/all
國外醫學圖像相關:https://grand-challenge.org/challenges
數睿思:http://www.tipdm.org/bdrace/jingsa
數願:http://www.datadreams.org/#/raceList
⑦ 大數據的應用領域有哪些
1.了解和定位客戶
這是大數據目前最廣為人知的應用領域。很多企業熱衷於社交媒體數據、瀏覽器日誌、文本挖掘等各類數據集,通過大數據技術創建預測模型,從而更全面地了解客戶以及他們的行為、喜好。
利用大數據,美國零售商Target公司甚至能推測出客戶何時會有Baby;電信公司可以更好地預測客戶流失;沃爾瑪可以更准確的預測產品銷售情況;汽車保險公司能更真實的了解客戶實際駕駛情況。
滑雪場利用大數據來追蹤和鎖定客戶。如果你是一名狂熱的滑雪者,想像一下,你會收到最喜歡的度假勝地的邀請;或者收到定製化服務的簡訊提醒;或者告知你最合適的滑行線路。。。。。。同時提供互動平台(網站、手機APP)記錄每天的數據——多少次滑坡,多少次翻越等等,在社交媒體上分享這些信息,與家人和朋友相互評比和競爭。
除此之外,政府競選活動也引入了大數據分析技術。一些人認為,奧巴馬在2012年總統大選中獲勝,歸功於他們團隊的大數據分析能力更加出眾。
2.了解和優化業務流程
大數據也越來越多地應用於優化業務流程,比如供應鏈或配送路徑優化。通過定位和識別系統來跟蹤貨物或運輸車輛,並根據實時交通路況數據優化運輸路線。
人力資源業務流程也在使用大數據進行優化。Sociometric Solutions公司通過在員工工牌里植入感測器,檢測其工作場所及社交活動——員工在哪些工作場所走動,與誰交談,甚至交流時的語氣如何。美國銀行在使用中發現呼叫中心表現最好的員工——他們制定了小組輪流休息制度,平均業績提高了23%。
如果在手機、鑰匙、眼鏡等隨身物品上粘貼RFID標簽,萬一不小心丟失就能迅速定位它們。假想一下未來可能創造出貼在任何東西上的智能標簽。它們能告訴你的不僅是物體在哪裡,還可以反饋溫度,濕度,運動狀態等等。這將打開一個全新的大數據時代,「大數據」領域尋求共性的信息和模式,那麼孕育其中的「小數據」著重關注單個產品。
3.提供個性化服務
大數據不僅適用於公司和政府,也適用於我們每個人,比如從智能手錶或智能手環等可穿戴設備採集的數據中獲益。Jawbone的智能手環可以分析人們的卡路里消耗、活動量和睡眠質量等。Jawbone公司已經能夠收集長達60年的睡眠數據,從中分析出一些獨到的見解反饋給每個用戶。從中受益的還有網路平台「尋找真愛」,大多數婚戀網站都使用大數據分析工具和演算法為用戶匹配最合適的對象。
4.改善醫療保健和公共衛生
大數據分析的能力可以在幾分鍾內解碼整個DNA序列,有助於我們找到新的治療方法,更好地理解和預測疾病模式。試想一下,當來自所有智能手錶等可穿戴設備的數據,都可以應用於數百萬人及其各種疾病時,未來的臨床試驗將不再局限於小樣本,而是包括所有人!
蘋果公司的一款健康APP ResearchKit有效將手機變成醫學研究設備。通過收集用戶的相關數據,可以追蹤你一天走了多少步,或者提示你化療後感覺如何,帕金森病進展如何等問題。研究人員希望這一過程變得更容易、更自動化,吸引更多的參與者,並提高數據的准確度。
大數據技術也開始用於監測早產兒和患病嬰兒的身體狀況。通過記錄和分析每個嬰兒的每一次心跳和呼吸模式,提前24小時預測出身體感染的症狀,從而及早干預,拯救那些脆弱的隨時可能生命危險的嬰兒。
更重要的是,大數據分析有助於我們監測和預測流行性或傳染性疾病的暴發時期,可以將醫療記錄的數據與有些社交媒體的數據結合起來分析。比如,谷歌基於搜索流量預測流感爆發,盡管該預測模型在2014年並未奏效——因為你搜索「流感症狀」並不意味著真正生病了,但是這種大數據分析的影響力越來越為人所知。
5.提高體育運動技能
如今大多數頂尖的體育賽事都採用了大數據分析技術。用於網球比賽的IBM SlamTracker工具,通過視頻分析跟蹤足球落點或者棒球比賽中每個球員的表現。許多優秀的運動隊也在訓練之外跟蹤運動員的營養和睡眠情況。NFL開發了專門的應用平台,幫助所有球隊根據球場上的草地狀況、天氣狀況、以及學習期間球員的個人表現做出最佳決策,以減少球員不必要的受傷。
還有一件非常酷的事情是智能瑜伽墊:嵌入在瑜伽墊中的感測器能對你的姿勢進行反饋,為你的練習打分,甚至指導你在家如何練習。
6.提升科學研究
大數據帶來的無限可能性正在改變科學研究。歐洲核子研究中心(CERN)在全球遍布了150個數據中心,有65,000個處理器,能同時分析30pb的數據量,這樣的計算能力影響著很多領域的科學研究。比如政府需要的人口普查數據、自然災害數據等,變的更容易獲取和分析,從而為我們的健康和社會發展創造更多的價值。
7.提升機械設備性能
大數據使機械設備更加智能化、自動化。例如,豐田普銳斯配備了攝像頭、全球定位系統以及強大的計算機和感測器,在無人干預的條件下實現自動駕駛。Xcel Energy在科羅拉多州啟動了「智能電網」的首批測試,在用戶家中安裝智能電表,然後登錄網站就可實時查看用電情況。「智能電網」還能夠預測使用情況,以便電力公司為未來的基礎設施需求進行規劃,並防止出現電力耗盡的情況。在愛爾蘭,雜貨連鎖店Tescos的倉庫員工佩戴專用臂帶,追蹤貨架上的商品分配,甚至預測一項任務的完成時間。
8.強化安全和執法能力
大數據在改善安全和執法方面得到了廣泛應用。美國國家安全局(NSA)利用大數據技術,檢測和防止網路攻擊(挫敗恐怖分子的陰謀)。警察運用大數據來抓捕罪犯,預測犯罪活動。信用卡公司使用大數據來檢測欺詐交易等等。
2014年2月,芝加哥警察局對大數據生成的「名單」——有可能犯罪的人員,進行通告和探訪,目的是提前預防犯罪。
9.改善城市和國家建設
大數據被用於改善我們城市和國家的方方面面。目前很多大城市致力於構建智慧交通。車輛、行人、道路基礎設施、公共服務場所都被整合在智慧交通網路中,以提升資源運用的效率,優化城市管理和服務。
加州長灘市正在使用智能水表實時檢測非法用水,幫助一些房主減少80%的用水量。洛杉磯利用磁性道路感測器和交通攝像頭的數據來控制交通燈信號,從而優化城市的交通流量。據統計目前已經控制了全市4500個交通燈,將交通擁堵狀況減少了約16%。
10.金融交易
大數據在金融交易領域應用也比較廣泛。大多數股票交易都是通過一定的演算法模型進行決策的,如今這些演算法的輸入會考慮來自社交媒體、新聞網路的數據,以便更全面的做出買賣決策。同時根據客戶的需求和願望,這些演算法模型也會隨著市場的變化而變化。
⑧ 雲計算智能化演進,巨頭們的思與行
「過去我們常常把雲計算、大數據掛在嘴邊,現在來看應該是雲數據、大計算」,在5月的雲棲大會成都峰會上,阿里雲資深總監肖力在《通往智能之路》的演講中如是說。
肖力的觀點不難理解,數據的價值不在於「大」,重要的是在線,只有打破數據孤島,讓數據發生更多的匯聚,更多的交換,更多的更新和挖掘,才能產生更大的價值。同時,這一觀念背後也揭示了一個趨勢:雲計算巨頭們開始將「智能」納入了戰略框架,或是「智能」為雲計算帶來的紅利。
雲計算如何把智能變成一種普惠科技?
正如前面所說,阿里雲已經開始了一場智能化演進,並成為今年雲棲大會各個峰會的主題,背後所承載的是阿里雲的一系列實踐。
今年3月份,阿里雲正式發布了機器學習平台PAI2.0,將人工智慧技術引入雲計算。不同於其他巨頭的智能雲計算大多停留在「思」的層面,阿里雲的ET已經開始遍地開花,諸如ET醫療大腦、ET工業大腦、城市大腦等等,並將大數據、人工智慧等技術應用於安全智能化。
值得一提的是阿里雲還在在各地積極舉辦天池AI大賽,鼓勵開發者利用雲計算和人工智慧去解決更多的實際問題。
當然,如果只是阿里雲的單方面突圍,並以此來判定雲計算的發展趨勢,不免有些武斷。事實上,包括亞馬遜、微軟、谷歌等在內的雲計算巨頭們,在雲計算的智能化演進上做出了和阿里雲相似的選擇。
不久前結束的Google Cloud Next』17大會上,一個積極的信號就是在雲計算領域步伐稍顯緩慢的谷歌試圖開啟智能雲計算的新時代,比如推出了全新的機器學習KPI,全球最大的機器學習及數據科學競賽平台Kaggle被谷歌收入囊中,以及為迪士尼、Verizon、SAP等重磅客戶提供了更智能的雲端解決方案。
無獨有偶,2015年中旬的時候,微軟就低調地把Azure的定位修正為智能雲,盡管彼時的「智能雲」還停留在概念階段。在剛剛落幕的Build2017開發者大會上,微軟公布了雲計算在智能化方面的新舉措,包括將雲計算的智能擴展到物聯網邊緣設備的Azure IoT Edge,全新開發的資料庫服務Azure Cosmos DB等等。
亞馬遜作為目前最大的雲計算服務商,在智能化方面表現出了前所未有的「敏感」。在去年年底舉辦的AWS re:invent大會上,AWS正式推出了自己的AI產品線,包括圖像識別工具Rekognition,文本轉語音服務Amazon Polly,以及亞馬遜人工智慧助手Alexa的內核Lex。
原因似乎不難理解,雲計算早已不再是計算能力的單維競爭,「更聰明的雲服務」才能製造更大的價值。
站在開發者的角度來看,雲服務的趨勢是讓一切變得更加「簡單」。而計算能力是一種基礎資源,如何將計算能力變成服務是雲服務平台們需要思索的,特別是人工智慧技術逐步落地之後,更加聰明的雲服務也日漸成為一種新需求。
安全智能化的趨勢和行業變革
在雲計算的業務矩陣中,安全無疑是決定客戶「用腳投票」的誘因之一。市場研究機構Market Research Future的報告顯示,全球雲安全市場在2022年達130億美元,復合年均增長達17%。另一家研究機構Gartner也給出了類似的觀點,認為安全性將在2018年的時候取代成本和敏捷性成為政府部門採用雲服務的首要原因。在這個背景下,安全智能化已經成為巨頭們發力的對象。
從巨頭們的動作上來看,微軟的Azure Security Center發布了多項威脅檢測能力,同時Office365也提供了智能威脅感知和高級數據治理功能;谷歌在雲安全策略上同樣表現出了與時俱進的態度,在布局上從傳統的雲安全平台延伸到安全晶元領域。
然而在安全領域走的最遠的,恐怕非阿里雲莫屬。
肖力在雲棲大會成都峰會上做了一個大膽的預測:未來,安全將邁入機器學習和人工智慧時代。阿里雲每天幫助國內37%的網站成功抵禦16億次攻擊、防禦2000次DDoS攻擊、2億次暴力破解,以及300萬次Web攻擊防禦。這個成績與人工智慧和大數據的應用不無關系。
且從阿里雲及同行者的安全服務上可以洞見出兩個趨勢:
其一,大數據和深度學習正在逐漸被應用在安全服務中,提升安全管理的效能。
今年年初的RSA 2017上,全球安全專家們的觀點預示了雲安全的三大趨勢,即安全防禦技術走向智能化、人工智慧和機器學習等技術的產品化、從IT驅動安全轉向業務驅動安全。
在筆者看來,「機器學習」和「人工智慧」並不是戰無不勝的武器,這是很多主打「智能「的安全初創企業一個誤區。
阿里雲的做法是:從演算法改良做起,用「人工智慧」和「機器學習」去優化產品的現有功能。例如阿里雲雲盾的安全大數據分析平台「態勢感知」,基於演算法和模型進行威脅分析和風險評判,顛覆了以往基於規則的安全檢測。
又比如游戲行業的風控模式「游戲盾」,作為阿里雲雲盾在游戲行業安全風控的新模式,技術基礎同樣是智能調度演算法。與傳統單點防禦的DDoS防禦方案相比,「游戲盾」用數據和演算法來實現智能調度,將「正常玩家」流量和「黑客攻擊」流量快速分流至不同的節點,最大限度的緩解了大流量攻擊。
其二,人工智慧正在逐步減少對安全分析師的依賴。
人工智慧取代人力業已成為整個互聯網行業爭論的焦點,麥肯錫也曾大篇幅預測過哪些職位將被機器淘汰。在安全領域,肖力提出了「智能防禦」的概念,用大數據分析與演算法優化安全防護能力,意味著「用更少的人,做更多的事。」雲安全已然成為人工智慧技術落地的先行者之一。
事實上,在早些時候的RSA 2017上,肖力就曾對「數據智能」的必然做出過解釋:一家企業的訪問量達到數億,如果靠人工來判斷每一個請求是否安全,顯然不可能做到。以前大部分人的方法是使用「規則」,把經驗寫成規則來「過濾」非法請求。但是,隨著攻擊者的「玩法」越來越高級,傳統的過濾方法可以被輕易繞過,安全研究員們必須找到一種「新的」「自動化」的方法來發現風險和攻擊者。
按照國外已有的先例,知名的數據智能公司Splunk將用戶的各方面數據統一導入大數據平台,製造出可以分析威脅的引擎,已經成為了行業的最佳實踐模型包。在RSA「創新沙盒」大賽上,拔得頭籌的UnifyID核心仍是把來自IoT設備的海量數居上傳到雲端,通過機器學習的方法判定:哪些設備是可信的,從而識別設備背後的人的身份,保護系統、數據安全。不一而足。
總的來說,在雲計算巨頭們的努力下,人工智慧將變成門檻更低的普惠科技,且這個趨勢將滲透到雲服務的方方面面,諸如在安全等領域已經可以感知到智能帶來的能效提升及人力資源的重新分配。
阿里雲、AWS等巨頭們已經在行動和思維上擁抱智能化,相信雲計算的智能化時代即將來臨。