1. 推動大數據高速發展和數據交易的時間
大數據概念最早的提出者現已不可考,但早在1980年,未來學家托夫勒在其所著的《第三次浪潮》中就提到「大數據」一詞。
2001年麥塔集團分析員道格·萊尼指出數據增長的挑戰和機遇有三個方向:量(Volume,數據大小)、速(Velocity,資料輸入輸出的速度)與多變(Variety,多樣性),現在這被認為是大數據的三個特性。
2011年麥肯錫正式定義了大數據的概念。
2012年《紐約時報》的一篇專欄中寫到,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。大數據開始跟時代掛鉤,在當時人們並不以為然,甚至許多人認為這不過是商學院或咨詢公司嘩眾取寵罷了。現在「大數據時代」已經變成了人盡皆知的口頭禪。
2012年維克托·邁爾·舍恩伯的《大數據時代》開始在國內風靡,推動了國內大數據的發展,許多人大數據的啟蒙也是來源於這本書。
2010後雲計算的成熟讓大數據不再是紙上談兵,大數據技術有了真正實現的可能性。
我從三個方面梳理了下大數據發展的時間線:政府推動、大數據技術、大數據價值。
政府推動:
2009——美國政府開放政府數據,這一行動使得從肯亞到英國范圍內的各國政府相繼效仿。
2010——德國聯邦政府啟動「數字德國2015」戰略,將物聯網引入製造業,打造智能工廠,工廠通過CPS(網路物理系統)實現在全球互聯。
2011——工信部把信息處理技術作為四項關鍵技術創新工程之一,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析等大數據重要組成部分。
2012——美國政府在白宮網站發布《大數據研究和發展倡議》,這一倡議標志著大數據已經成為重要的時代特徵。之後美國政府宣布2億美元投資大數據領域,大數據技術從商業行為上升到國家科技戰略。
聯合國在紐約發布大數據政務白皮書,總結了各國政府如何利用大數據更好地服務和保護人民。
2013——英國政府宣布注資6億英鎊發展8類高新技術,其中,1.89億英鎊用來發展大數據技術。
歐盟實施開放數據戰略,旨在開放歐盟公共管理部門的所有信息。
2014——數據開放運動已覆蓋全球44個國家。國務院通過《企業信息公示暫行條例(草案)》,要求在企業部門間建立互聯共享信息平台,運用大數據等手段提升監管水平。
2015——五中全會的「十三五」規劃中將大數據作為國家級戰略。
2. Tiger:我眼中的大數據-新生大學分享(1)
【作者按:本文為2016/10/15晚在新生大學社群的公開分享,旨在和大家探討個人對大數據的一點淺見。雖然專業知識和寫作水平有限,但哪怕能幫到一個人亦會欣慰,同時也期待能得到更多反饋。】
** 1. 認知誤區**
在日常生活和工作中,我發現很多人對大數據的理解存在如下兩個誤區 :
現在很多人,言必稱大數據。可是,大數據這個說法本身非常模糊,不知道他們在說大數據時具體指什麼。這讓我想起許多年前在國內流行的另外一個概念:納米,我相信你一定很耳熟。那會兒,隨便逛個商場或者看個電視,你都會發現鋪天蓋地的打著納米旗號的廣告襲來:什麼「納米冰箱」,「納米空調」,「納米彩電」。。。 就好像納米是能治百病的靈丹妙葯,任何東西只要貼上「納米」的標簽就好使了,就升值了,就高大上了。
今天,很多人對待大數據的態度和納米一樣,人雲亦雲,自我忽悠,然後互相忽悠。
當你問很多言必稱大數據的人:大數據到底是什麼?不知道大數據是什麼?大數據是怎麼用的?大數據到底對你的生活帶來了哪些收益和影響呢?80%的人都會一臉懵逼,他們根本說不出所以然。當然,我不是說每個人都這樣,但這樣的人的確不少。
個人以為,實事求是的態度很有必要,理應推崇。
知之為知之,不知就知乎之。
不知道沒關系,但如果硬是為了虛榮心去說大數據,為賦新詞強說愁,這樣的態度沒有益處。
如果你真的覺得大數據這個東西非常好,既有趣也有用,那我們就捲起袖口,去搞懂細節,搞懂它的前世今生,乃至它未來的發展趨勢。這樣的態度既接地氣,更能增加個人價值。
2. 數據分析
在和大家探討真正的「大數據」之前,我們先聊聊數據分析。
數據分析實際上已經存在很久了,它根本不是什麼新東西。
它不是什麼新事物,也並不神秘,一點都不!
你會用Excel罷?Excel就是用來做數據分析的,千萬不要小看它。而數據分析比Excel的歷史還要早的多。
數據分析大致可分成四個層面:
首先,獲得數據;
其次,從數據中提取信息;
再次,從信息中提煉出知識;
最後,通過知識發掘智慧。
總結下來就是:Data(數據)->Information(信息)->Knowledge(知識)->Wisdom(智慧)。
從另外一個角度來看,數據分析是技術和藝術的混合體:
3. 大數據的通用特徵
大數據目前沒有一個通用的定義,個人理解的大數據具備如下幾個特徵:
4. 大數據的用途
那麼,大數據有什麼用呢?其實有很多著名的例子,如Alphago幹掉了韓國殿堂級棋手李世石,當然,這樣的例子已經爛大街了。
從我個人而言,我會分享一個亞馬遜的例子。我是亞馬遜的資深用戶,用了八年多了,所以它有我很多的消費行為數據,它知道我的購物的愛好、特徵和規律。這里有一個截圖:
當我登錄亞馬遜賬戶之後,它的推薦頁面就是上面這樣。這個頁面上展示的商品就是它根據我之前買過的一些商品,通過推薦演算法猜測我喜歡什麼種類的商品,還會買什麼商品。總之就是通過已買商品的各個特徵去給你做推薦。
另外,大數據還可以用來找男女朋友。這里也有一個真實的故事:大概在前幾年,美國的加州大學洛杉磯分校(UCLA)有個數學系的博士生,大齡單身宅男,就為找女朋友的事情發愁。但他是個極客,就想辦法寫了一個程序(爬蟲),爬蟲裡面設定了許多符合他個人喜好的規則,然後用這個爬蟲到一些婚戀網站上去爬取目標對象。這樣就找到一些符合他喜好的目標對象,同時,在這個過程中自然排除掉了很多不符合他設定參數的目標。通過和篩選後的目標對象約會,最後他果然找到一個非常合適的女朋友,然後快樂地在一起。
大數據的應用實例還有很多,曾經在2012年在紐約時報上登過一篇報道叫《大公司如何竊取你的秘密?》,文中一個例子就是關於Target超市的大數據應用(美國一家超大規模的連鎖超市)。報道稱Target給明尼蘇達州一戶人家的女兒寄嬰兒用品的優惠券,但是這個女孩還是高中生。他爸爸看到優惠券後非常震怒,認為有誘導未成年人懷孕的嫌疑,就去找當地超市理論。當時超市的經理比較誠懇,一臉懵逼地給顧客道歉。後來,這個父親卻主動打電話給超市過來道歉,說回家和女兒交流後發現她真的懷孕了。
劇情180度大反轉!
這到底是怎麼回事?原來,是Target超市的數據部門開發的懷孕預測模型,根據演算法結合購物記錄發現這個女孩極有可能懷孕。所以,在得到這樣一個判斷後,他們的營銷部門就給這樣的潛在的目標客戶精準推送母嬰商品的優惠券。這事聽起來還是蠻可怕的,大數據雖然沒見過你,但它可能對你了如指掌,知道你是什麼樣的人,家住哪,收入什麼水平,開什麼樣的車,穿什麼衣服,抽什麼煙等等。
大數據甚至還可以做輿情監督和民意調查。比如說,微信在2016年就做了一個大數據分析,推測全國人民的心情,最後的結論是,每逢節日大家的心情就特別好,其中中秋和春節的心情格外好;年輕人相對更多愁善感,老年人反而更樂觀開朗陽光,很有意思。
根據上面的例子,我們對大數據的用途做一個抽象和總結。以上的例子告訴我們,大數據可以用來 從已知到未知 ,就是說根據手上掌握的一些已知的信息可以推測出未知的規律和趨勢,就像亞馬遜猜我喜歡購買的商品,或者像Target推測高中生已經懷孕了,或者像UCLA博士生通過寫程序找到女朋友。這些都是從已知到未知的推理。
大數據另外一個用途,就是可以 糾正錯覺 或錯誤認知。因為,真實的原始數據是不會撒謊的,這裡麵包含了許多信息,甚至一些潛在的反常識的東西。就以我曾經做過的一個分析 《頂級風投的宿命》 為例。因為之前有過創業經歷,個人會對投融資比較敏感。而當時創投界有所謂的風口論,比如O2O、生鮮電商等,這些方向的互聯網公司特別容易拿到融資。那我在做完相關的數據分析之後發現:
真正一流的投資機構從不會賭所謂的風口,他們會堅持去投資一些商業本質更清晰的的公司和業務模式,像電子商務、對企業的服務、文化娛樂等方向。
而這個認識是在我做數據分析之前完全不知道的,可以說顛覆了我此前的認知。進一步,我之前對風口論的認知就是錯覺,而這個錯覺就被數據分析很好地推翻了。所以,我認為大數據的第二個功能就是糾正錯覺。
大數據分析確實有些必備的知識集合,這里有幅來自IBM研究院的圖,闡明了數據科學的必備知識領域。
3. 為什麼有那麼多人進行大數據培訓
國家鼓勵發展大數據,現在大數據應用的也廣泛,總結來說就是前景好,薪資高唄