『壹』 大數據時代紅華新天地引領商業模式轉型
大數據時代紅華新天地引領商業模式轉型
曾經,提起城市名片,貴陽人首先想到的就是「森林之城、避暑之都」。這源自於幾代人努力綠化的成果。而今,互聯網經濟熱潮席捲全球,地處祖國腹地的貴陽也迎來了自己的涅盤時刻,以《貴州省雲計算產業發展規劃》出台為起點,以李克強總理視察貴陽大數據應用展示中心做出重要指示為契機,貴州省成立了省委書記、省長陳敏爾領銜的大數據產業發展工作領導小組,全力發展大數據產業。彼時,「貴陽數博會」盛大啟幕,吸引了經濟與產業界人的士紛繁踏至,據不完全統計,一年多來,貴陽共引進大數據相關項目知此150餘個,投資總額達1402億元,產業整體規模突破605億元。如今,緊握「大數據」城市名片,圍繞「機遇、安全、能源、氣候、人才」五大優勢,打造全產業鏈的大數據產業生態環境,促進大數據產業加快發展,已經成為貴陽各界的一致共識。而具有十五年互聯網大數據應用經驗的貴州紅華集團,自然成為了這個波瀾壯闊的大時代里,罕有的貴陽本土派領軍人物。
【20年深耕本土 引領貴陽大數據經濟】
貴州紅華集團始建於1993年,最初主要從事家電連鎖銷售,最先開創了貴州省綜合性家電商場,並藉助獨創的「三流合一」(資金流、信息流、物流)商業模式和「買的容易,賣的簡單」的經營理念,成功走出貴州,輻射西南,並連續數年成為全國銷售額前十的區域連鎖品牌。經過十餘年經營,紅華物流、紅華便利店、紅華房開、黔電趨勢、紅華科技、紅華物業等多元產業相繼崛起,紅華成為集團性公司。早在2000年,紅華就率先試水了網上家電購銷的模式,啟動數字化商務平台,成為中國大陸地區最早的電商平台。肩負企業數據集成與分析系統的紅華科技公司、 紅華網路公司呼叫中心等也相繼成立。十五年彈指一揮間,隨著社會經濟的快速發展,城市綜合體、互聯網+、大數據、電子商務、020等新型概念開始對傳統業態發起強有力沖擊,已經在商業模式和經營管理上成功實現大數據化雛形的紅華集團,果斷開啟了整體戰略轉型的計劃。
2014年,紅華集團與貴陽市政府聯合打造的百萬方大型商業互聯體——紅華新天地正式運營,開啟展貿電商雙引擎O2O模式,這是一個充滿商機的「大數據全渠道平台」,以「雙城一網」為基本結構,實現全業態、全渠道、全時空商業功能的互聯體商圈。其中,搭派迅雙城分別代表紅華實體商城和紅華虛擬電商平台,一網為紅華地面終端網路。開業伊始,紅華新天地就啟動了一系列引發行業震動的大數據產業鏈競合:與中國聯通合作,打造首席智慧商城;攜手富基融通,打造大數據全渠道電商平台;同時進一步整合資源,建立服務團隊,實現覆蓋貴州的終端服務網路。雙城協同,由一網渠道引導海量物流、客流進入,紅華形成了聚合 「紅華網上商城+紅華實體商城+遍布貴州終端+紅華物流體系」優質資源的商戶、消費者、平台三方共贏全業態商圈。
得益於紅華新天地釋放出的價值魅力,同年12月,被貴陽市政府列為大數據產業發展的重點項目「中關村貴陽科技園觀山湖大數據科技產業園」正式落戶紅華新天地,「雙城一網」基礎上,再度賦予紅華新天地「政府數據共享平台、區域互聯網交換中心、貴州CA認證中心、大數據眾籌工場」等大數據特徵的新內涵,紅華自身也提供了40萬方物業,以發展雲計算、數據中心、呼叫中心等大數據相關產業。
【坐擁中心之中 孕育互聯網時代繁華】
事實上,誕生20多年來,紅華一直在為一個商業夢想努力——整合資源,搭建平台。最終這個夢想從雲端之上的虛擬電商網路,到地處貴陽中心之中,「新貴陽大十字」黃金地段的實體商業綜合體,化作現實。四通八達的交通路網、依山傍水的生態設計、匯聚40萬高端居住人群和300萬會展商務人羨早群的貴陽最大消費性商圈,成為其孕育互聯網時代商業繁華的動力源泉。紅華能夠為大數據創業、工作人群提供的,將遠不止一站式購物的便利生活。
以上是小編為大家分享的關於大數據時代紅華新天地引領商業模式轉型的相關內容,更多信息可以關注環球青藤分享更多干貨
『貳』 3000字概括《大數據時代》
有言在先
近期有些起伏,這種情況最適合回歸書本,尋找一些你內心認同的東西。這幾天花了點時間重溫《大數據時代》,整理、總結出了精華的東西,分享給大家。
大數據引起了變革
當今社會所獨有的一種新型能力:以一種前所未有的方式,通過對海量數據進行分析,獲得巨大價值的產品和服務,或深刻的洞見。
? 震人心魄的數據
2003年,人類第一次破譯人體基因密碼的時候,辛苦工作10年才完成了三十億對鹼基對的排序;大約10年後,世界范圍內的基因儀每15分鍾就可以完成同樣的工作。在金融領域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是郵件里在數學模型和演算法之上的計算機程序自動完成的。
在2007年,所有數據中只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數據,其餘全部是數字數據;在2000年時,數字存儲信息仍只佔全球數據量的四分之一;當時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。
? 大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
? 大數據的核心是預測
大數據的核心就是預測,它通常被視為人工智慧的一部分,或者更確切地說,被視為一種機器學習。大數據不是要教機器人像人一樣思考,而是把數學演算法運用到海量的數據上來預測事情發生的可能性。
●●●
不是隨機樣本,而是全體數據
歷史上,因為記錄、儲存、分析數據的工具都不夠好,為了讓分析變得簡單,我們選擇了把數據量減少,
統計學的一個目的就是用盡可能少的數據來證實盡可能重大的發現。
? 傳統抽樣的精確性
采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數量的增加關系不大,大致原因是當樣本數量達到某個值後,我們從新個體身上得到的信息會越來越少,這與經濟學中的邊際效應類似。
? 隨機采樣的問題
隨機采樣有一個很大的問題:人們只能從隨機采樣中得出事先設計好的問題的結果,調查得出的數據不可以重新分析以實現計劃之外的目的,而且一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。
? 樣本=總體
采樣的目的就是用最少的數據得到最多的信息,當我們可以獲得海量數據的時候,它就沒有什麼意義了;生活中真正有趣的事情經常藏匿在細節之中,而采樣分析卻無法捕捉到這些細節(因為采樣不能得到計劃之外的東西);大數據建立在掌握所有數據,至少是盡可能多的數據的基礎上,所以我們就可以正確地考察細節並進行新的分析。
●●●
不是精確性,而是混雜性
執迷於精確性是信息缺乏時代和模擬時代的產物,只有5%的數據是結構化且能適用於傳統資料庫的,如果不能接受混亂,剩下的95%的非結構化數據都無法被利用。
? 小數據時代的精確性
在「小數據時代」,人們收集、處理數據的能力有限,對「小數據」而言,最基本、最重要的要求就是減少錯誤,保證質量(收集信息的有限意味著細微錯誤會被放大,甚至有可能影響整個結果的准確性)。人們創造了很多精確的系統,這些系統試圖讓我們接受一個世界睏乏而規整的慘象——假裝世間萬物都是整齊地排列的;事實上現實是紛繁復雜的,天地間存在的事物也遠遠多於系統所設想的。
? 我們要的是概率
我們總是為了一個「答案」而活著,精確性似乎一直是我們生活的支撐,但認為每個問題只有一個答案的想法是站不住腳的。「一個唯一的真理「的存在是不可能的,而且追求這個唯一的真理是對注意力的分散。大數據也許是拯救我們的關鍵方法:大數據通常用概率說話,而不是板著「准確無疑」的面孔。
●●●
不是因果關系,而是相關關系
在大數據時代,我們不必知道現象背後的原因,而是要讓數據自己「發聲」。我們不再一味追求人們為什麼這么做,知道人們為什麼這么做可能是有用的,但這個問題目前並不是很重要,重要的是我們能通過大數據分析出人們的相關行為。
? 相關關系
相關關系的核心是量化兩個數據值之間的數理關系:相關關系強是指當一個數據值增加時,另一個數據值很有可能也會隨之增加;相關關系弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。相關關系通過識別有用的關聯物來幫助我們分析一個現象,而不是通過揭示其內部的運作機制。相關關系沒有絕對,只有可能性。
? 人們的直接目的就是尋找因果關系
人們的直接願望就是了解因果關系,我們已經習慣了信息的匱乏,故此亦習慣了在少量數據的基礎上進行推理思考。以前我們用實驗來證明因果關系,它是通過是否有誘因來分別觀察所產生的結果是不是和真實情況相符。但是,凡事皆有因果的話,那麼我們就沒有決定任何事的自由了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果,而這個結果又是由其他原因導致的,以此循環往復,那麼就不存在人的自由意志這一說了——所有的生命軌跡都只是受到因果關系的控制了——這顯然是不正確的。
? 相關關系和因果關系並不矛盾
相關關系分析本身意義重大,同時它也為研究因果關系奠定了基礎,通過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關系分析,如果存在因果關系的話,我們再進一步找出原因。在大多數情況下,一旦我們完成了對大數據的相關關系分析,而又不再滿足於僅僅知道「是什麼」時,我們就會繼續向更深層次研究因果關系,找出背後的「為什麼」。在小數據時代,我們會假象世界是怎麼運作的,然後通過收集和分析數據來驗證這種假象;在大數據時代,我們會在數據的指導下探索世界,不再受限於各種假想;我們的研究始於數據,也因為數據我們發現了以前不曾發現的聯系。
A.大量的數據意味著「理論的終結」:用一系列的因果關系來驗證各種猜測的傳統研究範式已經不實用了,如今它已經被無需理論指導的相關關系研究所取代;
B.現在已經是一個有海量數據的時代,應用數學已經取代了其他的所有學科工具,而且只要數據足夠,就能說明問題,如果你有一拍位元組的數據,只要掌握了這些數據之間的相關關系,一切就迎刃而解了;
C.「理論的終結」:所有的普遍規則都不重要了,重要的是數據分析,它可以揭示一切問題;但大數據並不意味著理論已死,因為大數據就是在理論的基礎上形成的。
●●●
大數據時代的商業變革
在一個可能性和相關性佔主導地位的世界裡,專業性變得不那麼重要了;行業並不會消失,但是他們必須與數據表達的信息進行博弈。
? 數據化:一切皆可量化
大數據的核心發展動力來源於人類測量、記錄和分析世界的渴望。為了得到可量化的信息,我們要知道如何計量;為了數據化量化了的信息,我們要知道怎麼記錄計量的結果。如今我們經常把「數字化」和「數據化」這兩個概念搞混,但是對這兩個概念的區分實際上非常重要:
A.數據化:一種把現象轉變為可製表分析的量化形式的過程;
B.數字化:把模擬數據轉換成0和1表示的二進制碼;
數字化帶來了數據化,但是數字化無法取代數據化;數字化是把模擬數據變成計算機課讀的數據,和數據化有著本質的不同。
? 當方位變成了數據
1978年見證了一個偉大的轉變,當時構成全球定位系統(GPS)的24顆衛星第一次發射成功,通過與技術手段的融合,全球定位系統能夠快速、相對低價地進行地理定位,而且不需要任何專業知識。地理位置信息匯集起來,可能會揭示事情的發展趨勢;位置信息一旦被數據化,新的用途就猶如雨後春筍般涌現出來,而新價值也會隨之不斷催生。
? 當溝通變成數據
社交網路平台不僅給我們提供了尋找和維持朋友、同事關系的場所,也將我們日常生活的無形元素提取出來,再轉化為可作新用途的數據。數據化不僅能將態度和情緒轉變為一種可分析的形式,也可能轉化人類的行為,這些行為難以跟蹤,特別是在廣大的社區和其中的子人群環境中。
A.Facebook將關系數據化——社交關系在過去一直被視作信息而存在,但從未被正式界定為數據,直到Facebook「社交圖譜」的出現;
B.Twitter通過創新,讓人們能輕易記錄以及分享他們零散的想法,從而使情緒數據化得以實現。
? 「取之不盡,用之不竭「的數據創新
盡管數據長期以來一直是有價值的,但通常只是被視作附屬企業經營核心業務的一部分,或者被歸入知識產權或個人信息中相對狹窄的類別,但在大數據時代,所有數據都是有價值的。我們的時代,數據收集不再存在固有的局限性,由於存儲成本的大幅下降,保存數據比丟棄數據更加容易,這使得以較低成本獲得更多數據的可能性比以往任何時候都大。不同於物質性的東西,數據的價值不會隨著它的使用而減少,而是可以不斷地被處理,信息不會像其他物質產品一樣隨著使用而有所損耗。數據的價值並不僅限於特定的用途,它可以為了同一目的而被多次使用,也可用於其他目的。 作者 _Glen_ 本文轉自簡書,轉載需授權
『叄』 拓荒衛星新基建,這家公司為何押注「天地一體」的網路融合
時空道宇低軌導航增強首發雙星
全球商業航天領域迎來加速期。
美東時間12月19日早9點,在布滿烏雲的肯尼迪航天發射場上,美國太空 探索 技術公司(SpaceX)利用「獵鷹9號」商業運載火箭,順利將NROL-108有效載荷發射升空,並成功入軌。
更早之前,該公司成功執行了Crew-1商業載人航天任務,利用獵鷹9號火箭將四名宇航員送入太空中,從而揭開了商業載人航天的帷幕,成為商業公司 探索 載人航天方向的重要實踐。
不僅如此,SpaceX還正加速發射進程。據不完全統計,2020年SpaceX共執行了26次發射任務,將854個航天器送入軌道,打破了之前在2018年創下的21次發射歷年記錄。
與此同時,中國加速推進民營航天領域的商業化、產業化的國策已經開始落地,並逐步形成產業集群。SpaceX的中國學徒們,正在競爭之下尋找差異化的發展之路。
隨著今年4月國家發改委明確將衛星互聯網納入「新基建」,資本加大對商業航天賽道的投資力度。公開數據顯示,2020年中國商業航天領域新融資總額已達40億元,比2019年的22.35億元增長78.9%。
即便是新冠疫情帶來的不確定性,也未能中斷商業航天的迅猛發展。5月以來,上海、北京、福州、重慶、成都、深圳等城市相繼提出涉及衛星互聯網的行動方案,計劃構建覆蓋火箭、衛星、地面終端、應用服務的商業航天產業生態。
「在政策引導、政府支持下,中國商業航天迎來了新的發展時代,井噴狀態仍將持續。」時空道宇創始人王洋在接受鈦媒體采訪時表示,雖然目前商業衛星行業還屬於投入初期,但該領域市場潛力巨大,包括星基導航、無人駕駛等重要場景下,商業衛星將會發揮更重要的作用。
「在網路技術、 星座 測控、網路運營等方面,中國有著豐富的技術經驗。」
公開數據顯示,到2025年前,全球衛星互聯網產值可達5600億美元至8500億美元。在中國,商業航天市場規模總體呈逐年增長態勢。2019年中國商業航天市場規模為8362.3億元,同比增長23.5%。
截止目前,中國超160家的商業航天企業,涵蓋產業鏈上游的衛星、火箭等供應配套和總體製造、發射服務;下游的衛星導航應用、衛星測控、衛星遙感運營等多個環節。
2018年11月,時空道宇正式成立,其作為中國第一梯隊的商業航天公司,隸屬於吉利 科技 集團。目前,時空道宇已擁有微小衛星產品級設計及批量生產交付能力,並積累了150餘項發明專利。除衛星製造外,其業務范圍還涉及衛星地面設備製造激轎、衛星運營與應用等全產業鏈。
事實上,在創立時空道宇之前,王洋曾在中科院微小衛星創新研究院工作了近十年,其間作為軟、硬體工程師負責過衛星及地面系統等多個項目的研發。2014年6月,王洋走出體制,創立了中國首家商業航天公司,有媒體評價其為「中國商業航天的拓荒者」。
時空道宇總經理、首席科學家 王洋
在新興市場拓荒,也成為王洋的第二次創業歷程。憑借扎實的科研與項目經驗,他對於時空道宇在行業中的定位有著明確的判斷。
王洋認為,在商業航天這個熱門賽道中,時空道宇最大的差異點,一個是橫跨 汽車 、航天產業的能力,另一個則是人才優勢。
這也是王洋把時空道宇定位於「航天全產業鏈」的邏輯,他認為清晰的定位,是保證這家公司高競爭能力的核心。「時空道宇的第一目標是要成為商業航天衛星製造裡面的第一梯隊,第二個目標是圍繞著商業航天的應用場景,進行不斷布局,最明乎肆終目標是形成全產業解決方案。」王洋在接受鈦媒體采訪時表示。
時空道宇介紹,團隊核心成員均來自於國家航天重點單位,人均擁有10年以上衛星研製經驗及3顆以上重大型號項目經驗,並具有全技術鏈完整研發能力。
經過1年多有序的研製工作,共計完成12次大型試驗,超200項測試項目,超1800小時的測試,時空道宇首發雙星順利通過出廠評審,具備發射條件,將於近期擇機發射入軌。
「一個客觀的事實是,中國的航天行業技術壁壘很高、系統某種程度也較為封閉,一家創業公司想要跑出來,必須要具備清晰的發展目標,足夠的技術實力,以及對於目標的准確實踐。」王洋對鈦媒體表示,基於這一明確判斷,時空道宇或將在2021年底實現節點式成果。
目頃卜前,時空道宇的主營業務有兩塊,即衛星製造和高精定位。
在衛星製造方面, 2020年3月,時空道宇位於浙江台州的衛星超級工廠破土動工,計劃投資22.7億元,涵蓋衛星研發、核心部組件製造、測運控、航天材料等產業鏈的交付。最終該工廠將成為中國首個脈動式模塊化衛星智能AIT(總裝集成測試)中心,以及中國首個深度融合航天器製造和 汽車 製造能力的衛星量產超級工廠。
王洋表示,衛星超級工廠將致力於實現低成本、高性價比、智能化、自動化的衛星製造。突破傳統衛星設計理念,改變衛星製造模式。並利用 汽車 工業級元器件選用和篩選技術、民用產品和民用技術,從而節約人工成本和時間成本,改變了原有航天產品的供應鏈體系,提供高性價比產品,同時保證產品的品質。
王洋向鈦媒體透露,該工廠將於2021年底完成建設,並逐步實現年產300顆以上衛星的製造能力。
而在高精定位方面, 時空道宇將通過發射低軌首發雙星方式,開展全球首個商用低軌導航增強系統驗證,並推動構建全球首個服務未來出行的天地一體化高精時空信息系統。
預計在2021年底,時空道宇建設的覆蓋中國本土及東南亞地區的天地一體化出行高精度服務將投入商業運營。
王洋表示,這一系統將基於低軌衛星 星座 及衛星地面監測網協同操作,將為用戶提供全球無縫瞬時高精度定位服務,深度融合智慧出行行業完好性功能要求。
王洋強調,通過這兩大業務模塊,時空道宇可以在商業衛星製造領域為用戶提供低成本、高可靠的衛星及其供應鏈產品,在衛星通信網路、衛星數據應用、天地一體化高精度服務領域提供極具競爭力、安全可靠的定製化解決方案,與智能製造、未來出行、大數據等行業深度融合,持續為客戶創造價值、建立開放共贏的合作生態。
「未來的世界,天地的網路將融合成一體。我們最終希望打造出一個天地一體化高精時空信息系統,構建豐富的商業航天業態,持續推動中國航天產業進步。」
(本文首發鈦媒體App,作者 林志佳)
『肆』 詳解大數據的思想如何形成與其價值維度
詳解大數據的思想如何形成與其價值維度
比如經濟上,黃仁宇先生對宋朝經濟的分析中發現了「數目字管理」(即定量分析)的廣泛應用(可惜王安石變法有始無終)。又如軍事,「向林彪學習數據挖掘」的橋段不論真假,其背後量化分析的思想無疑有其現實基礎,而這一基礎甚至可以回推到2000多年前,孫臏正是通過編造「十萬灶減到五萬灶再減到三萬灶」的數據、利用龐涓的量化分析習慣對其進行誘殺。
到上世紀50-60年代,磁帶取代穿孔卡片機,啟動了數據存儲的革命。磁碟驅動器隨即發明,它帶來的最大想像空間並不是容量,而是隨機讀寫的能力,這一下子解放了數據工作者的思維模式,開始數據的非線性表達和管理。資料庫應運而生,從層次型資料庫(IBM為阿波羅登月設計的層次型資料庫迄今仍在建行使用),到網狀資料庫,再到現在通用的關系資料庫。與數據管理同時發源的是決策支持系統(DSS),80年代演變到商業智能(BI)和數據倉庫,開辟了數據分析——也就是為數據賦予意義——的道路。
那個時代運用數據管理和分析最厲害的是商業。第一個數據倉庫是為寶潔做的,第一個太位元組的數據倉庫是在沃爾瑪。沃爾瑪的典型應用是兩個:一是基於retaillink的供應鏈優化,把數據與供應商共享,指導它們的產品設計、生產、定價、配送、營銷等整個流程,同時供應商可以優化庫存、及時補貨;二是購物籃分析,也就是常說的啤酒加尿布。關於啤酒加尿布,幾乎所有的營銷書都言之鑿鑿,我告訴大家,是Teradata的一個經理編的,人類歷史上從沒有發生過,但是,先教育市場,再收獲市場,它是有功的。
僅次於沃爾瑪的樂購(Tesco),強在客戶關系管理(CRM),細分客戶群,分析其行為和意圖,做精準營銷。
這些都發生在90年代。00年代時,科研產生了大量的數據,如天文觀測、粒子碰撞,資料庫大拿吉姆·格雷等提出了第四範式,是數據方法論的一次提升。前三個範式是實驗(伽利略從斜塔往下扔),理論(牛頓被蘋果砸出靈感,形成經典物理學定律),模擬(粒子加速太貴,核試驗太臟,於是乎用計算代替)。第四範式是數據探索。這其實也不是新鮮的,開普勒根據前人對行星位置的觀測數據擬合出橢圓軌道,就是數據方法。但是到90年代的時候,科研數據實在太多了,數據探索成為顯學。在現今的學科里,有一對孿生兄弟,計算XX學和XX信息學,前者是模擬/計算範式,後者是數據範式,如計算生物學和生物信息學。有時候計算XX學包含了數據範式,如計算社會學、計算廣告學。
2008年克里斯·安德森(長尾理論的作者)在《連線》雜志寫了一篇《理論的終結》,引起軒然大波。他主要的觀點是有了數據,就不要模型了,或者很難獲得具有可解釋性的模型,那麼模型所代表的理論也沒有意義了。跟大家說一下數據、模型和理論。大家先看個粗糙的圖。
首先,我們在觀察客觀世界中採集了三個點的數據,根據這些數據,可以對客觀世界有個理論假設,用一個簡化的模型來表示,比如說三角形。可以有更多的模型,如四邊形,五邊形。隨著觀察的深入,又採集了兩個點,這時發現三角形、四邊形的模型都是錯的,於是確定模型為五邊形,這個模型反映的世界就在那個五邊形里,殊不知真正的時間是圓形。
大數據時代的問題是數據是如此的多、雜,已經無法用簡單、可解釋的模型來表達,這樣,數據本身成了模型,嚴格地說,數據及應用數學(尤其是統計學)取代了理論。安德森用谷歌翻譯的例子,統一的統計學模型取代了各種語言的理論/模型(如語法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語料數據。谷歌甚至能翻譯克萊貢語(StarTrek里編出來的語言)。安德森提出了要相關性不要因果性的問題,以後舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當然,科學界不認同《理論的終結》,認為科學家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了數據,機器可以發現當前知識疆域裡面隱藏的未知部分。而沒有模型,知識疆域的上限就是機器線性增長的計算力,它不能擴展到新的空間。在人類歷史上,每一次知識疆域的跨越式拓展都是由天才和他們的理論率先吹起的號角。
2010年左右,大數據的浪潮捲起,這些爭論迅速被淹沒了。看谷歌趨勢,」bigdata」這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家,一家是IDC,每年給EMC做digitaluniverse的報告,上升到澤位元組范疇(給大家個概念,現在硬碟是太位元組,1000太=1拍,阿里、Facebook的數據是幾百拍位元組,1000拍=1艾,網路是個位數艾位元組,谷歌是兩位數艾位元組,1000艾=1澤);一家是麥肯錫,發布《大數據:創新、競爭和生產力的下一個前沿》;一家是《經濟學人》,其中的重要寫手是跟老舍同著《大數據時代》的肯尼思?庫克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實這3V在2001年就已經被編出來了,只不過在大數據語境里有了全新的詮釋。
咱們國內,歡總、國棟總也是在2011年左右開始呼籲對大數據的重視。
2012年子沛的書《大數據》教育政府官員有功。老舍和庫克耶的《大數據時代》提出了三大思維,現在已經被奉為圭臬,但千萬別當作放之四海而皆準的真理了。
比如要數據全集不要采樣。現實地講,1.沒有全集數據,數據都在孤島里;2.全集太貴,鑒於大數據信息密度低,是貧礦,投入產出比不見得好;3.宏觀分析中采樣還是有用的,蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義;4.采樣要有隨機性、代表性,采訪火車上的民工得出都買到票的結論不是好采樣,現在只做固定電話采樣調查也不行了(行動電話是大頭),在國外基於Twitter采樣也發現不完全具有代表性(老年人沒被包括);5.采樣的缺點是有百分之幾的偏差,更會丟失黑天鵝的信號,因此在全集數據存在且可分析的前提下,全量是首選。全量>好的采樣>不均勻的大量。
再說混雜性由於精確性。擁抱混雜性(這樣一種客觀現象)的態度是不錯的,但不等於喜歡混雜性。數據清洗比以前更重要,數據失去辨識度、失去有效性,就該扔了。老舍引用谷歌PeterNovig的結論,少數高質量數據+復雜演算法被大量低質量數據+簡單演算法打敗,來證明這一思維。Peter的研究是Web文本分析,確實成立。但谷歌的深度學習已經證明這個不完全對,對於信息維度豐富的語音、圖片數據,需要大量數據+復雜模型。
最後是要相關性不要因果性。對於大批量的小決策,相關性是有用的,如亞馬遜的個性化推薦;而對於小批量的大決策,因果性依然重要。就如中葯,只到達了相關性這一步,但它沒有可解釋性,無法得出是有些樹皮和蟲殼的因導致治癒的果。西葯在發現相關性後,要做隨機對照試驗,把所有可能導致「治癒的果」的干擾因素排除,獲得因果性和可解釋性。在商業決策上也是一樣,相關性只是開始,它取代了拍腦袋、直覺獲得的假設,而後面驗證因果性的過程仍然重要。
把大數據的一些分析結果落實在相關性上也是倫理的需要,動機不代錶行為。預測性分析也一樣,不然警察會預測人犯罪,保險公司會預測人生病,社會很麻煩。大數據演算法極大影響了我們的生活,有時候會覺得挺悲哀的,是演算法覺得了你貸不貸得到款,谷歌每調整一次演算法,很多在線商業就會受到影響,因為被排到後面去了。
下面時間不多了,關於價值維度,我貼一些以前講過的東西。大數據思想中很重要的一點是決策智能化之外,還有數據本身的價值化。這一點不贅述了,引用馬雲的話吧,「信息的出發點是我認為我比別人聰明,數據的出發點是認為別人比我聰明;信息是你拿到數據編輯以後給別人,而數據是你搜集數據以後交給比你更聰明的人去處理。」大數據能做什麼?價值這個V怎麼映射到其他3V和時空象限中?我畫了個圖:
再貼上解釋。「見微」與「知著」在Volume的空間維度。小數據見微,作個人刻畫,我曾用《一代宗師》中「見自己」形容之;大數據知著,反映自然和群體的特徵和趨勢,我以「見天地、見眾生」比喻之。「著」推動「微」(如把人群細分為buckets),又拉動「微」(如推薦相似人群的偏好給個人)。「微」與「著」又反映了時間維度,數據剛產生時個人價值最大,隨著時間decay最後退化為以集合價值為主。
「當下」和「皆明」在Velocity的時間維度。當下在時間原點,是閃念之間的實時智慧,結合過往(負軸)、預測未來(正軸),可以皆明,即獲得perpetual智慧。《西遊記》里形容真假孫悟空,一個是「知天時、通變化」,一個是「知前後、萬物皆明」,正好對應。為達到皆明,需要全量分析、預測分析和處方式分析(prescriptiveanalytics,為讓設定的未來發生,需要採取什麼樣的行動)。
「辨訛」和「曉意」在Variety的空間維度。基於大體量、多源異質的數據,辨訛過濾雜訊、查漏補缺、去偽存真。曉意達到更高境界,從非結構數據中提取語義、使機器能夠窺探人的思想境界、達到過去結構化數據分析不能達到之高度。
先看知著,對宏觀現象規律的研究早已有之,大數據的知著有兩個新特點,一是從采樣到全量,比如央視去年「你幸福嗎」的調查,是街頭的采樣,前不久《中國經濟生活大調查》關於幸福城市排名的結論,是基於10萬份問卷(17個問題)的采樣,而清華行為與大數據實驗室做的幸福指數(繼挺兄、我、還有多位本群群友參與),是基於新浪微博數據的全集(托老王的福),這些數據是人們的自然表達(而不是面對問卷時的被動應對),同時又有上下文語境,因此更真實、也更有解釋性。北上廣不幸福,是因為空氣還是房價或教育,在微博上更容易傳播的積極情緒還是消極情緒,數據告訴你答案。《中國經濟生活大調查》說「再小的聲音我們都聽得見」,是過頭話,采樣和傳統的統計分析方法對數據分布採用一些簡化的模型,這些模型把異常和長尾忽略了,全量的分析可以看到黑天鵝的身影,聽到長尾的聲音。
另一個特點是從定性到定量。計算社會學就是把定量分析應用到社會學,已經有一批數學家、物理學家成了經濟學家、寬客,現在他們也可以選擇成為社會學家。國泰君安3I指數也是一個例子,它通過幾十萬用戶的數據,主要是反映投資活躍程度和投資收益水平的指標,建立一個量化模型來推知整體投資景氣度。
再看見微,我認為大數據的真正差異化優勢在微觀。自然科學是先宏觀、具體,進入到微觀和抽象,這時大數據就很重要了。我們更關注社會科學,那是先微觀、具體,再宏觀、抽象,許小年索性認為宏觀經濟學是偽科學。如果市場是個體行為的總和,我們原來看到是一張抽象派的畫,看不懂,通過客戶細分慢慢可以形成一張大致看得懂的現實圖景,不過是馬賽克的,再通過微分、甚至定位個人,形成高清圖。我們每一個人現在都生活在零售商的bucket中(前面說的樂購創造了這個概念),最簡單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如「精打細算」、「右鍵點擊一族」(使用右鍵的比較techsavvy)。反過來我們消費者也希望能夠獲得個性化的尊崇,Nobody wants to be nobody today。
了解並掌握客戶比以往任何時候都更重要。奧巴馬贏在大數據上,就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·傑西卡·帕克(《慾望都市》的主角),他還要更細分,搖擺州每一個郡每一個年齡段每一個時間段在看什麼電視,搖擺州(俄亥俄)1%選民隨時間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對於企業來說,要從以產品為中心,轉到以客戶(買單者)甚至用戶(使用者)為中心,從關注用戶背景到關注其行為、意圖和意向,從關注交易形成轉到關注每一個交互點/觸點,用戶是從什麼路徑發現我的產品的,決定之前又做了什麼,買了以後又有什麼反饋,是通過網頁、還是QQ、微博或是微信。
再講第三個,當下。時間是金錢,股票交易就是快魚吃慢魚,用免費股票交易軟體有幾秒的延遲,而佔美國交易量60-70%的高頻程序化交易則要發現毫秒級、低至1美分的交易機會。時間又是生命,美國國家大氣與海洋管理局的超級計算機在日本311地震後9分鍾發出海嘯預警,已經太晚。時間還是機會。現在所謂的購物籃分析用的其實並不是真正的購物籃,而是結帳完的小票,真正有價值的是當顧客還拎著購物籃,在瀏覽、試用、選擇商品的時候,在每一個觸點影響他/她的選擇。數據價值具有半衰期,最新鮮的時候個性化價值最大,漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾,原來10年一次的人口普查就是刻舟求劍,而現在東莞一出事網路遷徙圖就反映出來了。當然,當下並不一定是完全准確的,其實如果沒有更多、更久的數據,匆忙對網路遷徙圖解讀是可能陷入誤區的。
第四個,皆明。時間有限,就簡單說了。就是從放馬後炮到料事如神(predictiveanalytics),從料事如神到運籌帷幄(prescriptiveanalytics),只知道有東風是預測分析,確定要借箭的目標、並給出處方利用草船來借,就是處方性分析。我們現在要提高響應度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源數據過濾雜訊、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子,我們的GPS有幾十米的誤差,但與地圖數據結合就能做到精確,GPS在城市的高樓中沒有信號,可以與慣性導航結合。
曉意涉及到大數據下的機器智能,是個大問題,也不展開了。貼一段我的文章:有人說在涉及「曉意」的領域人是無法替代的。這在前大數據時代是事實。《點球成金(Moneyball)》講的是數量化分析和預測對棒球運動的貢獻,它在大數據背景下出現了傳播的誤區:一、它其實不是大數據,而是早已存在的數據思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來,奧克蘭競技隊的總經理比利·比恩用數量化分析取代了球探。而事實是,在運用數量化工具的同時,比恩也增加了球探的費用,軍功章里有機器的一半,也有人的一半,因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數結構化量化指標無法刻畫的。大數據改變了這一切。人的數字足跡的無意識記錄,以及機器學習(尤其是深度學習)曉意能力的增強,可能逐漸改變機器的劣勢。今年我們看到基於大數據的情感分析、價值觀分析和個人刻畫,當這些應用於人力資源,已經或多或少體現了球探承擔的。
『伍』 「中關村貴陽科技園觀山湖大數據產業園」落戶紅華新天地了,啥時候的事情
2014年12月份的時來候,貴陽市自政府與貴州紅華物流有限公司就觀山湖大數據中心項目建設簽署合作協議書,將位於觀山湖區觀山東路與長嶺南路交匯處的「貴州紅華商貿物流園「項目變更為「觀山湖大數據中心」項目,為政府實施大數據產業企業招商引資提供便利。貴陽市政府同意將「觀山湖大數據中心」項目作為貴陽市大數據產業發展的重點項目,並給予各方面相應政策支持。