⑴ 領導幹部應關注大數據治理的哪些理念
總的來說,我們認為,領導幹部大數據思維方式的建立是一個循序漸進的過程。
需從「經驗主義」向「數據主義」決策轉變,真正認識到數據的價值。先拋開大數據的概念不提,我們國家的政府信息化和電子政務系統已經實施了很多年,各政府部門也積累了大量關系國計民生的數據,但政府部門的領導幹部在決策的過程中往往還是「經驗主義」主導,甚至不少領導不知道本部門有哪些數據,數據放在哪裡。因此,領導幹部首先需要了解自己本部門的數據狀況,這些數據目前有哪些主要的應用場景,已經為本部門管理水平和公共服務能力的提升發揮了哪些作用,是否曾經共享給其他兄弟部門以發揮更大的價值等基本問題。另外,還需對數據的價值和作用有基礎理解,有意識地提升數據支持決策的能力。
以利他分享的大數據思維思考政府數據共享開放。目前很多政府部門的數據實際上是處於信息孤島狀態,數據由於沒有與其他部門進行共享,也沒有實現開放,使得數據的價值發掘非常有限。而且,很多政府部門的領導把自己部門的數據看作是部門利益的基礎,認為數據的共享開放輸出就意味著利益的輸出,這種現象在數據能力強的部門體現得尤為明顯。領導幹部需要認識到,部門的數據如果不流動起來,不與其他的外部數據進行融合,就會成為死數據,而真正發揮價值的是活數據。數據的外部性說明數據的價值不是只存在於內部,站在更高的層次和角度考慮政府數據共享才能使得數據的價值最大。
不少領導幹部以政府數據的安全為由,或多一事兒不如少一事兒的心理,對政府數據開放持拒絕或者消極態度。縱觀國外政府數據開放的歷程,基本是從信息公開起步,在數據開放方面本著「開放為默認,不開放為特例」的原則,才使得數據開放成為建設智慧城市或智慧政府的重要基礎。需要認識到政府的數據開放其實是在利用社會力量實現政府治理現代化的目標,因此,把與民生相關的、經過脫敏的政府數據開放給民眾以及企業,會促進基於大數據的創新創業發展,也才能讓數據通過流動和融合,發揮更大的社會和經濟價值。
在服務型政府創建過程中,大數據對於政府提升管理效率、科學決策能力和公共服務水平都能夠起到關鍵作用。服務型政府的願景是政府能夠為百姓提供互動、主動、有效的個性化公共服務,而大數據正是提供智慧服務的基石,尤其在智慧城市建設中起的作用最為顯著。領導幹部需要從這些目標中總結大數據所起到的價值和作用,有的放矢地開展大數據相關項目規劃和實施。
為適應大數據時代的治理需求,領導幹部的思維模式需實現自上而下為主向自下而上為主的轉變,數據化決策、管理、服務和創新的能力亟需進一步提升。各級領導幹部對大數據的認識不能僅局限在概念和產業吸引投資上,而是需要在推動政府治理創新上有更深層次的理解,唯此才能真正促進我國政府治理現代化的進程。
⑵ 大數據思維包括哪些主要內容
一、數據核心原理
從「流程」核心轉變為「數據」核心
大數據時代,計算模式也發生了轉變,從「流程」核心轉變為「數據」核心。hadoop體系的分布式計算框架已經是「數據」為核心的範式。非結構化數據及分析需求,將改變IT系統的升級方式:從簡單增量到架構變化。大數據下的新思維——計算模式的轉變。
例如:IBM將使用以數據為中心的設計,目的是降低在超級計算機之間進行大量數據交換的必要性。大數據下,雲計算找到了破繭重生的機會,在存儲和計算上都體現了數據為核心的理念。大數據和雲計算的關系:雲計算為大數據提供了有力的工具和途徑,大數據為雲計算提供了很有價值的用武之地。而大數據比雲計算更為落地,可有效利用已大量建設的雲計算資源,最後加以利用。
科學進步越來越多地由數據來推動,海量數據給數據分析既帶來了機遇,也構成了新的挑戰。大數據往往是利用眾多技術和方法,綜合源自多個渠道、不同時間的信息而獲得的。為了應對大數據帶來的挑戰,我們需要新的統計思路和計算方法。
二、數據價值原理
由功能是價值轉變為數據是價值
大數據真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。
例如:大數據的真正價值在於創造,在於填補無數個還未實現過的空白。有人把數據比喻為蘊藏能量的煤礦,煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」,價值含量、挖掘成本比數量更為重要。不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
三、全樣本原理
從抽樣轉變為需要全部數據樣本
需要全部數據樣本而不是抽樣,你不知道的事情比你知道的事情更重要,但如果現在數據足夠多,它會讓人能夠看得見、摸得著規律。數據這么大、這么多,所以人們覺得有足夠的能力把握未來,對不確定狀態的一種判斷,從而做出自己的決定。這些東西我們聽起來都是非常原始的,但是實際上背後的思維方式,和我們今天所講的大數據是非常像的。
舉例:在大數據時代,無論是商家還是信息的搜集者,會比我們自己更知道你可能會想干什麼。現在的數據還沒有被真正挖掘,如果真正挖掘的話,通過信用卡消費的記錄,可以成功預測未來5年內的情況。統計學里頭最基本的一個概念就是,全部樣本才能找出規律。為什麼能夠找出行為規律?一個更深層的概念是人和人是一樣的,如果是一個人特例出來,可能很有個性,但當人口樣本數量足夠大時,就會發現其實每個人都是一模一樣的。
⑶ 隱私權受威脅 大數據到底有哪些弊端
數據由來已久,但大數據則是近1年來才頻繁出現在媒體報端。大數據具有大價值,這似乎是每個人都認同的觀點。人們往往總是關注事物好的一面,卻往往忽視隨著大數據所帶來的弊端。 毋庸置疑,大數據能夠給企業、機關等機構帶來大量的經濟價值和利益,直接影響著他們的未來走向。其實,大數據是一把雙刃劍 ,在給企業帶來無往不利的前進動力的時候,往往也會對企業和個人帶來傷害。請看下面的小故事: 以前的情人,在你聊天工具上已經顯示了可能認識的人。 上面的情況是通過大數據分析工具而提供的一種伺服器,雖然只是一種特例,但卻讓雙方甚至雙方的家人都感到尷尬。但這確實真實存在的。無論是在我們的微博上,後者聊天工具上,都會出現這種問題,雖然看起來一個非常方便的功能,但是對於一些人來說卻是麻煩。下面我們來看一下大數據所帶來的弊端。 第2頁:個人隱私受威脅 個人隱私受威脅: 對於個人來說,其在大數據時代往往是作為數據的來源。無論是個人的生活情況,還是消費習慣,身份特徵等,都變成了以各種形式存儲的數據。這雖然對企業來說可以根據用戶數據去分析數據,得到價值,但是對於個人用戶來說,無疑是以個不得不被動接受的事情,而這種數據在收集、分析、傳輸等過程中都可能對用戶帶來不利的影響。隱私受到威脅 企業在傳輸這些私人數據的時候可能會遇到麻煩,企業很難保證在整個傳輸過程中是否有人會查看你的數據,很有可能有人對這些私人的數據進行了監控等操作,這就大大加大了其泄漏的可能性,數據一旦泄漏,很可能為個人帶來難以挽回的損失,而個人卻又不知道自己的數據時如何泄露出去的,對這讓個人用戶的隱私權受到無限大的挑戰。 大數據不等於大價值: 只有當存儲數據的量達到一定值才會有價值,單獨出來的數據即使有一定價值但也沒有整體的參考價值。這往往給企業一種錯覺,大數據定於大價值。 其實,大數據並不等於大價值。大數據分析存儲產品設備往往對企業IT設備有更高的要求,企業原有IT設備很難滿足大數據時代的挑戰。在這種情況下,企業IT部門面臨這樣一種情況:需求越來越多,但滿足這些需求的能力越來越弱。而且企業投入價值與所得信息量價值成反比。當數據達到一定值時,投入的價值甚至超過所得數據價值。 第3頁:大數據對企業有更大挑戰 大數據對企業有更大挑戰: 近年,由於伺服器出現故障而造成服務不能提供的事件時有發生,而隨著大數據時代的到來,這些故障可能會進一步增多。而這些故障往往會直接造成數據的跌勢,服務的中斷。例如谷歌泄露個人隱私事件、盛大雲數據丟失事件、亞馬遜伺服器宕機事故等等。 當這些服務中斷的時候,用戶是毫無解決辦法的,只能等待服務提供商的修復,而對數據丟失、損壞等方面,用戶對數據保護更是束手無策,只能等待提供商。這樣很多用戶在發生故障並不能及時作出反應,使損失降到最低。無疑,大數據帶來了更多的挑戰。 大數據使企業面臨廠商綁定: 當我們提到大數據的時候,總是提到大數據的諸多優點,但是卻很少提企業如何將大數據變成切實的價值。容易被廠商綁定 目前,很多廠商都針對大數據推出了自己的解決方案。而這些方案雖然號稱兼容性非常強,能夠兼容其他廠商的設備,但是當你真正的採用一個提供商的設備(軟體、硬體)的時候,你會發現你真的很難去改變一個提供商,尤其是在軟體方面。很容易被一個提供商綁定。這就大大限制了企業IT基礎設置的靈活性。 總結: 大數據時代雖然一切勾畫的都是那麼美,但是離真正的為企業提供價值的路之間還有不可逾越的鴻溝。大數據並沒有想像的那麼完美遍地黃金,企業在接下來應考慮如何應對大數據的挑戰,而不要僅僅空談價值。
⑷ 你每一次曬娃,都在一步步把孩子推向被大數據操控的深淵
曬娃,多麼美好而溫馨的事情,背後卻暗藏殺機!
來自長沙的袁媽媽前段時間意外收到一封勒索信,信中列舉了她的孩子2歲以來的所有信息和經歷,比如上了什麼興趣班、興趣班的老師是誰,平時誰幾點去接孩子,接完孩子後會去哪,字里行間透露的是一個完全不認識的陌生人對自己孩子的了如指掌。後來案件經過調查發現,嫌疑人來自袁媽媽的朋友圈,因為她經常發布孩子的信息,出國 旅遊 、興趣班、高檔餐廳的氛圍營造出他們家的經濟實力,且不顧一切捨得為孩子的花錢,於是繽紛多彩的朋友圈被壞人「盯上了」。
曬娃,成了一種剛需
仔細觀察便會發現,只要是有了孩子的家庭,朋友圈、抖音90%以上的內容都是自己孩子。根據某親子平台2016年發布的《中國家庭曬娃報告》,每100位媽媽中,有82位在各類社交軟體上曬出自己的孩子,分享內容會隨著孩子的年齡發生變化。而像出生、生日、 旅遊 這樣的重要日子,是必嗮的。
當然,不乏老師的要求。幼兒園舉辦活動時經常進行打卡活動,老師會要求家長把孩子履行活動的過程通過圖片、視頻等方式在朋友圈進行打卡,一方面方便老師知道進展,另一方面可擴大活動影響力。
每一次曬娃,都是為大數據做貢獻
在中國,網上分享孩子大致經歷了三種形式、四個階段:
2007年至2009年,主要是新聞官網、校園網和貼吧,以文字形式出現孩子的獲獎信息、校園活動;2010年至2013年,人人網、QQ空間盛行,學生在網上上傳照片,線上校園社交成為 時尚 ;2014年起,微信、微博開始風行,家長紛紛上傳孩子萌照,曬娃風潮初見規模;2019年前後,抖音、快手等短視頻平台風靡,則進一步推動了家庭短視頻在線上的大量累積。
而所有的這些行為,都一步步淪為大數據的信息來源。據IDC發布的《數據時代2025》,每個聯網的人每天平均有1426次數據互動。80後、90後成為了「數字移民」,而00後乃至10後打從出生就生活在了線上,被稱為「數字原住民」。可怕的是,大多數人並沒有意識到這些數據隨之而來的隱患。
「最熟悉的陌生人」,將孩子一步步推向深淵
很多媽媽在朋友圈做微商,經常用自家的寶寶做模特。來自廈門的卷卷媽媽,從懷孕開始就兼職做微商,賣米菲紙尿褲。她經常拍自己孩子穿紙尿褲的照片做宣傳,因為自己也是寶媽,自家的孩子一直在用,所以顧客更容易信任她。有一天,她突然看到「兒童模特照打包淘寶20元銷售」的新聞,才知道原來犯罪分子會在社交平台上蹲點,下載孩子的照片,再通過後期的PS等技術在非法色情網站上打包銷售。卷卷媽媽嚇出一身冷汗,仔細回想,自己曾毫不忌諱地在各大平台都上傳過卷卷比較隱私的照片,實在不應該。
或許上述案例只是特例,但「手機監聽」已經是公開的秘密。在孩子成長的每一階段,我們不停地接收各類相關推送,就像有一股無形的力量,時刻在監測你的軌跡。在你無法想像和控制的大數據世界裡,我們還能為孩子做的,便是提高安全防範意識,在每一次分享孩子前,多給自己15秒的思考時間。
⑸ 大數據 hadoop 三種運行模式的區別、及詳細配置講解
基於Hadoop進行開發時,有時候會被Hadoop的運行模式弄得暈頭轉向,傻傻分不清各種運行模式的區別,給日常開發帶來很多困惑,不同集群配置文件也各不相不同。弄明白Hadoop的運行模式和對配置文件的作用要做到心中明了,在工作中才能得手順心。
hadoop的配置文件均以XML文件進行配置,它有四個最常見的配置文件,分別為:
core-site.xml文件主要用於配置通用屬性。
hdfs-site.xml文件用於配置Hdfs的屬性。
mapred-site.xml文件用於配置Maprece的屬性。
yarn-site.xml文件用於配置Yarn的屬性。
一般來說,這四種配置文件都存儲在hadoop默認的安裝目錄etc/hadoop子目錄中。 不過我們也可以在搭建集群時根據實際需求,把etc/hadoop目錄和其下的文件復制到另外一個位置。這樣可以把配置文件和安裝文件分離開來,方便管理。
注意:如果把etc/hadoop目錄和其下的文件復制到另外一個位置。
我們需要在環境變數中將hadoop_conf_dir設置成指向新目錄。
1、本地運行模式
無需任何守護進程 ,所有的程序都運行在同一個JVM上執行。在本地模式下調試MR程序非常高效方便,一般該模式主要是在學習或者開發階段調試使用 。
2、偽分布式模式
Hadoop守護進程運行在本地機器上 ,模擬一個小規模的集群,換句話說,可以配置一台機器的Hadoop集群,偽分布式是完全分布式的一個特例。
3、完全分布式模式
Hadoop守護進程運行在一個集群上 。這種運行模式也就是我們常見的各種雲,主要用於大規模的生產環境中。
注意:分布式要啟動守護進程 ,是指在使用分布式hadoop時,要先啟動一些准備程序進程,然後才能使用。 比如start-dfs.sh start-yarn.sh,而本地模式不需要啟動這些守護進程。
注意:在本地模式下,將使用本地文件系統和本地MapRece運行器。在分布式模式下,將啟動HDFS和YARN守護進程。
⑹ 買雙色球前,你最關注哪些歷史數據
買彩票前我最關注的數據,是大獎得主購彩行為的大數據分析,得出一個正確的購彩理念和方法指導我的購彩行為。
四、正確的購彩方法和理念
根據大獎得主購彩行為的共同點,我們可以得出一個正確的購彩方法和理念。
1、理性購彩。彩票買了就賠,中獎者永遠是少數,所以任何時候都要理性購彩,寧願不買,也不能多買。
2、長期堅持。在理性購彩的基礎上,可以堅持長期購買,因為運氣什麼時候來臨無人知道,長期堅持才能在運氣來臨時抓住幸運。
3、心態平和。買彩票要抱著獻愛心、做公益的想法,這樣不中獎時才不會著急上火,誤入歧途。
按照大獎得主購彩行為的大數據分析來購買彩票,基本不能中獎,我們也不會有太大的損失,這才是正確的購彩理念和方法,比研究什麼歷史數據有意義多了。
⑺ 《大數據》讀後感字
《大數據》讀後感2000字
如今,我們正處於一個大數據時代,有時候數據給了我們有力的證明。以下是、《大數據》讀後感2000字,歡迎閱覽!
這兩年,大數據,雲計算的思想就像小蘋果的音樂一樣,傳的到處都是,每一個公司不管是互聯網公司還是傳統企業,都標榜自己的大數據。
1、實體物聯網與虛擬物聯網
曾幾何時,物聯網的概念鬧得風生水起,龐大的物聯網能夠讓世間大量的物體,都能夠被檢測 並聯網,包括了人、車、房等一切能夠被聯網的物體,這些物體都能夠以種方式被感知他的存在,並對其信息記錄在案,以供使用。在若干年前,這還是一種看似遙不可及的事物,要對每個物體都貼上一個所謂的RFID的標簽,顯得不切實際。如今,隨著手機的大量使用,人類本身也被加入了物聯網中。為什麼要物聯網?是為了獲取什麼?要知道物聯網獲取了什麼,只需要看看在一個物體在沒有加入物聯網與加入物聯網之後,我們多出了哪些東西便能夠知曉。那麼,很明顯,我們需要通過某種方式來獲取該物體的信息,這種存儲下來的信息,就叫做——數據。
物聯網產生的數據是實體的物品之間的信息,而現在的互聯網上,占最大數據量的,是虛擬物品,或者叫做網路虛擬物品。由於網路物體是直接寄生於網路,具有能夠方便的接入網路的特徵,因此,在獲取實體物體信息還有一定難度的時期,佔有很大優勢。但今後實體的物聯網產生的數據量一定會不斷增加,或許,能夠超越網路上的物物相連數據量。
網路的廣泛使用,使得信息的產生於傳遍變得容易,每個接入網路的人都以一定的角色存在,都是網路的信息的創造者。對於所產生的信息而言,每個接入網路的人又身兼多角,對於網路服務商,他是網路使用者的角色;對於門戶網站而言,他是使用的用戶;對於社交網站而言,我們則扮演一個虛擬或者真實的網路角色;對於瀏覽器而言,他是一系列的瀏覽網頁、一些列滑鼠動作的角色… 不同的角色取決於對方需要從我們的行為中獲取哪些信息。將網路上各種角色看成是虛擬的物體,那麼,這種虛擬物體構成的虛擬物聯網便產生了巨大的數據量。經歷過一直以來缺乏信息獲取渠道的日子,現在,既然信息獲取變得如此容易,那麼,必然迎來信息量暴增的時代——大數據時代。
2、思維的轉變
技術的改變,使得我們思維方式也要隨之發生變化。在過去的小數據時代,由於獲取信息、存儲信息、整理信息都是費時費力的活,我們只能精打細算,捉摸著如何以最小的代價、最快的方式來收集盡可能准確的信息。之所以會有抽樣統計的方式,是受技術所限,無法獲得全體的樣本,或者就算獲取了也無法在合理的時間內進行處理。由於信息獲取代價大,使得我們不得不在獲取信息前,就把一切都想清楚,才能夠著手處理。這就像在計算機出現的初期,使用紙袋來編碼的時期,一次出錯的代價太大,所以人們不得不在輸入前將代碼驗證過無數遍之後才敢輸入到機器中。而現代計算機讓編碼的效率大大提升,這才使得人們能夠創造出更加強大的軟體。人們不需要在著手編碼前就對代碼過分深思熟慮,因為機器會幫助你解決一些問題。因此,那些擔心由於獲取數據太方便,進行數據處理、分析代價太小而使人們變得懶惰或者做事欠考慮的傢伙,真是杞人憂天。歷史上,技術的進步都會提升人類的生產力,但卻沒有讓人們變得懶惰,因為與此同時,慾望也隨之增長。人類只會變得更偉大。
因此,大數據時代,這個數據更加全面的時代,我們可以涉足一些之前由於缺乏數據而無法涉及的領域,例如——預測。這是一個令人興奮的領域,但其實這個領域早有苗頭,而且大家都是受益者。我們平時使用的輸入法中的智能聯想功能,能夠根據我們之前輸入的文字,來預測我們接下來有可能輸入的文字,以節省我們的輸入時間。這種演算法里,沒有人工智慧,而只有人們大量的輸入習慣的統計,通過大量數據的統計來預測,是一個統計學的方式而非加入了特有的規則或者邏輯。這便引出了在大數據時代,對於信息處理的一種重要方式,基於統計,得出不同個體的相關關系,卻無需了解其因果關系,而我們則受益於相關關系。這種方式,看似有些投機取巧,卻能夠在關鍵時刻令我們處於優勢地位。我們已經習慣了先知道某些事物的因果邏輯,繼而推斷出相應的結果。但世間總會有一些令人無法用合理的邏輯進行解釋的現象,若通過大數據分析,我們能夠跳過邏輯階段直接享用某些一些結果(沃爾瑪的啤酒加尿布案例),豈不樂哉。當然,嚴密的邏輯永遠是值得尊敬的。
3、互聯網的黏性
在經歷過了從廣度上通過新花樣來吸引用戶的時代,由於技術的提高,一個創業者在一個新的領域開辟的東西很容易被其他人所復制。在這個時候,深度很重要。特別是購物網站、微薄、門戶網站這類信息量大的網站,越是了解一個用戶,優勢就越大。所以,在技術已經不是最重要的因素的時代,如何增加用戶的黏性、忠誠度便是首要的。通過用戶之前的信息,來推測用戶的喜好,給用戶推薦相應的信息或物品。當你越了解一個用戶,而別人卻不了解時,這個用戶就越離不開你。微薄中有他的`智能排序功能、新聞門戶中有「今日頭條」應用,各類購物網站有他的推薦演算法(但這個純粹為了增加消費而非增加用戶黏性),都能夠根據用戶之前的瀏覽、偏好來給出相應的推薦。這些的基礎,都是擁有用戶的行為記錄,否則,都無從談起。
各行各業,都在瘋狂的抓緊時機,獲取數據,擁有足量的數據,那一切就變得皆有可能。
凡是過去,皆為序曲是大數據業者最喜歡引用的語句。大數據是現在的潮流,大數據時代被認為是了解大數據的初級讀物。近期連續讀了兩遍,第二遍是為了寫這篇讀後感,總體而言,值得一看,但細節方面卻需要討論了。
維基網路對大數據的解釋:Big data,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。
有人說現在是讀圖時代,除去小說、心靈雞湯以外,現在的暢銷書基本都有圖片,這本書是一個特例
首先嘗試解析一下作者的三大觀點,這三大觀點是大數據業者很喜歡引用的三句話:
1 不是隨機樣本,而是全體數據
我想所有人都能意識到對全體數據的分析優於對隨機樣本的分析,但在現實中我們經常拿不到全體數據:一是數據的收集方法,每一種方法都有適用的范圍,不太可能包羅萬象;二是數據分析的角度,戰斗機只能統計到飛回來的飛機上的彈孔,而墜毀的則無法統計,沃德通過分析飛回來的戰斗機得出來最易導致墜毀的薄弱點;三是處理能力跟不上,就像以前的天氣預報太離譜是因為來不及算那些數據。「采樣分析是信息缺乏時代和信息流通受限制的模擬數據時代的產物」,作者顯然只關注了一部分原因。
從語言的理解上看,什麼是全體數據,究竟是「我們需要的所有數據」,還是「我們能收集到的所有數據」,書中的很多商業案例中,處理的只是「我們能收集到的所有數據」,或者說是「我們認為的全體數據」。人對自然的認識總是有限的,存在主義認為世界沒有終極的目標。書中舉例「Farecast使用了每一條航線整整一年的價格數據來進行預測」,而「整整一年」就是一個采樣,或者是「我們需要的所有數據」。
從歷史的角度看,國外的托勒密建亞歷山大圖書館唯一的目的是「收集全世界的書」,實現「世界知識總匯」的夢想,國內的乾隆匯編四庫全書,每個收集的過程都有主觀因素在裡面,而他們當時都認為可以收集全部的書籍,到最後,我們也沒有得到那個夢中的全體。
2 不是精確性,而是混雜性
既然我們過去總是在抽樣,那本身就是在一個置信水平下,有明確的容錯度或者是偏差值。人類永遠知道我們是在精確性受限的條件下工作。同時,作者本身也承認 「錯誤並不是大數據固有的特性,而是一個亟需我們去處理的現實問題,並且有可能長期存在」。那大數據的特徵究竟是精確性還是混雜性?
由此衍生出一個問題,大數據的品質如何控制:一、本身就不要求精確,但是不精確到何種程度是需要定義的,否則就亂套了,換個角度,如果定義了容錯度,那符合條件的都是精確的(或者說我這句話還是停留在小數據時代?這里的邏輯我沒有理順)。就像品質管理大師克勞斯比提出過零缺陷理論,我一直覺得是一個偽命題,缺陷是一定存在的,就看如何界定了;二、大量非結構化數據的處理,譬如說對新聞的量化、情感的分析,目前對非SQL的應用還有巨大的進步空間。
「一個東西要出故障,不會是瞬間的,而是慢慢地出問題的」。「通過找出一個關聯物並監控它,我們就能預測未來」。這句話當然是很認同,但不意味著我們可以放棄精確性,只是說我們需要重新定義精確度。之於項目管理行業,如果一個項目出了嚴重的問題,我們相信,肯定是很多因素和過程環節中出了問題,我們也失去了很多次挽救的機會。而我們一味的容忍混雜性的話,結果顯然是不能接受的。
3 不是因果關系,而是相關關系
這是本書對大數據理論的最大的貢獻,也是最受爭議的地方。連譯者都有點看不下去了。
相關關系我實在是太熟了,打小就學的算命就是典型的「不是因果關系,而是相關關系」。算命其實是對趨向性的總結,在給定條件下,告訴你需要遠離什麼,接近什麼,但不會告訴你為什麼那樣做。
我們很多時候都在說科學,然而,什麼是科學,沒有人能講清楚。我對科學的認識是:一、有一個明確的范圍;二、在這個范圍內樹立一個強制正確的公理;三、有明確的推演過程;四 可以復制。科學的霸道體現在把一切不符合這四個條件的事物都斥為偽科學、封建迷信,而把自己的錯誤都用不符合前兩條來否決。從這個定義來看,大數據不符合科學。
混沌學理論中的蝴蝶效應主要關注相關關系。它是指對初始條件敏感性的一種依賴現象,輸入端微小的差別會迅速放大到輸出端,但能輸出什麼,誰也不知道。
人類一旦放棄了對因果關系的追求,也就放棄了自身最優秀的品質:意志力。很多人不願意相信算命是擔心一旦知道了命運,就無法再去奮斗。即使我相信算命,也在探求相關關系中的因果要素。我放棄第一份工作的原因之一是厭倦了如此確定的明天:一個任務發出去,大概能預測到哪些環節會出問題,只要不去 follow,這些環節十有八九會出問題。
解析完這三大觀點,下面是我對大數據理論的一些疑惑。大數據是目前風行的反饋經濟中的重要一環,在金融、互聯網行業的應用最為廣泛,而這些行業都是大家所認為的高薪領域。很多時候我就在想,所謂無形的手所產生的趨勢究竟是不是無形的。比如幾家公司強推一個概念,說這是趨勢,不久就真的變成趨勢了。我們身邊活生生的例子就是天貓的雙十一和京東的618,一個巨頭開路,無數人跟風,自然就生造出購物節,至於合理不合理,追究的意義也不大,因為很多事情是沒有可比性的。這和沒有強制控制中心的蜂群思維又不一樣。
看完這本書,總是覺得作者說的過於絕對,也許是我的認識太淺了吧,所以最後用法演四戒做總結:
勢不可以使盡,使盡則禍必至
福不可以受盡,受盡則緣必孤
話不可以說盡,說盡則人必易
規矩不可行盡,行盡則事必繁
⑻ 大數據都體現在哪些方面
各個方面都可以用,比如我們經常能看到的,「預計堵車長度」「XX預警」等等,這些都是大數據分析的結果。
理論上大數據是一堆沒有關系的數據,從沒有關系的數據中找到其中的一些規律,就是大數據分析師的工作。
實際的應用中,我們會把數據做一些初步的篩選(找到一些相關的數據),然後再進行數據分析。
當然,大數據本身也有局限性,那就是去掉了特例(就好比天氣預報不準),特例也需要注意,可能特例才是打破問題的關鍵(比如某病毒的第一個抗體,這個就是特例,至少是從特例開始的),所以大數據也是有局限性的。
大數據能做的,首先是體現一種趨勢,其次是展現一種或幾種最可能的可能性,但是所有的這些僅僅只能作為參考,作為一種理論支撐。(還是那句話,不排除特例(僅僅依靠大數據,一點問題都沒有),但特例不是大多數)
當然,如果有一天,能將所有的因素量化,大數據也考慮了所有的因素,那麼依靠大數據做判斷還是可以的。