① 大數據產業過熱是偽命題嗎
現在國內很多人都是對大數據的誤導,甚至連國家需要什麼樣的大數據都不知道,還談什麼過熱不過熱?很多包括所謂的磚家和業內人士所講的大數據都是指「數據抓取」和「數據分析統計」,最後為「決策」作依據,其實這是對大數據錯含宏碰誤的認識和思維。大數據絕讓的難點不在於技術,而在於應用。這幫人完全把未來信息化社會想像的過於簡單,完全沒有想像力的人出來討論和定義大數據概念。真正的大數據其實是國家層面的戰略,大數據結構是扁平式(也稱分布式),這就決定了大數據主要的運用是國家化,社會化的特點。所以,大談談數據不僅僅是在生活、工作中簡單孤立的抓取、分析、統計或者決策依據,更是對接未來信息化社會物聯網,行政司法監管,軍事經濟等資源優化和集中管理、調配,這將有助於進一步解放生產力,節省地球有限的人類生命資源。建議你可以看一下陳龍劍的《互聯網+和大數據這樣實現偉大復興的中國夢》一文去看看。
所以,現在的中國國家性質的大數據談不上什麼過不過熱,而是熱的那頭全是瞎說。真正的大數據到現在還沒有開始,也就是在克強總理的推動下,政務大數據也是剛剛實施。怎麼能說過熱呢?
② 完整 大數據時代,傳統企業該如何轉型
先在本身行業中的供應鏈收集和分析,再設立目標來安排大數據應用,當進入大數據內涵時再訂立營運目標來達成,最後成熟了才能考慮轉型;
③ 再談大數據行業里的兩大誤區
再談大數據行業里的兩大誤區
大數據這個詞,恐怕是近兩年IT界炒的最熱的詞彙之一了,各種論壇、會議,言必談大數據,「大數據」這個詞,在IT界已經成了某果一樣的「街機」或者叫「街詞」,不跟風說兩句「大數據長,大數據短」都不好意思跟人說自己是搞IT的。從某種程度來講,大數據這個「圈」太亂了,一點不比「貴圈」好。
先從概念上來說,大數據是什麼?其實數據處理從人類誕生時期就有了,古人結繩記事就是基本的統計,統計自己吃了幾頓飯打了幾次獵等等;再往近說,皇帝每晚翻嬪妃的牌子也是數據處理,在翻牌子之前,要從一大堆牌子里分析「方便」、「熱度高」、「新鮮度」等指標;更近的說,數據倉庫早在大數據這個詞出現前就已經成熟發展了好幾十年了。所以說,大數據並不新鮮,只是某些技術如Hadoop、MR、Storm、Spark發展到一定階段,順應這些技術炒出來的概念,但是這些概念都基於一個基本的理念「開源」,這個理念是之前任何階段都沒有過,可以節省費用提高效率,所以大家才都往這個行業里扔火柴(話說現在很多人跟風亂吵,個人認為也不是壞事)。誤區一:只有搞大數據技術開發的,才是真正「圈內人」。筆者曾經參加過若干會議,70%是偏技術的,在場的都是國內各個數據相關項目經理和技術帶頭人,大家討論的話題都是在升級CDH版本的時候有什麼問題,在處理Hive作業的時候哪種方式更好,在Storm、Kafka匹配時如何效率更高,在Spark應用時內存如何釋放這些問題。參會者都一個態度:不懂大數據技術的人沒資格評論大數據,您要不懂Hadoop 2.0中的資源配置,不懂Spark在內存的駐留時間調優,不懂Kafka採集就別參加這個會!對了,最近Google完全拋棄MR只用Dataflow了,您懂嗎?不懂滾粗!在這里我想說,技術的進步都是由業務驅動的,某寶去了IOE才能叫大數據嗎,我作為一個聾啞人按摩師用結繩記事完成了對於不同體型的人,用什麼按摩手法進行全流程治療,就不叫大數據分析了嗎?技術發展到什麼程度,只有一小部分是由科學家追求極致的精神驅動,大部分原因是因為業務發展到一定程度,要求技術必須做出進步才能達成目標的。所以,真正的大數據「圈內人」至少要包含以下幾種人:一、業務運營人員。比如互聯網的產品經理要求技術人員,必須在用戶到達網站的時候就算出他今天的心情指數,而且要實現動態監測,這時候只能用Storm或者Spark來處理了;比如電信運營商要求做到實時營銷,用戶進入營業廳的時候,必須馬上推送簡訊給用戶,提示他本營業廳有一個特別適合他的相親對象(呈現身高、三圍、體重等指標),但是見面前要先購買4G手機;再比如病人來到銀行開戶,銀行了解到用戶最近1周曾經去醫院門診過兩次,出國旅遊過3次,帶孩子游泳兩次,馬上客戶經理就給客戶推薦相關的銀行保險+理財產品。這些業務人員,往往是驅動技術進步的核心原因。二、架構師。架構師有多麼重要,當一個業務人員和一個工程師,一個說著業務語言,一個說著技術術語在那裡討論問題的時候,工程師往往想著用什麼樣的代碼能馬上讓他閉嘴,而架構師往往會跳出來說「不,不能那樣,你這樣寫只能解決一個問題並且會製造後續的若干問題,按照我這個方案來,可以解決後續的若干問題!」一個非技術企業的IT系統水平,往往有70%以上的標准掌握在架構設計人員手裡,盡快很多優秀的架構師都是從工程師慢慢發展學習而來的,IT架構的重要性,很多企業都意識到了,這就是很多企業有CTO和CIO兩個職位,同樣重要!架構之美,當IT系統平穩運行的時候沒人能感受到,但是在一個煙囪林立、架構混亂的環境中走過的人眼中,IT開發一定要架構現行,開發在後!三、投資人。老闆,不用說了,老闆給你吃穿,你給老闆賣命,天生的基礎資料提供者,老闆說要有山便有了山,老闆說要做實時數據處理分析,便有了Storm,老闆說要做開源,便有了Hadoop,老闆還說要做迭代挖掘,便有了Spark……四、科學家。他們是別人眼中的Geek,他們是別人眼中的高大上,他們是類似於霍金一樣的神秘的早出晚歸晝伏夜出的眼睛男女,他們是驅動世界技術進步的核心力量。除了世界頂級的IT公司(往往世界技術方向掌握在他們手中),其他公司一般需要1-2個科學家足以,他們是真正投身於科學的人,不要讓他們去考慮業務場景,不要讓他們去考慮業務流程,不要讓他們去計算成本,不要讓他們去考慮項目進度,他們唯一需要考慮的就是如何在某個指標上擊敗對手,在某個指標上提高0.1%已經讓他們可以連續奮戰,不眠不休,讓我們都為這些科學家喝彩和歡呼吧。在中國,我認為真正的大數據科學家不超過百人……五、工程師。工程師是這樣一群可愛的人,他們年輕,沖動,有理想,又被人尊稱為「屌絲」「鍵盤黨」,他們孜孜不倦的為自己的理想而拼搏,每次自己取得一點點進步的時候,都在考慮是不是地鐵口的雞蛋灌餅又漲了五毛錢。他們敏感,自負,從來不屑於和業務人員去爭論。工程師和科學家的不同點在於,工程師需要頻繁改動代碼,頻繁測試程序,頻繁上線,但是最後的系統是由若干工程師的代碼組合起來的。每個自負的工程師看到系統的歷史代碼都會鄙視的發出一聲「哼,這垃圾代碼」,之後便投入到被後人繼續鄙視的代碼編寫工作中去。六、跟風者。他們中有些是培訓師,有些是殺馬特洗剪吹,有些是煤老闆有些是失足少女。他們的特點就是炒,和炒房者唯一不同的就是,他們不用付出金錢,他們認為只要和數據沾邊就叫大數據,他們有些人甚至從來沒碰過IT系統,他們是渾水摸魚、濫竽充數的高手,他們是被前幾種人鄙視的隱形人。不過我想說,歡迎來炒,一個行業炒的越凶,真正有價值的人就更能發揮自己的作用。誤區二:只有大數據才能拯救世界大數據目前的技術和應用都是在數據分析、數據倉庫等方面,主要針對OLAP(Online Analytical System),從技術角度來說,包含我總結的兩條腿:一條腿是批量數據處理(包括MR、MPP等),另一條腿實時數據流處理(Storm、內存資料庫等)。在此基礎上,部分場景又發現MR框架或實時框架不能很好的滿足近線、迭代的挖掘需要,故又產生了目前非常火的基於內存數據處理Spark框架。很多企業目前的大數據框架是,一方面以Hadoop 2.0之上的Hive、Pig框架處理底層的數據加工和處理,把按照業務邏輯處理完的數據直接送入到應用資料庫中;另一方面以Storm流處理引擎處理實時的數據,根據業務營銷的規則觸發相應的營銷場景。同時,用基於Spark處理技術集群滿足對於實時數據加工、挖掘的需求。以上描述可以看出,大數據說白了就是還沒有進入真正的交易系統,沒有在OLTP(Online Transaction system)方面做出太大的貢獻。至於很多文章把大數據和物聯網、泛在網、智慧城市都聯系在一起,我認為大數據不過是條件之一,其餘的OLTP系統是否具備,物理網路甚至組織架構都是重要因素。最後還想說,大數據處理技術,再炫如Google的Dataflow或成熟如Hadoop 2.0、數據倉庫、Storm等,本質上都是數據加工工具,對於很多工程師來說,只需要把數據處理流程搞清楚就可以了,在這個平台上可以用固定的模版和腳本進行數據加工已經足夠。畢竟數據的價值70%以上是對業務應用而言的,一個炫詞對於業務如果沒有幫助,終將只是屠龍之術。任何技術、IT架構都要符合業務規劃、符合業務發展的要求,否則技術只會妨礙業務和生產力的發展。
隨著時代變遷,大浪淘沙,作為數據行業的一員,我們每個人都在不同的角色之間轉換,今天你可能是科學家,明天就會變成架構師,今天的工程師也會變成幾年後的科學家,部分人還終將步入跟風者的行列。誤區三:數據量特別大才叫大數據在「數據界」存在這樣有一波人,他們認為「只有Peta級以上的才叫大數據,甚至到了Zeta以上才叫大數據,目前還沒有到真正的大數據時代!」,每次聽到這樣的話,我就知道這些人受IOE某巨頭的4V理論中的「容量」影響太巨大了。對此,我想說的第一句話是「盡信書不如無書,盡信巨頭不如去IOE」,去IOE不只是要從硬體做起,還要從思想上敢於挑戰巨頭做起,盡管很多IT界的經典理論都是傳統巨頭提出的,但是隨著挑戰者的出現,萌發了新的思想和技術後,傳統巨頭會被慢慢顛覆,這也是我們人類前進向前的一個重要因素。如果我們還停留在迷信巨頭的時代,如此刻板教條的去追求一個概念,那麼就不會有現在的Hadoop,不會有現在的Spark,不會有現在的特斯拉,不會有機器學習人工智慧,更不會有未來的第N次工業革命。首先我想強調,大數據技術真的不是一個新鮮詞,在之前的文章中我已經說過,大數據的本質還是數據,數據這個行業已經發展了若干年,而數據量的規模永遠是超出該時代的想像的,比如十幾年前,一張軟盤的數據量也就1.44M,當時的數據如果達到1T都讓旁人咂舌。那麼按數據量的標准,當時如果有人收集了1T數據就已經進入大數據時代了嗎?顯然不是!所以我想說,數據量的大小並不是衡量大數據的標准,如果按數據量去判斷是否大數據的話,那麼「大數據」這個詞真的是一個偽命題,就如同「老虎比如是老的,小伙必須是小的,巨頭必須是腦袋大的,飛人必須是長翅膀的」這種純粹字面意思去定義的話題一樣。那麼再回過來說,大數據的概念是什麼?首先,大數據是一個完整的生態體系,從數據的產生、採集、加工、匯總、展現、挖掘、推送等方面形成了一個閉環的價值鏈,並且通過每個環節的多種技術處理後,為所在業務場景提供有價值的應用和服務。其次,大數據的核心是什麼?一方面是開源,一方面是節流,目前大數據技術的核心目標都是通過低成本的技術更好的滿足對數據的需求(尤其是處理近年來更多的非結構化數據),並在在滿足需求的基礎上盡可能多的為企業節省投資。說一千道一萬,大數據的核心理念還是滿足應用需求,有明確目標的技術叫生產力,沒有業務目標的技術叫「浪費生命力」。誤區四:為了大數據而大數據這個誤區我認為是目前最嚴重的。在部分企業中,追求技術一定要最新、最好、最炫,一定要拿到國際先進、世界一流才行。所有的企業,不分行業不分性質不分地域不分年代,一律高喊「趕超BAT,大數據助力**企業達到**目標」,接下來就是先去IOE,然後投資買集群,把之前的各種高性能小型機大型機都不用了,之前買的O記授權全部停了,之前的幾十年投資一夜之間作廢,又投入了更多的資源去追趕「大數據」。同學們,這種勞民傷財的事情相信大家每天都會聽到或者親眼看到,很多企業不計成本就是為了博領導一笑,這得是多麼大的誤區啊。對此我想說:第一,從技術上來說,比如BAT或者很多互聯網企業去追求大數據,是因為業務發展的需要。任何一個互聯網企業一出生就是為了流量和點擊而活著,這就意味這大量的非結構化數據需要進行快速處理,這時候就決定了互聯網企業只能通過一些並發手段去分解底層的數據,然後進行快速加工,並滿足其服務用戶和市場的需要。互聯網企業的業務流程和業務模型就決定了必須得採用大數據技術。反之,很多企業根本用不著這些技術,有些企業簡單的一兩個Excel文件裡面做幾個公式就可以滿足它的發展,而且數據的周期還是按月處理的,根本不需要運用這些技術。第二,從投資上來說,互聯網企業出生都是平民,根本買不起大型設備,就算一夜暴富後,也沒有一個傳統的小型機大型機可以更好的滿足它們的發展,故只能另闢蹊徑創造價值鏈和標准了,在之前的低投資、輕量級架構上,不斷進行小量的線性硬體投資滿足業務的發展。反倒是一些傳統企業,甚至是巨無霸,其投資計劃已經在一年前明確,而且在原來的基礎上投資會更有ROI(投資回報率),現在反倒為了追求大數據的口號,犧牲了之前的大量投資,除了「得不償失」,剩下的只能是滿地的節操了。大數據技術甚至任何一種技術都是為了滿足特定的業務目標而生的,在具備了明確的業務目的後,順勢設計符合自身業務架構的技術架構,才是一種科學的健康的發展觀。如果您是一位老闆、CEO或者投資人,千萬要明白,大數據技術對於企業來說,有時候像水,而企業的業務目標就是那艘船,「水能載舟,亦能覆舟」。隨著生產關系的不斷調整,又會出現若干輪生產力的不斷進步,大數據之後的技術也會日新月異的進步著,比如現在開始潮流涌現的「機器學習、深度學習」等諸多的人工智慧方面的技術,也出現了比如「小數據」、「微數據」等更細方向技術的細分,在技術的洪流到來時,只要保持清晰的以滿足業務為導向的頭腦,根據自身的業務需要設計自身的技術架構,就不會被各種流派,各種概念淹沒。
④ 大數據時代讀後感 [說說大數據的三個「不是」]
有人說,大數據是個謊言;有人說,大數據是個偽命題。大數據市場確實存在。Gartner預測,到2015年,70%的信息基礎架構擴展與投資的主要驅動因素是業務分析需求。以前,人們把精力主要放在如何存儲好海量的數據上,而沒有想到深入挖掘數據的內在價值。隨著數據與業務之間的關系越來越緊密,以及一些大數據分析工具不斷涌現,數據分析成了企業決策的前提。
大數據不一定是復雜的分析
許多人一提到大數據,首先想到的是復雜的數據分析。這讓有些希望採用大數據分析工具的用戶產生了畏難情緒,也讓有手念叢些用戶產生了誤解,認為大數據分析只是那些擁有復雜業務流程和海量數據的大企業的事。市場研究機構麥肯錫的研究人員表示:「要創造新的重大價值,並不一定要採用復雜的大數據分析方法,有時只要能保證數據的可用性或對數據應用進行基本的分析,就能獲得所需的重要價值。」
不同的企業或一個企業內部不同的部門對數據分析和數據價值的理解都不相同。企業處於不同的信息化發展階段,也會設定不同的數據分析目標,採用不同的數據分析工具。正是基於此,戴爾率先提出了大數據成熟度模型。戴爾公司全球企業級解決方案副總裁Cheryl Cook表示:「這一模型已經得到了業內許多分析機構的認可。所有行業以及所有數據應用都適用於此模型。」
如下圖所示,大數據成熟度模型分成五個階段。第一個階段,數據處於混亂狀態,數據存儲無章可循,數據難以訪問,企業的信息系統處於高風險狀態。第二個階段,實現數據的保留。在這個階段,企業被動地對數據進行存儲。數據雖然經過一定的處理,但還不具有高質量,數據的訪問也會受到一定限制。第三個階段,實現存儲的優化。在這個階段,通過對存儲系統的進一步優化以及基於策略的控制與管理,用戶可以逐步發現數據的價值。第四個階段,實現簡單的分析。在存儲優化的基礎上,用戶可以進行數據建模和簡單的數據分析,對歸檔數據進行搜索等。第五個階段,實現復雜的分析。在這個階段,大數據分析工具將得到充分應用,用戶可以進行比較復雜的建模、分析和決策。經過上述五個階段,曾經雜亂無章的數據也將經歷從數據畢櫻到信息再到知識的轉變過程,最終成為企業決策的重要依據。
這個大數據成熟度模型可以解答人們對於大數據應用的幾個疑惑。第一,用戶使用大數據分析工具,並不意味著一定要進行復雜的分析。舉例來說,處於存儲優化階段的用戶就可以實現無障礙的數據訪問,並能獲得所需的數據價值。第二,大數據的應用要經歷一個逐步完善的過程,必須循序漸進,先做好數據存儲和優化,然後再進行數據分析。第三,大數據解決方案通常包括兩個部分:一是大數據保留解決方案,二是大數據分析解決方案。將兩類解決方案有機地結合在一起,才能有效降低大數據分析應用的成本,更好地挖掘數據的價值。Cheryl Cook表示,戴爾可以提供上述兩種解決方案。一方面,戴爾可以提供針對結構化和非結構化數據的大數據保留解決方案,主要包括存儲虛擬化與整合、應用程序優化、數據保護、災難恢復以及數據保留與管理解決方案;另一方面,戴爾還能提供支持Hadoop、Cloudera等開源軟體的大數據分析解決方案。
記者曾與包括大慶油田、太平洋保險公司等在內的一些用戶進行過交流。它們目前都沒有計劃部署大數據應用。「從全球范圍來看,大數據應用還處於起步階段。」戴爾亞太及日本地區商用事業部企業解決方案副總裁Philip A. Davis表示,「與雲計算興起時一樣,可能要經過兩三年的市場培育,用戶才能逐漸接受大數據應用。」
中國東方航空股份有限公司信息部總經理嚴振紅介紹說:「在大數據的概念出現以前,我們就在做客戶數據、經營數據的分析工作。但是客戶資料庫、經營資料庫等都是相互獨立的,數據不能共享。現在,我們要做的是將這些系統的數據整合起來,統一進行分析。」
Hadoop不是萬能的
簡單來說,Hadoop是一個能夠對大量數據進行分布式處理的軟體框架。Hadoop最獨特的優勢在於為用戶提供了一個分布式的、高容錯的文件系統和加速數據處理高毀的辦法。隨著Web 2.0、社交網站的大規模興起,人們需要一個高效的處理非結構化數據的平台。Hadoop正好可以滿足人們的需求。有些人甚至在Hadoop和大數據之間劃上了等號。Hadoop能夠解決大數據應用的所有難題嗎?
「Hadoop是一個復雜的工具套件。如果沒有廠商或專業技術人員的幫助,用戶自己部署Hadoop是一件十分困難的事。目前,Hadoop的應用並不普及。互聯網用戶是最早採用Hadoop平台的。」Philip A.Davis表示,「如果想讓大數據解決方案充分發揮其作用,就必須搭建一個高效的信息基礎架構,實現信息基礎架構的自動化、智能化,同時提高其可管理性。」
Hadoop的應用是有一定技術門檻的。如今,許多IT廠商都推出了基於Hadoop的解決方案包,其目的是幫助用戶簡化Hadoop的部署與應用。Philip A.Davis表示:「戴爾提供的基於Hadoop的大數據分析方案可以將Hadoop的部署周期從原來的兩個月縮短至兩天。」
VMware全球高級副總裁范承工也認為,由於缺少精通Hadoop技術的專業人才,Hadoop的部署對於用戶來說是一件費時費力的事。如今,VMware可以將Hadoop部署在虛擬化架構之上,將部署工作從半自動化變為全自動化,從而減少了人工干預,使得Hadoop的部署變得更加簡單,也不容易出錯。
「很多中國企業的CIO認為,大數據解決方案是有價值的,但實施起來確實有許多困難。」戴爾全球副總裁、中國區大型企業及公共事業部總經理容永康舉例說,「國內懂得在Hadoop上進行開發的專業技術人員非常少。一些金融行業的用戶很想現在就部署大數據解決方案,但是苦於找不到既懂Hadoop技術,又懂得金融業務的專業人才。」
Informatica首席技術官James Markarian表示:「在IT環境中,Hadoop不可能作為一個孤島存在。為了讓Hadoop跨越不同平台,用戶需要將Hadoop作為其IT大環境中的一部分來管理,並通過Hadoop重復使用他們的開發技巧、資產及數據,同時還要統籌管理全部數據。」
在美國市場上,70%的大數據應用處理的還是結構化的數據。從技術的角度看,雖然Hadoop也能處理結構化的數據,但是目前基於Hadoop的大數據分析解決方案主要還是用於處理非結構化的數據。因此,用戶處理結構化數據和非結構化數據通常是用兩套不同的分析工具。這種混合的大數據處理模式是一種普遍現象。
從未來的發展看,非結構化數據的快速增長是大數據分析的主要驅動因素。從這個角度講,Hadoop的應用前景還是十分廣闊的。
大數據不僅僅是一個解決方案
Cheryl Cook強調說:「用戶千萬不能認為,只要購買了一個大數據的解決方案,就能解決所有的問題。許多中國用戶還沒有充分意識到數據能夠帶來多大的價值。戴爾收購佩羅系統公司,增強了自身的顧問咨詢能力,可以幫助客戶分析數據能夠帶來什麼樣的價值。這為用戶日後正確部署大數據解決方案奠定了基礎。」
有些廠商通過收購或其他方式,很快就推出了大數據解決方案,並將這些解決方案推銷給客戶。Cheryl Cook表示:「戴爾先從客戶的需求入手,幫助客戶分析當前遇到的實際問題是什麼,然後進一步明確客戶能從數據中獲取什麼樣的價值,最後才是提供量身定製的解決方案。」戴爾大數據解決方案的特色在於開放化和多樣化。戴爾既可以提供基於開源軟體的大數據解決方案,也可以提供支持微軟、SAP等軟體的大數據解決方案。針對Hadoop平台,戴爾還能提供一些附加的服務,目的是為了讓Hadoop平台能夠滿足客戶的個性化需求。在部署大數據解決方案之前,用戶首先要搞清楚,能從大數據解決方案中獲得什麼樣的價值,然後再制定具體的實施規劃,接下來就是構建高效的信息基礎架構,最後才是部署大數據分析工具。
⑤ 看互聯網大數據時代的喜與憂
看互聯網大數據時代的喜與憂
近來,「大數據」這個詞非常的火熱。隨著科技與互聯網的進步,數據似乎已經成為改變一家企業所必不可少的利器。尤其是隨著大數據時代的到來,一些曾經非常棘手的問題都能夠迎刃而解。比如Google能夠先於美國的公共衛生機構發現流感的發生以及傳播,甚至能夠精確到某個地域,准確率曾高達97%,而這在小數據時代是完全無法想像的。
大數據時代無論是為企業還是為政府亦或是個人都帶來了極大的便利。企業能夠通過數據分析准確判斷出客戶的興趣愛好、購買意向並以此來向客戶推薦相關性最高的產品。而這其中做得最為成功的尤屬亞馬遜。亞馬遜在最開始的時候採用的是圖書評論形式來向用戶推薦圖書,但是當擁有大量的用戶數據之後轉而使用數據分析的形式來向用戶推薦圖書。成交率比之前有大大的提高,而且再也不需要評論編輯這樣也可節約一定的人力成本。
在大數據時代,人們無需在苦苦尋找事物的因果關系。僅通過分析數據來得出相關關系即可,也就是說人們只要知其然而無需知其所以然。比如說,埃齊奧尼開發的Farecast系統能夠從現有的航空公司大量的機票銷售數據當中分析預測出什麼時候購買機票最為便宜。但是卻並不知道是什麼讓機票變得便宜了,而且這也並不是重點,人們只需要知道結果即可。
此外,大數據時代另一個進步在於「樣本=全體」。與小數據時代的抽樣統計相比,顯然這樣的方式更具有精確性。因為,大數據時代是將所有的數據作為樣本區分析的,能夠更加准確並且及時的發現人們曾經所發現不了的細節,而這些細節很可能會關乎成敗。而且對於這些數據人們不再盲目追求精確,而是要包含一定的混雜數據。因為這也是屬於大數據當中的一部分,只有數據越全面結果才能夠越准確。
最為關鍵的是大數據在商業上面的價值,要比以往任何時候都顯得尤為重要。數據的收集、分析也比以往要變得更為廉價、方便。企業只要通過大量的客戶數據分析就能夠准確制定下一步的經營策略,以及產品改進。比如,一家汽車企業能夠通過對客戶的坐姿數據的分析來製作汽車的防盜系統、銀行能夠根據你的社交數據來分析你是否能夠償還貸款。雖然這些看起來並無多少關聯,但是大數據讓這一切變為可能。
盡管大數據時代的到來有著諸多的好處,但是任何事物總有兩面性。大數據時代在給我們帶來驚喜的同時也給我們帶來許多困擾。比如,我們個人的隱私問題,在大數據時代我們身邊每時每刻都會有「第三隻眼」在時刻盯著我們的一舉一動。你的任何行為都有可能成為某個商家或是機構的分析數據並且隨時有可能將之公諸於眾。在大數據時代個人隱私或將成為一個「偽命題」。一旦被人非法利用,後果將不堪設想!
而且在大數據時代,人們的思維或許一時還很難轉變。所以,如何正確分析並利用大數據就成為一個亟待解決的問題。盡管大數據能夠幫人預測某種趨勢,諸如根據某人過去的行為預測其可能犯罪之類的,但是我們並不能夠依據這些預測就將其定罪。畢竟,事情還沒有發生,盡管可以預防但是卻不能夠懲罰。
最後一點,在大數據時代人們會過於依賴對數據的分析。一旦數據出錯,那麼人們根據數據所做出的決策與判斷都將是錯誤的。如果在企業運作當中,一次錯誤的數據分析很容易將企業毀於一旦。而且,數據分析讓一切都變得標准化。但是,這並不是完全正確的。諸如一些產品設計,需要設計人員的靈感、需要一些藝術上的創造而不僅僅是一些冰冷的數據。Google在數據的運用上可謂是爐火純青,但是Google也難免會犯一些常識性的錯誤。因為Google在招募人才的時候選擇了統一的成績數據標准作為招聘的主要依據。但是,這些並不足以表明一個人究竟是否是人才,但是Google卻固執的堅守著這一錯誤行為。這就是對於大數據的過度依賴,所造成的。
我說過,一件事情總有兩面性。大數據在幫人類解決問題的同時也在為人類創造新的問題,對於大數據的使用也同樣如此。盡管大數據有著足夠強大的力量,但是我們最需要改善的不是資料庫的大小、精準與否,而是我們的思維,因為思維才是駕馭科技最根本的力量!
以上是小編為大家分享的關於看互聯網大數據時代的喜與憂的相關內容,更多信息可以關注環球青藤分享更多干貨
⑥ 《大數據》讀後感字
《大數據》讀後感2000字
如今,我們正處於一個大數據時代,有時候數據給了我們有力的證明。以下是、《大數據》讀後感2000字,歡迎閱覽!
這兩年,大數據,雲計算的思想就像小蘋果的音樂一樣,傳的到處都是,每一個公司不管是互聯網公司還是傳統企業,都標榜自己的大數據。
1、實體物聯網與虛擬物聯網
曾幾何時,物聯網的概念鬧得風生水起,龐大的物聯網能夠讓世間大量的物體,都能夠被檢測 並聯網,包括了人、車、房等一切能夠被聯網的物體,這些物體都能夠以種方式被感知他的存在,並對其信息記錄在案,以供使用。在若干年前,這還是一種看似遙不可及的事物,要對每個物體都貼上一個所謂的RFID的標簽,顯得不切實際。如今,隨著手機的大量使用,人類本身也被加入了物聯網中。為什麼要物聯網?是為了獲取什麼?要知道物聯網獲取了什麼,只需要看看在一個物體在沒有加入物聯網與加入物聯網之後,我們多出了哪些東西便能夠知曉。那麼,很明顯,我們需要通過某種方式來獲取該物體的信息,這種存儲下來的信息,就叫做——數據。
物聯網產生的數據是實體的物品之間的信息,而現在的互聯網上,占最大數據量的,是虛擬物品,或者叫做網路虛擬物品。由於網路物體是直接寄生於網路,具有能夠方便的接入網路的特徵,因此,在獲取實體物體信息還有一定難度的時期,佔有很大優勢。但今後實體的物聯網產生的數據量一定會不斷增加,或許,能夠超越網路上的物物相連數據量。
網路的廣泛使用,使得信息的產生於傳遍變得容易,每個接入網路的人都以一定的角色存在,都是網路的信息的創造者。對於所產生的信息而言,每個接入網路的人又身兼多角,對於網路服務商,他是網路使用者的角色;對於門戶網站而言,他是使用的用戶;對於社交網站而言,我們則扮演一個虛擬或者真實的網路角色;對於瀏覽器而言,他是一系列的瀏覽網頁、一些列滑鼠動作的角色… 不同的角色取決於對方需要從我們的行為中獲取哪些信息。將網路上各種角色看成是虛擬的物體,那麼,這種虛擬物體構成的虛擬物聯網便產生了巨大的數據量。經歷過一直以來缺乏信息獲取渠道的日子,現在,既然信息獲取變得如此容易,那麼,必然迎來信息量暴增的時代——大數據時代。
2、思維的轉變
技術的改變,使得我們思維方式也要隨之發生變化。在過去的小數據時代,由於獲取信息、存儲信息、整理信息都是費時費力的活,我們只能精打細算,捉摸著如何以最小的代價、最快的方式來收集盡可能准確的信息。之所以會有抽樣統計的方式,是受技術所限,無法獲得全體的樣本,或者就算獲取了也無法在合理的時間內進行處理。由於信息獲取代價大,使得我們不得不在獲取信息前,就把一切都想清楚,才能夠著手處理。這就像在計算機出現的初期,使用紙袋來編碼的時期,一次出錯的代價太大,所以人們不得不在輸入前將代碼驗證過無數遍之後才敢輸入到機器中。而現代計算機讓編碼的效率大大提升,這才使得人們能夠創造出更加強大的軟體。人們不需要在著手編碼前就對代碼過分深思熟慮,因為機器會幫助你解決一些問題。因此,那些擔心由於獲取數據太方便,進行數據處理、分析代價太小而使人們變得懶惰或者做事欠考慮的傢伙,真是杞人憂天。歷史上,技術的進步都會提升人類的生產力,但卻沒有讓人們變得懶惰,因為與此同時,慾望也隨之增長。人類只會變得更偉大。
因此,大數據時代,這個數據更加全面的時代,我們可以涉足一些之前由於缺乏數據而無法涉及的領域,例如——預測。這是一個令人興奮的領域,但其實這個領域早有苗頭,而且大家都是受益者。我們平時使用的輸入法中的智能聯想功能,能夠根據我們之前輸入的文字,來預測我們接下來有可能輸入的文字,以節省我們的輸入時間。這種演算法里,沒有人工智慧,而只有人們大量的輸入習慣的統計,通過大量數據的統計來預測,是一個統計學的方式而非加入了特有的規則或者邏輯。這便引出了在大數據時代,對於信息處理的一種重要方式,基於統計,得出不同個體的相關關系,卻無需了解其因果關系,而我們則受益於相關關系。這種方式,看似有些投機取巧,卻能夠在關鍵時刻令我們處於優勢地位。我們已經習慣了先知道某些事物的因果邏輯,繼而推斷出相應的結果。但世間總會有一些令人無法用合理的邏輯進行解釋的現象,若通過大數據分析,我們能夠跳過邏輯階段直接享用某些一些結果(沃爾瑪的啤酒加尿布案例),豈不樂哉。當然,嚴密的邏輯永遠是值得尊敬的。
3、互聯網的黏性
在經歷過了從廣度上通過新花樣來吸引用戶的時代,由於技術的提高,一個創業者在一個新的領域開辟的東西很容易被其他人所復制。在這個時候,深度很重要。特別是購物網站、微薄、門戶網站這類信息量大的網站,越是了解一個用戶,優勢就越大。所以,在技術已經不是最重要的因素的時代,如何增加用戶的黏性、忠誠度便是首要的。通過用戶之前的信息,來推測用戶的喜好,給用戶推薦相應的信息或物品。當你越了解一個用戶,而別人卻不了解時,這個用戶就越離不開你。微薄中有他的`智能排序功能、新聞門戶中有「今日頭條」應用,各類購物網站有他的推薦演算法(但這個純粹為了增加消費而非增加用戶黏性),都能夠根據用戶之前的瀏覽、偏好來給出相應的推薦。這些的基礎,都是擁有用戶的行為記錄,否則,都無從談起。
各行各業,都在瘋狂的抓緊時機,獲取數據,擁有足量的數據,那一切就變得皆有可能。
凡是過去,皆為序曲是大數據業者最喜歡引用的語句。大數據是現在的潮流,大數據時代被認為是了解大數據的初級讀物。近期連續讀了兩遍,第二遍是為了寫這篇讀後感,總體而言,值得一看,但細節方面卻需要討論了。
維基網路對大數據的解釋:Big data,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。
有人說現在是讀圖時代,除去小說、心靈雞湯以外,現在的暢銷書基本都有圖片,這本書是一個特例
首先嘗試解析一下作者的三大觀點,這三大觀點是大數據業者很喜歡引用的三句話:
1 不是隨機樣本,而是全體數據
我想所有人都能意識到對全體數據的分析優於對隨機樣本的分析,但在現實中我們經常拿不到全體數據:一是數據的收集方法,每一種方法都有適用的范圍,不太可能包羅萬象;二是數據分析的角度,戰斗機只能統計到飛回來的飛機上的彈孔,而墜毀的則無法統計,沃德通過分析飛回來的戰斗機得出來最易導致墜毀的薄弱點;三是處理能力跟不上,就像以前的天氣預報太離譜是因為來不及算那些數據。「采樣分析是信息缺乏時代和信息流通受限制的模擬數據時代的產物」,作者顯然只關注了一部分原因。
從語言的理解上看,什麼是全體數據,究竟是「我們需要的所有數據」,還是「我們能收集到的所有數據」,書中的很多商業案例中,處理的只是「我們能收集到的所有數據」,或者說是「我們認為的全體數據」。人對自然的認識總是有限的,存在主義認為世界沒有終極的目標。書中舉例「Farecast使用了每一條航線整整一年的價格數據來進行預測」,而「整整一年」就是一個采樣,或者是「我們需要的所有數據」。
從歷史的角度看,國外的托勒密建亞歷山大圖書館唯一的目的是「收集全世界的書」,實現「世界知識總匯」的夢想,國內的乾隆匯編四庫全書,每個收集的過程都有主觀因素在裡面,而他們當時都認為可以收集全部的書籍,到最後,我們也沒有得到那個夢中的全體。
2 不是精確性,而是混雜性
既然我們過去總是在抽樣,那本身就是在一個置信水平下,有明確的容錯度或者是偏差值。人類永遠知道我們是在精確性受限的條件下工作。同時,作者本身也承認 「錯誤並不是大數據固有的特性,而是一個亟需我們去處理的現實問題,並且有可能長期存在」。那大數據的特徵究竟是精確性還是混雜性?
由此衍生出一個問題,大數據的品質如何控制:一、本身就不要求精確,但是不精確到何種程度是需要定義的,否則就亂套了,換個角度,如果定義了容錯度,那符合條件的都是精確的(或者說我這句話還是停留在小數據時代?這里的邏輯我沒有理順)。就像品質管理大師克勞斯比提出過零缺陷理論,我一直覺得是一個偽命題,缺陷是一定存在的,就看如何界定了;二、大量非結構化數據的處理,譬如說對新聞的量化、情感的分析,目前對非SQL的應用還有巨大的進步空間。
「一個東西要出故障,不會是瞬間的,而是慢慢地出問題的」。「通過找出一個關聯物並監控它,我們就能預測未來」。這句話當然是很認同,但不意味著我們可以放棄精確性,只是說我們需要重新定義精確度。之於項目管理行業,如果一個項目出了嚴重的問題,我們相信,肯定是很多因素和過程環節中出了問題,我們也失去了很多次挽救的機會。而我們一味的容忍混雜性的話,結果顯然是不能接受的。
3 不是因果關系,而是相關關系
這是本書對大數據理論的最大的貢獻,也是最受爭議的地方。連譯者都有點看不下去了。
相關關系我實在是太熟了,打小就學的算命就是典型的「不是因果關系,而是相關關系」。算命其實是對趨向性的總結,在給定條件下,告訴你需要遠離什麼,接近什麼,但不會告訴你為什麼那樣做。
我們很多時候都在說科學,然而,什麼是科學,沒有人能講清楚。我對科學的認識是:一、有一個明確的范圍;二、在這個范圍內樹立一個強制正確的公理;三、有明確的推演過程;四 可以復制。科學的霸道體現在把一切不符合這四個條件的事物都斥為偽科學、封建迷信,而把自己的錯誤都用不符合前兩條來否決。從這個定義來看,大數據不符合科學。
混沌學理論中的蝴蝶效應主要關注相關關系。它是指對初始條件敏感性的一種依賴現象,輸入端微小的差別會迅速放大到輸出端,但能輸出什麼,誰也不知道。
人類一旦放棄了對因果關系的追求,也就放棄了自身最優秀的品質:意志力。很多人不願意相信算命是擔心一旦知道了命運,就無法再去奮斗。即使我相信算命,也在探求相關關系中的因果要素。我放棄第一份工作的原因之一是厭倦了如此確定的明天:一個任務發出去,大概能預測到哪些環節會出問題,只要不去 follow,這些環節十有八九會出問題。
解析完這三大觀點,下面是我對大數據理論的一些疑惑。大數據是目前風行的反饋經濟中的重要一環,在金融、互聯網行業的應用最為廣泛,而這些行業都是大家所認為的高薪領域。很多時候我就在想,所謂無形的手所產生的趨勢究竟是不是無形的。比如幾家公司強推一個概念,說這是趨勢,不久就真的變成趨勢了。我們身邊活生生的例子就是天貓的雙十一和京東的618,一個巨頭開路,無數人跟風,自然就生造出購物節,至於合理不合理,追究的意義也不大,因為很多事情是沒有可比性的。這和沒有強制控制中心的蜂群思維又不一樣。
看完這本書,總是覺得作者說的過於絕對,也許是我的認識太淺了吧,所以最後用法演四戒做總結:
勢不可以使盡,使盡則禍必至
福不可以受盡,受盡則緣必孤
話不可以說盡,說盡則人必易
規矩不可行盡,行盡則事必繁
⑦ 大數據里的真命題和偽命題
大數據里的真命題和偽命題
大數據必會深刻的改變這個世界,這點是毋庸置疑的,但從很多當下的討論來看,大家似乎在大數據的使用邊界上走入了誤區,這篇文章想具體探討下大數據能幹什麼以及不能幹什麼上的原則問題。以上是小編為大家分享的關於大數據里的真命題和偽命題的相關內容,更多信息可以關注環球青藤分享更多干貨
⑧ 平安健康CTO王齊:大數據其實是一個偽命題
平安健康CTO王齊:大數據其實是一個偽命題
近日,中國平安宣布旗下首款互聯網健康管理產品,“平安好醫生”正式上線。該創新產品定位於用戶隨身的“移動醫生”,以醫生資源為核心,提供實時咨詢和健康管理服務。
為此,新浪科技專訪了其CTO王齊,在他看來,對於健康智能硬體來說,“大數據”其實是一個“偽命題”,除了奪人眼球,並沒有實際的功用。
王齊稱,在開發 “平安好醫生”時,公司放棄了開發自有品牌可穿戴設備的想法,在硬體策略上選擇開放性地與硬體廠商合作,集中精力做好在線健康咨詢-----解決誰來分析和解讀數據這一核心問題。
“大數據”其實是一個“偽命題”
在王齊看來,可穿戴設備很少有達到醫用級別的,它們提供的信息往往是噪音信息,所謂採集數據,經常是建立在“噪音”而不是“信號”上。另外,每個人的情況都是個性化的,從生活習慣到成長經歷,從基因到體質,這種差異化使得數據之上的價值分析變得尤為重要。比如判斷溫度對哪些病症有幫助,單看溫度基本沒有什麼用。
他指出,對於健康類智能硬體來說,最重要的一環正是大部分硬體商缺失的,就是這些數據由誰來分析,誰來解讀,誰來告訴用戶數據背後的含義。做出這樣的判斷必須有專業的醫學工作者來進行智力支持。
所以,與其他互聯網醫療輕問診平台最不同的玩法是,“平安好醫生”全職聘請了近500名全科及專科醫生,這些醫生均為三甲醫院的主治醫師,在平安好醫生醫學咨詢平台上,他們全天候不間斷地實時接受用戶咨詢,咨詢內容包括急病導醫預診、慢病康復管理、體檢報告解讀以及營養運動建議。通過日均2萬次以上的咨詢,大量個性化的健康信息及數據得以沉澱。
由於用戶的健康咨詢全部通過在線完成,不論語音、圖片還是文字,都是電子化的,只要通過技術手段打上標簽,什麼時間什麼病,基本健康檔案就可以形成了。下一步就會嘗試通過保險理賠的途徑從各家醫院獲取用戶線下就診數據,並用同樣的技術手段,電子化線下病歷。
這樣一來, “平安好醫生”是底層源數據的入口,通過數據清理、機器學習將對話、影像信息標簽化、模塊化,搭建出“信息網”——健康雲,從而實現EHR(電子健康檔案)、EMR(電子病歷)以及PHR(個人健康記錄平台)的全景圖。
重要的是解決“然後”問題
正是因為數據之上的價值分析變得尤為重要,所以單純採集數據的智能硬體就變得沒有那麼大的`用處,對醫生也沒有太大的幫助。“最終信息的數據解讀,因為包含大量信息,還是要靠人,短時間內不太可能是機器,而且機器處理也需要長時間的積累,才能拿到臨床實踐。”王齊說道。
而在垂直的智能硬體領域,他坦承,垂直領域水很深,投入很大,但目前力量有限,所以就做自己最擅長的事,那就是整個資源,當然也可以不斷接觸到智能硬體的其他企業,不斷探尋是否有幫助,是否可以做相應程度的修改。
對於醫生來說,他們有3個訴求,科普,一些自己也能處理的情況就可以介紹下,自己確定然後買葯;診療,醫生更喜歡專科的病例,骨科一定更喜歡看骨折等;科研,跟自己對口的病例,可以有時間去專注做分析科研。所以,做一個分診導流含冊襲的平台,讓病人都到合適的地方去,過濾掉需要普及性常識性的問題,才是關鍵。
因此,平安健康要從後往前,把智能硬體收集的數據給專家看,讓專家來判斷是否有價值,因為每個行業專注的點不一樣,可能專注硬體的發現成本控制不錯,但沒准兒用戶體驗不是太好,這些都需要進一步磨合。
以糖尿病來舉例說明,每個病人的糖尿病情況是不同的,首先他需姿滾要跟醫生聊一次,把自己的情況和數據給醫生,讓醫生幫忙設定一個目標值,此後再用設備進行數據採集,傳輸數據,發送通知,然後明確什麼原因,什麼葯對症,打通整體的閉環才會有更大的價值。
王齊認為,“健康雲”的建立也會拓寬平安在醫療領域的疆域,譬如深入到病理研談兄究、醫葯研發,也能夠帶來一輪健康保險產品的“再設計”:通過掌握客戶的健康數據,對疾病進行事先的管控和預防,從而降低理賠風險,控制費率,完整地打通“醫療”與“保險”的利益關聯,降低產品定價,做大整個健康保險市場的“蛋糕”。
怎樣看待互聯網+
對於互聯網+來說,大家認為是量變還是質變,到底怎樣推進,可能還是需要再探索。而現在,可能思路更清晰一點。
在王齊看來,對於移動醫療來說,很可能互聯網行業對這個認知,遠比傳統行業要早,行動快,但相對的,傳統行業更有先發優勢。比如,房地產行業,已經做了很多年,他的積累使得新型互聯網公司很難進去。
但事實證明,互聯網已經幹掉了很多行業,比如音樂唱片行業。但醫療相對比較重,總不能實現虛擬診療,不能通過網路拔牙。
如果傳統公司按照傳統方式來做,感覺自身業務還不錯,收入也不錯,就沒太深的感受和太迫切的需求。在他們看來,傳統公司比互聯網公司還賺錢,而互聯網+只是一個概念。所以傳統公司的理念上還存在差異和沖突,只有有危機的時候,才會覺醒,才會去嘗試。
不過,引入新的行業,還需要一段時間的觀察。比如無人駕駛汽車,技術已經成熟,但整個法律法規、社會保障,因為思想非常有前 瞻 性,還是有一定接受階段的。所以還是要有一個思路轉變的過程。
;⑨ 大數據和個人隱私的「戰爭」打響了
大數據和個人隱私的「戰爭」打響了
最近,谷歌執行董事長埃里克·施密特成了網路「紅」人,用戶們紛紛將自己的頭像照更換成了埃里克·施密特的照片。
並非偶像崇拜,這其實是對谷歌新廣告的抗議。谷歌最近推出所謂「共同代言」的廣告政策,將允許廣告商使用谷歌用戶在Google+社交網站以及Google其他服務上的姓名、照片、評論等信息,以便為自己的廣告產品背書。這一舉措被指侵犯個人隱私,引發了諸多用戶的極為不滿。
谷歌只是一時處在了「風口浪尖」。這背後,實則是一場無法避免的大數據和個人隱私之間的「戰爭」。
谷歌新廣告遭遇尷尬
谷歌新廣告政策所謂的 「共同代言」,究竟是怎麼一回事?
舉個例子,你用谷歌搜索某一個餐廳,網頁上可能會出現你的朋友「張某某」、「李某某」等在這一餐廳用過餐後點了「贊」或是作出其他評價,而且 「張某某」、「李某某」都是實名制的,他們的頭像也赫然在目。然後,你就會對這個餐廳倍兒有感覺,你可能也會依照朋友們的評價來作出一些消費選擇。這樣一來,「張某某」、「李某某」無形中就為這家餐廳做了廣告,成為其形象代言人,甚至有一天,他們還可能得到一些廣告費的分成。
如果你是「張某某」或「李某某」,你是否真的願意做這樣的廣告,把自己的行跡暴露給其他人?即使廣告的對象是自己的朋友,你可能也不是每一次都願意無條件分享的。更何況,對你來說,你可能根本記不得以往在哪些地方留下過「到此一游」的墨寶,天知道這種廣告會出現在哪裡,又會被哪些人看到。
不過,谷歌也作出解釋:是否參與「共同代言」,其實是用戶自主選擇的。只不過,用戶如果不修改自己共享的批准設置,就是默許谷歌在廣告中使用用戶的各類信息。
即使如此,谷歌的這一新廣告政策還是遭到了 「侵犯用戶隱私」的質疑。美國電子隱私信息中心(EPIC)主管馬克·羅特伯格也指責,谷歌新廣告將網路用戶照片等信息商品化,有失公允。他同時呼籲美國聯邦貿易委員會(FTC)介入調查評估。谷歌用戶們更是紛紛表示抗議,據外媒報道,短短時間里,許多Google+用戶已經把自己的個人簡介照片替換成了施密特的照片,一旦谷歌決定在廣告中使用用戶的照片,這些照片顯示都將是施密特本人。
質疑也好,抗議也好,至少目前,谷歌並沒有改變主意,也不會改變其新的廣告政策。因為在谷歌看來,其競爭對手Facebook,早就採用了類似的社交廣告策略。谷歌此舉,意在迎戰。
確實如此,對國內的網路用戶,其實這種廣告方式,也不陌生。新浪微博也會在用戶主頁信息流中插入「好友在聽」、「好友關注」、「地點推薦」等近似廣告的條目,條目下方也會顯示用戶好友的ID,將用戶當作廣告形象代言人使用。
這些信息的傳遞,有意無意中威脅到了用戶的個人隱私。一些大的互聯網公司如谷歌等,還能對用戶作出一些條款解釋,用戶是否參與了「共同代言」還能有跡可查,更或許,這些大公司還會豪氣地向參與用戶發放一些基於廣告費分成的福利。但是,只要大公司開了先例,難免會有一些不正規的,甚至是無良網站跟上,不經本人同意就擅自用你的頭像或其他信息做廣告,那麼你的隱私就完全地暴露了,而且還是你一些全然不知的渠道,會對你產生什麼樣的影響,更是無從得知。
大數據時代隱私之困
如果說谷歌新廣告政策,是將用戶信息直接拿來為己所用,侵犯了用戶的個人隱私;那麼,在當下這一個大數據時代,幾乎所有線上的商業行為,本質上都是通過對用戶個人隱私的洞察或利用,來獲取商業收益的。
我們每一個人在網路上的一切行為,都可以被服務方知曉。當我們瀏覽了某一個網頁、發了條微博、逛了逛某個社交網站、更或是進行了一次網路購物,等等,所有的舉動實際上都被網路系以數據的形式記錄下來。而基於對這些數據的綜合分析,谷歌可以清晰地掌握你的網頁瀏覽習慣,而亞馬遜、淘寶等電商可以十分了解你的購物習慣,Face-book、微博、微信等,則似乎什麼都知道,包括你的社交關系網路。除此之外,還有網路地圖和定位,更是能夠實時監控你的行蹤。
這些所有的「你」的信息,原本都是個人隱私,如今卻成為互聯網商家們的「庫存」數據。商家們可以隨時拿來識別「你」,並對你進行商業價值的挖掘。谷歌新廣告的做法,只是其中之一,商家們基於大數據的所謂精準營銷,則是更普遍存在的隱私利用形式。
比如,你在某個社交網站上偶然提及某種產品或服務,這類型的產品或服務就能主動找到你;又如,你想要網購一雙雪地靴,在某個電商網站上瀏覽過該類產品,那麼相關的雪地靴介紹或者購買的鏈接,就會在未來一段時間內不斷推薦給你;再比如,你僅僅是通過網路地圖搜索過某一個餐廳的地址,你可能都沒有想過去消費,但關於餐廳的介紹更或是其各個時段的促銷優惠信息,就會定期推送給你,這其中自然還包括谷歌新廣告所涉及的好朋友代言。
這些商家的做法,看似更懂消費者,能夠直達消費者,但這何嘗不是對消費者隱私的一種侵犯呢?「大數據時代,幾乎沒什麼隱私可言」,說得一點都不為過。你是誰,你在哪,你的喜好,你的消費習慣,你此刻想要做什麼……大數據都能給出准確的或接近准確的答案。對於互聯網企業來說,基於大數據資源去掌握更多的用戶隱私,才能在迅速佔領更多的市場份額。甚至已有業內人士將互聯網的下一輪競爭,直白地定義為「隱私之戰」,用戶的隱私就是核心競爭力。
舉個例子,全球知名IT及數據服務公司——安客誠(Acxiom)之所以在業界具備號召力,就因為其擁有大量的關於個人隱私的數據,據稱,它擁有500多萬名分布在世界各地的消費者的個人信息。安客誠可以利用這些信息來推測你的生活方式、興趣愛好和日常活動,比如你的汽車品牌和使用時間、你的收入和投資狀況、你的年齡以及受教育程度。除此之外,你最近是否離過婚,或者你剛剛變成了一名空巢老人?這些「人生大事」可以將一個人從一個消費階層轉移到另一個階層,而這也是安客誠及其廣告客戶的關鍵興趣所在。安客誠稱其可以通過分析數據來預測 3000種不同的行為及心理傾向,比如說一個人會在某兩個品牌間做出怎樣的選擇。
安客誠走得比較早。但相比安客誠的原始數據,源自某些調查表或者用戶注冊服務,花費了大量的時間來積累。如今Facebook等一些互聯網企業,在數據積累上則是迅速膨脹,Facebook就表示其能實現對個人信息搜集的自動化與實時化。公司首次公開募股時的財務檔案顯示,Facebook上每位用戶的圖片和視頻資料數據量約為111MB,而如今Facebook的用戶數已經超過了 10億,這可是整整 100PB(1PB=10242GB)的個人信息數據。
更值得一提的是,如今線上、線下商家融合成為趨勢,一旦商家們開始合作,整合並共享大數據,用戶們的隱私真的就無處遁形了。早在今年2月,Facebook就已宣布與包括安客誠在內的多家數據代理商展開合作,通過整合各自的數據資源來構造現實世界與虛擬網路之間的聯系。一個月後,安客誠的首席科學官對外宣稱,他們的數據已經與全美90%的社會檔案建立了鏈接。
拒絕惡意使用個人隱私
大數據是把「雙刃劍」,快捷的網路、精準的營銷,雖能帶給人們一個更加便捷的生活方式,同時,卻也讓個人隱私的保護幾乎成了一道偽命題。
如今的大數據營銷,對於消費者而言,就好似被一雙眼睛盯著,每時每刻窺探著你的一舉一動。在PC終端時代,這雙眼睛或許還只能偷窺你上網蹤跡,在你訂閱了某項網上服務時,順便發些促銷郵件。在當下的這一個移動互聯網的大數據時代,這雙眼睛窺探你,已能做到實時追蹤,吃了什麼飯,見了什麼人,在哪裡消費了什麼……隨後就會有據稱是適合你的各種服務或商品廣告鋪天蓋地。
且不說,時刻被監控的感覺,有時會讓人沒有安全感。很多時候,即使是商家們打著「更懂消費者」旗號的所謂精準營銷,也不是每一次都能帶給消費者驚喜。有網友就抱怨道:自己有一次只是出於好奇,手癢癢就在淘寶上搜索了「棺材」兩個字,接下來的日子裡,自己就被各種殯葬相關產品的推介信息包圍著。還不只在淘寶網上,自從阿里巴巴與新浪微博合作後,該網友幾次打開新浪微博,側邊的商品推介也全都是殯葬產品的推銷,「有時突然『跳』出來,還真讓人毛骨悚然」。
這似乎已是消費者面臨的一種常態。但這種種情形,還只是基於大數據的過度營銷,讓消費者反感,或許還沒有達到「惡意」的程度。那麼,酒店泄露消費者開房資料,數十萬保單信息被泄露,快遞單送達當天被賣掉,這一則則觸目驚心的新聞,無一不是指向挖掘消費數據下的瘋狂商業逐利行為。這些商家不但惡意使用了個人隱私數據,更是對消費者個人隱私權的嚴重侵犯。
大數據和個人隱私之間的 「戰爭」打響了。
但作為個體消費者,我們早就無法避免自己的個人隱私被網路系統記取,被商家掌握並挖掘利用。即使在PC時代,一些用戶會採取措施,在上網時不停地清除cookie,以避免自己的隱私泄露,但實際上很多後台的軟體還是可以獲取你上網記錄。尤其是一些防病毒的軟體,它本質上既可以在某種意義上保護你的隱私,卻也能拿到你更全面的隱私數據。更何況在一個基於移動互聯網的大數據時代,通過移動設備的定位、追蹤,如說你帶著手機,網路後台系統通過感測器就能知道你在哪裡,同時各類數據的交叉、關聯,以及基於全局數據的綜合分析,無論在什麼時候,後台都能夠清晰地「認識」每一個人。
業內人士坦言,大數據時代,要保護個人隱私,讓用戶個體的隱私不泄露,在技術上很難做到。
我們唯一能夠而且必須要採取的措施,就是讓這些用戶的個人隱私不被無良商家、非法機構惡意地使用。一方面,這需要政府和行業監管機構加強監管,但凡發現有惡意使用用戶隱私,並且給用戶造成傷害的商家,就要給予嚴厲的懲罰。另一方面,中國社會科學院信息化研究中心秘書長姜奇平曾坦言,就國內現狀而言,除了技術帶來的監管難題,立法滯後也使監管處於無法可依的狀態,「雖然有相關的法律,但都很粗略,互聯網企業知道即使它侵犯了用戶隱私,法律也拿它沒辦法。 」因此,必須要建立健全個人隱私保護的法律法規和基本規則。
事實上,不僅是中國,各國都面臨同樣的難題。針對大數據時代隱私保護的法律法規,各國也都在採取積極的措施。 2012年,奧巴馬政府就公布了隱私人權法案,號召公司在使用私人信息時將更多的控制權交給用戶。歐盟也提出了一項關於「被遺忘的權力」的法案,消費者有權要求公司清除他們的個人數據,等等。
除此之外,對於保護個人隱私,技術仍是一個不容忽視的條件。雖然,現有的技術手段對於保護個人隱私而言遠遠不足,但我們還是要積極鼓勵隱私保護技術的研發、創新和使用。希望將來有一天,能夠實現從技術層面來保障大數據時代的隱私安全,完善用戶保障體系。
以上是小編為大家分享的關於大數據和個人隱私的「戰爭」打響了的相關內容,更多信息可以關注環球青藤分享更多干貨