① 說文解字第1課:大數據Big Data
大家好,又到了說文解字的時間,不對,這是癮科技的新專欄,所以說文解字這個專欄是第一次跟大家見面喔。在往後的每個星期,我們都會推出1篇文章,向讀者解釋各種電腦、3C領域的關鍵字,希望大家多多支持。
在幾年前,BOT是個相當熱門的辭匯,山也BOT、海也BOT。到了這幾年,大數據成了最火紅的關鍵字之一,無論企業界還是政治人物,都把大數據掛在嘴邊,但是大數據到底是什麼呢?
大數據不只大,全面更重要
大數據一詞直譯自英文的Big Data,也有人將其翻譯為海量資料,字面上的意思就已經把它的涵義說明一半了。大數據既然有個「大」字,就代表它的資料量一定很多,於是這就引發了另一個問題,要有多少資料,才能叫作大數據呢?根據麥塔集團(META Group)2001年的研究報告指出,資料增長的挑戰有資料量(Volume)、處理速度(Velocity)、資料多樣性(Variety)等3個方向。
然而麥塔集團在2005年時被高德納顧問公司收購,高德納於2012年對大數據提出新的定義,指出大數據是大量資料、高速處理,並可能具有多樣性,需要使用新的方式進行處理,以用於增進決策能力、洞察力,並協助將處理程序最佳化。從這個定義中,我們可以看到資料的量並沒有被給予明確的界限,因此我們不防轉向參考麥爾荀伯格與庫基耶所著的大數據一書,從資料的特性進行思考。
▲大數據一書由天下文化出版,相當值得一看。(圖片來源:天下文化)
大數據之所以與傳統資料有所不同,其中很大的原因就是資料采樣方式的差異。在傳統分析資料的過程中,因為收集資料的方式與工具需要相當的成本與時間,而在有限的經費與時間下,我們需要先對母體進行抽樣,然後再收集這些樣本的資料。舉例來說,如果要在選舉之前進行民調,民調公司只對一部份的人進行抽樣,並調查他們的投票意向。這時候分析的結果很可能就會受到抽樣方式影響,若是採用室內電話調查,可能會因為年輕族群在家時間較少,且部分租屋族並未安裝室內電話,而讓樣本的年齡偏高,進而影響分析的准確度。
藉助電腦自動處理大量資料
然而大數據的概念之一,就是可以透過不同的方式收集資料,以達到直接對母體進行全面性調察的目的,如此一來就能避免抽樣失真而讓分析結果失去參考價值。
再舉個例子,傳統電視節目的收視率,是透過在特定收視戶家中安裝調整設備,來記錄觀看電視的頻道與時間,或是透過電話訪問,訪查收視戶正在收看的節目。然而這種方式會因為樣本的家庭成員組成、喜歡節目的不同,而影響調察結果,雖然可以透過增加抽樣數量的方式,提高結果的准確度,但是無論再怎麼改善調查結果,都還是無法還原所有收視戶真實的情況。
但是在電視數位化之後,系統業者便能透過機上盒的程式統計收視情況,並自動將資料回傳至伺服器進行統計,如此一來便能確實掌握所有人的真實收視情況,而不會被不準確的抽樣影響,這對資料分析有著相當大的助益。
▲在抽樣統計中,若樣本的數量越大,誤差就會越小,而大數據則是直接將母體做為樣本,因此不會有統計誤差。
比較前後兩者的差別,可以看到新的方式能夠透過自動化的方式,全面性地收集資料,並透過電腦進行高速統計與處理,由於節省了許多成本與時間,因此就不再需要為了現實考量而採用抽樣統計,這就是大數據與傳統資料處理方式的差異,也讓資料更具參考價值,能提供決策者更強而有力的判斷依據。
總結來說,大數據的精神除了資料本身量很龐大之外,以至於分析的對向從樣本題升至母體之外,另一個重點就是透過非傳統的方式,挖掘出資料中尚未被發現的價值。至於該如何收集、挖掘並運用資料,這就是另一門學問了,這個主題就留到下周再一起討論吧。
說文解字使用範例:大數據
O:企業經營者可以透過大數據預估消費趨勢。
X:辦公室已經沒有空間擺放大數據的卷宗了。
② 大數據時代下,得數據者是如何得天下的
現在很多企業都漸漸意識到數據的開發和利用在企業發展過程中的重要性。而實現數據資產變現,是需要企業自身進行合理有效的數據資源規劃,梳理清楚企業自身的「數據家底「,從而掌握企業當前數據資源的詳實狀況,明確企業的數據種類、未來可能獲取的數據種類,以及這些數據的數據量、數據質量、數據用途等等。
數據資源梳理:即企業需要梳理清楚:數據來自誰,用在何處,如何存儲?一般而言,業內會從三個維度,來對數據資源進行分類管理,數據產生主體、數據來源、存儲形式等。
數據資源規劃實施:企業在數據資源規劃與獲取的過程中,除了需要企業內部提供有效的組織保障,包括數據管理人員、數據分析人員和業務使用人員之間的緊密協作,而且還需要全面的對整個企業或政府部門組織需求分析調研,這樣才可有效幫助企業理清數據資源家底,明確數據資源獲取與使用的方式方法。
數據資源可視化:在數據中台理念下,我們所指的數據資源規劃和獲取一定是企業全局性的考量和行為。「牽一發而動全身」這必然會牽扯到各部門和各層級組織架構的利益。
如果能將現有數據資源梳理結果進行可視化呈現,讓各子公司、各部門、各業務需求方都可以清晰了解自身數據資源現狀,以及要滿足自身數據應用需求,還需要獲取哪些數據資源,還需要增加多少量的數據存儲空間,還需要補充哪些外部數據,現有數據質量又如何,則可以大規模提高企業數據資源利用的效率。
數據資源分析報告:企業以前對自身數據資源的認識是模糊的,企業需要一份完整詳備的數據資源分析報告,指導後續數據治理和數據資產管理平台的建設,最終服務於企業數據應用場景。為了滿足客戶的這一需求痛點,袋鼠雲便將數據資源分析報告作為「數據資源規劃與獲取服務」的交付產出物之一。
③ 如何理解「大數據」相關概念
大數據所包含特徵,具體如下:
第一個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
第二個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知談盯無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。
第三個特徵是處理速度快,時效性要求高。這是大數據區分於傳統數據挖掘最顯著的特徵。
大數據的作用及其用途
大數據,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大數據可以幫助人們開啟循「數」管理的模式,也是我們當下「大社會」的集中體現,三分技術,七分數據,得數據者得天下。
「大數據」的影響,增加了對信息管理專家的需求。事實上,大數據的影響並不僅僅限於信息通信產含州和業,而是正在「吞噬」和重構很多傳統行業,廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。
1、變革價值的力量
2、變革經濟的力量,生產者是有價值的,消費者是價值的意義所在。有意義的才有價值,消費者不認同的,就賣不出去,就實現不了價值;只有消費者認同的,才賣得出去,才實現得了價值。大數據幫助我們從消費者這個源頭識別意義,從而幫助生產者實現價值。這就是啟動內需的原理。
3、變革組織的力量,隨著具有語義跡搭網特徵的數據基礎設施和數據資源發展起來,組織的變革就越來越顯得不可避免。大數據將推動網路結構產生無組織的組織力量。
④ 得數據者得天下——淺談大數據思維
「三分技術,七分數據」,今後得數據者得天下。
維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證,都是為了說明一個道理:在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。
書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。
什麼是大數據思維?維克托·邁爾-舍恩伯格認為:
需要全部數據樣本而不是抽樣;
關注效率而不是精確度;
關注相關性而不是因果關系。
阿里巴巴的王堅對於大數據也有一些獨特的見解,比如:
「今天的數據不是大,真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。」
「非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。」
「你千萬不要想著拿數據去改進一個業務,這不是大數據。你一定是去做了一件以前做不了的事情。」
特別是最後一點,我是非常認同的,大數據的真正價值在於創造,在於填補無數個還未實現過的空白。
有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。
大數據在投資者眼裡是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的數據。
如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
⑤ 大數據是什麼有什麼價值作用
大數據是什麼?官方解答是巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產
大數據最早提出者,指不用隨機分析法(抽樣調查)的捷徑,而是採用所有數據進行分析處理
擁有4V特點,即大量、高速、多樣、價值
上面是官方給出的解釋,大概可以知道什麼意尺並思了舉個例子,在一個空間里一共有10個人,對於其他人9個人都有自己的看法,我們假設每個人都對另一個人有10個看法,那麼一個人對其餘九個人就有九十條看法
對於評估一個人來講,在沒有大數據的時代,我們會隨機抽取一個人問他對另一個人的看法,這樣總體一共有90個意見,其中一條,概率是90分之1,然後隨機抽取幾個,最後產生對一個人的大致評價
那大數據是怎樣計算的呢?他把其他九個人每個人10條的想法全部收集起來,整合計算後得到對一個人全面的評估這個過程計算,我們最後得到的結果就更精準,這就是大數據的價值
只要存在的數據全部收納其中再進行計算
大量、高速、純遲多樣、價值
而怎樣計算呢?這就需要把雲計算拿出來了,和大數據息息相關的另一技術(一種通過Internet以服務的方式提供動態可伸縮的虛擬化的資源的計算模式) cdn bcebos com/"esrc="p> cdn bcebos com/">大數據應用廣泛,與人工智慧和雲計算處境頻率較高 在金融領域、營銷領域、甚至醫療領域等各行各業中發揮著它的作用 當你擁有了大量數據後,這些結果會對每個行業發展方向解決問題有指向性作用,得數據者得人心,陵褲跡得人心者的天下