1. 大數據的定義是什麼
大數據首先是一個非常大的數據集,可以達到TB(萬億位元組)甚至ZB(十萬億億位元組)。這裡面的數據可能既有結構化的數據,也有半結構化和非結構化的數據,而且來自於不同的數據源。
結構化的數據是什麼呢?對於接觸過關系型資料庫的小夥伴來說,應該一點都不陌生。對了,就是我們關系型資料庫中的一張表,每行都具有相同的屬性。如下面的一張表:
(子標簽的次序和個數不一定完全一致)
那什麼又是非結構化數據呢?這類數據沒有預定義完整的數據結構,在我們日常工作生活中可能更多接觸的就是這類數據,比如,圖片、圖像、音頻、視頻、辦公文檔等等。
知道了這三類結構的數據,我們再來看看大數據的數據源有哪些呢?歸納起來大致有五種數據源。
一是社交媒體平台。如有名氣的Facebook、Twitter、YouTube和Instagram等。媒體是比較受歡迎的大數據來源之一,因為它提供了關於消費者偏好和變化趨勢的寶貴依據。並且因為媒體是自我傳播的,可以跨越物理和人口障礙,因此它是企業深入了解目標受眾、得出模式和結論、增強決策能力的方式。
二是雲平台。公有的、私有的和第三方的雲平台。如今,越來越多的企業將數據轉移到雲上,超越了傳統的數據源。雲存儲支持結構化和非結構化數據,並為業務提供實時信息和隨需應變的依據。雲計算的主要特性是靈活性和可伸縮性。由於大數據可以通過網路和伺服器在公共或私有雲上存儲和獲取,因此雲是一種高效、經濟的數據源。
三是Web資源。公共網路構成了廣泛且易於訪問的大數據,個人和公司都可以從網上或「互聯網」上獲得數據。此外,國內的大型購物網站,淘寶、京東、阿里巴巴,更是雲集了海量的用戶數據。
四是IoT(Internet of Things)物聯網數據源。物聯網目前正處於迅猛發展勢頭。有了物聯網,我們不僅可以從電腦和智能手機獲取數據,還可以從醫療設備、車輛流程、視頻游戲、儀表、相機、家用電器等方面獲取數據。這些都構成了大數據寶貴的數據來源。
五是來自於資料庫的數據源。現今的企業都喜歡融合使用傳統和現代資料庫來獲取相關的大數據。這些數據都是企業驅動業務利潤的寶貴資源。常見的資料庫有MS Access、DB2、Oracle、MySQL以及大數據的資料庫Hbase、MongoDB等。
我們再來總結一下,什麼樣的數據就屬於大數據呢?通常來大數據有4個特點,這就是業內人士常說的4V,volume容量、 variety多樣性、velocity速度和veracity准確性。
2. 《大數據時代》01 什麼是大數據
今天我們第一本解讀的是《大數據時代》這本書。
大數據是這幾年特別火的一個詞,那究竟什麼是大數據呢?
字面意思可以理解為大數據就是數量巨大的數據,而這些巨大的數據再結合雲計算、人工智慧、物聯網等技術會對於我們的生活、工作都會帶來翻天覆地的影響。
芝加哥大學商學院教授、麥肯錫公司創始人,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」
而我們今天所講的這本《大數據時代》是國外大數據研究的先河之作,本書作者舍恩伯格被譽為「大數據商業應用第一人」。舍恩伯格在書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。對於身處於大數據時代額我們可謂是會產生異常極大的思維方式的變革。
舍恩伯格最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道「是什麼」,而不需要知道「為什麼」。這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。
下面我們就進入到《大數據時代》這本書中去吧。
首先來看第一個話題大數據的思維變革
大數據與三個重大的思維變革有關,而這三個轉變是相互作用的。
一.不是隨機樣本,而是全體數據
解釋一下就是分析事物相關的所有數據,而不是僅僅依靠分析少量的數據樣本。
二是不是精確性,而是混雜性
就是要接受數據的紛繁復雜,而不再追求准確性。
三是不是因果關系,而是相關關系
即不再追求難以摸索的因果關系,轉而關注事物的相關關系。
這三個在大數據時代思維變革的轉變我們會在接下來節目中一一講解。
今天我們這一節先講解:不是隨機樣本,而是全體樣本,這一思維的變革。
小數據時代的隨機抽樣
為什麼這么說呢?在我們過去技術並不發達的時候,只能用少量數據來進行隨機采樣是最高效的方式,即利用最少的數據來獲取更多的信息。
在19世紀時美國的人口普查中,因為數據的變化超過了當時的人口普查統計分析能力,有人提出到數據無比龐大時可以進行有目的的選擇,具有選出代表性的樣本是最恰當的方式,這就是隨機抽樣。並且還非常有見解的提出:采樣分析的精確性是隨著采樣隨機性的增加而大幅的提高與樣本的數量增加關系並不大,也就是說,隨機采樣樣本的隨機性比數量的多少更為重要。
而在當時,政府確實也採用了隨機調查的方式來對於經濟和人口進行了200多次小規模的調查,除此之外,在商業領域也會採用隨機調查的方式來抽取部分商品來檢查商品的質量安全。
隨機抽樣取得了巨大的成功,成為了現代社會,現代測量領域的主心骨,但這只是一條捷徑,是不可能收集和分析全部數據情況下的選擇,他本身就有很多的缺陷。
隨機抽樣的缺陷
第一,它的成功依賴於采樣的絕對隨機性,但在實現中絕對的隨機性是非常困難,一旦分析過程中存在任何「偏見」,分析結果就會相去甚遠。
第二,隨機采樣不適宜用於考察此類別的情況,也就是說隨機抽樣,一旦繼續細分錯誤率會大大增加,比如說你想調查大學生玩手機的情況,您採取的調查結果可能會有3%的誤差,但如果又把這個調查結果根據性別地域、收入來進行細分,那結果就會變得更為不準確。
因此當人們想要了解更深層次的細分領域的情況,採用隨機采樣的方法顯然是不可取的,在宏觀領域起作用的方法,在微觀領域上失去了作用,隨機采樣就像是模擬照片,列印再遠看會是非常不錯,但是一旦聚焦在某個點,就會變得模糊不清。
全部數據的采樣方式
現在我們正在步入了大數據時代,我們需要一中新的數據採集模式----全數據模式,即樣本等於總體。
我們這個時代收集數據,並不像過去那樣困難,手機導航、社交網站、微博、微信這些隨時隨地或主動或被動的收集你所產生的信息,並且通過計算機就可以輕而易舉地完成數據處理。
採取全部數據的采樣方式,可以不用考慮隨機抽樣所考慮的隨機性,並且在細分領域也會發揮極大的作用,一個很好的例子,就是日本國民體育運動相撲之中所產生的非法操控比賽結果。
相撲比賽和其他比賽有所不同的就是選手需要在15場比賽之中的大部分場次獲得勝利,才能保持排名和收入。這樣一來就會出現收益不對稱的情況,比如說一個7勝7負的選手,遇到一個8勝6負的選手,比賽結果對於第一個選手會比對第二個選手更為重要。列維特和達根發現在這種情況下,需要贏的那個選手,最可能會贏,這是為什麼呢?有沒有可能是選手的求勝心呢?當然有可能,但並不是完全!有數據顯示需要贏的選手,求勝心,也只能把勝率增加25%。並且對於數據進一步分析發現,選手如果幫助上一次失利的一方的話,當他們再次相遇時,對方會回報回來。
這種情況在相撲界是顯而易見的,但若是隨機抽樣就無法發現這個情況。而大數據通過分析所有比賽,用極大的數據來捕捉到這個情況。
還有關於大數據應用的例子是:2009年,谷歌公司將5000萬條美國最頻繁的檢索詞條和美國疾控中心在2003年至2008年季節性流感傳播實際數據進行比較,成功預測了甲型H1N1流感的出現。
現在2021年,利用大數據來預測新冠肺炎的發展情況,已經成為我們日常新聞報道的一部分了。
在大數據時代的到來,讓我們可以利用技術,從不同角度更細致的觀察和研究數據的方方面面,使我們的調查更為精準。
回顧一下我們這一節所講的過去的調查是採用小部分的數據來進行抽樣調查,這一方法有顯著的缺點
首先是抽樣分析依賴於采樣的隨機性,而一旦數據出現」偏見「,結果便會大相徑庭
第二抽樣分析也只適用於宏觀分析,對於更加微觀的調查結果並不理想。
如今的技術環境已經有了很大的改善,在大數據時代進行抽樣分析就是在汽車時代騎馬一樣,我們要分析與事物相關的而所有數據,而不僅僅是少量的數據。
以上就是我們本期全部內容,下一期我會講到大數據時代下思維變革的後兩個思維變革。
我的節目首發平台是公眾號「悅讀深入思考」關注還有更多內容
3. 大數據是什麼意思,大數據概念怎麼理解
大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
4. 大數據是什麼意思
大數據是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。
(4)書大數據等於擴展閱讀:
大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。
技術是大數據價值體現的手段和前進的基石。在這里分別從雲計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。
實踐是大數據的最終價值體現。在這里分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
5. 大數據還不等於大時代 還差些距離
大數據還不等於大時代 還差些距離
近幾年以來,「大數據」已經傳得沸沸揚揚。技術開發商和媒體記者鋪天蓋地式的宣傳,你怎麼可能不知道「大數據」?即使不知道也總會聽說過。讓我們來看看他們是怎麼大力宣傳所謂的「大數據」:「大數據」無所不知無所不能;有了「大數據」的支持,公司運行效率突飛猛進;「大數據」還能幫助你了解數據,做出最明智的決策,使你的公司時刻都充滿了競爭優勢。
多麼具有誘惑力的宣傳,當然我們不能百分之百地說報道違背了事實。只是人們對於高科技的宣傳總是過於樂觀超前。事實上,很多公司都發現以目前的條件實現「大數據」困難重重,理想很豐滿,現實卻很骨感。的確,在數據的收集和處理方面,可能具有可觀的優勢。但真正的使用這些數據、乃至藉助這些制定更優化的決策則完全又是另一回事。那麼問題出在哪裡呢?多數公司表示在「大數據」和對大數據的「大理解」之間,缺少了某個重要的聯系。如果這個問題得不到解決,那麼人們只是空有一堆看似有用的數據,卻難以從中挖掘出有用的價值。
大數據時代
正如矽谷的一名資深業內人士最近透露,盡管從近日創業公司的活動和融資情況來看,大數據的數據採集和處理似乎受到廣泛關注,但是現實和預期之間的巨大差距依然無法視而不見。他說,「大數據還沒有真正轉化為大認識、大洞見和大智慧。」以他們的預測,我們離真正的「大數據」時代還有很長的一段路要走。
炒作和現實,不可混為一談
我們希望從大數據中獲取價值的方法越簡單越好,比如導入數據,運行程序,最後得出富有遠見的結論。你覺得這可能嗎?如果智慧那麼容易獲得,那人人都可以是喬布斯了。事實上,從大數據中獲得有價值的信息遠比「導入、運行、輸出三部曲」要復雜得多。《數據預測:大數據戰略》(DataDivination:BigDataStrategies)一書的作者帕姆·貝克(PamBaker)說,數據直接給出答案的實例確實存在,但只存在於特定的情況下,鮮有發生。我們不能寄希望於例外,我們需要的是普遍規律。
「也許,有人會辯解說,我們可以舉出很多例子,在這些例子中,數據往往可以給出非常明確的答案。比如預測分析學可以精確地預測出飛機或供水系統中的某個零部件的報廢時間,還能告訴我們替換零部件的最佳時間,以便於在舊部件報廢之前最大化地利用其剩餘價值。」貝克解釋道。
她馬上又強調,「但是,更多的情況下,我們是沒有辦法直接獲得想要的答案的。你可以從諸多可能的行為中選擇一個或者什麼都不做,具體情況具體分析,這才是我們所面臨的真實情況。」
貝克一語中的。一些基於數據的決策的確是這樣。數據不是「冰冷的數字」,它們是「多愁善感的精靈」,正如布魯斯·斯普林斯汀在一首歌中唱道,它們需要「一點點的人情味」。人們可以通過開發良好的指標和強大的演算法來挖掘數據。但這遠遠不夠,人們必須通過自己的認識和見解才能真正地了解數據的「內心世界」,才能充分利用數據背後的價值。有的數據很「直白」,有的卻很「委婉」,我們不能一概而論。
以上是小編為大家分享的關於大數據還不等於大時代 還差些距離的相關內容,更多信息可以關注環球青藤分享更多干貨
6. 根據塗子沛先生所講,以下說法正確的有哪些
根據塗子沛先生所講,以下說法正確的有哪些?
A.大數據就等於非結構化數據
B.大數據等於大容量加上大價值
C.大數據等於非結構化數據加上結構化數據
D.大數據等於小數據加上大信息
答案: ABCD
7. 什麼是大數據,通俗的講
有人說大數據技術是第四次技術革命,這個說法其實不為過。
很多人只是聽過大數據這個詞或者是簡單知道它是什麼,那麼它是什麼呢,在這里就通俗點來說一下個人對大數據的理解。
大數據,很明顯從字面上理解就是大量的數據,海量的數據。大,意思就是數據的量級很大,不上TB都不好意思說是大數據。數據,狹義上理解就是12345那麼些數據,畢竟計算機底層是二進制來存的,那麼在大數據領域,數據就不僅僅包括數字這些,它可以是所有格式的東西,比如日誌,音頻視頻,文件等等。
所以,大數據從字面上理解就是海量的數據,技術上它包括這些海量數據的採集,過濾,清洗,存儲,處理,查看等等部分,每一個部分包括一些大數據的相關技術框架來支持。
舉個例子,淘寶雙十一的總交易額的顯示,後面就是大數據技術的支持,全國那麼多淘寶用戶的交易記錄匯聚到一起,數據量很大,而且要做到實時的展現,就需要強有力的大數據技術來處理了。
數據量一大,那麼得找地方來存,一個伺服器硬碟可以掛多少,肯定滿足不了這么大的數據量存儲啊,所以,分布式的存儲系統應運而生,那就是HDFS分布式文件系統。簡單的說,就是把這么大的數據分開存在甚至幾百甚至幾千台伺服器上,那麼管理他們的系統就是HDFS文件系統,也是大數據技術的最基本的組件。
有地方存了,需要一些分布式的資料庫來管理查詢啊,那就有了Hbase等,還需要一些組件來計算分析這些數據啊,maprece是最基本的計算框架,其他的計算框架Spark和Storm可以完成實時的處理,其中HDFS和MapRece組成了Hadoop1.
總之,一切都是數據。我們的歷史,是不是都是大量的數據保存下來的,現在我們也是大數據的生活,天天有沒有接到騷擾電話還知道你姓什麼,你查話費什麼的從幾億人的數據中查到你的信息,大數據生活。未來,大數據將更深刻的滲透到生活中。
8. 什麼是「大數據」的真正含義
如果你說大數據就是數據大,或者侃侃而談4個V,也許很有深度的談到BI或預測的價值,又或者拿Google和Amazon舉例,技術流可能會聊起Hadoop和Cloud puting,不管對錯,只是無法勾勒對大數據的整體認識,不說是片面,但至少有些管窺蠡測、隔衣瘙癢了。
也許,「解構」是最好的方法。
怎樣結構大數據?
首先,大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。
其次,想要系統的認知大數據,必須要全面而細致的分解它,我們著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。
我會從大數據的特徵定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從對大數據的現在和未來去洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。
我將分別從雲計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。
我將分別從互聯網的大數據, *** 的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
和大數據相關的理論?
1、 特徵定義
最早提出大數據時代到來的是麥肯錫:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。
人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」
業界(IBM 最早定義)將大數據的特徵歸納為4個「V」(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。
大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。
比如,網路日誌、視頻、圖片、地理位置信息等等。
第三,價值密度低,商業價值高。
第四,處理速度快。
最後這一點也是和傳統的數據挖掘技術有著本質的不同。
古語雲:三分技術,七分數據,得數據者得天下。
先不論誰說的,但是這句話的正確性已經不用去論證了。
維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證,都是為了說明一個道理:在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。
書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。
那麼,什麼是大數據思維?維克托·邁爾-舍恩伯格認為,1-需要全部數據樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關系。
阿里巴巴的王堅對於大數據也有一些獨特的見解,比如,
「今天的數據不是大,真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。」
「非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。」
「你千萬不要想著拿數據去改進一個業務,這不是大數據。
你一定是去做了一件以前做不了的事情。」
特別是最後一點,我是非常認同的,大數據的真正價值在於創造,在於填補無數個還未實現過的空白。