1. 大數據是指什麼
大數據又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。「大數據」概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數據時代》中提出,指不用隨機分析法(抽樣調查)的捷徑,而是採用所有數據進行分析處理。大數據有4V特點,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
根據維基網路的定義,大數據是指無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘,但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著雲台》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘電網、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
特徵
容量(Volume):數據的大小決定所考慮的數據的價值的和潛在的信息;
種類(Variety):數據類型的多樣性;
速度(Velocity):指獲得數據的速度;
可變性(Variability):妨礙了處理和有效地管理數據的過程。
真實性(Veracity):數據的質量
復雜性(Complexity):數據量巨大,來源多渠道
意義
有人把數據比喻為蘊
藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。
大數據的價值體現在以下幾個方面:1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;2) 做小而美模式的中長尾企業可以利用大數據做服務轉型;3) 面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
2. 大數據的概念是什麼
3. 大數據是什麼意思
大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。
(3)菠蘿大數據是什麼意思擴展閱讀:
大數據的應用
1、洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。
2、google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
3、統計學家內特.西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。
4、麻省理工學院利用手機定位數據和交通數據建立城市規劃。
5、梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。
6、醫療行業早就遇到了海量數據和非結構化數據的挑戰,而近年來很多國家都在積極推進醫療信息化發展,這使得很多醫療機構有資金來做大數據分析。
4. 大數據是什麼
大數據是什麼意思呢?
如果從字面意思來看,大數據指的是巨量數據。那麼可能有人會問,多大量級的數據才叫大數據?不同的機構或學者有不同的理解,難以有一個非常定量的定義,只能說,大數據的計量單位已經越過TB級別發展到PB、EB、ZB、YB甚至BB級別。
最早提出「大數據」這一概念的 是全球知名咨詢公司麥肯錫,它是這樣定義大數據的:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型以及價值密度低四大特徵。
研究機構Gartner是這樣定義大數據的:「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流轉優化能力來適應海量、高增長率和多樣化的信息資產。若從技術角度來看,大數據的戰略意義不在於掌握龐大的數據,而在於對這些含有意義的數據進行專業化處理,換言之,如果把大數據比作一種產業,那麼這種產業盈利的關鍵在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
5. 大數據是指什麼如何解釋
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中,大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法)大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、veracity(真實性)。大數據需要特殊的技術,包括大規模並行處理(MPP)資料庫、數據挖掘電網、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
大數據的4個「V」,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網路日誌、視頻、圖片、地理位置信息等等。第三,數據的來源,直接導致分析結果的准確性和真實性。若數據來源是完整的並且真實,最終的分析結果以及決定將更加准確。第四,處理速度快,1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個「V」
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
搜索下各種網路,上面都有。說白了,就是數據量非常龐大。這確實是近幾年的熱點問題。
6. 大數據是怎麼定義的,大數據包括什麼
最早提出大數據的是麥肯錫公司,當時的定義是:
滲透在每一個行業和業務領域的數據,通過人們對這些海量數據的挖掘和運用,產生出一波新的生產率增長和消費者盈餘浪潮。
後來麥肯錫全球研究所給出的定義是:
一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。
研究機構Gartner給出了這樣的定義:
「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
網路的定義:
指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
簡單理解為:
"大數據"是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。簡單的說就是超級存儲,海量數據上傳到雲平台後,大數據就會對數據進行深入分析和挖掘。