⑴ 什麼是大數據,看完這篇就明白了
什麼是大數據
如果從字面上解釋的話,大家很容易想到的可能就是大量的數據,海量的數據。這樣的解釋確實通俗易懂,但如果用專業知識來描述的話,就是指數據集的大小遠遠超過了現有普通資料庫軟體和工具的處理能力的數據。
大數據的特點
海量化
這里指的數據量是從TB到PB級別。在這里順帶給大家科普一下這是什麼概念。
MB,全稱MByte,計算機中的一種儲存單位,含義是「兆位元組」。
1MB可儲存1024×1024=1048576位元組(Byte)。
位元組(Byte)是存儲容量基本單位,1位元組(1Byte)由8個二進制位組成。
位(bit)是計算機存儲信息的最小單位,二進制的一個「0」或一個「1」叫一位。
通俗來講,1MB約等於一張網路通用圖片(非高清)的大小。
1GB=1024MB,約等於下載一部電影(非高清)的大小。
1TB=1024GB,約等於一個固態硬碟的容量大小,能存放一個不間斷的監控攝像頭錄像(200MB/個)長達半年左右。
1PB=1024TB,容量相當大,應用於大數據存儲設備,如伺服器等。
1EB=1024PB,目前還沒有單個存儲器達到這個容量。
多樣化
大數據含有的數據類型復雜,超過80%的數據是非結構化的。而數據類型又分成結構化數據,非結構化數據,半結構化數據。這里再對三種數據類型做一個分類科普。
①結構化數據
結構化的數據是指可以使用關系型資料庫(例如:MySQL,Oracle,DB2)表示和存儲,表現為二維形式的數據。一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。所以,結構化的數據的存儲和排列是很有規律的,這對查詢和修改等操作很有幫助。
但是,它的擴展性不好。比如,如果欄位不固定,利用關系型資料庫也是比較困難的,有人會說,需要的時候加個欄位就可以了,這樣的方法也不是不可以,但在實際運用中每次都進行反復的表結構變更是非常痛苦的,這也容易導致後台介面從資料庫取數據出錯。你也可以預先設定大量的預備欄位,但這樣的話,時間一長很容易弄不清除欄位和數據的對應狀態,即哪個欄位保存有哪些數據。
②半結構化數據
半結構化數據是結構化數據的一種形式,它並不符合關系型資料庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和欄位進行分層。因此,它也被稱為自描述的結構。半結構化數據,屬於同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序並不重要。常見的半結構數據有XML和JSON。
③非結構化數據
非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用資料庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、各類報表、圖像和音頻/視頻信息等等。非結構化數據其格式非常多樣,標准也是多樣性的,而且在技術上非結構化信息比結構化信息更難標准化和理解。所以存儲、檢索、發布以及利用需要更加智能化的IT技術,比如海量存儲、智能檢索、知識挖掘、內容保護、信息的增值開發利用等。
快速化
隨著物聯網、電子商務、社會化網路的快速發展,全球大數據儲量迅猛增長,成為大數據產業發展的基礎。根據國際數據公司(IDC)的監測數據顯示,2013年全球大數據儲量為4.3ZB(相當於47.24億個1TB容量的移動硬碟),2014年和2015年全球大數據儲量分別為6.6ZB和8.6ZB。近幾年全球大數據儲量的增速每年都保持在40%,2016年甚至達到了87.21%的增長率。2016年和2017年全球大數據儲量分別為16.1ZB和21.6ZB,2018年全球大數據儲量達到33.0ZB。預測未來幾年,全球大數據儲量規模也都會保持40%左右的增長率。在數據儲量不斷增長和應用驅動創新的推動下,大數據產業將會不斷豐富商業模式,構建出多層多樣的市場格局,具有廣闊的發展空間。
核心價值
大數據的核心價值,從業務角度出發,主要有如下的3點:
a.數據輔助決策:為企業提供基礎的數據統計報表分析服務。分析師能夠輕易獲取數據產出分析報告指導產品和運營,產品經理能夠通過統計數據完善產品功能和改善用戶體驗,運營人員可以通過數據發現運營問題並確定運營的策略和方向,管理層可以通過數據掌握公司業務運營狀況,從而進行一些戰略決策;
b.數據驅動業務:通過數據產品、數據挖掘模型實現企業產品和運營的智能化,從而極大的提高企業的整體效能產出。最常見的應用領域有基於個性化推薦技術的精準營銷服務、廣告服務、基於模型演算法的風控反欺詐服務徵信服務,等等。
c.數據對外變現:通過對數據進行精心的包裝,對外提供數據服務,從而獲得現金收入。市面上比較常見有各大數據公司利用自己掌握的大數據,提供風控查詢、驗證、反欺詐服務,提供導客、導流、精準營銷服務,提供數據開放平台服務,等等。
大數據能做什麼?
1、海量數據快速查詢(離線)
能夠在海量數據的基礎上進行快速計算,這里的「快速」是與傳統計算方案對比。海量數據背景下,使用傳統方案計算可能需要一星期時間。使用大數據 技術計算只需要30分鍾。
2.海量數據實時計算(實時)
在海量數據的背景下,對於實時生成的最新數據,需要立刻、馬上傳遞到大數據環境,並立刻、馬上進行相關業務指標的分析,並把分析完的結果立刻、馬上展示給用戶或者領導。
3.海量數據的存儲(數據量大,單個大文件)
大數據能夠存儲海量數據,大數據時代數據量巨大,1TB=1024*1G 約26萬首歌(一首歌4M),1PB=1024 * 1024 * 1G約2.68億首歌(一首歌4M)
大數據能夠存儲單個大文件。目前市面上最大的單個硬碟大小約為10T左右。若有一個文件20T,將 無法存儲。大數據可以存儲單個20T文件,甚至更大。
4.數據挖掘(挖掘以前沒有發現的有價值的數據)
挖掘前所未有的新的價值點。原始企業內數據無法計算出的結果,使用大數據能夠計算出。
挖掘(演算法)有價值的數據。在海量數據背景下,使用數據挖掘演算法,挖掘有價值的指標(不使用這些演算法無法算出)
大數據行業的應用?
1.常見領域
2.智慧城市
3.電信大數據
4.電商大數據
大數據行業前景(國家政策)?
2014年7月23日,國務院常務會議審議通過《企業信息公示暫行條例(草案)》
2015年6月19日,國家主席、總理同時就「大數據」發表意見:《國務院辦公廳關於運用大數據加強對市場主體服務和監管的若干意見》
2015年8月31日,國務院印發《促進大數據發展行動綱要》。國發〔2015〕50號
2016年12月18日,工業和信息化部關於印發《大數據產業發展規劃》
2018年1月23日。中央全面深化改革領導小組會議審議通過了《科學數據管理辦法》
2018年7月1日,國務院辦公廳印發《關於運用大數據加強對市場主體服務和監管的若干意見》
2019年政府工作報告中總理指出「深化大數據、人工智慧等研發應用,培育新一代信息技術、高端裝備、生物醫葯、新能源汽車、新材料等新興產業集群,壯大數字經濟。」
總結
我國著名的電商之父,阿里巴巴創始人馬雲先生曾說過,未來10年,乃至20年,將是人工智慧的時代,大數據的時代。對於現在正在學習大數據的我們來說,未來對於我們更是充滿了各種機遇與挑戰。
python學習網,大量的免費python視頻教程,歡迎在線學習!
⑵ 最大的數據存儲單位是什麼最小的呢
沒有最大的數據存儲單位,在計算機中信息存儲的最小單位是比特。
比特(BIT,binarysystem),計算機專業術語,是信息量單位,是由英文BIT音譯而來。同時也是二進制數字中的位,信息量的度量單位,為信息量的最小單位。
在需要作出不同選擇的情況下把備選的刺激數量減少半所必需的信息。即信號的信息量(比特數)等於信號刺激量以2為底數的對數值。L.哈特萊1928年認為對信息量選用對數單位進行度量最合適。
二進制數系統中,每個0或1就是一個位(bit),位是數據存儲的最小單位。其中8bit就稱為一個位元組(Byte)。計算機中的CPU位數指的是CPU一次能處理的最大位數。例如32位計算機的CPU一次最多能處理32位數據。
(2)大數據的大量是多少位元組擴展閱讀:
計算機都是二進制的,讓它們計算單位,只有2的整數冪時才能非常方便計算機計算,因為電腦內部的電路工作有高電平和低電平兩種狀態。
所以就用二進製表示信號,(控制信號和數據),以便計算機識別。而人習慣於使用10進制,所以存儲器廠商們才用1000作進率。這樣導致的後果就是實際容量要比標稱容量少,不過這是合法的。
1024是2的10次方,因為如果取大了,不接近10的整數次方,不方便人們計算;取小了,進率太低,單位要更多才能滿足需求,所以取2的10次方正好。
計算實例:標稱100GB的硬碟,其實際容量為100×1000×1000×1000位元組/1024×1024×1024≈93.1GB
⑶ 目前大數據至少要達到幾個位元組
大數據並不是指一個數據的位數很大,而是指數據體量巨大,數據速度快,數據類型繁多和數據價值密度低。是指無法在有限時間內用常規軟體工具對其進行獲取,存儲,管理和處理的數據集合。
⑷ KB.MB.GB.TB分別代表什麼
數據存儲單位, 1KB (Kilobyte 千位元組)=1024B,1MB (Megabyte,兆位元組,簡稱「兆」)=1024KB,1GB (Gigabyte,吉位元組,又稱「千兆」)=1024MB。
想要擁有高可用性的DAS存儲,就要首先能夠降低解決方案的成本,例如:LSI的12Gb/s SAS,在它有DAS直聯存儲,通過DAS能夠很好的為大型數據中心提供支持。對於大型的數據中心、雲計算、存儲和大數據。
所有這一切都對DAS存儲性能提出了更高的要求,雲和企業數據中心數據的爆炸性增長也推動了市場對於可支持更高速數據訪問的高性能存儲介面的需求。
提高DAS存儲性能:
在伺服器與存儲的各種連接方式中,DAS曾被認為是一種低效率的結構,而且也不方便進行數據保護。直連存儲無法共享,因此經常出現的情況是某台伺服器的存儲空間不足,而其他一些伺服器卻有大量的存儲空間處於閑置狀態卻無法利用。如果存儲不能共享,也就談不上容量分配與使用需求之間的平衡。
DAS結構下的數據保護流程相對復雜,如果做網路備份,那麼每台伺服器都必須單獨進行備份,而且所有的數據流都要通過網路傳輸。如果不做網路備份,那麼就要為每台伺服器都配一套備份軟體和磁帶設備,所以說備份流程的復雜度會大大增加。
⑸ 你所了解的大數據,是真正的大數據嗎
什麼是大數據
大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合。大數據技術,是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。
大數據時代存儲所面對的問題
隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的,就這個例子來說,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基於塊和文件的存儲系統的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據的挑戰。
容量問題
這里所說的「大容量」通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。基於這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。
「大數據」應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。
延遲問題
「大數據」應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網路成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,並准確的進行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送「過期」的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基於對象的存儲系統則能夠支持並發的數據流,從而進一步提高數據吞吐量。
有很多「大數據」應用環境需要較高的IOPS性能(IOPS (Input/Output Operations Per Second),即每秒進行讀寫(I/O)操作的次數,多用於資料庫等場合,衡量隨機訪問的性能),比如HPC高性能計算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在伺服器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。
並發訪問一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享並使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平台下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶並發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。
安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標准和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去並不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。
成本問題
「大」,也可能意味著代價不菲。而對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控製成本,就意味著我們要讓每一台設備都實現更高的「效率」,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少後端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。
很多大數據存儲系統都包括歸檔組件,尤其對那些需要分析歷史數據或需要長期保存數據的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經濟的存儲介質,事實上,在許多企業中,使用支持TB級大容量磁帶的歸檔系統仍然是事實上的標准和慣例。
對成本控制影響最大的因素是那些商業化的硬體設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定製他們自己的「硬體平台」而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展過程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提供純軟體的形式,可以直接安裝在用戶已有的、通用的或者現成的硬體設備上。此外,很多存儲軟體公司還在銷售以軟體產品為核心的軟硬一體化裝置,或者與硬體廠商結盟,推出合作型產品。
數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基於時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟體一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
應用感知
最早一批使用大數據的用戶已經開發出了一些針對應用的定製的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用伺服器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。
小用戶怎麼辦?
依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的「大數據」存儲系統,主要吸引那些對成本比較敏感的用戶。
⑹ 什麼叫大數據
大數據概述
專業解釋:大數據英文名叫big data,是一種IT行業術語,是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
通俗解釋:大數據通俗的解釋就是海量的數據,顧名思義,大就是多、廣的意思,而數據就是信息、技術以及數據資料,合起來就是多而廣的信息、技術、以及數據資料。
大數據提出時間
「大數據」這個詞是由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶於2008年8月中旬共同提出。
大數據的特點
Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)-由IBM提出。
大數據存在的意義和用途是什麼?
看似大數據是一個很高大上的感覺,和我們普通人的生活相差甚遠,但是其實不然!大數據目前已經存在我們生活中的各種角落裡了,舉個例子,我們現在目前最關心的疫情情況數據,用的就是大數據的技術,可以實時查看確診人數以及各種疫情數據。
大數據存在的意義是什麼?
從剛才的舉例中我們基本可以了解,大數據是很重要的,其存在的意義簡單來說也是為了幫助人們更直觀更方便的去了解數據。而通過了解這些數據後又可以更深一步的去挖掘其他有價值的數據,例如今日頭條/抖音等產品,通過對用戶進行整理和分析,然後根據用戶的各種數據來判斷用戶的喜愛,進而推薦用戶喜歡看的東西,這樣做不僅提升了自身產品的體驗度,也為用戶提供了他們需要的內容。
大數據的用途有哪些?
要說大數據的用途,那可就相當廣泛了,基本各行各業都可以運用到大數據的知識。如果簡單理解的話,可分為以下四類:
用途一:業務流程優化
大數據更多的是協助業務流程效率的提升。能夠根據並運用社交網路數據信息 、網站搜索及其天氣預告找出有使用價值的數據信息,這其中大數據的運用普遍的便是供應鏈管理及其派送線路的提升。在這兩個層面,自然地理精準定位和無線通信頻率的鑒別跟蹤貨物和送大貨車,運用交通實時路況線路數據信息來選擇更好的線路。人力資源管理業務流程也根據大數據的剖析來開展改善,這這其中就包含了職位招聘的調整。
用途二:提高醫療和研發
大型數據分析應用程序的計算能力允許我們在幾分鍾內解碼整個dna。可以創造新的治療方法。它還能更好地掌握和預測疾病。如同大家配戴智能手錶和別的能夠轉化成的數據信息一樣,互聯網大數據還可以協助病人盡快醫治疾患。現在大數據技術已經被用於醫院監測早產兒和生病嬰兒的狀況。通過記錄和分析嬰兒的心跳,醫生預測可能的不適症狀。這有助於醫生更好地幫助寶寶。
用途三:改善我們的城市
大數據也被用於改進我們在城市的生活起居。比如,依據城市的交通實時路況信息,運用社交媒體季節變化數據信息,增加新的交通線路。現階段,很多城市已經開展數據分析和示範點新項目。
用途四:理解客戶、滿足客戶服務需求
互聯網大數據的運用在這個行業早已廣為人知。重點是如何使用大數據來更好地掌握客戶及其興趣和行為。企業非常喜歡收集社交數據、瀏覽器日誌、分析文本和感測器數據,以更全面地掌握客戶。一般來說,建立數據模型是為了預測。
如何利用大數據?
那我們了解了這么多關於大數據的知識,既然大數據這么好,我們怎麼去利用大數據呢?那這個就要說到大數據的工具BI了,BI簡單理解就是用來分析大數據的工具,從數據的採集到數據的分析以及挖掘等都需要用到BI,BI興起於國外,比較知名的BI工具有Tableau、Power BI等;而國內比較典型的廠家就是億信華辰了。雖然BI興起於國外,但是這些年隨著國內科技的進步以及不斷的創新,目前國內BI在技術上也不比國外的差,而且因為國內外的差異化,在BI的使用邏輯上,國內BI更符合國內用戶的需求。
希望對您有所幫助!~
⑺ 大數據的數量級是幾位元組
大數據的數量級有 MB (兆位元組),GB(吉位元組),TB,PB,EB,它們之間的進率都是1024,即2^10。所以大數據的數量級多以TB或PB為單位,GB量級偏小。
普通個人電腦所能存儲的數據,一般是幾百個GB到幾個TB的級別。例如,常見的固態硬碟,512GB就已經比較大了;常見的機械硬碟,可達1TB/2TB/4TB的容量。
而大數據是PB/EB級別。其實就是在TB的基礎上每一級接著乘以1024。
PB(Peta Byte)— 皮位元組,也就是1024TB
EB(Exa Byte)— 艾位元組,也就是1024PB
ZB(Zetta Byte)— 澤位元組,也就是1024EB
YB(Yotta Byte)— 堯位元組,也就是1024ZB
上述的這些大的單位在日常生活中幾乎接觸不到,而且常人也已經無法直觀地感受到這些單位能大到什麼讓人吃驚的程度。
⑻ 大數據的定義是什麼
大數據首先是一個非常大的數據集,可以達到TB(萬億位元組)甚至ZB(十萬億億位元組)。這裡面的數據可能既有結構化的數據,也有半結構化和非結構化的數據,而且來自於不同的數據源。
結構化的數據是什麼呢?對於接觸過關系型資料庫的小夥伴來說,應該一點都不陌生。對了,就是我們關系型資料庫中的一張表,每行都具有相同的屬性。如下面的一張表:
(子標簽的次序和個數不一定完全一致)
那什麼又是非結構化數據呢?這類數據沒有預定義完整的數據結構,在我們日常工作生活中可能更多接觸的就是這類數據,比如,圖片、圖像、音頻、視頻、辦公文檔等等。
知道了這三類結構的數據,我們再來看看大數據的數據源有哪些呢?歸納起來大致有五種數據源。
一是社交媒體平台。如有名氣的Facebook、Twitter、YouTube和Instagram等。媒體是比較受歡迎的大數據來源之一,因為它提供了關於消費者偏好和變化趨勢的寶貴依據。並且因為媒體是自我傳播的,可以跨越物理和人口障礙,因此它是企業深入了解目標受眾、得出模式和結論、增強決策能力的方式。
二是雲平台。公有的、私有的和第三方的雲平台。如今,越來越多的企業將數據轉移到雲上,超越了傳統的數據源。雲存儲支持結構化和非結構化數據,並為業務提供實時信息和隨需應變的依據。雲計算的主要特性是靈活性和可伸縮性。由於大數據可以通過網路和伺服器在公共或私有雲上存儲和獲取,因此雲是一種高效、經濟的數據源。
三是Web資源。公共網路構成了廣泛且易於訪問的大數據,個人和公司都可以從網上或「互聯網」上獲得數據。此外,國內的大型購物網站,淘寶、京東、阿里巴巴,更是雲集了海量的用戶數據。
四是IoT(Internet of Things)物聯網數據源。物聯網目前正處於迅猛發展勢頭。有了物聯網,我們不僅可以從電腦和智能手機獲取數據,還可以從醫療設備、車輛流程、視頻游戲、儀表、相機、家用電器等方面獲取數據。這些都構成了大數據寶貴的數據來源。
五是來自於資料庫的數據源。現今的企業都喜歡融合使用傳統和現代資料庫來獲取相關的大數據。這些數據都是企業驅動業務利潤的寶貴資源。常見的資料庫有MS Access、DB2、Oracle、MySQL以及大數據的資料庫Hbase、MongoDB等。
我們再來總結一下,什麼樣的數據就屬於大數據呢?通常來大數據有4個特點,這就是業內人士常說的4V,volume容量、 variety多樣性、velocity速度和veracity准確性。