1. 大數據概述及基本概念
大數據的定義首先,還是要重新審視大數據的定義。
行業里對大數據的定義有很多,有廣義的定義,也有狹義的定義。
廣義的定義,有點哲學味道——大數據,是指物理世界到數字世界的映射和提煉。通過發現其中的數據特徵,從而做出提升效率的決策行為。
狹義的定義,是技術工程師給的——大數據,是通過獲取、存儲、分析,從大容量數據中挖掘價值的一種全新的技術架構。
相比較而言,我還是喜歡技術定義,哈哈。
大家注意,關鍵詞我都在上面原句加粗了哈!
要做什麼?——獲取數據、存儲數據、分析數據
對誰做?——大容量數據
目的是什麼?——挖掘價值
獲取數據、存儲數據、分析數據,這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在干這個事。
例如,每月的月初,考勤管理員會獲取每個員工的考勤信息,錄入Excel表格,然後存在電腦里,統計分析有多少人遲到、缺勤,然後扣TA工資。
但是,同樣的行為,放在大數據身上,就行不通了。換言之,傳統個人電腦,傳統常規軟體,無力應對的數據級別,才叫「大數據」。
2.大數據,到底有多大?
我們傳統的個人電腦,處理的數據,是GB/TB級別。例如,我們的硬碟,現在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關系,大家應該都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大數據是什麼級別呢?PB/EB級別。
大部分人都沒聽過。其實也就是繼續翻1024倍:
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,只需要一塊硬碟可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是671部《紅樓夢》小說。
1PB,需要大約2個機櫃的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽1900年。
1EB,需要大約2000個機櫃的存儲設備。如果並排放這些機櫃,可以連綿1.2公里那麼長。如果擺放在機房裡,需要21個標准籃球場那麼大的機房,才能放得下。
阿里、網路、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。
EB還不是最大的。目前全人類的數據量,是ZB級。
1 ZB = 1024 EB (ZB - zettabyte)
2011年,全球被創建和復制的數據總量是1.8ZB。
而到2020年,全球電子設備存儲的數據,將達到35ZB。如果建一個機房來存儲這些數據,那麼,這個機房的面積將比42個鳥巢體育場還大。
數據量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。
目前的大數據應用,還沒有達到ZB級,主要集中在PB/EB級別。
大數據的級別定位:1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
3.數據的來源
數據的增長,為什麼會如此之快?
說到這里,就要回顧一下人類社會數據產生的幾個重要階段。
大致來說,是三個重要的階段。
第一個階段,就是計算機被發明之後的階段。尤其是資料庫被發明之後,使得數據管理的復雜度大大降低。各行各業開始產生了數據,從而被記錄在資料庫中。
這時的數據,以結構化數據為主(待會解釋什麼是「結構化數據」)。數據的產生方式,也是被動的。如果你對大數據開發感興趣,想系統學習大數據的話,可以戳我加入大數據技術學習交流群,私信管理員即可免費領取開發工具以及入門學習資料
第二個階段,是伴隨著互聯網2.0時代出現的。互聯網2.0的最重要標志,就是用戶原創內容。
隨著互聯網和移動通信設備的普及,人們開始使用博客、facebook、youtube這樣的社交網路,從而主動產生了大量的數據。
第三個階段,是感知式系統階段。隨著物聯網的發展,各種各樣的感知層節點開始自動產生大量的數據,例如遍布世界各個角落的感測器、攝像頭。
經過了「被動-主動-自動」這三個階段的發展,最終導致了人類數據總量的極速膨脹。
4.大數據的4Vs
行業里對大數據的特點,概括為4個V。前面所說的龐大數據體量,就是Volume(海量化)。除了Volume之外,剩下三個,分別是Variety、Velocity、Value。
我們一個一個來介紹。
Variety(多樣化)
數據的形式是多種多樣的,包括數字(價格、交易數據、體重、人數等)、文本(郵件、網頁等)、圖像、音頻、視頻、位置信息(經緯度、海拔等),等等,都是數據。
數據又分為結構化數據和非結構化數據。
從名字可以看出,結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型資料庫的數據。
例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。
而網頁文章、郵件內容、圖像、音頻、視頻等,都屬於非結構話數據。
在互聯網領域里,非結構化數據的佔比已經超過整個數據量的80%。
大數據,就符合這樣的特點:數據形式多樣化,且非結構化數據佔比高。
Velocity(時效性)
大數據還有一個特點,那就是時效性。從數據的生成到消耗,時間窗口非常小。數據的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現在的按秒甚至毫秒變化。
我們還是用數字來說話:
就在剛剛過去的這一分鍾,數據世界裡發生了什麼?
Email:2.04億封被發出
Google:200萬次搜索請求被提交
Youtube:2880分鍾的視頻被上傳
Facebook:69.5萬條狀態被更新
Twitter:98000條推送被發出
12306:1840張車票被賣出
……
怎麼樣?是不是瞬息萬變?
Value(價值密度)
最後一個特點,就是價值密度。
大數據的數據量很大,但隨之帶來的,就是價值密度很低,數據中真正有價值的,只是其中的很少一部分。
例如通過監控視頻尋找犯罪分子的相貌,也許幾TB的視頻文件,真正有價值的,只有幾秒鍾。
2. 三微一端是指什麼呢
指的是微博、微信、微視頻和客戶端這四種新媒體工具。隨著智能手機的普及和大數據時代的來臨,也擁有了更加廣泛的受眾,傳播效率更高。在日常政府的宣傳工作中,占據了極其重要的位置。
微信:
(1)建立微信交流群。一般都用於社區宣傳,通過建立微信群聊的方式,可以及時的將信息傳送給群成員,也可以及時接收他們的反饋,比如在此次疫情期間,微信群就承載了日常防控信息及疫情通報的重要作用。
(2)藉助微信公眾號平台。微信公眾號的平台可以發布日常的文章,這些文章還可以被轉載到群眾的朋友圈,進一步的擴大傳播范圍。同時微信公眾號還可以開通留言功能,及時了解群眾觀點,很多政府機構在日常也會開展留言有獎的活動,激發公眾閱讀的熱情。
(3)開發微信小程序。比如在前不久的清明節就有政府開發了網上祭祀的小程序,向大家倡導文明掃墓。
微博:
(1)創建官微。利用微博官方認證賬號進行宣傳,同時在發完微博之後要注意積極主動的和微博下的留言信息進行互動。
(2)邀請知名博主進行轉發。比如在此次疫情期間的相關重要信息,都可以邀請知名大V幫忙轉發。當然,如果是一些營銷性質的宣傳,也可以花上一筆廣告費,請一些廣告博主進行推廣轉發。
(3)創建微博話題。還是以此次疫情為例,就可以創建諸如#疫情防控#之類的積極話題,所有的微博用戶都可以通過搜索話題進行討論。
(4)組織微博抽獎活動。在發布相關信息之後,可以通過微博後台申請點贊或留言抽獎,就能有效地提高微博的閱讀率和網友的參與度。
微視頻:
時下最火熱的微視頻平台,非快手和抖音莫屬。通過拍攝一些比較幽默風趣的情境短片,能夠更加吸引群眾的興趣,同時也可以購買抖音的定向推廣服務,比如可以定向推薦給同城用戶。除此之外也可以發起合拍活動,比如之前的消防組織就發起過關於廚房滅火的合拍。
客戶端:
隨著互聯網加政務的推進,不同省市不同的政務部門都創建了自己的客戶端。以安徽為例,安徽的皖事通平台,就承接了諸如醫療掛號、車輛年審等各類政務服務。學生們在答題之前可以提前搜集一下所報考省份或地市的政務平台名稱,平台通過增設宣傳板塊,或APP啟動動畫,後台消息推送等方式,都能起到不錯的宣傳效果。
三個微端改變了傳統媒體「一對多」的單向信息輸出模式,內容創作相對較短,以滿足受眾的便捷需求「淺讀」與「淺讀」「使用移動設備。
為了充分發揮金融媒體矩陣的優勢,我們應該基於傳統媒體內容的優勢,依託大數據和雲技術,更好地將各個層面的創新理念融入到發展潮流中,通過構建新的傳播模式,實現新聞產品的多媒體展示和多媒體推送。
3. 關於大數據的,數據挖掘,數據分析的微信公共賬號有哪些
回歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對數據進行挖掘。 ①分類。分類是找出資料庫中一組數據對象的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的數據項映射
4. 數據驅動的思維方式包含哪五個方面
每日干貨好文分享丨請點擊+關注
歡迎關注天善智能微信公眾號,我們是專注於商業智能BI,大數據,數據分析領域的垂直社區。
對商業智能BI、數據分析挖掘、大數據、機器學習,python,R感興趣同學加微信:fridaybifly,邀請你進入頭條數據愛好者交流群,數據愛好者們都在這兒。
本文作者:天善智能聯合創始人&運營總監 呂品,微信:tianshanlvpin,原文發表於天善智能服務號,歡迎討論交流。
開篇語
看過不少講解大數據思維的文章,文章的一些觀點能夠帶給我很多的啟發,很有見地也很受用。在跟一些企業的負責人聊起大數據項目規劃和建設的時候,發現大家對大數據並不缺少自己的認識和看法,只是這些認識和看法沒有被系統性的組織起來,形成一個比較有深度的思考問題、解決問題的套路。
這篇文章結合我在和一些朋友溝通過程中看到的一些問題,將大數據思維和價值做了一些聚焦和分解。我來拋磚引玉,希望這篇文章能夠讓大家從另外的一個角度去了解和思考一下到底什麼是大數據思維和價值。
這篇文章適合企業高層、即將或者正在規劃大數據項目、思考如何對大數據進行頂層設計、大數據項目管理人員一讀。作為補充,我在此也推薦幾篇文章以豐富大家思考問題的維度(角度):
【概念篇】大數據思維十大核心原理
【分析篇】趨勢 | 大數據應用落地分析
【案例篇】深入解讀民生銀行阿拉丁大數據生態圈如何養成
【案例篇】大數據如何聚焦業務價值,美的大數據建設的啟發
本文作者:呂品 天善智能聯合創始人
本文整理自 2017年3月3日 美雲智數新品發布會數據雲分論壇呂品的演講內容
人人必談大數據
說到大數據,大家並不陌生,從各種自媒體、線上線下沙龍,包括生活中大家經常提起。早在 2010 年之前,國內的很多互聯網公司都已經在處理 「大數據」,只不過那時對大數據還沒有一個清晰的定義。2013 年起,我們注意到在國內大數據這個詞開始火了,火到什麼程度? 舉個例子:我每次回家,家裡的親人朋友都在問我是做什麼的,我說我們是搞商業智能 BI 的,基本上聽不懂。什麼把數據變為信息、信息產生決策,什麼 ETL、報表,幾乎是懵圈的。後來提了一句,我們有一個技術網站,裡面都是玩數據的,比如大數據、數據分析、數據挖掘...。「大數據啊!大數據我知道!」,我問什麼是大數據,回答很簡潔乾脆:「大數據就是數據大唄!」。
其實這種理解不能說錯,只能說不全面,但是從某種角度上來說大數據還是比較深入人心的,「大數據」這三個字起到了一個很好的名詞普及作用,至少不會像商業智能 BI 那樣很難用一句或者幾句話讓大家有個哪怕是很基礎的概念。
大數據 4V
我們經常提到的大數據四大特徵:4個V
Volume 數據容量大:數據量從 GB 到 TB 到 PB 或以上的級別。
Variety 數據類型多:企業在解決好內部數據之後,開始向外部數據擴充。同時,從以往處理結構化的數據到現在需要處理大量非結構化的數據。社交網路數據採集分析、各種日誌文本、視頻圖片等等。
Value 價值高,密度低:數據總量很大,但真正有價值的數據可能只有那麼一部分,有價值的數據所佔比例很小。就需要通過從大量不相關的、各種類型的數據中去挖掘對未來趨勢和模型預測分析有價值的數據,發現新的規律和新的價值。
Velocity 快速化:數據需要快速處理和分析。2010年前後做過一個美國醫療保險的數據遷移項目,有一個 ETL 需要處理該公司幾十年的歷史文件和歷史數據,文件數據量很大,並且邏輯非常復雜,一個流程幾十個包,一趟下來 35 個小時執行完畢。這種情形如果放在現在的互聯網比如電商平台很顯然是不允許的。比如像電商促銷、或者要打促銷價格戰,實時處理傳統的 BI 是無法完成的。對有這種實時處理實時分析要求的企業來說,數據就是金錢,時間就是生命。
我相信上面提到的大數據的四個 V、核心特徵還是比較容易理解的。如果我們不是站在技術層面去聊的話,大家對大數據或多或少都會有一些比較接近和類似的看法,並且在理解和認識上基本也不會有太大的偏差。
但是當我們談到大數據,大家真正關心的問題在哪裡呢? 從技術角度大家可能關心的是大數據的架構、大數據處理用到了什麼樣的技術。但是站在一個企業層面,特別是在著手考察或者規劃大數據項目建設的負責人、企業高層來說,更多關心的應該是下面這幾個問題:
1. 大數據到底能幫我們企業做什麼,或者說能夠帶給我們企業什麼變化。上了大數據對我們有什麼用,會有什麼樣的改變,是經營成本下降、還是幫我們把產品賣的更多?
2. 我們的企業現在能不能上大數據?如果不能上大數據,為什麼,那又需要怎麼做?
3. 我們企業也想跟隨潮流上大數據,問題是要怎麼做。需要准備什麼,關於投入、人才、還缺什麼、需要用到什麼樣的技術?
4. 我們怎麼驗證這個大數據項目是成功還是失敗,我們判斷的標準是什麼?
我相信這些問題都是大家比較關心的一些點,包括我自己。我們目前還是以 BI 分析為主,但我們也會去爬一些外部的數據,後面也在規劃大數據相關的一些項目和開發。
當然大數據這個話題是非常大的,我們很難從一個或者兩個角度把這些問題回答的非常全面。但是我覺得有一點是我們的企業高層或者決策者可以注意的:在規劃和考慮大數據的時候需要具備一定的大數據思維,或者說是面對大數據時我們所要具備的考慮問題和看問題的角度。
大數據思維方式
大數據思維方式我簡單概括為兩個方面:第一個是以數據為核心、數據驅動的思維方式。第二個是業務核心,業務場景化的思維方式。
以數據為核心、數據驅動的思維方式包含這幾個方面:
1. 盡可能完善自己的數據資源。我們手上握有什麼樣的數據資源,我們數據資源的質量如何?
企業需要關注和梳理我們有什麼樣的數據,以前是關注企業的流程,IT的流程、業務流程再造。現在大多數企業這些 IT 基礎和應用的建設都已經完成了,更加關心的應該是在我們的企業里到底握有什麼樣的數據資源,在不同的行業我們的數據主題是不一樣的。
比如電商零售行業,我們考慮更多的可能是消費數據、涉及到用戶、產品、消費記錄。因為我們可以圍繞這些數據比如做用戶畫像、精準營銷、定製化的產品、產品的市場定位分析等等。
比如製造生產行業,我們涉及更多的數據可能是產品本身、我們的生產流程、供應商等。因為我們可以圍繞這些數據比如做我們的生產質量檢查、降低生產成本、工藝流程再造等。
只有了解我們目前自身的數據資源,才能知道我們還缺少哪些數據資源。而這些缺少的數據資源從哪裡來,如何獲得,就是我們在規劃大數據項目的時候是需要解決的。如果缺乏這種意識,等在規劃和上大數據項目的時候你的大數據資源非常有限的。
2. 增加數據觸點、盡可能多的去收集數據,增加數據收集和採集渠道。大數據的建設和大數據分析它是一個迭代的過程,很多的分析場景都是在不斷的探索中找出來的,它有一定的不確定性。正是因為這種不確定性所以才需要我們盡可能收集更多的數據。
現在是移動互聯網時代,人人都是數據的生產者和製造者。比如每天的社交數據、互聯網點擊網路的數據、刷卡消費的數據、電信運營、互聯網運營數據。像我們的製造和生產行業,有自動化的感測器、生產流水線、自動設施的數據等。有些數據放在以前可能不值錢,但是現在看呢?這些數據現在或者在將來的某一天就會變得很有價值。
比如像我最開始提到的那家美國醫療保險公司,我看過他們的 COBOL 代碼注釋都有是七幾年、八幾年前的。他們積累了幾十年的數據,突然在 2010 年前後開始意識到數據的價值了,開始通過數據進行一些變現了。之前知道這些數據的價值嗎?不知道,但是嘗試到數據的甜頭,比如做自己的數據分析,咨詢機構購買一些脫敏的數據,或者給咨詢機構提供數據做市場研究用途。
所以大數據的構建不會是一天兩天的,這個過程會持續很長的時間,我們需要為將來做准備。所以如果你的公司連個最簡單的業務系統,IT 應用系統都沒有,數據連存放的地方都沒有,怎麼能夠上大數據呢?不合理。
數據越多,數據種類越豐富,我們觀察數據的角度維度就越豐富,我們利用大數據從中就能夠發掘出以前更多沒有看到的東西。
3. 數據開放和共享思維。這一點在我們國內其實說起來很容易,但是實際上很難。
去年的時候我去看了一個市公安局的大數據項目(可參看這篇文章 政府大數據面臨的問題和阻力在哪裡?),他們有兩點意識非常好:
1)非常清楚的知道自己擁有哪些數據資源。比如市公安局以及下屬分局、各個支隊各個應用系統的數據:基礎的人口管理、信訪、犯罪信息、情報。包括數據監控所涉及到的鐵路、網吧、民航購票、ETC 卡口等。
2)為了納入更多的社會化數據資源、實現全行業的數據覆蓋,他們准備接入交通、服務、科技信息化、教育、社保、民政等各個行業的數據。包括他們給下面的單位下了數據的指標,每個單位或者每個民警都有這種收集數據的指標,比如哪個單位今天上傳了什麼樣的多少數據,每個月哪個單位上傳的最多,這都是很好的數據收集的意識。
但問題在哪裡?問題在於很多機構比如銀行受國家政策限制很多數據是沒有辦法共享的、還有像教育機構,我憑什麼把數據給你,在行政上大家是並級的機構。
所以這個時候就需要考慮數據開放和共享的思維,在滿足數據安全性的基礎之上我們可以不可以考慮數據互換共享的可能。公安局有的數據一定是教育機構沒有的數據,那麼同樣的教育機構有的數據,公安機構也不一定有。如果兩者數據在某種程度上形成共享,在保證數據安全和不沖突的情況下是可以創造出更多的社會價值的。比如公安局可以提供教育機構關於各個地區犯罪率的信息,包括交通安全事故多發地等,教育機構可以針對
5. r數據挖掘 電腦硬體配置
1. 電腦需要什麼配置?
學大數據的電腦配置主要在內存方面,至少8G,上不封頂,一般16G夠用。當然這只是學習層面,自己搭虛擬機玩玩。工作中,公司自然會給你分配伺服器讓你工作。
2. 有哪些方向?
數據開發、數據分析、數據挖掘。其中每個大方向又拆分了幾個小方向。
三者的聯系是,數據過來之後先進行開發,然後進行分析,最後從數據中挖掘出價值並進行應用。
3. 用Java還是Python?
數據分析和數據挖掘基本使用Python。
數據開發不局限於語言。數據開發大多數Java,少部分Python,也有Scala,具體看公司項目技術棧。因為大部分大數據框架都支持Java介面,而且大部分公司項目技術棧都用Java,所以Java居多。Python更多地使用在腳本或者前期的框架粘合。Scala大多用在Spark框架。
具體可以去招聘網站的JD看,先看自己想去的公司,最後再看自己所在城市的公司。
4. 需要學機器學習嗎?
數據挖掘需要機器學習的知識,部分數據分析崗位需要機器學習知識。
數據開發大多數是不需要的,但有些公司的數據開發崗位也要涉及到推薦系統模型等,或者要使用Spark的mlib庫等等。初學者不需要特意去學,可等到後期技能拓展或者工作中需要再學。
如果你對大數據開發感興趣,想系統學習大數據的話,可以戳我加入大數據技術學習交流群,了解課程,獲取學習資源
5. 哪個方向好?
都好,興趣為王!想做演算法相關的學數據挖掘,想做開發寫代碼的就學數據開發,想接觸業務層面的可以學數據分析,更多的可以結合自己之前的專業技能、工作經歷及之後想從事的工作內容進行考慮。
6. 需要數學知識嗎?
數據開發和一般崗位的數據分析師都不需要什麼數學知識,除了數據挖掘和部分數據分析進行建模時需要進行統計等操作才需要數學知識。
7. 需要高學歷嗎?
入門級別的都不用看學歷。看學歷指數:數據挖掘 > 數據分析 > 數據開發。數據分析和開發正常本科就夠了,數據挖掘大多是本科以上。
8. 薪資高嗎?
大環境下,薪資:數據挖掘 > 數據開發 > 數據分析。同一家公司同一級別的崗位,數據開發正常高於普通開發。
具體看城市、公司以及工作年限。
9. 就業前景和市場需求怎麼樣?
市場需求怎麼樣,看培訓機構的動作就知道了,今年市場上湧起一大批大數據的培訓機構。而且隨著企業上雲,數字化轉型,5G時代的到來,對數據會越來越重視。
無論哪個方向的就業前景都是明朗的,大數據的三大方向後期可以進階純技術架構,純業務管理,技術與業務結合的解決方案架構師,也可以三者之間相互轉型。
第一批大數據專業的學生現在大三,至少得再過2,3年,學校的課程才會相對完善,並能批量生產。不過科班的學生都知道,是不是科班只有在簡歷上寫的不一樣,上課玩的游戲都一樣的。
10. 數據開發和後台開發的區別?
大數據開發相當於後台開發的升級版,要處理的數據量更多,應付的場景更復雜。