1. 大數據時代,大數據概念,大數據分析是什麼意思
大數據概念就是指大數據,指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據時代是IT行業術語。最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」
大數據分析是指對規模巨大的數據進行分析。大數據可以概括為4個V, 數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值(Value)。
(1)我們的大數據時代2017擴展閱讀:
大數據分析的實例應用:
數據分析成為巴西世界盃賽事外的精彩看點。伴隨賽場上球員的奮力角逐,大數據也在全力演繹世界盃背後的分析故事。
一向以嚴謹著稱的德國隊引入專門處理大數據的足球解決方案,進行比賽數據分析,優化球隊配置,並通過分析對手數據找到比賽的「制敵」方式;谷歌、微軟、Opta等通過大數據分析預測賽果...... 大數據,不僅成為賽場上的「第12人」,也在某種程度上充當了世界盃的"預言帝"。
大數據分析邂逅世界盃,是大數據時代的必然發生,而大數據分析也將在未來改變我們生活的方方面面。
2. 現在我們都在大數據時代,那麼什麼是大數據時代
大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。
大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。
大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分布式計算架構,依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。
大數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行掃描,盡管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對,挖掘主效基因。例子還有很多,感興趣的話可以訪問FineBI商業智能大數據官網了解。
大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。
3. 2017年大數據產業將迎來哪些變化
2017年大數據的變化個人認為將主要在如下幾點:
1.物聯網(IoT)
公司日益期望從所有數據中獲得價值,企業組織將不得不改動技術,以便與物聯網數據銜接起來。這在數據治理、標准、健康保障、安全和供應鏈等方面帶來了無數新的挑戰和機遇。
物聯網和大數據是同一枚硬幣的兩面,數十億與互聯網連接的「物件」將生產大量數據。然而,這本身不會引發另一場工業革命,不會改變日常的數字化生活,也不會提供拯救地球的預警系統。來自設備外部的數據才是企業讓自己與眾不同的方面,結合上下文來捕獲和分析這種類型的數據為公司帶來了新的發展前途。
2.深度學習
深度學習主要用於從大量未標記/未監督的數據當中學習,因而對於從大數據中提取有意義的標識和模式頗具吸引力。比如說,它可以用來識別許多不同類型的數據,比如視頻中的形狀、顏色和對象,或者甚至是圖像中的貓,就像谷歌研製的一個神經網路在2012年所做的那樣。因此,企業可能會看到更多的注意力投向半監督式或未監督式訓練演算法來處理進入的大量數據。
3.內存中分析
不像常規的商業智能(BI)軟體對存儲在伺服器硬碟上的數據運行查詢,內存中技術查詢的是載入到內存中的信息,這可以通過減少或甚至消除磁碟輸入/輸出瓶頸來顯著提升分析性能。就大數據而言,正是由於TB級系統和大規模並行處理,讓內存中分析技術更令人關注。
在現階段,大數據分析的核心其實是發現數據。要是沒有毫秒級延遲,面對數百萬次/數十億次的迭代,運行迭代以查找數據點之間的關聯就不會成為現實。在內存中處理的速度比磁碟上處理要快三個數量級。
4.雲計算
混合雲和公共雲服務越來越受歡迎。大數據成功的關鍵是在彈性基礎設施上運行(Hadoop)平台。我們會看到數據存儲和分析趨於融合,帶來新的更智能的存儲系統,它們將經過優化,用於存儲、管理和排序龐大的PB級數據集。展望未來,我們可以預計會看到基於雲的大數據生態系統將繼續迎來發展,不僅僅局限於「早期採用者」。
5.Apache Spark
Apache Spark在點亮大數據。流行的Apache Spark項目提供了Spark Streaming技術,通過主要採用一種在內存中微批量處理的方法,近實時地處理數據流。它已從Hadoop生態系統的一部分,變成許多企業青睞的一種大數據平台。
4. 大數據時代網路安全進入產業爆發期
大數據時代網路安全進入產業爆發期
2017年中國雲市場競爭中,「1分中標」、「1元中標」案例已經不新鮮,在競爭白熱化的雲計算市場中,第一部網路安全相關法律的出台,再次攪動業界神經,安全成為各大雲服務廠商標榜的核心競爭力。以近日菜鳥和順豐的爭議為例,數據安全、雲市場爭奪都被成為各執一詞的緣由。
21世紀經濟報道記者近日采訪包括阿里雲在內的雲服務公司以及網路安全領域的創業者和專家,解讀雲服務市場的安全競爭。其中阿里雲總裁胡曉明一一回應跟阿里雲相關的競爭和安全問題。他表示,「根本不存在(阿里雲)與騰訊雲爭奪順豐一事,另外如果阿里雲做侵犯用戶隱私的事情,那應該倒閉。」
阿里雲回應「不安全」
6月1日,《網路安全法》實施第一天,順豐和菜鳥陷入數據之爭,在數據資源方面互不讓步,雙方皆以保護用戶數據隱私安全的名義指責對方。捲入這場「羅生門」的,還有順豐和菜鳥各執一詞的「雲市場」爭奪,即騰訊雲和阿里雲的的雲服務市場競爭。
在這場風波中,關於安全的討論爭議也很多。
近日,胡曉明在上海接受21世紀經濟報道記者采訪時回應菜鳥順豐之爭。「順豐早就是我們的客戶了,我也沒有提要跟順豐進一步加大雲計算的合作,我們都沒有找過對方。」胡曉明說。
他表示,一方面不存在與騰訊雲爭奪順豐一事,另外一方面從技術角度也不可能實現通過用戶IP地址獲取用戶核心數據的可能。
在接受采訪的一個小時時間里,胡曉明約有一半時間在談安全、回應與安全相關的質疑。據介紹,阿里雲平台上承載了大概37%的中國網站業務,阿里雲平均每天承受的攻擊是16億次。
據胡曉明介紹,阿里雲有嚴格的內部審計制度。阿里雲工程師進行任何運維管理操作時,都會有內部審計和實時違規預警。所有工程師都需要雙因素認證來完成操作人的身份驗證。此外,還通過定期的安全掃描和模擬滲透,來確保數據安全的內部控制有效、完整性。
「為什麼我們今天特別歡迎網路安全法的正式實施?就像交通法規定的紅綠燈一樣,交通規則越嚴格越好。」阿里雲的另一位負責人補充說,這個也是整個雲計算產業發展的前提。
網路安全產業爆發期
從5月份的勒索病毒事件,再到6月的菜鳥順豐事件,疊加《網路安全法》的落地,網路安全的概念被熱炒到了新高度。
法律對於網路運營者的管理責任作了較為明確的規定,《網路安全法》規定了網路安全等級保護制度,而網路運營者則應根據網路安全等級保護制度的要求,履行安全保護義務,保障網路免受干擾、破壞或入侵,防止數據泄露或被竊取或篡改。
6月13日,21世紀經濟報道記者在2017中國網路安全大會采訪十餘家參會網路安全公司,其中瑞星安全的一位負責人告訴21世紀經濟報道記者,近期咨詢業務的客戶明顯增加,行業向好。
北京另一家做雲安全服務的創業公司人士表示,國外的網路安全市場相對成熟,中國相當於剛剛做完基礎設施建設,對安全的需求正處於爆發的上升期,產業也在爆發期。他們公司2015年創立,現在基本能做到盈虧平衡,比較難得。
據介紹,他們的客戶主要是政府的政務雲平台和金融機構,客戶的安全意識還是比較強的,特別是《網路安全法》出台後,對一些網路數據管理運營平台擔負的責任進一步清晰,大家也不得不重視起來。
某信息安全眾包服務電商平台的CEO陳新龍表示,網路安全元年,應該從2017年《網路安全法》的實施開始。
根據國家互聯網應急中心數據顯示,2016年1月至11月,中國境內被篡改網站數量總數達到62894個,其中被篡改政府網站數量達到1483個。已收集到的信息系統安全漏洞達9756個,其中高危漏洞3764個,佔比為38.6%。
又一份IDC 報告數據顯示,截至 2014 年底,中國信息安全投資的比例依然不足 1%,和美國(3.6%)及日本(6%)等成熟市場差距明顯,中國網路安全市場還有很大的釋放空間。
陳新龍告訴21世紀經濟報道記者,2017年他所創立的安全服務平台,新入駐的網路安全廠商增長迅速。
此前,工信部電子科學技術情報研究所總工程師尹麗波在接受21世紀經濟報道記者采訪時也表示,目前政府的意識很強,包括工信部和網信辦,這些年都在對政府部門在做安全培訓和檢查,提升網路安全意識,普及網路安全技能和知識。在保護安全方面,大部分政府部門都已經行動起來。但企業這塊還有很大的空間,特別是中小企業,信息化程度很低,更別說網路安全措施。所以海量的中小企業,可能會是將來網路安全產業的巨大目標群體。
5. 大數據的發展所面臨的挑戰有哪些
挑戰一:業務來部門沒有清晰的大自數據需求。
挑戰二:企業內部數據孤島嚴重。
挑戰三:數據可用性低,數據質量差。
挑戰四:數據相關管理技術和架構。
挑戰五:數據安全。
6. 大數據時代帶來哪些變化和影響
【導讀】許多人對大數據都不了解,但其實大數據離我們的生活很近,現如今大數據應用到教育、醫療等生活的許多方面,為我們的生活提供了便利,也帶來了改變。那麼,大數據時代帶來哪些變化和影響呢?今天就跟隨小編一起來了解下吧!
一、思維方式改變
所謂思維方式,是一種習慣性的思考問題和處理問題的模式,並由此對我們的行為方式產生直接的影響。然而,如今大數據正影響著我們的思維方式。隨著網路、騰訊、淘寶等網路公司的迅速崛起以及他們的迅速致富,數據致富成了新的致富神話。先前那些房地產、電器大亨費了九牛二虎之力才取得的億萬財富,而這些網路數據商則在短短的幾年時間就迅速超越了這些實體公司的財富,並且所費人力、物力和財力甚少。
二、教育的改變
傳統的學校教育模式映射了工業化集中物流批量生產的模式:鈴聲、標准化的課堂、統一的教材、統一的服裝等。雖然這種教育也培養出了很多人才,然而大數據教育將呈現另外的特徵,例如彈性學習、個性化輔導等。學習分析是近年來大數據在教育領域較為典型的應用,利用鬆散耦合的數據收集工具和分析技術,研究並分析學生學習參與、學習表現和學習過程的相關數據,進而對課程、教學進行實時修正並預測學習者未來的學習趨勢。
三、經濟的改變
雖然我們在政治課上學到的是,生產決定消費,消費對生產有重要的反作用力。然而我認為,在如今這個極為宣揚個性與創造力的社會中,消費很大程度地決定著生產。消費者不認同的,就賣不出去,只有消費者認同的,才賣得出去。然而,大數據可以在較短的時間內,通過對數據的全面感知、篩選、收集、分析、共享等為生產者提供可靠的、及時的信息,讓生產者生產出更為暢銷、更具個性化的物品。
以上就是小編今天給大家整理分享關於「大數據時代帶來哪些變化和影響?」的相關內容希望對大家有所幫助。小編認為要想在大數據行業有所建樹,需要考取部分含金量高的數據分析師證書,這樣更有核心競爭力與競爭資本。
7. 大數據時代
大數據是什麼?是一種運營模式,是一種能力,還是一種技術,或是一種數據集合的統稱?今天我們所說的「大數據」和過去傳統意義上的「數據」的區別又在哪裡?大數據的來源又有哪些?等等。當然,我不是專家學者,我無法給出一個權威的,讓所有人信服的定義,以下所談只是我根據自己的理解進行小結歸納,只求表達出我個人的理解,並不求全面權威。先從「大數據」與「數據」的區別說起吧,過去我們說的「數據」很大程度上是指「數字」,如我們所說的客戶量,業務量,營業收入額,利潤額等等,都是一個個數字或者是可以進行編碼的簡單文本,這些數據分析起來相對簡單,過去傳統的數據解決方案(如資料庫或商業智能技術)就能輕松應對;而今天我們所說的「大數據」則不單純指「數字」,可能還包括「文本,圖片,音頻,視頻……」等多種格式,其涵括的內容十分豐富,如我們的博客,微博,輕博客,我們的音頻視頻分享,我們的通話錄音,我們位置信息,我們的點評信息,我們的交易信息,互動信息等等,包羅萬象。用正規的語句來概括就是,「數據」是結構化的,而「大數據」則包括了「結構化數據」「半結構化數據」和「非結構化數據」。關於「結構化」「半結構化」「非結構化」可能從字面上比較難理解,在此我試著用我的語言看能否形象點地表達出來:由於數據是結構化的,數據分析可以遵循一定現有規律的,如通過簡單的線性相關,數據分析可以大致預測下個月的營業收入額;而大數據是半結構化和非結構化的,其在分析過程中遵循的規律則是未知的,它通過綜合方方面面的信息進行模擬,它以分析形式評估證據,假設應答結果,並計算每種可能性的可信度,通過大數據分析我們可以准確找到下一個市場熱點。 基於此,或許我們可以給「大數據」這樣一個定義,「大數據」指的是收集和分析大量信息的能力,而這些信息涉及到人類生活的方方面面,目的在於從復雜的數據里找到過去不容易昭示的規律。相比「數據」,「大數據」有兩個明顯的特徵:第一,上文已經提到,數據的屬性是包括結構化、非結構化和半結構化數據;第二,數據之間頻繁產生交互,大規模進行數據分析,並實時與業務結合進行數據挖掘。解決了大數據是什麼,接下來還有一個問題,大數據的來源有哪些?或者這個問題這樣來表達會更清晰「大數據的數據來源有哪些?」對於企業而言,大數據的數據來源主要有兩部分,一部分來自於企業內部自身的信息系統中產生的運營數據,這些數據大多是標准化、結構化的。(若繼續細化,企業內部信息系統又可分兩類,一類是「基幹類系統」,用來提高人事、財會處理、接發訂單等日常業務的效率;另一類是「信息類系統」,用於支持經營戰略、開展市場分析、開拓客戶等。)傳統的商業智能系統中所用到的數據基本上數據該部分。而另外一部分則來自於外部,包括廣泛存在於社交網路、物聯網、電子商務等之中的非結構化數據。這些非結構化數據由源於 Facebook、Twitter、LinkedIn 及其它來源的社交媒體數據構成,其產生往往伴隨著社交網路、移動計算和感測器等新的渠道和技術的不斷涌現和應用。具體包括了:如,呼叫詳細記錄、設備和感測器信息、GPS 和地理定位映射數據、通過管理文件傳輸協議傳送的海量圖像文件、Web 文本和點擊流數據、科學信息、電子郵件等等。由於來源不同,類型不同的數據透視的是同一個事物的不同的方面,以消費客戶為例,消費記錄信息能透視客戶的消費能力,消費頻率,消費興趣點等,渠道信息能透視客戶的渠道偏好,消費支付信息能透視客戶的支付渠道情況,還有很多,如,客戶會否在社交網站上分享消費情況,消費前後有否在搜索引擎上搜索過相關的關鍵詞等等,這些信息(或說數據)從不同的方面表達了客戶的消費過程的方方面面。因此,一般來說,企業用以分析的數據來源越廣越全面,其分析的結果就越立體,越接近於真實。因此,大數據分析意味著企業能夠從不同來源的數據中獲取新的洞察力,並將其與企業業務體系的各個細節相融合,以助力企業在創新或者市場拓展上有所突破。針對「數據量」這個話題,亞馬遜CTO Vogels曾經說過,「在運用大數據時,你會發現數據越大,結果越好。為什麼有的企業在商業上不斷犯錯?那是因為他們沒有足夠的數據對運營和決策提供支持。一旦進入大數據的世界,企業的手中將握有無限可能。」可以預料,在不遠的未來,企業如何通過抓住用戶獲取源源不斷的數據資產將會是一個新的兵家必爭之地。在這個層面上,Facebook、Twitter、Google、Amazon,包括電信運營商等領先企業具有無可比擬的優勢。在大數據的領域里是否數據量越大越好?很多時候我們寫文章,並不是想要去重復某一個眾所周知的事實,而更多的是想從另外一個角度試圖去質疑那些已成事實的事實,並不是想要去推翻,而只是去看這個事實是否存在另外的可能性,雖然很多時候我的那些質疑會漏洞百出,並顯得幼稚可笑,但我覺得一個事物的健康發展需要不同的聲音,而這正是我們寫文章的意義所在。所以,我現在問題是,在大數據的領域里是否數據量越大越好?對於這個問題,我覺得應該分兩個層面來看,第一個層面是,對大數據這個整體而言,數據肯定是越大越好的,多元的數據能讓不同行業,不同組織都可以從大數據中尋找到解決問題的方法,也是基於此,現在越來越多的企業組織通過不同的終端、應用或者其他手段去瘋狂地收集多元的數據,大數據讓人們能有足夠的能力和視野將地球(包括地球上的一切)作為一個整體去看待,這是在從前無法想像的。第二個層面是,對於大數據的具體應用而言,數據量是否越大越好,我卻有不同的看法。我的理解是,在大數據的實際應用中你用以分析的數據量越大,你能得到的東西就越多,而至於得到的那些東西是否是你所需要的,或者對你是否有價值的,沒有人能保證。就如同樹林里有100條路,每條路上都有一些你覺得有意思的東西,如果你有足夠的時間,你可以走遍這100條路,收獲很多有意思的小東西,但不是每一條路都會讓你得到真正有價值的東西。經常做數據分析的朋友應該會有同感,在分析的過程中你會發現不同的數據通過不同的組合導入不同的分析模型會得到很多不同的結果,有時候會有一些很新鮮的結果被發現,這會讓你很驚喜,但大部分這些新鮮的結果最後只會出現在你的微博里,而不會出現在正式的分析報告中,因為分析報告是為解決某一具體問題而存在的,旁枝末節太多會顯得臃腫且容易混淆。所以,我認為,在大數據的具體應用面前,我們先要做的是把「大數據」這個概念忘掉,我們必須弄清楚到底想從大數據中得到什麼,然後帶著目的去收集有用的數據,輸入至分析模型中,直接導向我們想要的結果。否則你將花費大量時間、資源成本去獲取數據,分析數據。我們需要大數據應用是能夠幫助解決問題的行為洞察,而不是試圖研究每一條能夠得到的信息。不得不說,大數據的世界太魔幻了,裡面的誘惑很多,如果你不是帶著明確的目標去應用,你很有可能被陷入在五光十色的誘惑中無法自拔。即使你走進了一座金山,最後你能帶走的最多也只是你能提動的一小口袋。另外,這同時也揭示,為了避免應用者困在「大數據的金山」,大數據必須往下細化,針對不同行業不同領域的特定問題制定不同的解決工具,未來大數據將會遵循消費化模式,核心基礎設施將作為服務或應用程序來提供。
8. 什麼是大數據時代
大數據時代
(巨量資料(IT行業術語))
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」 「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
中文名
大數據時代
外文名
Big data
提出者
麥肯錫
類 屬
科技名詞
目錄
1 產生背景
2 影響
▪ 大數據
▪ 大數據的精髓
▪ 數據價值
▪ 可視化
3 特徵
4 案例分析
5 產業崛起
6 提供依據
7 應對措施
產生背景
編輯
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」[2]
影響
編輯
大數據
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。
大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。[5] 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。[5]
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。[6]
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
數據價值
大數據時代,什麼最貴?
十年前,葛大爺曾說過,「21世紀什麼最貴?」——「人才」,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。[7]
一分鍾內,微博推特上新發的數據量超過10萬;社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字,意味著什麼?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平台當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。[1]
可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、共享、分析,乃至可視化地呈現,都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前,是怎樣一幅壯觀的景象?在後台注視著這一切,會不會有接近上帝俯視人間星火的感覺?」
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道,劉建國曾任至網路的首席技術官,在這樣一家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後台靜靜端坐,可能片刻都不能安心吧。網路果然在提供搜索服務之外,逐漸增添了網路指數,後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裡面全是來自物流企業、供應鏈方面的技術人員和專家,「Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。」
特徵
編輯
數據量大(Volume)
第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
類型繁多(Variety)
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
價值密度低(Value)
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。
速度快、時效高(Velocity)
第四個特徵是處理速度快,時效性要求高。這是大數據區分於傳統數據挖掘最顯著的特徵。
既有的技術架構和路線,已經無法高效處理如此海量的數據,而對於相關組織來說,如果投入巨大採集的信息無法通過及時處理反饋有效信息,那將是得不償失的。可以說,大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。[2]
案例分析
編輯
個案一
你開心他就買你焦慮他就拋[2]
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以「1」到「50」進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當年第一季度,霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司(IBM)估測,這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街,這一時效至關重要。曾經,華爾街2%的企業搜集微博等平台的「非正式」數據;如今,接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃,和微博推特是合作夥伴。它分析數據,告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容,備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture(著名的網頁流量分析工具)公司,你可以知道有多少人訪問你的網站,以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉,進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化:他把客戶請到辦公室,將包含這些公司的數據圖譜展現出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型,弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈:
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用戶。
3、NoSQL,membase、MongoDb
商用大數據生態圈:
1、一體機資料庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
產業崛起
編輯
越來越多的政府、企業等機構開始意識到數據正在成為組織最重要的資產,數據分析能力正在成為組織的核心競爭力。具體有以下三大案例:
1、2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將「大數據戰略」上升為國家意志。奧巴馬政府將數據定義為「未來的新石油」,並表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
2、聯合國也在2012年發布了大數據政務白皮書,指出大數據對於聯合國和各國政府來說是一個歷史性的機遇,人們如今可以使用極為豐富的數據資源,來對社會經濟進行前所未有的實時分析,幫助政府更好地響應社會和經濟運行。
3、而最為積極的還是眾多的IT企業。麥肯錫在一份名為《大數據,是下一輪創新、競爭和生產力的前沿》的專題研究報告中提出,「對於企業來說,海量數據的運用將成為未來競爭和增長的基礎」,該報告在業界引起廣泛反響。
IBM則提出,上一個十年,他們拋棄了PC,成功轉向了軟體和服務,而這次將遠離服務與咨詢,更多地專注於因大數據分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為,「數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。」
在國內,網路已經致力於開發自己的大數據處理和存儲系統;騰訊也提出2013年已經到了數據化運營的黃金時期,如何整合這些數據成為未來的關鍵任務。
事實上,自2009年以來,有關「大數據」 主題的並購案層出不窮,且並購數量和規模呈逐步上升的態勢。其中,Oracle對Sun、惠普對Autonomy兩大並購案總金額高達176億美元,大數據的產業價值由此可見一斑。[1-2]
提供依據
編輯
大數據是信息通信技術發展積累至今,按照自身技術發展邏輯,從提高生產效率向更高級智能階段的自然生長。無處不在的信息感知和採集終端為我們採集了海量的數據,而以雲計算為代表的計算技術的不斷進步,為我們提供了強大的計算能力,這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界[1-2] 。
大數據雖然孕育於信息通信技術的日漸普遍和成熟,但它對社會經濟生活產生的影響絕不限於技術層面,更本質上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基於數據分析做出,而不是像過去更多憑借經驗和直覺做出。
事實上,大數據的影響並不僅僅限於信息通信產業,而是正在「吞噬」和重構很多傳統行業,廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中,數據分析的技術與手段更是得到廣泛的應用,傳統企業如沃爾瑪通過數據挖掘重塑並優化供應鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析,為用戶提供更加專業化和個性化的服務。
最讓人吃驚的例子是,社交媒體監測平台DataSift監測了Facebook(臉譜) IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。在Facebook開盤前Twitter上的情感逐漸轉向負面,25分鍾之後Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時,Facebook股價在8分鍾之後也開始了回彈。最終當股市接近收盤、Twitter上的情感轉向負面時,10分鍾後Facebook的股價又開始下跌。最終的結論是:Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動。
這僅僅只是基於社交網路產生的大數據「預見未來」的眾多案例之一,此外還有谷歌通過網民搜索行為預測流感爆發等例子。不僅在商業方面,大數據在社會建設方面的作為同樣令人驚嘆,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市等的蓬勃興起,都與大數據技術與應用的發展息息相關。
「大數據」可能帶來的巨大價值正漸漸被人們認可,它通過技術的創新與發展,以及數據的全面感知、收集、分析、共享,為人們提供了一種全新的看待世界的方法。更多地基於事實與數據做出決策,這樣的思維方式,可以預見,將推動一些習慣於靠「差不多」運行的社會發生巨大變革。
應對措施
編輯
一個好的企業應該未雨綢繆,從現在開始就應該著手准備,為企業的後期的數據收集和分析做好准備,企業可以從下面六個方面著手,這樣當面臨鋪天蓋地的大數據的時候,以確保企業能夠快速發展,具體為下面六點。
目標
幾乎每個組織都可能有源源不斷的數據需要收集,無論是社交網路還是車間感測器設備,而且每個組織都有大量的數據需要處理,IT人員需要了解自己企業運營過程中都產生了什麼數據,以自己的數據為基準,確定數據的范圍。
准則
雖然每個企業都會產生大量數據,而且互不相同、多種多樣的,這就需要企業IT人員在現在開始收集確認什麼數據是企業業務需要的,找到最能反映企業業務情況的數據。
重新評估
大數據需要在伺服器和存儲設施中進行收集,並且大多數的企業信息管理體系結構將會發生重要大變化,IT經理則需要准備擴大他們的系統,以解決數據的不斷擴大,IT經理要了解公司現有IT設施的情況,以組建處理大數據的設施為導向,避免一些不必要的設備的購買。
重視大數據技術
大數據是最近幾年才興起的詞語,而並不是所有的IT人員對大數據都非常了解,例如如今的Hadoop,MapRece,NoSQL等技術都是2013年剛興起的技術,企業IT人員要多關注這方面的技術和工具,以確保將來能夠面對大數據的時候做出正確的決定。
培訓企業的員工
大多數企業最缺乏的是人才,而當大數據到臨的時候,企業將會缺少這方面的採集收集分析方面的人才,對於一些公司,特別是那種人比較少的公司,工作人員面臨大數據將是一種挑戰,企業要在平時的時候多對員工進行這方面的培訓,以確保在大數據到來時,員工也能適應相關的工作。
培養三種能力
Teradata大中華區首席執行官辛兒倫對新浪科技表示,隨著大數據時代的到來,企業應該在內部培養三種能力。第一,整合企業數據的能力;第二,探索數據背後價值和制定精確行動綱領的能力;第三,進行精確快速實時行動的能力。
做到上面的幾點,當大數據時代來臨的時候,面臨大量數據將不是束手無策,而是成竹在胸,而從數據中得到的好處也將促進企業快速發展。
望採納,謝謝