『壹』 大數據是指什麼如何解釋
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中,大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法)大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、veracity(真實性)。大數據需要特殊的技術,包括大規模並行處理(MPP)資料庫、數據挖掘電網、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
大數據的4個「V」,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網路日誌、視頻、圖片、地理位置信息等等。第三,數據的來源,直接導致分析結果的准確性和真實性。若數據來源是完整的並且真實,最終的分析結果以及決定將更加准確。第四,處理速度快,1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個「V」
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
搜索下各種網路,上面都有。說白了,就是數據量非常龐大。這確實是近幾年的熱點問題。
『貳』 大數據是什麼有什麼價值作用
「大數據」是指以多元形式,自許多來源搜集而來的龐大數據組,往往具有實時性。在企業對企業銷售的情況下,這些數據可能得自社交網路、電子商務網站、顧客來訪紀錄,還有許多其他來源。這些數據,並非公司顧客關系管理資料庫的常態數據組。
大數據的應用其實早已滲透到人們生活中的方方面面:亞馬遜運用大數據為客戶推薦商品信息,阿里用大數據成立了小微金融服務集團,而谷歌更是計劃用大數據接管世界??當下,很多行業都開始增加對大數據的需求。大數據時代不僅處理著海量的數據,同時也加工、傳播、分享它們。不知不覺中,數據可視化已經遍布我們生活的每一個角落,畢竟普通用戶往往更關心結果的展示。伴隨去年底網路地圖採用LBS定位春運的可視化大數據,就引起了學界對新聞創新和大數據可視化的熱議。
一、技術價值
大數據,根本上與數學、統計學、計算機學、數據學等基本理論知識無法分割,技術水平突飛猛進給數字領域帶來最直接的躍進。
App研發應用、資料庫編寫應用等促進人類社會技術進步的價值都來源於大數據的發明和運營。
大數據不僅創造了新的計算方式、技術處理方式,更加為其他技術的研發、應用和落地提供基礎,例如人工智慧等。
大數據中客戶與企業進行交易的數據,是大數據技術價值的核心映射。客戶的交易行為通過企業內部系統留存,基本以「事後」數據為主。
交易數據是推進企業數據驅動業務,與客戶聯系溝通、獲得有效和分析數據的初級門檻,無論大數據獲取能力如何發展,直接的交易信息永遠都是第一有效和值得關注的。
淘寶的交易分析報告中提到,大額買單後的重購次單和同店重購次單比例分別為25.0%和16.8%,要明顯高於普通買單的18.8%和10.7%,則表示在首次買單獲取了對賣家服務和商品質量的信任後,次單完全存在放大金額的可能,並且比普通買單的可能要高得多。
由此引導賣家增進服務、堅守質量,並適時推出捆綁推薦,以求同類商品同店大額下單的幾率。
只有有了大數據的處理技術,交易行為才能夠得到記錄分析,企業的大數據技術研發、應用和落地才能擁有基礎,以開發更新更適合時代的企業產業。
目前有很多傳統企業盲目行走大數據的道路,但其實大數據技術能力並沒有建立起來,真正獲得了有效數據並得以分析利用的就很少,很多該做的「埋點」沒有做,數據的統計也缺乏技術支撐。
這時大數據的技術價值就會顯得尤為重要,且是所有價值的基礎,一梁塌,全屋倒。
無法自主革新的企業會求助一些以提供大數據服務為產品的新型公司,也就催生了各種大數據公司雨後春筍般的出現,至於這些公司如何為傳統轉型服務在後面會提到。
二、商業價值
在實際的升級運行中,習慣於傳統經營的企業也許經常會為這樣幾個基礎的問題感到困惑:如何提升運營現狀?目標客群是誰?有哪些特點?與競品相比競爭優勢在哪?現有經營問題又是什麼?
而這些看似簡單的問題背後卻隱藏著海量數據的分析挖掘:客流數據、經營數據、以往活動相關數據、場內店鋪信息、競品數據,類此種種的深入透析才能幫助企業畫像潛客、分析經營、建立會員體系、策劃活動執行。
單就運營而論,數據作為一種度量方式,能夠真實的反映運營狀況,幫助企業進一步了解產品、了解用戶、了解渠道進而優化運營策略。
『叄』 關於大數據你必須了解的幾個關鍵詞
關於大數據你必須了解的幾個關鍵詞
大數據分析的定義:大數據分析,即對規模巨大的數據進行分析,能夠高效存儲和處理海量數據、並有效達成多種分析目標的工具及技術的集合。Gartner將大數據分析定義為追求顯露模式檢測和發散模式檢測,以及強化對過去未連接資產的使用的實踐和方法,意即一套針對大數據進行知識發現的方法。通俗地講,大數據分析技術就是大數據的收集、存儲、分析和可視化的技術,是一套能夠解決大數據的4V【海量(Volume)、高速(Velocity)、多變(Variety)、真實(Veracity)】問題,分析出高價值(Value)的信息的工具集合。
大數據的特點:數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,需要搜索、處理、分析、歸納、總結其深層次的規律。數據量:這個參數表示數據的數量,隨著科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。數據類型:傳統企業數據(Traditionalenterprisedata):包括CRMsystems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。機器和感測器數據(Machine-generated/sensordata):包括呼叫記錄(CallDetailRecords),智能儀表,工業設備感測器,設備日誌(通常是Digitalexhaust),交易數據等。社交數據(Socialdata):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。處理速度: 1秒定律,這一點也是和傳統的數據挖掘技術有著本質的不同,物聯網,雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。大數據分析工具:數據來自各個方面,在面對龐大而復雜的大數據,選擇一個合適的處理工具顯得很有必要,幾款好用的處理工具如Hadoop、HPCC、Storm、Apache Drill、RapidMiner和Pentaho BI。工欲善其事,必須利其器,一個好的工具不僅可以使我們的工作事半功倍,也可以讓我們在競爭日益激烈的雲計算時代,挖掘大數據價值,及時調整戰略方向。大數據的應用:大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。營銷:主要用於管理和優化各種營銷活動,如交叉銷售、追加銷售以及基於位置的一對一營銷,並及時對客戶需求進行完整評估等。財政:使用大數據技術可以預防欺詐檢查、進行風險估計和管理、貿易監視、反洗錢、防止信貸風險等。保險:為規避風險,防止欺詐行為,由大數據分析師及時分析調整工作負荷,客戶價值等。零售:1、分析商品2、供應鏈管理分析3、優化消費通訊:推進網路優化規劃,滿足不同客戶需求,研發並推出新產品。分析引擎:提供連接器,處理資料庫。支持大數據分析法:面對龐雜而復雜的數據,必須有許多有效的解決方案,普通分析和高級分析都可以輕松提供集成,集中分析數據,在一個單一的平台上,滿足分析引擎對營銷方案的需求。電子表格工具:ODBC連接器將客戶與Microsoft Excel連接在一起,利用精湛的分析工具如Qlik,MicroStrategy,TIBCO、Jaspersoft,Tableau等,在ODBC/REST APIS的幫助下,將協調R統計編程語言添加到金屬板。CRM和在線營銷方案:Salesforce.com提供的著名的CRM和在線營銷解決方案適合處理業務,並及時提供必要的網路分析對策。大數據的意義和前景:總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型進行挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在人們面前。
『肆』 什麼是大數據時代
大數據時代
(巨量資料(IT行業術語))
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」 「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
中文名
大數據時代
外文名
Big data
提出者
麥肯錫
類 屬
科技名詞
目錄
1 產生背景
2 影響
▪ 大數據
▪ 大數據的精髓
▪ 數據價值
▪ 可視化
3 特徵
4 案例分析
5 產業崛起
6 提供依據
7 應對措施
產生背景
編輯
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」[2]
影響
編輯
大數據
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。
大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。[5] 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。[5]
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。[6]
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
數據價值
大數據時代,什麼最貴?
十年前,葛大爺曾說過,「21世紀什麼最貴?」——「人才」,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。[7]
一分鍾內,微博推特上新發的數據量超過10萬;社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字,意味著什麼?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平台當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。[1]
可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、共享、分析,乃至可視化地呈現,都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前,是怎樣一幅壯觀的景象?在後台注視著這一切,會不會有接近上帝俯視人間星火的感覺?」
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道,劉建國曾任至網路的首席技術官,在這樣一家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後台靜靜端坐,可能片刻都不能安心吧。網路果然在提供搜索服務之外,逐漸增添了網路指數,後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裡面全是來自物流企業、供應鏈方面的技術人員和專家,「Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。」
特徵
編輯
數據量大(Volume)
第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
類型繁多(Variety)
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
價值密度低(Value)
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。
速度快、時效高(Velocity)
第四個特徵是處理速度快,時效性要求高。這是大數據區分於傳統數據挖掘最顯著的特徵。
既有的技術架構和路線,已經無法高效處理如此海量的數據,而對於相關組織來說,如果投入巨大採集的信息無法通過及時處理反饋有效信息,那將是得不償失的。可以說,大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。[2]
案例分析
編輯
個案一
你開心他就買你焦慮他就拋[2]
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以「1」到「50」進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當年第一季度,霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司(IBM)估測,這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街,這一時效至關重要。曾經,華爾街2%的企業搜集微博等平台的「非正式」數據;如今,接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃,和微博推特是合作夥伴。它分析數據,告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容,備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture(著名的網頁流量分析工具)公司,你可以知道有多少人訪問你的網站,以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉,進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化:他把客戶請到辦公室,將包含這些公司的數據圖譜展現出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型,弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈:
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用戶。
3、NoSQL,membase、MongoDb
商用大數據生態圈:
1、一體機資料庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
產業崛起
編輯
越來越多的政府、企業等機構開始意識到數據正在成為組織最重要的資產,數據分析能力正在成為組織的核心競爭力。具體有以下三大案例:
1、2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將「大數據戰略」上升為國家意志。奧巴馬政府將數據定義為「未來的新石油」,並表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
2、聯合國也在2012年發布了大數據政務白皮書,指出大數據對於聯合國和各國政府來說是一個歷史性的機遇,人們如今可以使用極為豐富的數據資源,來對社會經濟進行前所未有的實時分析,幫助政府更好地響應社會和經濟運行。
3、而最為積極的還是眾多的IT企業。麥肯錫在一份名為《大數據,是下一輪創新、競爭和生產力的前沿》的專題研究報告中提出,「對於企業來說,海量數據的運用將成為未來競爭和增長的基礎」,該報告在業界引起廣泛反響。
IBM則提出,上一個十年,他們拋棄了PC,成功轉向了軟體和服務,而這次將遠離服務與咨詢,更多地專注於因大數據分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為,「數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。」
在國內,網路已經致力於開發自己的大數據處理和存儲系統;騰訊也提出2013年已經到了數據化運營的黃金時期,如何整合這些數據成為未來的關鍵任務。
事實上,自2009年以來,有關「大數據」 主題的並購案層出不窮,且並購數量和規模呈逐步上升的態勢。其中,Oracle對Sun、惠普對Autonomy兩大並購案總金額高達176億美元,大數據的產業價值由此可見一斑。[1-2]
提供依據
編輯
大數據是信息通信技術發展積累至今,按照自身技術發展邏輯,從提高生產效率向更高級智能階段的自然生長。無處不在的信息感知和採集終端為我們採集了海量的數據,而以雲計算為代表的計算技術的不斷進步,為我們提供了強大的計算能力,這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界[1-2] 。
大數據雖然孕育於信息通信技術的日漸普遍和成熟,但它對社會經濟生活產生的影響絕不限於技術層面,更本質上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基於數據分析做出,而不是像過去更多憑借經驗和直覺做出。
事實上,大數據的影響並不僅僅限於信息通信產業,而是正在「吞噬」和重構很多傳統行業,廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中,數據分析的技術與手段更是得到廣泛的應用,傳統企業如沃爾瑪通過數據挖掘重塑並優化供應鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析,為用戶提供更加專業化和個性化的服務。
最讓人吃驚的例子是,社交媒體監測平台DataSift監測了Facebook(臉譜) IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。在Facebook開盤前Twitter上的情感逐漸轉向負面,25分鍾之後Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時,Facebook股價在8分鍾之後也開始了回彈。最終當股市接近收盤、Twitter上的情感轉向負面時,10分鍾後Facebook的股價又開始下跌。最終的結論是:Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動。
這僅僅只是基於社交網路產生的大數據「預見未來」的眾多案例之一,此外還有谷歌通過網民搜索行為預測流感爆發等例子。不僅在商業方面,大數據在社會建設方面的作為同樣令人驚嘆,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市等的蓬勃興起,都與大數據技術與應用的發展息息相關。
「大數據」可能帶來的巨大價值正漸漸被人們認可,它通過技術的創新與發展,以及數據的全面感知、收集、分析、共享,為人們提供了一種全新的看待世界的方法。更多地基於事實與數據做出決策,這樣的思維方式,可以預見,將推動一些習慣於靠「差不多」運行的社會發生巨大變革。
應對措施
編輯
一個好的企業應該未雨綢繆,從現在開始就應該著手准備,為企業的後期的數據收集和分析做好准備,企業可以從下面六個方面著手,這樣當面臨鋪天蓋地的大數據的時候,以確保企業能夠快速發展,具體為下面六點。
目標
幾乎每個組織都可能有源源不斷的數據需要收集,無論是社交網路還是車間感測器設備,而且每個組織都有大量的數據需要處理,IT人員需要了解自己企業運營過程中都產生了什麼數據,以自己的數據為基準,確定數據的范圍。
准則
雖然每個企業都會產生大量數據,而且互不相同、多種多樣的,這就需要企業IT人員在現在開始收集確認什麼數據是企業業務需要的,找到最能反映企業業務情況的數據。
重新評估
大數據需要在伺服器和存儲設施中進行收集,並且大多數的企業信息管理體系結構將會發生重要大變化,IT經理則需要准備擴大他們的系統,以解決數據的不斷擴大,IT經理要了解公司現有IT設施的情況,以組建處理大數據的設施為導向,避免一些不必要的設備的購買。
重視大數據技術
大數據是最近幾年才興起的詞語,而並不是所有的IT人員對大數據都非常了解,例如如今的Hadoop,MapRece,NoSQL等技術都是2013年剛興起的技術,企業IT人員要多關注這方面的技術和工具,以確保將來能夠面對大數據的時候做出正確的決定。
培訓企業的員工
大多數企業最缺乏的是人才,而當大數據到臨的時候,企業將會缺少這方面的採集收集分析方面的人才,對於一些公司,特別是那種人比較少的公司,工作人員面臨大數據將是一種挑戰,企業要在平時的時候多對員工進行這方面的培訓,以確保在大數據到來時,員工也能適應相關的工作。
培養三種能力
Teradata大中華區首席執行官辛兒倫對新浪科技表示,隨著大數據時代的到來,企業應該在內部培養三種能力。第一,整合企業數據的能力;第二,探索數據背後價值和制定精確行動綱領的能力;第三,進行精確快速實時行動的能力。
做到上面的幾點,當大數據時代來臨的時候,面臨大量數據將不是束手無策,而是成竹在胸,而從數據中得到的好處也將促進企業快速發展。
望採納,謝謝
『伍』 大數據無限大用什麼詞可以代表
數學語言無窮大
『陸』 大數據熱門詞彙匯總
大數據熱門詞彙匯總
可以說,大數據是如今IT行業最熱門的趨勢之一,它催生出了處理大數據的一批全新技術。而新技術帶來了新的熱門詞彙:首字母縮略詞、專業術語和產品名稱等。連"大數據"這個短語本身都讓人犯暈。許多人一聽到"大數據",覺得是指"大量數據",而大數據的涵義絕不僅僅涉及數據量的多寡。
下面是我們認為你要熟悉的幾個熱門詞彙,按字母順序排列。
ACID
ACID的全稱是原子性、一致性、隔離性和持久性,這其實是一組需求或屬性:如果這四個方面都得到遵守,就能在處理過程中確保資料庫事務的數據完整性。雖然ACID問世已有一段時日,但是事務數據量的急劇增長把更多的注意力投向在處理大數據時需要滿足ACID的規定。
大數據三要素
如今的IT系統在生成數量、速度和種類都很"龐大"的數據。
數量:IDC公司估計,今年全球信息總量將達到2.7澤位元組(這相當於27億太位元組),而且每兩年就翻一番。
速度:讓IT管理人員們頭痛的不僅僅是數據數量,還有數據從金融系統、零售系統、網站、感測器、無線射頻識別(RFID)晶元以及Facebook和推特等社交網路源源而來的速度越來越快。
種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數字數據,它們很容易存儲在關系資料庫中整齊排列的行和列中。現在不再是這樣了。如今,推特和Facebook上的帖子、各種文檔及網頁內容等非結構化數據都是大數據組合的一部分。
列式(或列型)資料庫
一些新一代資料庫(如開源Cassandra和惠普的Vertica資料庫)被設計成了按列存儲數據,而不是像傳統的SQL資料庫那樣按行存儲數據。這種設計提供了更快的磁碟訪問速度,提高了處理大數據時的性能。對數據密集型業務分析應用系統而言,列式資料庫尤其受到歡迎。
數據倉庫
數據倉庫這個概念存在至今已有大概25年了,具體指將數據從多個操作IT系統復制到面向業務分析應用系統的輔助離線資料庫
但是隨著數據量急劇增長,數據倉庫系統正在迅速改變。它們需要存儲更多的數據以及更多種類的數據,因而數據倉庫管理成為一大難題。10年或20年前,數據可能每周或每月復制到數據倉庫系統中;而如今,數據倉庫的更新要頻繁得多,有的甚至實時更新。
ETL
將數據從一個資料庫(比如支持銀行應用事務處理系統的資料庫)轉移到另一個資料庫(比如用於業務分析的數據倉庫系統)時,就要用到提取、轉換和載入(ETL)軟體。數據從一個資料庫傳送到另一個資料庫時,常常需要對數據進行重新格式化和清理操作。
由於數據量急劇增長,數據處理速度大大加快,對ETL工具的性能要求也大大提高了。
Flume
Flume是屬於Apache Hadoop大家族(其他技術包括HBase、Hive、Oozie、Pig和Whirr)的一項技術,這種框架用於為Hadoop填充數據。該技術使用散布於應用伺服器、Web伺服器、移動設備及其他系統上的軟體代理,收集數據,並將數據傳送到Hadoop系統。
比如說,公司可以使用在Web伺服器上運行的Apache Flume,收集來自推特帖子的數據,以便分析。
地理空間分析
推動大數據潮流的一個趨勢是,由如今的IT系統生成和收集的地理空間數據越來越多。常言道,一幅圖片的信息量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基於地理位置的內容是導致如今大數據呈爆炸式增長的主要動因。
地理空間分析是一種特殊形式的數據可視化(參閱下面的"可視化"條目),在地理地圖上覆蓋數據,以幫助用戶更清楚地理解大數據分析的結果。
Hadoop
Hadoop是一種開源平台,用於開發分布式、數據密集型的應用程序。它由Apache軟體基金會控制。
Hadoop的發明者是雅虎公司的開發者道格o卡廷(Doug Cutting),他在谷歌實驗室的MapRece概念這個基礎上開發出了Hadoop,以他兒子的玩具象命名。
另外,HBase是一種非關系資料庫,它是作為Hadoop項目的一部分開發而成的。Hadoop分布式文件系統(HDFS)是Hadoop的一個關鍵組成部分。Hive則是建立在Hadoop基礎上的數據倉庫系統。
內存中資料庫
計算機在處理事務或執行查詢時,一般從磁碟驅動器獲取數據。但是當IT系統處理大數據時,這個過程可能實在太慢。
內存中資料庫系統利用計算機的主內存來存儲經常使用的數據,因而大大縮短了處理時間。內存中資料庫產品包括SAP HANA和甲骨文Times Ten內存中資料庫。
Java
Java是一種編程語言,由現隸屬甲骨文公司的Sun開發,於1995年發布。Hadoop和其他許多大數據技術都是使用Java開發而成的,它仍是大數據領域一種主要的開發技術。
Kafka
Kafka是一種高吞吐量的分布式消息傳送系統,最初是在LinkedIn開發而成,用於管理該服務網站的活動流(關於網站使用情況的數據)和操作數據處理流水線(關於伺服器組件的性能)。
Kafka在處理大量流式數據時很有效,而流式數據是許多大數據計算環境的一個關鍵問題。由推特開發的Storm是另一種大行其道的流處理技術。
Apache軟體基金會已將Kafka列為一個開源項目。所以,別以為這是有缺陷的軟體。
延遲時間
延遲時間是指數據從一個點傳送到另一個點過程中的延遲,或者是某個系統(如應用程序)響應另一個系統的延遲數量。
雖然延遲時間不是什麼新術語,但是隨著數據量不斷增長,IT系統竭力跟上步伐,如今你更常聽到這個術語。簡單地說,"低延遲"是好事,"高延遲"是壞事。
映射/化簡
映射/化簡(Map/Rece)這種方法是指把一個復雜的問題分解成多個較小的部分,然後將它們分發到多台計算機上,最後把它們重新組裝成一個答案。
谷歌的搜索系統用到了映射/化簡概念,這家公司有一個品牌名為MapRece的框架。
谷歌在2004年發布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認識到了其潛力,開發出了同樣借用映射/化簡概念的第一個版本的Hadoop。
NoSQL資料庫
大多數主流的資料庫(如甲骨文資料庫和微軟SQL Server)基於關系型體系結構,使用結構化查詢語言(SQL)用於開發和數據管理。
但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代資料庫系統基於支持者們認為更適合處理大數據的體系結構。
一些NoSQL資料庫是為提高可擴展性和靈活性設計的,另一些NoSQL資料庫在處理文檔及其他非結構化數據方面比較有效。典型的NoSQL資料庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發商已推出了各自的NoSQL產品。
Oozie
Apache Oozie是一種開源工作流引擎,用於幫助管理面向Hadoop的處理工作。使用Oozie,一系列工作可以用多種語言(如Pig和MapRece)來加以定義,然後彼此關聯起來。比如說,一旦從操作應用程序收集數據的作業已完成,程序員就可以啟動數據分析查詢任務。
Pig
Pig是Apache軟體基金會的另一個項目,這個平台用於分析龐大的數據集。就其本質而言,Pig是一種編程語言,可用於開發在Hadoop上運行的並行計算查詢。
定量數據分析
定量數據分析是指使用復雜的數學或統計模型,解釋金融和商業行為,或者甚至預測未來的行為。
由於如今收集的數據量急劇增加,定量數據分析已變得更加復雜。但是如果公司知道如何利用海量數據,獲得更好的可視性,深入了解公司業務,並且洞察市場發展趨勢,那麼更多的數據也有望在數據分析方面帶來更多的機會。
一個問題是,擁有這種分析技能的人才嚴重匱乏。知名咨詢公司麥肯錫表示,光美國就需要150萬名擁有大數據分析技能的分析員和管理員。
關系資料庫
關系資料庫管理系統(RDBM)是如今使用最廣泛的一種資料庫,包括IBM的DB2、微軟的SQL Server和甲骨文資料庫。從銀行應用系統、零售店的銷售點系統到庫存管理應用軟體,大多數的企業事務處理系統都在RDBM上運行。
但有些人認為,關系資料庫可能跟不上如今數據量和種類都呈爆炸式增長的形勢。比如說,RDBM當初在設計時著眼於處理字母數字數據,處理非結構化數據時不是同樣有效。
分片
隨著資料庫變得越來越龐大,處理起來也變得越來越困難。分片(sharding)是一種資料庫分區技術,把資料庫分成了更小、更容易管理的部分。具體來說,資料庫被橫向分區,以便單獨管理資料庫表中的不同行。
分片方法讓龐大資料庫的片段可以分布在多台伺服器上,從而提高資料庫的整體運行速度和性能。
另外,Sqoop是一種開源工具,用於將來自非Hadoop來源(如關系資料庫)的數據轉移到Hadoop環境。
文本分析
導致大數據問題的因素之一是,從推特和Facebook等社交媒體網站、外部新聞源,甚至公司內部收集而來以便分析的文本數量越來越多。由於文本是非結構化數據(不像通常存儲在關系資料庫中的結構化數據),主流的業務分析工具面對文本時常常束手無策。
文本分析採用了一系列方法(關鍵字搜索、統計分析法和語言研究法等),從基於文本的數據中獲得洞察力。
非結構化數據
就在不久前,大部分數據還是結構化數據,這種字母數字信息(如來自銷售交易的財務數據)很容易存儲在關系資料庫中,並由商業智能工具來分析。
但是如今共計2.7澤位元組的存儲數據中很大一部分是非結構化數據,比如基於文本的文檔、推特消息、發布在Flickr上的照片、發布在YouTube上的視頻,等等。(頗有意思的是,每分鍾有長達35個小時的視頻內容上傳到YouTube。)處理、存儲和分析所有這些凌亂的非結構化數據常常是如今的IT系統面臨的難題。
可視化
隨著數據量的增長,人們使用靜態的圖表和圖形來理解數據越來越困難了。這就導致開發新一代的數據可視化和分析工具,能夠以新的方式呈現數據,從而幫助人們理解海量信息。
這些工具包括:標以色碼的熱圖,三維圖形,顯示一段時間內變化的動畫可視化,以及在地理地圖上覆蓋數據的地理空間呈現。今天的先進數據可視化工具還具有更強的互動性,比如允許用戶放大某個數據子集,進行更仔細的檢查。
Whirr
Apache Whirr是一組Java類庫,用於運行大數據雲服務。更確切地說,它可以加快在亞馬遜彈性計算雲(EC2)和Rackspace等虛擬基礎設施上開發Hadoop集群的過程。
XML
可擴展標記語言(XML)用來傳輸和存儲數據(別與HTML混為一談,後者用來顯示數據)。藉助XML,程序員們就可以創建通用的數據格式,並通過互聯網共享信息和格式。
由於XML文檔可能非常龐大、復雜,它們往往被認為導致IT部門面臨大數據挑戰。
堯位元組
堯位元組(yottabyte)是一種數據存儲度量指標,相當於1000澤位元組。據知名調研機構IDC公司估計,今年全球存儲的數據總量預計將達到2.7澤位元組,比2011年增長48%。所以,我們離達到堯位元組這個大關還有很長一段路,不過從目前大數據的增長速度來看,那一天的到來可能比我們想像的要快。
順便說一下,1澤位元組相當於1021位元組的數據。它相當於1000艾位元組(EB)、100萬拍位元組(PB)和10億太位元組(TB)。
ZooKeeper
ZooKeeper是由Apache軟體基金會創建的一項服務,旨在幫助Hadoop用戶管理和協調跨分布式網路的Hadoop節點。
ZooKeeper與HBase緊密集成,而HBase是與Hadoop有關的資料庫。ZooKeeper是一項集中式服務,用於維護配置信息、命名服務、分布式同步及其他群組服務。IT管理人員用它來實現可靠的消息傳遞機制、同步流程執行及實施冗餘服務。