① 大數據的產生與發展現狀研究
摘 要:大數據的產生給未來信息技術帶來新的機遇與挑戰。大數據對數據處理的有效性、實時性提出了更高要求,需要根據大數據的特點對當前數據處理技術實施變革,從而形成更有益於大數據採集、存儲、處理、管理、分析、共享的新興技術。本文從大數據的產生與發展、特徵、主要應用以及大數據所帶來的挑戰等方面進行闡述與分析。
關鍵詞 :大數據 物聯網 信息處理 海量計算
一、大數據的產生與發展現狀
隨著物聯網、雲計算等信息技術的飛速發展,大數據技術(Big Data)也越發進入人們的視線。大數據是用傳統方法或工具很難處理或分析的數據信息。目前,人們對大數據的理解還不夠全面和深入,關於大數據的含義也沒有一個統一的定義。亞馬遜大數據科學家John Rauser認為:大數據是超過任何一台計算機處理能力的龐大數據量。Informatica 的中國區首席顧問但彬指出:大數據是海量數據與復雜類型的數據的結合。而維基網路則把大數據定義成諸多大而復雜的、難以用當前資料庫處理的數據集合。
大數據研究受到國內外學術界和工業界的廣泛關注,已成為當今信息時代全世界討論的熱點。2008年,Nature雜志就推出大數據專刊,計算社區聯盟也在同一年發表了報告《Big data computing; Creating revolutionary breakthroughs in commerce, science and society》,報告闡述了解決大數據問題所需的關鍵技術以及所面臨的挑戰。美國奧x政府於2012年3月在白宮網站發布了《大數據研究和發展倡議》,提出了通過收集、處理海量、復雜的數據信息,從而提升能力,加快科學和工程領域的創新步伐,轉變學習教育模式,強化美國本土的安全」。2011年1月,微軟公司同惠普公司合作開發了一系列能夠提升生產力,同時提高決策速度的設備。此外,歐盟委員會也提出駕駁大數據浪潮的戰略思路,日本發布的《面向 2020 的 ICT綜合戰略》也提出需要構造大量豐富的數據基礎。
近年來,我國也積極開展對大數據的研究。2011年10月,工信部確認京滬深杭等 5 城市為「雲計算中心」試點城市。2012年6月,中國計算機學會青年計算機科技論壇也舉辦了「大數據時代,智謀未來」學術報告研討會。大數據及其科學研究方法涉及應用領域很廣,並將與國計民生密切相關的科學決策、金融工程以及知識經濟領域緊緊接合。
二、大數據的特點
目前,企業界和學術界都一致認為,大數據具有4個「V」特徵,即:容量(Volume)、種類(Variety)、速度(Velocity)和至關重要的`價值(Value)。
(1) 容量(Volume)巨大。海量的數據集從TB 級別提升到PB 級別。
(2) 種類(Variety)繁多。大數據數據源有多種,數據格式和種類不同於以前所規定的結構化數據范疇。
(3)價值(Value)密度低。如視頻的例子,在不間斷連續監控的過程中,可能有意義的數據僅有一兩秒。
(4)速度(Velocity)快。包含大量實時、在線數據處理分析的需求1秒鍾定律。
三、大數據應用的領域
大數據產業的發展將推動全球經濟由粗放型向集約型轉變,這將對提升企業整體競爭力和政府監管能力具有意義深遠的影響。
商業作為大數據的重要應用領域。沃爾瑪公司通過對消費者購物行為等一系列非結構化數據的分析,了解不同顧客的購物習慣,公司從所銷售的數據進行分析,從而選出適合在一起搭配出售的商品;淘寶也針對買家開設了大數據平台,為客戶量身打造了一整套完善的網購體驗產品。
大數據在金融業也起到了至關重要的作用。美國Equifax公司利用大數據技術,通過對其的資料庫中與財務有關的記錄海量信息進行索引處理和交叉分享,從而得到客戶的個人信用等級,以推斷出客戶的支付需求與能力。
隨著大數據在醫療與生命科學研究過程中的廣泛應用和不斷擴展。2010年,中國公布的《十二五規劃》指出:要重點建設國家級、省級和地市級三級醫療衛生信息平台,建設電子病歷和電子檔案兩個最為基礎的資料庫。各級醫院也將在醫療信息倉庫、數據中心等領域加大投入,醫療數據信息的存儲將愈加被關注,醫療信息中心的關注焦點也將由傳統的計算領域轉為存儲領域。
除此之外,大數據在製造業領域也有著廣闊的應用。製造業企業積累了廣泛的數據信息,在開展對業務數據進行技術管理的同時,企業需要通過大數據處理技術來幫助決策者從資料庫儲存的海量信息中找到有價值的信息,並且對其進行分析處理,從而增強決策的正確性、規避風險。
四、大數據所面臨的挑戰
大數據技術使人們能夠更好地利用之前不能使用的各個數據類型,找出被忽略的信息,促進企業組織更加高效、智能。但隨著對大數據研究的不斷深入,人們也更加意識到當大數據技術向人們敞開「方便之門」的同時,也帶來了眾多的挑戰:
(1)大數據需要更為專業化的管理技術人才。
(2) 大數據的合理利用需要解決容量大、類別多和時效性高的數據處理問題。
(3)大數據的利用對信息安全提出了更高要求。
(4)大數據的集成與管理問題。
這些挑戰已成為關繫到未來大數據發展的重要因素,同時也成為未來引領大數據發展的推動力。
五、結束語
大數據已經逐步滲透到人們工作生活的諸多領域中,對於大數據的研究也在不斷的深化。本文針對大數據的產生與發展、特徵、主要應用以及大數據所帶來的挑戰等方面進行闡述與分析。大數據的發展還處於初級階段,還有更為廣闊的空間需要人們不斷開拓,如何合理地利用大數據、更加高效地處理大數據來為人們服務仍需要廣大研究者不斷地研究和探索。
參考文獻:
[1]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報,2014,46(6):957- 972.
[2]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013,23(4):168-172.
[3]劉俊.基於大數據流的Multi-Agent系統模型研究[J].計算機技術與發展, 2007,17(5):166-169.
② 澶ф暟鎹璋冪爺鎶ュ憡
澶ф暟鎹瀹¤¤皟鐮旀姤鍛
鑳℃辰鍚涘¤¢暱鏇懼氭″己璋冩寚鍑猴紝瑕佺Н鏋佹帹榪涘ぇ鏁版嵁瀹¤★紝鍧氭寔縐戞妧寮哄★紝閫氳繃淇℃伅鍖栥佹暟瀛楀寲錛屽姫鍔涙彁楂樺¤$洃鐫g殑璐ㄩ噺鍜屾晥鐜囥傛柊褰㈠娍涓嬶紝瀹¤″伐浣滅壒鍒紱諱笉寮澶ф暟鎹鐨勬敮鎾戱紝鍒╃敤澶ф暟鎹榪涜屽¤★紝鎴栧皢鎴愪負瀹¤℃満鍏沖簲瀵瑰嶆潅紺句細緇忔祹綆$悊褰㈠娍銆佹彁鍗囧¤″伐浣滆川閲忕殑閲嶈佹墜孌點備互鈥滈噾瀹″伐紼嬧濅負鍩虹鐨勫¤′俊鎮緋葷粺緇忚繃澶氬勾鐨勫緩璁懼彂灞曪紝鐩鍓嶆i愭ュ緩絝嬪拰瀹屽杽銆傚悓鏃訛紝鍦ㄦ斂搴滃悇閮ㄩ棬涓紺句細淇濋殰澶ф暟鎹鏃㈠叿鏈夎緝楂樼殑瀹屾暣鎬э紝涔熷吋鍏瘋緝楂樼殑鍑嗙『鎬с傝繖浜涘緱澶╃嫭鍘氱殑鏉′歡錛屼笉浠呬嬌瀹¤″光滃ぇ鏁版嵁鈥濈洃鐫g$悊鎴愪負鍙鑳斤紝鏇翠負瀹炴柦浠モ滃ぇ鏁版嵁鈥濅負鍩虹鐨勫¤♀滃叏瑕嗙洊鈥濆犲畾浜嗗熀紜銆
涓銆佸ぇ鏁版嵁鎶鏈鍦ㄨ儲鏀垮¤℃柟闈㈢殑榪愮敤
錛堜竴錛夎繍鐢ㄥぇ鏁版嵁寮灞曡儲鏀垮¤℃槸鏃朵唬鍙戝睍鐨勫繀鐒惰佹眰銆傚ぇ鏁版嵁涓嶄粎鏄淇℃伅鎶鏈鐨勯噸澶ц繘姝ワ紝鏇存槸鍙戝睍鐞嗗康鐨勯噸澶у壋鏂幫紝瀵圭粡嫻庣ぞ浼氬彂灞曡搗鍒伴噸瑕佷綔鐢錛屽逛笌鏁版嵁瀵嗗垏鐩稿叧鐨勫¤″伐浣滀篃蹇呭皢浜х敓娣卞埢褰卞搷銆傚綋鍓嶏紝璐㈡斂銆佺◣鍔°佷漢姘戦摱琛岀瓑閮ㄩ棬鏅閬嶈繘琛屼俊鎮緋葷粺寤鴻撅紝璐㈡斂閮ㄩ棬寮灞曠殑鈥滈噾璐㈠伐紼嬧濊嗙洊璐㈡斂鏀舵敮綆$悊鐨勪笟鍔″簲鐢ㄧ郴緇燂紝娑電洊浜嗛勭畻綆$悊銆佸浗搴撻泦涓鏀朵粯絳変笟鍔★紝瀵硅儲鏀塊儴闂ㄧ殑瀹¤″崟浣嶄俊鎮鍖栫殑鍙戝睍錛岃揩鍒囪佹眰榪愮敤澶ф暟鎹寮灞曡儲鏀垮¤°
錛堜簩錛夎繍鐢ㄥぇ鏁版嵁寮灞曡儲鏀垮¤℃槸鎺ㄥ姩瀹屽杽鍥藉舵不鐞嗙殑榪鍒囬渶瑕併傝儲鏀垮¤$殑鑼冨洿紿佺牬浜嗕紶緇熺殑璐㈡斂鏀舵敮姒傚康錛屽泭鎷浜嗘斂搴滄ф敹鏀鐨勫叏閮ㄥ唴瀹廣傚叏鍙e緞棰勭畻鐨勫℃煡鐩戠潱浠樿稿疄鏂斤紝濡備綍鍦ㄦ湁闄愮殑鏃墮棿鍐呮煡鎵懼拰鍙戠幇闂棰橈紝榪愮敤澶ф暟鎹寮灞曡儲鏀垮¤℃垚涓烘帹鍔ㄥ畬鍠勫浗瀹舵不鐞嗙殑榪鍒囬渶瑕併
錛堜笁錛夎繍鐢ㄥぇ鏁版嵁寮灞曡儲鏀垮¤℃槸璐㈡斂綺劇粏鍖栫$悊鐨勮佹眰銆傚湪綺劇粏鍖栫$悊瑕佹眰涔嬩笅錛岃儲鏀塊勭畻瀹℃煡銆侀勭畻鎵ц屽樊寮傚垎鏋愩侀勭畻涓庡喅綆楃殑瀵規瘮鍒嗘瀽閮芥槸浣跨敤緋葷粺澶ф暟鎹鏉ュ畬鎴愮殑銆傜浉搴斿湴錛岃儲鏀塊勭畻鎵ц屽¤¤佸疄鐜板叏鍙e緞鍒嗘瀽錛屽繀欏諱嬌鐢ㄧ郴緇熸暟鎹銆傚傚埄鐢ㄥ浗搴撴敮浠樼郴緇熺殑鏁版嵁錛岄氳繃瀵規寚鏍囨潵婧愩佽祫閲戞ц川銆佽祫閲戞祦鍚戠殑璺熻釜鍒嗘瀽錛屽疄鐜版墍鏈夎儲鏀胯祫閲戝叏榪囩▼璺熻釜瀹¤°傦紙鍥涳級澶ф暟鎹瀹¤$幇鍦ㄧ殑榪愮敤鎯呭喌銆傛寜鐓^鐨勮佹眰錛屽緩絝嬩簡璐㈡斂鏁版嵁瀹氭湡鎶ラ佹満鍒訛紝姣忓崐騫存敹闆嗕竴嬈¤儲鏀挎暟鎹錛屽苟瀵規敹闆嗙殑鏁版嵁榪涜屾暣鐞嗭紝鐢熸垚瀹¤′漢鍛樺彲浠ヤ嬌鐢ㄧ殑鏍囧噯琛ㄣ傝儲鏀跨戣仈鍚堜俊鎮縐戱紝瀵歸勭畻緙栨姤緋葷粺銆侀勭畻鎸囨爣緋葷粺銆侀潪紼庡緛綆$郴緇熴佸喅綆楃紪鎶ョ郴緇熺瓑鐨勮儲鍔″拰涓氬姟鏁版嵁錛岄泦涓榪涜屽氱郴緇熷叧鑱斻佸ぇ鏁版嵁姣斿廣傚皢鏁版嵁鍒嗘瀽褰㈡垚鐨勫¤′腑闂磋〃鍜岀枒鐐硅〃浣滀負閲嶇偣榪涜屽¤★紝鎻愰珮浜嗘晥鐜囧拰澧炲己鎸囧兼с傚¤$粨鏉熷悗錛屽己鍖栫粡楠屾葷粨錛屽艦鎴愭暟鎹閲囬泦杞鎹㈡寚鍗楋紝褰掗泦鏁寸悊褰㈡垚璐㈡斂澶ф暟鎹瀹¤℃ā鍨嬫柟娉曚綋緋昏〃錛屼負榪涗竴姝ユ繁鍖栧ぇ鏁版嵁瀹¤$Н緔緇忛獙銆
浜屻佺ぞ淇濆¤″ぇ鏁版嵁淇℃伅綆$悊鐜扮姸
涓夈佸ぇ鏁版嵁瀹¤″彂灞曟柟鍚 闈㈠瑰ぇ鏁版嵁鏃朵唬瀵瑰¤″伐浣滃甫鏉ョ殑鎸戞垬錛屽¤℃柟寮忓拰閫斿緞灝嗗疄鐜頒互涓嬪洓涓鏂歸潰鐨勮漿鍙樸
錛堜竴錛夊簲鐢ㄥぇ鏁版嵁鍒嗘瀽鎶鏈錛屽疄鐜板¤℃柟娉曚粠鏁版嵁楠岃瘉鎬у垎鏋愬悜鏁版嵁鎸栨帢鎬у垎鏋愯漿鍙樸
浼犵粺鐨勮$畻鏈哄¤★紝鏄閫氳繃鐢靛瓙鏁版嵁閲囬泦杞鎹㈠規暟鎹榪涜岄獙璇侊紝閫氳繃鏋勫緩鏌ヨ㈠垎鏋愩佸氱淮鍒嗘瀽絳夋柟娉曟ā鍨嬭繘琛屾暟鎹鍒嗘瀽錛岃屽簲鐢ㄥぇ鏁版嵁鍒嗘瀽鎶鏈錛屽垯鑳藉熶嬌瀹¤℃暟鎹鍒嗘瀽閫愭ョ敱浼犵粺鐨勯獙璇佹у垎鏋愬悜鎸栨帢鎬у垎鏋愯漿鍙樸傛寲鎺樻у垎鏋愭槸鎸囬噰鐢ㄥぇ鏁版嵁澶勭悊鎶鏈錛屽埄鐢ㄦ暟鎹浠撳簱銆佹暟鎹鎸栨帢鍜屾ā鍨嬮勬祴宸ュ叿榪涜屽¤″垎鏋愶紝浠庡ぇ閲忔暟鎹涓鍙戠幇鈒存兜鐨勬暟鎹妯″紡鍜岃勫緥銆
錛堜簩錛夊簲鐢ㄥぇ鏁版嵁鍒嗘瀽妯″紡錛屽疄鐜板¤℃柟寮忎粠鍙戠幇闂棰樺悜椋庨櫓棰勮﹁漿鍙樸
浼犵粺瀹¤″伐浣滀互鍙戠幇闂棰樹負涓伙紝瀵圭粡嫻庡艦鍔胯繘琛岄勬祴鍒嗘瀽錛屽洜鑰岄』絳夊埌鐩稿叧浜嬩歡鍙戠敓騫朵笖褰㈡垚涓瀹氳勬ā鍚庯紝鍐嶆牴鎹鎼滈泦鍒扮殑瓚沖熸暟鎹榪涜屽垎鏋愮爺絀訛紝鍏鋒湁婊炲悗鎬с傝屽ぇ鏁版嵁鎶鏈鍙閫氳繃瀵硅法棰嗗煙鐨勫ぇ瑙勬ā緇忔祹銆佺ぞ浼氳屼負鏁版嵁榪涜屽垎鏋愶紝瀵圭粡嫻庣ぞ浼氱浉鍏沖紓甯稿姩鎬佸疄鐜版棭鏈熷叧娉錛屽埄鐢ㄥ叾瀵瑰紓甯告暟鎹鐨勬晱鎰熸у疄鐜版棭鏈熼勮︺傚¤″彲浠ヨ繍鐢ㄥぇ鏁版嵁鐩稿叧鎶鏈錛屽瑰畯瑙傜粡嫻庣ぞ浼氶庨櫓闂棰樺睍寮鍒濇ュ垎鏋愩傦紙涓夛級搴旂敤澶ф暟鎹瀹¤′綔涓氬鉤鍙幫紝瀹炵幇鍗曟満瀹¤″悜浜戝¤¤漿鍙樸
③ 調研報告大數據分析怎麼做
1、明確思路
明確數據分析的目的以及思路是確保數據分析過程有效進行的首要條件。它作用的是可以為數據的收集、處理及分析提供清晰的指引方向。可以說思路是整個分析流程的起點。首先目的不明確則會導致方向性的錯誤。當明確目的後,就要建分析框架,把分析目的分解成若干個不同的分析要點,即如何具體開展數據分析,需要從哪幾個角度進行分析,採用哪些分析指標。
2、收集數據
收集數據是按照確定的數據分析框架收集相關數據的過程,它為數據分析提供了素材和依據。這里所說的數據包括第一手數據與第二手數據,第一手數據主要指可直接獲取的數據,第二手數據主要指經過加工整理後得到的數據。
3、處理數據
處理數據是指對收集到的數據進行加工整理,形成適合數據分析的樣式,它是數據分析前必不可少的階段。數據處理的基本目的是從大量的、雜亂無章、難以理解的數據中,抽取並推導出對解決問題有價值、有意義的數據。數據處理主要包括數據清洗、數據轉化、數據提取、數據計算等處理方法。
4、分析數據
分析數據是指用適當的分析方法及工具,對處理過的數據進行分析,提取有價值的信息,形成有效結論的過程。由於數據分析多是通過軟體來完成的,這就要求數據分析師不僅要掌握各種數據分析方法,還要熟悉數據分析軟體的操作。而數據挖掘其實是一種高級的數據分析方法,就是從大量的數據中挖掘出有用的信息,它是根據用戶的特定要求,從浩如煙海的數據中找出所需的信息,以滿足用戶的特定需求。
5、展現數據
一般情況下,數據是通過表格和圖形的方式來呈現的,我們常說用圖表說話就是這個意思。常用的數據圖表包括餅圖、柱形圖、條形圖、折線圖、散點圖、雷達圖等,當然可以對這些圖表進一步整理加工,使之變為我們所需要的圖形。
6、撰寫報告
數據分析報告其實是對整個數據分析過程的一個總結與呈現。通過報告,把數據分析的起因、過程、結果及建議完整地呈現出來,供決策者參考。一份好的數據分析報告,首先需要有一個好的分析框架,並且圖文並茂,層次明晰,能夠讓閱讀者一目瞭然。另外,數據分析報告需要有明確的結論,沒有明確結論的分析稱不上分析,同時也失去了報告的意義,因為我們最初就是為尋找或者求證一個結論才進行分析的,所以千萬不要舍本求末。最後,好的分析報告一定要有建議或解決方案。
④ 大數據發展背景及研究現狀
2015年左右,大數據相關政策規劃密集出台,同期為大數據企業新增數量頂峰時期。近年來,我國大數據產業迎來新的發展機遇期,產業規模日趨成熟。大數據產業主體從「硬」設施向「軟」服務轉變的態勢將更加明顯,面向金融、政務、電信、醫療等領域的大數據服務將實現倍增創新。
大數據企業數量持續增長,增速與政策出台密切相關
根據IT桔子統計,大數據企業的快速增長階段出現在2013-2015年,增長速度在2015年達到最高峰。2015年後,市場日趨成熟,企業新增開始趨於放緩,大數據產業逐漸走向成熟。
—— 以上數據及分析均來自於前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》。