⑴ 大數據技術的數據中心面臨哪些挑戰
01、效率低
傳統的數倉大多構建在Hadoop之上。這位傳統的數倉帶來了近乎無限的橫向擴展能力,同時也造成了傳統的數倉技術效率低的缺陷。效率低主要體現在以下幾個方面。
部署效率低:在部署Hive/HBase/Kylin之前,必須部署好Hadoop集群。和傳統資料庫相比,這個部署效率是非常低效的。
運維效率低:Hive/HBase/Kylin基於Hadoop,Hadoop生態會帶來一個非常嚴重的單點故障問題,即Hadoop體系中任何一個組件出現問題,都可能引起整個系統的不可用。使用傳統的數倉對運維的要求非常高。
計算效率低:主要體現在Hive和Kylin上,這兩個數倉沒有自己的存儲引擎和計算引擎,這導致Hive和Kylin只能依靠堆機器實現復雜查詢,而無法從數據本身下手。在大數據後期,一些以數據快速查詢為目標而特殊設計的數據存儲格式成為標准,這個現象才有所改觀。而HBase的優化核心就是重新設計的存儲引擎,使得HBase可以對數據本身進行查詢速度的優化。
02、延遲高
構建在Hadoop之上的數倉引擎,除了效率低的缺點之外,還面臨著高延遲的挑戰。高延遲主要體現在以下幾個方面。
查詢延遲高:使用Hive作為數倉,受限於HDFS的性能瓶頸,Hive的查詢速度比較慢,難以支撐低延遲場景,無法應用在實時計算的場景中。
寫入數據延遲高:同樣受限於HDFS,Hive的數據寫入延遲也很高,這意味著數據無法實時寫入Hive,從而無法支撐實時分析場景。
03、成本高
傳統的數倉數倉引擎還會帶來成本高的挑戰,主要體現在以下幾個方面.
部署成本高:由於Hadoop的計算邏輯是通過堆計算資源的方式來攤銷復雜查詢的時間,因此如果需要達到一個比較理想的性能,必須要求集群中節點的數量達到一定的規模,否則因為計算效率低的特點,單機很容易成為性能瓶頸。這導致了Hive等基於Hadoop的數倉部署成本高的缺陷。
運維成本高:集群伺服器達到一定規模後,運維成本會指數級上升。同時,由於Hadoop中組件太多,任何一個組件的失效都有可能導致整個服務的不可用,因此運維團隊必須包含所有組件的運維人員,否則運維團隊有可能很好地執行任務。這也極大地提高了運維團隊的人力成本。
存儲成本高:Hadoop的HDFS為了避免集群中伺服器故障從而導致的不可用的情況,默認使用三副本策略存儲數據,即數據會保存三份。這會極大地提高存儲成本。即使是新一代的Hadoop採用了EC糾刪碼技術降低了副本數量,但使用場景有限只適合在冷數據存儲中使用,對於經常需要查詢的熱數據,並不適合採用該方案。
決策成本高:傳統的大數據由於部署成本高,導致企業在做決策時面臨比較大的決策成本,一方面是前期投入太大,短期內看不到效果,長期以來效果如何也很難說清楚。另一方面是即使企業下定決心來建設數倉,昂貴的基礎設施和專業技術人員的缺乏也會造成很長的建設周期,長的建設周期又會帶來很多不可預知的變數,最終影響企業的決策。
⑵ 鏁版嵁鏀鎾戠殑閲嶈佹
鍐崇瓥鏀鎸併侀棶棰樿瘖鏂銆
1銆佸喅絳栨敮鎸侊細鏁版嵁鍙浠ユ彁渚涘喅絳栬呮墍闇瑕佺殑鍚勭嶄俊鎮錛屽府鍔╁喅絳栬呭仛鍑烘g『鐨勫喅絳栥
2銆侀棶棰樿瘖鏂錛氶氳繃鏁版嵁鍒嗘瀽鍙浠ユ壘鍑洪棶棰樼殑鍘熷洜錛屼粠鑰岄噰鍙栨湁鏁堢殑鎺鏂借В鍐崇浉搴旂殑闂棰樸
⑶ 大數據治理存在哪些誤區
誤區一:客戶需求不明確
客戶既然請廠商來幫助自己做數據治理,必定是看到了自己的數據存在種種問題。但是做什麼,怎麼做,做多大的范圍,先做什麼後做什麼,達到什麼樣的目標,業務部門、技術部門、廠商之間如何配合做······很多客戶其實並沒有想清楚自已真正想解決的問題。數據治理,難在找到一個切入點。
誤區二:數據治理是技術部門的事
數據問題產生的原因,往往是業務>技術,如:數據來源渠道多,責任不明確,導致同一份數據在不同的信息系統有不同的表述;業務需求不清晰,數據填報不規范或缺失,等等。很多表面上的技術問題,如ETL過程中某代號變更導致數據加工出錯,影響報表中的數據正確性等,在本質上其實還是業務管理的不規范。
誤區三:大而全的數據治理
出於投資回報的考慮,客戶往往傾向於做一個覆蓋全業務和技術域的、大而全的數據治理項目。從數據的產生,到加工、應用、銷毀,數據的整個生命周期他們希望都能管到。從業務系統,到數據中心,到數據應用,裡面的每個數據他們希望都能被納入到數據治理的范圍中來。
關於大數據治理存在哪些誤區,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
⑷ 從支撐到決策 大數據實現企業商業價值
從支撐到決策:大數據實現企業商業價值
電子商務、社交媒體、移動互聯網、物聯網的興起極大地改變了人們生活與工作的方式,它們給世界帶來巨大變化的同時,也讓一個大數據時代真正地到來。與傳統數據相比,大數據主要體現在數據量龐大、數據類型豐富、數據來源廣泛三個方面,大數據的這三大特徵不僅僅悄然改變著企業IT基礎架構,也促使了用戶對數據與商業價值之間關系的再思考。
大數據所蘊含的價值
對於當今的企業而言,數據就是一種重要的戰略資產,它就像新時代的石油一樣,極富開采價值。如果能夠看清大數據的價值並且迅速行動起來,那麼在未來的商業競爭中占據會佔得先機。事實上,美國奧巴馬政府已經投資2億美金啟動了「大數據研究和發展計劃」,從政府層面鼓勵企業收集海量數據、分析萃取信息的能力。英特爾亞太研發有限公司總經理何京翔博士表示:「信息數據就是21世界的石油,石油只有經過開采、提煉最後變成汽油等化學品才能夠體現出價值。大數據與石油一樣,僅僅存儲而不進行分析和處理是體現不出它的價值。」
圖一:全球知名調研機構IDC公司 對全球數據增長以及數據類型分布情況的調研與預測。相對於傳統的結構化數據,非結構化數據、內容數據的增長迅速,且蘊含了極大的價值。
任何企業都希望能夠充分挖掘出像數據這種戰略資源的價值,從而做出更為准確的商業決策。過去傳統的商業智能局限在分析企業信息系統自身產生出來業務數據,這些數據大部分為資料庫等結構化數據,而隨著非結構化數據成為企業數據的主力軍,傳統商業智能的方式方法顯然已經落伍。傳統商業智能就猶如坐在自己車里,通過後視鏡看後面發生的情況;而大數據分析則像是向前看的望遠鏡,用戶通過望遠鏡能夠看到未來可能會發生的情況。之所以會這樣,是因為大數據分析是基於構化和非結構化數據的總和,在數據分析的全面性上是傳統商業智能所不能比擬的,這意味著通過分析結構能夠提供給企業更加全面和准確的商業洞察力。
圖二:全球知名咨詢機構麥肯錫對於不同行業所產生的數據類型的分析。麥肯錫全球研究所認為幾乎所有行業正在大量產生非結構化數據。[page]
大數據打破了企業傳統數據的邊界,改變了過去商業智能僅僅依靠企業內部業務數據的局面,其背後蘊含的商業價值不可低估,IDC就在其大數據相關報告中著重闡述了大數據的商業價值:行業領導企業與其他企業有著本質的區別,行業領導企業會積極將新的數據類型引入到數據分析之中,為商業決策做出更加准確的判斷,那些沒引入新的分析技術和新的數據類型的企業在未來是不可能成為行業領導者。這本質上其實是要求企業能夠從思維的角度徹底顛覆過去的觀點,大數據在未來企業中的角色絕對不是一個支撐者,而是在企業商業決策和商業價值的決策中扮演著重要的作用。
從支撐到決策
傳統IT,從伺服器、存儲、網路、PC這些硬體設施,到CRM、ERP、PLM等應用軟體,本質上是在對企業各個業務流程層面起到了支撐作用,雖然傳統的商業智能分析能夠對於企業的商業決策起到一定的作用,但是傳統商業智能分析在當今這個大數據時代已經舉步維艱。大數據的價值在於它能夠有效的幫助各個行業用戶做出更為准確的商業決策,從而實現更大的商業價值,它從誕生開始就是站在決策的角度出發。
圖三:全球知名咨詢機構麥肯錫對美國不同行業應用大數據技術潛在價值評估。
麥肯錫認為大數據正在為全球創造不可低估的商業價值。首先,大數據能夠能夠明顯提升企業數據的准確性和及時性;此外還能夠降低企業的交易摩擦成本;更為關鍵的是,大數據能夠幫助企業分析大量數據而進一步挖掘細分市場的機會,最終能夠縮短企業產品研發時間、提升企業在商業模式、產品和服務上的創新力,大幅提升企業的商業決策水平,降低了企業經營的風險。
事實上,大數據離我們並不遙遠,現實生活中已經有很多活生生的案例,這些案例充分說明大數據對於未來的商業決策有著不可低估的作用。比如2011年,英國對沖基金Derwent Capital Markets花費4000萬美金首次建立了基於社交網路的對沖基金。該基金通過對Twitter的數據內容來感知市場情緒,從而進行投資。美國加州大學河濱分校也在2012年公布了一項通過對Twitter消息進行分析從而預測股票漲跌的研究報告。
圖四:英國對沖基金Derwent Capital Markets通過分析Twitter數據來預測股市的波動,該應用為典型的大數據應用,通過實時分析數據來獲得更為准確的投資趨勢。圖中紅線代表Tweets中「平靜」數值;藍線表示3天後的道指變化。在這兩條線段重合的部分,「平靜」指數預測了3天後道指收盤指數,從圖中我們可以發現紅、藍兩線經常走勢相近。[page]
可以說,在IT日益滲透到企業和個人方方面面的今天,大數據將逐漸成為很多行業企業實現商業價值的最佳途徑。IDC中國企業級系統與軟體研究部高級研究經理周震剛就表示:「毫無疑問,未來幾年大數據會逐漸向更多行業發展,除了互聯網和電信之外,其他像政府、金融、製造業都會開始有大數據的應用。」當然,可能還有人會質疑大數據的決策效果,但是不可否認的是大數據正在徹底改變商業決策的模式與方法,大數據是IT價值從企業業務支撐到企業決策轉變的最好體現。
圖五:美國德克薩斯大學《measuring the business impacts of effective data》報告,該報告認為數據使用率提升10%對行業人均產出的平均提升幅度有著重要影響,最為明顯的就是零售行業,在零售行業數據使用率提升10%就能夠使得人均產出提升49%,效果異常明顯。
另外值得關注的是,企業的商業決策帶有很強烈的行業特性,不同行業的企業對於大數據分析的需求並不相同,甚至由於不同行業的關系,這種需求可能是千差萬別。這也就要求大數據解決方案不僅僅包括良好的數據分析能力,也需要包含很多行業的知識。IDC中國企業級系統與軟體研究部高級研究經理周震剛就表示:「從傳統概念來講,大數據非常復雜,無法形成打包好的分析應用解決方案。不過在未來幾年中,某個行業的應用會形成一個共性,廠商們會基於這個共性打包出一些大數據的解決方案推向這些行業用戶。另外,會有更多的行業ISV會加入到大數據平台,基於這個大數據平台來開發應用。」從本質上來看,企業用戶在商業決策中需要的是一個包含了靈活可靠的基礎架構、功能強大的數據分析能力與經驗豐富的行業分析能力的大數據綜合性解決方案,僅僅依靠幾套開源軟體和設備是不能滿足企業在商業決策上的長久需求,英特爾亞太研發有限公司總經理何京翔博士就表示:「大數據不僅僅是一個技術問題,英特爾認為大數據需要一個全面的大數據解決方案。英特爾在提供優秀的基礎架構同時,還重點將Hadoop軟體平台進行優化並提供軟體服務,更加重要的是會針對分析工具和用戶界面進行不同行業解決方案的定製。此外,英特爾也和眾多行業ISV進行多角度、多方位的合作,從而構建出一個完善的大數據解決方案。」
從商業支撐到商業決策,大數據的商業魅力正在逐漸顯現。在這個商業迅速信息化、社交化、移動化的時代,大數據必然會成為大部分行業用戶商業價值實現的最佳捷徑,我們需要做的就是認清本質、轉變思路、未雨綢繆、運籌帷幄,在大數據時代中抓住無限商機。
⑸ 大數據之於智能交通意義重大仍面臨難題
大數據之於智能交通意義重大仍面臨難題_數據分析師考試
日前,在2015中國智慧城市國際博覽會上,來自台灣的勤亞科技張及人透露「台灣政府在將近九年前就開始規劃所謂的大的交通數據雲,用數據來管理整個交通出行。比如通知你從A到B大概走多少時間,這個時間給你選擇走西會更快或者更慢一點,通過這種模式來做。」在公共交通部門,張及人稱台灣已經全面做到了公車到站提醒,准確率在96在97%。「這樣大家坐公交時不會浪費時間,能合理地安排自己的出行計劃。」在計程車和商用車方面,「台灣有一個服務廳,可以清楚地告訴調度公司,在某個天氣、時間、路口會有比較多乘客,只要買了這個服務,系統會高速你客人在哪裡,這就是大數據做的應用。
大數據之於智能交通意義重大
智能交通建設和運營的過程中,從視頻監控、卡口電警、路況信息、管控信息、營運信息、GPS定位信息、RFID識別信息等每天產生的數據量可以達到PB級別,並且是指數級的增長。雖然絕大部分數據是「沉睡的數據」,但按照相關規定,需要對數據進行有期限或無期限的保存,這無疑給用戶在存儲成本上帶來壓力,而通過監控攝像機前端智能技術和大數據分析技術的應用,很好地解決了行業用戶的此類問題,給用戶帶來經濟效益,同時也可以將工作人員從紛繁復雜的監控畫面中解放出來。
大數據之於智能交通的意義,可以解決跨越行政區域的限制,實現數據信息的共享,在信息集成優勢和組合效率上,有助於建立綜合性立體的交通信息體系;另外在車輛安全、交通資源配置以及利用大數據的快速性和可預測性能提升交通預測的水平都有極大的幫助。
大數據支撐智能交通發展仍面臨五大難題
隨著移動互聯網、大數據、車聯網等技術越來越多地滲透到交通領域,百姓的出行將越來越高效便捷,同時也有利於管理部門為社會提供更好的公共交通服務。藉助移動互聯網、雲計算、大數據、物聯網等先進技術和理念,將互聯網產業與傳統交通運輸業進行有效滲透與融合,形成具有線上資源合理分配,線下高效優質運行的新業態和新模式。積極用好大數據技術來支撐交通運輸行業科學決策。交通運輸部正在推進開展行業信息資源整合,同時也與互聯網企業開展合作,利用定位大數據和智能化分析技術,成為科學決策的技術支撐。
不過,大數據雖然支撐著智能交通的前行,但其發展道路上難免要歷經磨難,從目前來看主要存在五個問題。
問題一:海量設備管理問題
隨著系統規模擴大,前端設備點位增加,設備故障點也呈幾何級數增長,管理人員僅忙於應付設備故障,無暇他顧。以電子警察系統為例,目前一、二線城市基本都實現了電警設備在重點路口、路段的全覆蓋,建設規模均有上千台攝像機及相應的控制設備,由於各廠商產質量量良莠不齊,前端設備實際完好率不高。設備故障未暴露,或暴露但沒有得到及時維護的現象非常嚴重,給業主造成了大量的投資浪費。
問題二:統一標准和技術規范
國內智能交通系統項目的建設先於行業統一標準的推出。在缺乏標準的條件下,許多地區的智能交通系統自成體系,缺乏應有的銜接和配合,標准互不統一。即便在城市內部,道路上的感測器標准也非常混亂,因為感測器設備生產企業缺乏統一的介面標准。標准和規范的混亂妨礙了交通數據的獲取,從而無法進行交通流的分析和預測。在高速公路收費系統方面,各省或地區內建設的網路一卡通或不停車收費系統,也沒有統一指導和標准,為將來的全國聯網造成了困難。
問題三:系統可靠性與穩定性
智能交通系統復雜度和整合程度越來越高,而系統的健壯性卻沒有同步提高,往往有牽一發而動全身的問題出現。以某地級市為例,智能交通系統由近200台伺服器和2千多台前端設備組成,包括信號控制、交通流量採集、交通誘導、電子警察、卡口等子系統,數據要和省級交管平台、區縣級交管子平台、公安業務集成平台等系統相連。系統具有流程復雜、業務系統眾多、客戶端分散等等一系列特點。業主竭盡全力為了保證業務系統的正常運行,但還是經常出問題。系統及網路結構復雜是一方面,業務系統眾多無法「照顧」過來才是最嚴重的問題。
問題四:數據源的質量
智能交通應用需要高質量的數據源,而目前設備長時間運行的性能得不到保證,數據質量不高限制了智能交通業務高水平的擴展應用。現代化的交通誘導和交通信號控制需要實時准確的交通流量數據以供交通狀態判斷以及短時交通預測使用。而由於目前系統健壯性不足,難以自行判斷數據質量,從而使得交通誘導和信號控制系統不能發揮預期效用,從而影響了整體智能交通系統的投資價值。
問題五:信息安全問題
由於智能交通兼具交通工具帶來的移動特性和通信傳輸所使用的無線通信兩方面的特點,它也就集成了無線網和移動網兩大類型網路的安全問題。然而,當前針對智能交通的研究還只是偏重於其功能的實現,忽略了其信息安全問題。實際上,無論是從信息的收集、信息的傳輸、信息的處理各個環節,智能交通都存在嚴重的信息泄露、偽造、網路攻擊、容忍性等安全問題,亟須受到人們的關注和重視。
結語:未來伴隨著移動互聯網、大數據、車聯網等技術越來越多地滲透到智能交通,將會使我們的出行越來越便捷、高效、舒適。對於管理部門來講,通過智能交通設施大數據分析預測出行規律和趨勢,科學安排各項保障工作,為全社會提供更好的公共交通服務。
以上是小編為大家分享的關於大數據之於智能交通意義重大仍面臨難題的相關內容,更多信息可以關注環球青藤分享更多干貨
⑹ 要有數據支撐是什麼意思
要有數據支撐是指在進行決策或提出觀點時,需要使用可靠的數據信息來支撐自己的想法或做出決策。數據支撐可以是數字、圖表、案例或實驗證明,它可以幫助人們做出更明智的選擇,更准確地評估風險,以及更好地了解問題的本質。
數據支撐在當前信息時代尤為重要。許多決策都需要大量的數據支撐,包括商業戰略、社會政策、科學技術和醫療健康等等。只有在具有可靠數據支撐的基礎上,才能制定出更有效的制度、政策和方案,這將有效解決一系列復雜問題。因此,強調要有數據支撐已經成為社會發展不可或缺的一部分。
數據支撐的來源可以是各種渠道,包括互聯網、學術期刊、調查報告、研究報告等。在利用數據支撐時,需要對數據進行詳細分析和評估,確保數據的真實性和可信度,這樣在使用數據支撐時才會更加准確。同時,在使用數據支撐時,需要根據具體情況選擇合適的數據呈現方式,如表格、圖表或案例等。只有充分利用數據支撐,才能更快地發現問題所在,並通過更好的決策做出積極的貢獻。
⑺ 大數據失敗案例提醒 8個不能犯的錯誤
大數據失敗案例提醒:8個不能犯的錯誤
近年來,大數據旋風以「迅雷不及掩耳之勢」席捲全球,不僅是信息領域,經濟、政治、社會等諸多領域都「磨刀霍霍」向大數據,准備在其中逐得一席之地。然而,很多公司在邁入大數據領域後遭遇「滑鐵盧」。在此,本文盤點了一系列大數據失敗項目,深究其原因,具有警示意義。
對數據過於相信2008年,Google第一次開始預測流感就取得了很好的效果,比美國疾病預防控制中心提前兩禮拜預測到了流感的爆發。但是,幾年之後,Google的預測比實際情況(由防控中心根據全美就診數據推算得出)高出了50%。媒體過於渲染了Google的成功,出於好奇目的而搜索相關關鍵詞的人越來越多,從而導致了數據的扭曲。低估大數據復雜程度在美國有幾個互聯網金融公司專做中小企業貸款。但是中小企業貸款涉及的數據更復雜,而且中小企業涉及到整個行業非常特殊的一些數據,比如非標準的財務報表和不同行業、不同範式的合同,他們沒有很專業的知識,是很難理解或者很難有時間把它准確挖掘出來。當時大數據團隊想用一個很完美的模型把所有的問題都解決掉,比如把市場和信貸的解決方案全部用一個模型來解決,但因為數據的復雜程度,最後證明這種方法是失敗的,而且90%的時間都在做數據清理。這就說明,想通過大數據技術一下子解決所有的問題是很難成功的,而是要用抽絲剝繭、循序漸進的方式。管理層的惰性某家旅遊公司系統通過web日誌數據的挖掘來提升客戶洞察。結果證明,用戶在瀏覽網站之後,隨後的消費行為模式與管理層所認為的不一致。當團隊匯報此事時,管理層認為不值一提。但是,該團隊並沒有放棄,並通過嚴密的A/B測試,回擊了管理層的輕視。這個案例的最終結果,不是每個CIO都能期盼的。但是,有一點是可以確定的:做好和管理層打交道的准備,讓他們充分理解大數據是什麼以及相應的價值。應用場景選擇錯誤一家保險公司想了解日常習慣和購買生命保險意願之間的關聯性。由於隨後覺得習慣太過於寬泛,該公司將調查范疇限定到是否吸煙上。但是,工作仍然沒有實質進展。不到半年,他們就終止了整個項目,因為一直未能發現任何有價值的信息。這個項目的失敗是由於問題的復雜性。在抽煙與否之間,該公司沒有注意到還有大片灰色地帶:很多人是先抽煙而後又戒煙了。在將問題簡單化動機的驅動下,這個部分被忽略了。問題梳理不夠全面一家全球性公司的大數據團隊發現了很多深刻的洞察,並且計劃通過雲讓全公司共享。結果這個團隊低估了效率方面的損耗,由於網路擁塞的問題,無法滿足全球各個分支順暢提交數據運行分析的需求。該公司應該仔細思考下如何支撐大數據項目,梳理所需的技能並協調各IT分支的力量進行支持。由於網路、安全或基礎設施的問題,已經有太多的大數據項目栽了跟頭。缺乏大數據分析技能一家零售公司的首席執行官不認同亞馬遜規模化、扁平化的服務模式,因此讓CIO構建一個客戶推薦引擎。項目最初的規劃是半年為期,但是團隊很快認識到諸如協同過濾(collaborativefiltering)之類的概念無法實現。為此,一個團隊成員提出做一個「假的推薦引擎」,把床單作為唯一的推薦產品。這個假引擎的工作邏輯是:買攪拌機的人會買床單,買野營書籍的人會買床單,買書的人會買床單。就是如此,床單是唯一的、默認的推薦品。盡管可笑,這個主意其實並不壞,默認的推薦也能給企業帶來銷售上的提升。但是,由於大數據相關技能的缺失,真正意義上的引擎未能實現。提出了錯誤的問題一家全球領先的汽車製造商決定開展一個情感分析項目,為期6個月,耗資1千萬美元。項目結束之後,該廠商將結果分享給經銷商並試圖改變銷售模式。然後,所得出的結果最終被證明是錯誤的。項目團隊沒有花足夠的時間去了解經銷商所面臨的問題或業務建議,從而導致相關的分析毫無價值。應用了錯誤的模型。某銀行為判斷電信行業的客戶流失情況,從電信業聘請了一位專家,後者也很快構建了評估用戶是否即將流失的模型。當時已進入評測驗證的最後階段,模型很快就將上線,而銀行也開始准備給那些被認為即將流失的客戶發出信件加以挽留。但是,為了保險起見,一位內部專家被要求對模型進行評估。這位銀行業專家很快發現了令人驚奇的事情:不錯,那些客戶的確即將流失,但並不是因為對銀行的服務不滿意。他們之所以轉移財產(有時是悄無聲息的),是因為感情問題——正在為離婚做准備。可見,了解模型的適用性、數據抽象的級別以及模型中隱含的細微差別,這些都是非常具有挑戰性的。管理層阻力盡管數據當中包含大量重要信息,但Fortune Knowledge公司發現有62%的企業領導者仍然傾向於相信自己的直覺,更有61%的受訪者認為領導者的實際洞察力在決策過程中擁有高於數據分析結論的優先參考價值。選擇錯誤的使用方法企業往往會犯下兩種錯誤,要麼構建起一套過分激進、自己根本無法駕馭的大數據項目,要麼嘗試利用傳統數據技術處理大數據問題。無論是哪種情況,都很有可能導致項目陷入困境。提出錯誤的問題數據科學非常復雜,其中包含專業知識門類(需要深入了解銀行、零售或者其它行業的實際業務狀況);數學與統計學經驗以及編程技能等等。很多企業所僱用的數據科學家只了解數學與編程方面的知識,卻欠缺最重要的技能組成部分——對相關行業的了解,因此最好能從企業內部出發尋找數據科學家。缺乏必要的技能組合這項理由與「提出錯誤的問題」緊密相關。很多大數據項目之所以陷入困境甚至最終失敗,正是因為不具備必要的相關技能。通常負責此類項目的都是IT技術人員——而他們往往無法向數據提出足以指導決策的正確問題。與企業戰略存在沖突要讓大數據項目獲得成功,大家必須擺脫將其作為單一「項目」的思路、真正把它當成企業使用數據的核心方式。問題在於,其它部門的價值或者戰略目標有可能在優先順序方面高於大數據,這種沖突往往會令我們有力無處使。大數據孤島大數據供應商總愛談論「數據湖」或者「數據中樞」,但事實上很多企業建立起來的只能算是「數據水坑兒」,各個水坑兒之間存在著明顯的邊界——例如市場營銷數據水坑兒與製造數據水坑兒等等。需要強調的是,只有盡量緩和不同部門之間的隔閡並將各方的數據流匯總起來,大數據才能真正發揮自身價值。在大數據技術之外遇到了其它意外狀況。數據分析僅僅是大數據項目當中的組成部分之一,訪問並處理數據的能力同樣重要。除此之外,常常被忽略的因素還有網路傳輸能力限制與人員培訓等等。迴避問題有時候我們可以肯定或者懷疑數據會迫使自身做出一些原本希望盡量避免的運營舉措,例如制葯行業之所以如此排斥情感分析機制、是因為他們不希望將不良副作用報告給美國食品葯品管理局並承擔隨之而來的法律責任。在這份理由清單中,大家可能已經發現了一個共同的主題:無論我們如何高度關注數據本身,都會有人為因素介入進來。即使我們努力希望獲取對數據的全面控制權,大數據處理流程最終還是由人來打理的,其中包括眾多初始決策——例如選擇哪些數據進行收集與分析、向分析結論提出哪些問題等等。為防止大數據項目遭遇失敗,引入迭代機制是非常必要的。使用靈活而開放的數據基礎設施,保證其允許企業員工不斷調整實際方案、直到他們的努力獲得理想的回饋,最終以迭代為武器順利邁向大數據有效使用的勝利彼岸。
⑻ 大數據分析工具面臨哪些挑戰
大數據發展的挑戰:
目前大數據的發展依然存在諸多挑戰,包括七大方面的挑戰:業務部門沒有清晰的大數據需求導致數據資產逐漸流失;企業內部數據孤島嚴重,導致數據價值不能充分挖掘;數據可用性低,數據質量差,導致數據無法利用;數據相關管理技術和架構落後,導致不具備大數據處理能力;數據安全能力和防範意識差,導致數據泄露;大數據人才缺乏導致大數據工作難以開展;大數據越開放越有價值,但缺乏大數據相關的政策法規,導致數據開放和隱私之間難以平衡,也難以更好的開放。
挑戰一:業務部門沒有清晰的大數據需求
很多企業業務部門不了解大數據,也不了解大數據的應用場景和價值,因此難以提出大數據的准確需求。由於業務部門需求不清晰,大數據部門又是非盈利部門,企業決策層擔心投入比較多的成本,導致了很多企業在搭建大數據部門時猶豫不決,或者很多企業都處於觀望嘗試的態度,從根本上影響了企業在大數據方向的發展,也阻礙了企業積累和挖掘自身的數據資產,甚至由於數據沒有應用場景,刪除很多有價值歷史數據,導致企業數據資產流失。因此,這方面需要大數據從業者和專家一起,推動和分享大數據應用場景,讓更多的業務人員了解大數據的價值。
挑戰二:企業內部數據孤島嚴重
企業啟動大數據最重要的挑戰是數據的碎片化。在很多企業中尤其是大型的企業,數據常常散落在不同部門,而且這些數據存在不同的數據倉庫中,不同部門的數據技術也有可能不一樣,這導致企業內部自己的數據都沒法打通。如果不打通這些數據,大數據的價值則非常難挖掘。大數據需要不同數據的關聯和整合才能更好的發揮理解客戶和理解業務的優勢。如何將不同部門的數據打通,並且實現技術和工具共享,才能更好的發揮企業大數據的價值。
挑戰三:數據可用性低,數據質量差
很多中型以及大型企業,每時每刻也都在產生大量的數據,但很多企業在大數據的預處理階段很不重視,導致數據處理很不規范。大數據預處理階段需要抽取數據把數據轉化為方便處理的數據類型,對數據進行清洗和去噪,以提取有效的數據等操作。甚至很多企業在數據的上報就出現很多不規范不合理的情況。以上種種原因,導致企業的數據的可用性差,數據質量差,數據不準確。而大數據的意義不僅僅是要收集規模龐大的數據信息,還有對收集到的數據進行很好的預處理處理,才有可能讓數據分析和數據挖掘人員從可用性高的大數據中提取有價值的信息。Sybase的數據表明,高質量的數據的數據應用可以顯著提升企業的商業表現,數據可用性提高10%,企業的業績至少提升在10%以上。
挑戰四:數據相關管理技術和架構
技術架構的挑戰包含以下幾方面:(1)傳統的資料庫部署不能處理TB級別的數據,快速增長的數據量超越了傳統資料庫的管理能力。如何構建分布式的數據倉庫,並可以方便擴展大量的伺服器成為很多傳統企業的挑戰;(2)很多企業採用傳統的資料庫技術,在設計的開始就沒有考慮數據類別的多樣性,尤其是對結構化數據、半結構化和非結構化數據的兼容;(3)傳統企業的資料庫,對數據處理時間要求不高,這些數據的統計結果往往滯後一天或兩天才能統計出來。但大數據需要實時處理數據,進行分鍾級甚至是秒級計算。傳統的資料庫架構師缺乏實時數據處理的能力;(4)海量的數據需要很好的網路架構,需要強大的數據中心來支撐,數據中心的運維工作也將成為挑戰。如何在保證數據穩定、支持高並發的同時,減少伺服器的低負載情況,成為海量數據中心運維的一個重點工作。
挑戰五:數據安全
網路化生活使得犯罪分子更容易獲得關於人的信息,也有了更多不易被追蹤和防範的犯罪手段,可能會出現更高明的騙局。如何保證用戶的信息安全成為大數據時代非常重要的課題。在線數據越來越多,黑客犯罪的動機比以往都來的強烈,一些知名網站密碼泄露、系統漏洞導致用戶資料被盜等個人敏感信息泄露事件已經警醒我們,要加強大數據網路安全的建設。另外,大數據的不斷增加,對數據存儲的物理安全性要求會越來越高,從而對數據的多副本與容災機制也提出更高的要求。目前很多傳統企業的數據安全令人擔憂。
挑戰六:大數據人才缺乏
大數據建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支掌握大數據技術、懂管理、有大數據應用經驗的大數據建設專業隊伍。目前大數據相關人才的欠缺將阻礙大數據市場發展。據Gartner預測,到2015年,全球將新增440萬個與大數據相關的工作崗位,且會有25%的組織設立首席數據官職位。大數據的相關職位需要的是復合型人才,能夠對數學、統計學、數據分析、機器學習和自然語言處理等多方面知識綜合掌控。未來,大數據將會出現約100萬的人才缺口,在各個行業大數據中高端人才都會成為最炙手可熱的人才,涵蓋了大數據的數據開發工程師、大數據分析師、數據架構師、大數據後台開發工程師、演算法工程師等多個方向。因此需要高校和企業共同努力去培養和挖掘。目前最大的問題是很多高校缺乏大數據,所以擁有大數據的企業應該與學校聯合培養人才。
挑戰七:數據開放與隱私的權衡
在大數據應用日益重要的今天,數據資源的開放共享已經成為在數據大戰中保持優勢的關鍵。商業數據和個人數據的共享應用,不僅能促進相關產業的發展,也能給我們的生活帶來巨大的便利。由於政府、企業和行業信息化系統建設往往缺少統一規劃,系統之間缺乏統一的標准,形成了眾多「信息孤島」,而且受行政壟斷和商業利益所限,數據開放程度較低,這給數據利用造成極大障礙。另外一個制約我國數據資源開放和共享的一個重要因素是政策法規不完善,大數據挖掘缺乏相應的立法。無法既保證共享又防止濫用。因此,建立一個良性發展的數據共享生態系統,是我國大數據發展需要邁過去的一道砍。同時,開放與隱私如何平衡,也是大數據開放過程中面臨的最大難題。如何在推動數據全面開放、應用和共享的同時有效地保護公民、企業隱私,逐步加強隱私立法,將是大數據時代的一個重大挑戰。