1. 大數據的預測功能是增值服務的核心
大數據的預測功能是增值服務的核心
從走在大數據發展前沿的互聯網新興行業,到與人類生活息息相關的醫療保健、電力、通信等傳統行業,大數據浪潮無時無刻不在改變著人們的生產和生活方式。大數據時代的到來,給國內外各行各業帶來諸多的變革動力和巨大價值。
最新發布的報告稱,全球大數據市場規模將在未來五年內迎來高達26%的年復合增長率——從今年的148.7億美元增長到2018年的463.4億美元。全球各大公司、企業和研究機構對大數據商業模式進行了廣泛地探索和嘗試,雖然仍舊有許多模式尚不明朗,但是也逐漸形成了一些成熟的商業模式。
兩種存儲模式為主
互聯網上的每一個網頁、每一張圖片、每一封郵件,通信行業每一條短消息、每一通電話,電力行業每一戶用電數據等等,這些足跡都以「數據」的形式被記錄下來,並以幾何量級的速度增長。這就是大數據時代帶給我們最直觀的沖擊。
正因為數據量之大,數據多為非結構化,現有的諸多存儲介質和系統極大地限制著大數據的挖掘和發展。為更好地解決大數據存儲問題,國內外各大企業和研究機構做了許許多多的嘗試和努力,並不斷摸索其商業化前景,目前形成了如下兩種比較成熟的商業模式:
可擴展的存儲解決方案。該存儲解決方案可幫助政府、企業對存儲的內容進行分類和確定優先順序,高效安全地存儲到適當存儲介質中。而以存儲區域網路(SAN)、統一存儲、文件整合/網路連接存儲(NAS)的傳統存儲解決方案,無法提供和擴展處理大數據所需要的靈活性。而以Intel、Oracle、華為、中興等為代表的新一代存儲解決方案提供商提供的適用於大、中小企業級的全系存儲解決方案,通過標准化IT基礎架構、自動化流程和高擴展性,來滿足大數據多種應用需求。
雲存儲。雲存儲是一個以數據存儲和管理為核心的雲計算系統,其結構模型一般由存儲層、基礎管理、應用介面和訪問層四層組成。通過易於使用的API,方便用戶將各種數據放到雲存儲裡面,然後像使用水電一樣按用量進行收費。用戶不用關心數據的存儲介質、網路狀況以及安全性的管理,只需按需向提供方購買空間。
源數據價值水漲船高
在紅紅火火的大數據時代,隨著數據的累積,數據本身的價值也在不斷升值,這種情況很好地反應了事物由量變到質變的規律。例如有一種罕見的疾病,得病率為十萬分之一,如果從小樣本數據來看非常罕見,但是擴大到全世界70億人,那麼數量就非常龐大。以前技術落後,不能將該病情數字化集中研究,所以很難攻克。但是,我們現在把各種各樣的數據案例搜集起來統一分析,我們很快就能攻克很多以前想像不到的科學難題。類似的例子,不勝枚舉。
正是由於可以通過大數據挖掘到很多看不見的價值,源數據本身的價值也水漲船高。一些掌握海量有效數據的公司和企業找到了一條行之有效的商業路徑:對源數據直接或者經過簡單封裝銷售。在互聯網領域,以Facebook、twitter、微博為代表的社交網站擁有大量的用戶和用戶關系數據,這些網站正嘗試以各種方式對該源數據進行商業化銷售,Google、Yahoo!、網路[微博]等搜索公司擁有大量的搜索軌跡數據以及網頁數據,他們可以通過簡單API提供給第三方並從中盈利;在傳統行業中,中國聯通[微博](3.44, 0.03, 0.88%)、中國電信[微博]等運營商擁有大量的底層用戶資料,可以通過簡單地去隱私化,然後進行銷售盈利。
各大公司或者企業通過提供海量數據服務來支撐公司發展,同時以免費的服務補償用戶,這種成熟的商業模式經受住了時間的考驗。但是對於任何用戶數據的買賣,還需處理好用戶隱私信息,通過去隱私化方式,來保護好用戶隱私。
預測是增值服務的核心
在大數據基礎上進行深度挖掘,所衍生出來的增值服務,是大數據領域最具想像空間的商業模式。大數據增值服務的核心是什麼?預測!大數據引發了商業分析模式轉變,從過去的樣本模式到現在的全數據模式,從過去的小概率到現在的大概率,從而能夠得到比以前更准確的預測。目前形成了如下幾種比較成熟的商業模式。
個性化的精準營銷。一提起「垃圾簡訊」,大家都很厭煩,這是因為本來在營銷方看來是有價值的、「對」的信息,發到了「錯」的用戶手裡。通過對用戶的大量的行為數據進行詳細分析,深度挖掘之後,能夠實現給「對」的用戶發送「對」的信息。比如大型商場可以對會員的購買記錄進行深度分析,發掘用戶和品牌之間的關聯。然後,當某個品牌的忠實用戶收到該品牌打折促銷的簡訊之後,一定不是厭煩,而是欣喜。如優捷信達、中科嘉速等擁有強大數據處理技術的公司在數據挖掘、精準廣告分析等方面擁有豐富的經驗。
企業經營的決策指導。針對大量的用戶數據,運用成熟的數據挖掘技術,分析得到企業運營的各種趨勢,從而給企業的決策提供強有力的指導。例如,汽車銷售公司,可以通過對網路上用戶的大量評論進行分析,得到用戶最關心和最不滿意的功能,然後對自己的下一代產品進行有針對性的改進,以提升消費者的滿意度。
總體來說,從宏觀層面來看,大數據是我們未來社會的新能源;從企業微觀層面來看,大數據分析和運用能力正成為企業的核心競爭力。深入研究和積極探索大數據的商業模式,對企業的未來發展有至關重要的意義。
2. 多大的數據,才能稱為大數據呢
5. Veracity(真實性)
大數據就一定真實么?並沒有。為什麼這么說呢,想像一下當下泛濫的作弊流量吧,你還敢確保你的用戶數據並沒有虛假的嗎?所以,大數據也是可以造假的,我們一定要有一雙智慧的眼睛卻辨別大數據的好壞。
3. 大數據的數據單位有哪些
大數據發展趨勢
趨勢一:數據的資源化
何為資源化,是指大數據成為企業和社會關注的重要戰略資源,並已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶占市場先機。
趨勢二:與雲計算的深度結合
大數據離不開雲處理,雲處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平台之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。
趨勢三:科學理論的突破
隨著大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智慧等相關技術,可能會改變數據世界裡的很多演算法和基礎理論,實現科學技術上的突破。
趨勢四:數據科學和數據聯盟的成立
未來,數據科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數據科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基於數據這個基礎平台,也將建立起跨領域的數據共享平台,之後,數據共享將擴展到企業層面,並且成為未來產業的核心一環。
趨勢五:數據泄露泛濫
未來幾年數據泄露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。可以說,在未來,每個財富500強企業都會面臨數據攻擊,無論他們是否已經做好安全防範。而所有企業,無論規模大小,都需要重新審視今天的安全定義。在財富500強企業中,超過50%將會設置首席信息安全官這一職位。企業需要從新的角度來確保自身以及客戶數據,所有數據在創建之初便需要獲得安全保障,而並非在數據保存的最後一個環節,僅僅加強後者的安全措施已被證明於事無補。
4. 大數據的數量級是幾位元組
大數據的數量級有 MB (兆位元組),GB(吉位元組),TB,PB,EB,它們之間的進率都是1024,即2^10。所以大數據的數量級多以TB或PB為單位,GB量級偏小。
普通個人電腦所能存儲的數據,一般是幾百個GB到幾個TB的級別。例如,常見的固態硬碟,512GB就已經比較大了;常見的機械硬碟,可達1TB/2TB/4TB的容量。
而大數據是PB/EB級別。其實就是在TB的基礎上每一級接著乘以1024。
PB(Peta Byte)— 皮位元組,也就是1024TB
EB(Exa Byte)— 艾位元組,也就是1024PB
ZB(Zetta Byte)— 澤位元組,也就是1024EB
YB(Yotta Byte)— 堯位元組,也就是1024ZB
上述的這些大的單位在日常生活中幾乎接觸不到,而且常人也已經無法直觀地感受到這些單位能大到什麼讓人吃驚的程度。
5. 什麼是大數據
大數據是指在一定時間內,常規軟體工具無法捕捉、管理和處理的數據集合。它是一種海量、高增長、多元化的信息資產,需要一種新的處理模式,以具備更強的決策、洞察和流程優化能力。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些有意義的數據進行專業的處理。換句話說,如果把大數據比作一個行業,這個行業盈利的關鍵在於提高數據的「處理能力」,通過「處理」實現數據的「增值」。
從技術上講,大數據和雲計算的關系就像硬幣的正反面一樣密不可分。大數據不能用單台計算機處理,必須採用分布式架構。其特點在於海量數據的分布式數據挖掘。但它必須依賴雲計算分布式處理、分布式資料庫、雲存儲和虛擬化技術。
擴展信息:
大數據只是現階段互聯網的一個表徵或特徵。沒有必要將其神話或保持敬畏。在以雲計算為代表的技術創新背景下,這些原本看似難以收集和使用的數據開始被輕松使用。通過各行各業的不斷創新,大數據將逐漸為人類創造更多的價值。
是體現大數據技術價值的手段,是進步的基石。這里從雲計算、分布式處理技術、存儲技術、感知技術的發展,闡述大數據從採集、處理、存儲到形成結果的全過程。
實踐是大數據的終極價值。在這里,我們從互聯網大數據、政府大數據、企業大數據、個人大數據四個方面來描繪大數據的美好圖景和將要實現的藍圖。
6. 大數據 核心問題是「人」不是「技術」
大數據:核心問題是「人」不是「技術」
「要解決數字孤島,現在的核心問題不是技術問題,而是管理問題,法律問題。」上海超級計算中心副主任李根國博士對中國青年報記者說。
「你注意到沒有,每個人的手機都變成採集器了。」這位數學專家很清楚阿里巴巴等商業公司的大數據發展異常紅火。手機擁有者剛顯示出對某個商品表示興趣,30秒鍾之內精確的廣告就會投放過來。
李根國所在的超級計算中心一直為高精尖的科研項目提供模擬和運算的平台。2014年,上海大數據中心將在超級計算中心掛牌。李根國介紹說,政府主導的大數據將會有廣泛的用途。除了人口管理外,還有空間管理,繪制城市地圖,建立導航系統。上海市成立了一個和航天局合作的北斗應用有限公司,注冊資金兩個億,推動北斗應用落地。在相應的信息系統里,有了感測信息後,救護車、公交車走到哪裡了,管理者看得清清楚楚。此外,用大數據搜集經濟運行的數據也改變著傳統的政府統計。從抽樣調查抽取幾個樣本到大數據的全樣本,管理系更強,更准確。
像上淘寶一樣掛號看病
何萍所在的上海申康醫院發展中心,就是大數據用於公共服務的典型範例。
「我們的醫療預約平台每天產生的數據是P級。」申康醫療事業部的高級工程師、醫聯中心主任何萍說。1P相當於20萬部5G大小的高清電影。
據何萍觀察,老百姓通常是一大早看病,但往往是早上出門,真正看上病已是下午,掛號排隊太慢了。有時沒看上,一天就要跑幾家醫院。而現在,掛號可以僅需一部手機。
何萍所在的申康團隊指導開發的上海三級醫院預約平台上有上海所有區縣的38家醫院的專家信息,精確到哪個科、哪天排班都清楚可查。市民可以直接預約感興趣的專家,預約精確到一個小時,不用過分排隊。每次掛號信息的變動就會進入HIS(醫院信息系統)信息里,預約成功簡訊知會。醫保卡一刷實時互通。
市民在聯網的任何一家醫院看病,醫生都可以在資料庫中調出住院小結和處方等患者信息,醫院之間並無壁壘,信息聯通包括影像互認。比如病人在某家醫院做過CT, 在另一家醫院看病時,片子和報告會詳細地顯示出來。如果醫生判斷病情並無特別需要再做檢查,比如CT顯示在一個月內,他可以直接以這份非本醫院的報告作為診斷依據,免去病人再受輻射之苦。
「醫療專家是緊缺資源。有時候老百姓只認大牌的專家,其他的都不知道。這就是醫療信息不對稱造成的,也是通過平台可以改善的。」何萍說。他們參考淘寶的做法,為預約的市民推薦「你同樣喜歡」。在有號的情況下,市民可以同步選擇同類醫療專家。看完病還可以打星和評價。比方病人都想看血液專家吳孟超,但他90多歲的人了,一周就來一次,何萍他們就會推薦吳孟超的學生和師弟師妹,也都是很好的專家,患者滿意,醫院也實現了分流。
最大的突破還是在管理機制上
李根國認為,政府主導的大數據服務將更側重對社會管理提供公共服務。在他看來,大數據未來發展面臨的壁壘,更多來自於技術之外。他發現,一個人的基礎人口數據有五十幾個欄位,包含年齡、性別、社保,戶籍等信息。各主管單位各自掌握,往往並不共享,一個人的信息在一處更改後,在另一處不能同步更改,就會造成很多麻煩。而基層街道、區縣需要弄清楚自己小區內的戶籍人口,流動人口以進行管理,但卻無法從掌握數據的上級部門獲得相關數據。
在醫療系統工作多年的何萍覺得,最大的突破還是在管理機制上。
醫療領域多年來有著固有的思維,醫院各有所屬互不相認,這曾經是「搬不動的大山」。上海市基於電子信息檔案的衛生系統工程,是國內首例採用美國HIS標准來運行的信息平台。這個項目在2006年啟動,2008年23家市級醫院聯通起來,2010年衛生部和總後勤部所屬的10家醫院也加入進來,緊接著連接著的是4家郊區醫院和屬於宋慶齡基金會的醫院,形成了現在38家的規模。
從社區醫院一層層打通到一二三級醫院,數據不能有斷檔。打破信息的壁壘,也對醫院的管理規范提出了更高的要求。排班涉及科室、病房、門診、查房,合理協調好以後需要提前一個月上傳平台。預約精確到一個小時,牽一發動全身。一旦要變更,要把短消息及時推送出去。
「大數據在帶來我們產業發展的時候,怎麼防止不法分子利用?系統安全是第一位的。包括運行的物理安全,和信息安全。」李根國說。
而為公共服務時,管理上的疏忽有時會帶來安全隱患。
接受采訪前一天,何萍就接到一個患者的投訴電話:他的乙肝病人身份在社區醫院看小毛病時顯示在系統上,病人既尷尬又憤怒。實際上,系統早有規定:為了避免歧視,對於傳染病的一些數據共享要求是有嚴格保護的,只有在問診相關病症時才會有所顯示。但在一二三級聯動過程中,數據推到基層,區里沒有管理好。
「上層設計好了,技術才有支撐。」何萍感慨說。這個本科碩士都攻讀信息工程的標准工科女,博士選擇了管理學。
大數據是台綜合大戲
2003年,從測繪專業畢業的毛煒青在一線工作了一段時間以後,3天內開發完成了一個基於服務的帶有GIS分析功能的地名處理軟體工具,在民防辦信息中心的伺服器上運行,這個基於地理位置的系統為當時社會管理者提供了整個上海市的流動與常駐人口的信息地圖。
「地理信息本來就是綜合的。」這位上海市測繪員基礎信息地理中心的總工程師、國家注冊測繪師對中國青年報記者說。在測繪一線工作時,他需要對測繪地的地質、水文甚至建築、文化都有所了解才能做到精確。而如今,他越來越多地需要與其他政府部門合作,將地理信息與人口等信息相連。據他介紹,隨著一個個cbd的興起,現在的行業新熱點是獲取樓內的位置信息,用數據再造一座虛擬的熱鬧大樓,方便火災監控等一系列的社會管理。
他的團隊並不需要如阿里巴巴等商業公司一樣,24小時在線為涌進來的數據准備著,他們所做的工作主要是利用超強的計算能力,匯集和加工數據。首先,從網路上搜集的和政府提供的數據。通過技術和人工的手段來甄別:哪些有用,哪些是垃圾;接著,對匯集的數據以應用的不同進行分類,打上標簽,用特定的關鍵字就能查到。
何萍團隊近期的工作是與銀聯的合作。從2010年起,上海許多醫院開始推行各自的充值卡,用於院內消費。和銀聯合作後,一張卡可以在所有醫院使用,既方便患者看病,又減輕窗口工作量。卡片輕松一劃完成交易,需要涉及銀行之間、醫院之間劃撥與結算。
「我們自己做一套結算體系,既費精力,又不專業,這需要行業間的融合。」何萍說。巧的是,在不久前的一次科研性獎項的競爭中,這兩家是對手。
以上是小編為大家分享的關於大數據 核心問題是「人」不是「技術」的相關內容,更多信息可以關注環球青藤分享更多干貨
7. 「大數據」 到底有多大
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。
內國際數據公司(IDC)的研容究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為
1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是
200PB,全人類歷史上說過的所有話的數據量大約是5EB。
IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44
倍。每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在
內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。這樣的趨勢會持續下去。
8. 所謂大數據一般是指多大的數據量
其實首先你要區分大數據和大數據量的概念。大數據量只是一個純粹的數據量級的問題,而現在大家所談論的大數據主要包括搜索、新聞、博客、微博等社交網、行動電話和簡訊、熱線電話和監控數據、通測數據等等。這些數據大多數為我們日常社交生活或是語音通信時產生。通常為TB級別,非結構化數據。而TB級別的數據用excel或者其他數據分析工具是很難展現處理的,這時就需要BI工具來應對大數據。FineBI針對大數據有專門的大數據量解決方案,可以去它的官網看看,就不附鏈接了
9. 大數據是什麼
大數據是什麼意思呢?
如果從字面意思來看,大數據指的是巨量數據。那麼可能有人會問,多大量級的數據才叫大數據?不同的機構或學者有不同的理解,難以有一個非常定量的定義,只能說,大數據的計量單位已經越過TB級別發展到PB、EB、ZB、YB甚至BB級別。
最早提出「大數據」這一概念的 是全球知名咨詢公司麥肯錫,它是這樣定義大數據的:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型以及價值密度低四大特徵。
研究機構Gartner是這樣定義大數據的:「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流轉優化能力來適應海量、高增長率和多樣化的信息資產。若從技術角度來看,大數據的戰略意義不在於掌握龐大的數據,而在於對這些含有意義的數據進行專業化處理,換言之,如果把大數據比作一種產業,那麼這種產業盈利的關鍵在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。