Ⅰ 臟數據潛在的隱患以及數據整合
很少有什麼IT項目比數據整合更令人頭疼的了 如果我們換個方式思考 就會發現有一件事是比數據整合更可怕的 那就是數據整合出現了問題
有時候 這是由於用戶出錯或者惡意用戶的蓄意破壞 導致不良數據堆積引起的問題 有時候原始數據是完好無損的 但是從一個系統/資料庫轉移到另一個系統/資料庫的過程中丟失 被刪截或者被修改了 也會造成麻煩 數據會過時 也會在你企業內部的人事斗爭過程中不幸被流彈擊中 要知道每個人都是死抱著自己的一小片數據存儲地盤 不願與其他人分享
有很多的方式會導致數據項目的流產 本文列舉了其中五種最常見的情況 告訴你究竟是什麼地方出錯了 將會導致什麼樣的後果 以及可以採取什麼措施避免同樣的情況發生在自己身上 文中所涉及的公司名字一概隱去 希望不要讓你自己的經歷像本文所敘述的對象那樣淪為他人口中的經驗教訓
親愛的 *** 郵件事件
小心你的數據來源 它有可能會反過來擺你一道 這個事例源於一個大型金融服務機構的客戶呼叫中心 就像幾乎所有的客服櫃台一樣 這里的客戶服務代表們要做的就是接聽電話 並把客戶信息輸入到一個共享資料庫里
這個特殊的資料庫里有一列是用來記錄稱謂的 並且是可編輯的 但是資料庫管理員並沒有對這一列的輸入規則進行約束 例如只能輸入某某先生 某某女士之類的稱謂 反而可以接受客服代表輸入的任何長達 或 字元的內容 在傾聽一些客戶憤怒的投訴時 部分客服代表就會給每條記錄添加一些他們自己想出來的不完全友善的注釋 例如 這個客戶真是個 *** 這類的注釋
這種情況持續了很多年 因為機構里的其他系統都不會從這個稱謂列中提取數據 所以沒有人注意到這一情況 其後某天 市場部決定發起一次直接郵寄活動來推廣一項新服務 他們想出了一個絕妙的點子 與其花錢購買一份名單 不如利用客服櫃台的資料庫
於是 以諸如 親愛的 *** 客戶Linlin 這樣的措詞抬頭的郵件開始源源不斷的發到客戶郵箱里
當然沒有任何客戶會簽約使用這項新服務 該機構直到開始檢查他們所發出的郵件時 才弄清楚前因後果
我們擁有的數據不是屬於我們自己的 如今世界的聯系日趨緊密 很可能會有人找到了你的數據 並把它利用在一個你完全想像不到的地方 如果你從別的地方獲取數據 那麼在你利用它們執行新任務時 必須要確保你的數據質量管理水平過關了
判斷水平 過不過關 取決於你要如何利用這些數據 正確性是判斷數據質量的基本要素之一 對於直郵產業 數據的准確率達到 %至 %就可能就夠了 而對於制葯業 你就必須達到 %甚至更高 不過 沒有什麼公司想要或者需要完美的數據 更不用說為了得到完美數據而付出金錢 因為要數據保持完美的代價太昂貴了 問題是要怎樣利用數據 以及數據的准確率達到什麼程度才足夠好
死去的人有沒有選舉權
相信大家對數據清洗(Data cleansing)這個術語並不陌生 它是數據整合過程中必須進行的一個復雜過程 通過檢測和清除掉垃圾數據(包括不正確 過時 冗餘以及不完整的數據) 以保證數據的正確性 可靠性 完整性和一致性 從字面上 我們就可以看出數據清洗是一個 生死攸關 的問題 下面講述的也是 生死攸關 的事例 年美國國會選舉期間 某 *** 工作志願者在通過電話讓已登記的選民來投票的過程中發現 每十個選民中有三個是已經死裂蘆滑去的人 因此沒有資格投票 現代肆臘社會里死者數據不全所引發的問題很常見 確實也給生者帶來了很大的困擾
對於諸如保險公司 投資公司 基金公司 通訊公司等擁有大量客戶的服務類企業而言 客戶數據是其重要的財富來源 然而 客戶數據質量問題卻一直是困擾企業開發新服務項目的絆腳石 在一項關於客戶數據質量的調查研究中發現 平均而言 %的客戶數據記錄存在各種問題 例如各種證件號碼輸入錯誤 聯系方式過期等等 其中有五分之一的數據問題是由於客戶的死亡造成的 其中一部分客戶死亡時間超過十年卻仍保留著股東的身份
這並不是客戶的疏忽 只是自然發生的問題 私營企業上市 被並購或者拆分 而他們的股東數嘩螞據卻一直被保留著 甚至長達數十年之久 不過這些垃圾數據所引起的問題可能比起在不必要的郵寄費用上浪費一點錢更為嚴重 最令人擔心的問題莫過於欺詐和盜竊ID 如果這些情況發生在頗具影響力的機構組織里 必會導致更為嚴重的現實問題 例如已故股東的紅利被陌生人兌現 繼承人的繼承權被剝奪 公司機密泄漏等等
那麼要怎麼解決這個問題呢?利用商業評測軟體可以識別不同系統的異常數據並做好標記方便檢查 即便如此 所有的企業都應當加強重視 做好內部監控 嚴格執行例行的基本檢查 事實上 每一個企業都或多或少存在垃圾數據方面的問題 從風險管理的觀點來看 最好的解決方案就是持之以恆地檢查 如果你從上文的內容能認識到這個自然發生的現象可能會對你產生什麼影響的話 已經有了一個好的開始
數據重復的代價
用戶出錯會引發麻煩事 用戶自作聰明造成的問題可能更嚴重 某保險公司從上世紀 年代開始就將大部分客戶資料保存在一個主應用軟體中 並規定數據錄入操作員錄入新數據前先要搜索資料庫中是否已經有該客戶的記錄 但是搜索功能執行起來非常慢而且不夠准確 所以大多數操作員不再執行這一步驟 而從頭開始輸入新記錄 這樣做確實簡單輕松多了 然而 結果是很多客戶公司的記錄在資料庫里重復達幾百次 使系統運行地更慢 數據搜索結果更加不準確 形成了惡性循環
不幸的是 這個應用軟體已經根深蒂固的嵌入到該公司的其他系統了 管理部門不願意花錢把它替換掉 最後 該公司的IT部門發現如果公司再也無法查找用戶資料了 將會造成的每天 萬美元的損失 直到這時候 公司才如夢初醒 使用識別系統來清洗數據 最終清除了近四萬條重復記錄
重復數據的問題一直都讓IT管理員頭痛不已 資料庫越龐大 這個問題越嚴重 但是 很少有人真正認識到問題的嚴重性 如果有人告訴你他的客戶資料庫里有 %的重復數據 很可能低估了 不過 我們也沒有什麼靈丹妙葯徹底解決這個問題 即使我們能夠利用數據匹配技術來沙裡淘金 跨越多個資料庫找出唯一有用的信息 最難的一關可能是讓企業里的不同利益團體就什麼數據可以大家共享以及如何構建匹配達成一致 同一個機構里的兩個不同的部門可能對匹配和重復項有完全不同的定義 類似的數據整合工作會因為相關人員不能對 誰才是數據的所有者 以及 什麼數據可以拿來與別人交換 的意見不和而土崩瓦解
小心老化的數據
相信很多人對魔域大冒險(Zork)這款最經典的文字冒險游戲還記憶猶新 通過問答形式由游戲設置提供情景描述 而玩家輸入選擇關鍵詞判斷來推動游戲發展 是現代RPG游戲的鼻祖 現在 還有不少人仍在開發這類古老的游戲 這也沒什麼 問題是他們資料庫里保存的用戶資料也同樣的古老
某老款游戲開發商利用MailChimp的網路營銷服務來聯系以前的一萬名客戶 就是為了提醒他們游戲的第二版終於完成了 他們所用的大部分電子郵件地址至少是十年前的 其中有一部分是Hotmail帳戶 很久之前就被遺棄不用了 以致微軟已經把這些郵件地址當成垃圾郵件陷阱了 於是 一天之內 所有的MailChimp郵件都被Hotmail的垃圾郵件過濾器列入了黑名單
幸好游戲開發商以前保留了原始記錄 包括每位客戶下載其游戲時的IP地址 這成了MailChimp的救命稻草 MailChimp給Hotmail的客服發了緊急申明 證明這些郵箱帳戶是合法客戶 只是年代比較久遠 第二天 hotmail就把MailChimp從黑名單中解救出來了
所有的數據都會快速老化 就像放射性物質發生衰變一樣 而聯絡數據比其他數據老化得更快 資料庫管理人員必須定期更新每一個系統的數據
美國工商資料庫是個巨額產業 而聯絡資料是所有資料中最受銷售人員青睞的 但也是最難維護的 年成立於美國的是一個在線商務聯絡資料資料庫 面向銷售專業人員 採用Wiki式數據清洗方式來維護 該網站的三十多萬名用戶通過上傳新名片資料或糾正錯誤的名片資料來換取點數 上傳的每條記錄必須完整 如果上傳不正確或是資料太老舊 就會扣除相應的點數 而用戶能得到的利益就是用獲得的點數購買自己所需要的名片資料
Jigsaw的首席執行官Jim Fowler稱一家科技公司想要把他們公司的資料庫和Jigsaw的資料庫進行比較 以便清除不良數據 該科技公司擁有四萬條記錄 其中只有 %是當前可用的 而且全部數據都不完整 Jigsaw發現他們大部分合作客戶都擁有很多毫無價值的數據 根本就沒辦法去匹配糾正 公司花費了數百萬美元在客戶關系管理軟體上 可見這些數據有多糟糕 有時候公司的真正價值不在擁有的數據本身 而在於有沒有能力與時俱進地跟上數據變化的速度 Jigsaw的能力正是在於完善數據並進行自我清洗 如果沒有自我修正的機制 Jigsaw也只不過是一家毫無價值的數據公司而已
小錯誤與大麻煩
好數據和不良數據之間的差別很可能就體現在一個小點上 某專案優化解決方案供應商的高級顧問告訴我們 他曾為一個大型數據整合項目做顧問 這個項目看起來一切都運行正常 但六個月後 某人打開一個數據表 只看到了一排排符號 什麼數據都沒有
這其實只是一個字元代碼錯誤 本來在一些域里應該用省略號(三個點)的 但有人只輸入了兩個點 導致了整個數據線的崩潰 該公司不得不費盡力氣從備份中重新創建整個資料庫 查找省略號 然後用正確數據替換
很多時候 問題不僅僅是簡單的數據錄入錯誤或者是 臟數據進臟數據出 的問題而已 很多企業在進行不同操作系統之間的數據移植或從老的SQL版本中升級數據等操作時並沒有做好充分計劃 他們總是希望利用手頭上任何可利用資源火速進行 而把數據清洗任務冀望於以後完成 更甚者 他們的測試環境和操作環境可能並不一致 或者他們只用少量數據子集來測試 沒有測試過的數據很可能會在後面的操作引發大麻煩
企業經歷著深刻的技術革命 卻沒有在數據整合和維護的管理上花費足夠的時間和精力 最終只會成為不良數據的犧牲品 在數據遷移的過程中 有無數的機會讓它們成為不良數據
不要指望IT部門來驗證你的數據 讓與這些數據密切相關的有能力的用戶來幫助你做好數據整合計劃和測試 在你決定進行整合之前 先查看一下所有數據 確定用於從中提取數據的應用軟體 如果可以 最好測試所有的數據而不是其中某個子集 要知道正如上面的例子所示 就算是一個小的不能再小的錯誤都會把你和你的數據拉進痛苦的深淵
我們最後再用一個實例來說明小錯誤和大麻煩之間的關系
某商業風險管理解決方案供應商的某位客戶創建了一個SQL伺服器資料庫 用來確定是否有錯誤的CAD文件在其網路內部流竄 原本的設想是 如果錯誤的數據包超過某設定閾值 公司管理員就會知道並進行數據挖掘和清洗工作 問題是他們不小心顛倒了資料庫的規則設置(把兩個閾值放反了) 導致錯誤數據包越多 提交公司的報告里顯示的網路運行情況就越好 最後該公司網路被某種蠕蟲病毒入侵 破壞了他們的工程CAD檔案 他們不得不重頭開始花費大量的金錢來重建大部分的文檔 這一切都是因為一個非常簡單數據提取設置錯誤造成的
lishixin/Article/program/Oracle/201311/17541
Ⅱ 大數據給人們帶來巨大利益的同時,有哪些弊端
1、數據不夠安全
無論是企業還是個人,在實踐過程中都會或多或少地產生數據。這些內數據在當今時代容並不安全,會有很多方法使它們泄露。
2、數據泄露產生不平等
對於用戶來講,數據是一筆財富,但是遭到了別人的竊取,而自己並未得到任何收益,這對於用戶來說是不公平的。
3、用戶隱私問題
當用戶在網上注冊信息後,這些信息很有可能已經被擴散,當用戶收到一些莫名其妙的郵件、電話、簡訊時,其實用戶的各種信息早已被非法的商業機構賣了。
Ⅲ 「無現金化」有多危險為何發達國家,都不用支付寶和微信支付
在我國,電子支付盛行,幾乎人人都使用支付寶和微信支付,現金在年輕一代幾乎已經消失了。
「無現金化」有多危險?首先是個人信息透明化。要使用電子支付,就要綁定個人的身份信息,銀行卡信息。這些信息都有被泄露的可能,如果被不法分子利用,那麼用戶將會接收到各種各樣的推銷信息,相當於用戶在網路上裸奔。
其次是網路詐騙比例上升。不能說「無現金化」是網路詐騙的主因,但它確實給網路詐騙帶來了很大的便利性。現在的網路詐騙,只要你輸入銀行卡,手機驗證碼等信息,騙子即可在幾百公里外轉走你銀行卡里的余額。
對此,你有什麼想說的呢?歡迎在評論區告訴我。
Ⅳ 什麼數據可以成為數據資產數據資產化如何實現
我們來看一下資產的概念: 「資產是指由企業過去的交易或事項形成的、由企業擁有或者控制的、預期會給企業帶來經濟利益的資源。」
在資產的釋義中,我們可以看出「擁有或者控制」和「帶來經濟利益」是資產最核心的內涵。由資產的概念引申到數據資產,我們可以得到,數據資產是由企業擁有或控制,能夠為企業帶來經濟利益的數據資源。
石油在未得到利用之前,只是一種黑色的液體。數據得不到利用也只是一堆毫無價值的信息,那麼什麼樣的數據資源可以轉換為數據資產呢?
可明確作為「資產」的數據資源,表現為以下兩種形式:可幫助現有產品實現收益的增長;數據本身可產生價值。
數據為業務賦能
數據助力現金流,即數據本身不產生價值,但通過數據作用於現有產品 ,使其在創造收益、降低成本上有更好的表現。企業通過這種數據「內消」的方式,將生產經營中產生的數據進行收集、整理、分析,用於服務自身經營決策、業務流程,從而提高產品收益。
數據本身產生價值
通過利用數據優化業務的方式,是數據間接產生收益的方式,這種情況下,數據能夠產生的價值是難以評估的。在合法合規的前提下,讓數據以各種形式進行交易,這是數據產生價值的直接方式。
能夠直接產生價值的數據,數據變現的過程就是數據交易的過程,此過程的成本在於數據收集、處理、存儲的成本,屬於比較容易的數據變現;而利用數據為業務賦能擁有更復雜、專業的資產化流程。我們通過一個案例來解析數據資產化的過程:
某金融機構在投融資交易的過程中,一直苦惱於沒有固定的標准來界定企業的可投資性,難以找到符合其投資標準的融資企業和項目,導致出現「有錢找不到投資項目,有投資項目的企業融不到錢」的現象。這時候此機構急需解決信息不完整、不對稱、不透明、缺乏客觀分析與評價的問題,所以找到探碼,希望通過大數據來解決這個事情。
我們了解了該機構的訴求後,得出了數據資產化解決方案:通過機器學習、人工智慧等方式對企業大數據進行分析,以得到解決辦法。具體步驟為:
通過社會數據、網路採集、機構數據、企業填報等數據源採集到企業數據,主要包括工商信息、股權信息、行政處罰、銷售年報、司法信息、知識產權、法律訴訟、稅務信息等。
利用大數據技術等進行數據清洗、數據合並、數據挖掘、數據標准、安全脫敏、多維關聯等數據治理操作,提高數據質量。
利用機器學習技術學習專家打分,模擬專家對企業價值評價的決策過程,先建立評價模型,自動高效的對企業數據進行多維度、全方位解析,最終生成企業評價報告。
隨著數據資源越來越豐富,數據資產化將成為企業提高核心競爭力、搶占市場先機的關鍵。我們也將以扎實的技術,打破數據之間信息孤島狀態,應用雲計算、大數據和人工智慧技術幫助企業實現數據資產化運營。
Ⅳ 一隻股票好不好,看哪些數據
1、凈利潤:凈利潤代表了企業的業績,業績越高越好,越高代表企業盈利能力越好。
2、每股收益:每股收益是企業每年每股的利潤,每股收益越高越好,越高代表企業的盈利能力越強。
3、現金流量:現金流量代表了企業的周轉資金,周轉資金越多越好,說明企業不會出現資金斷裂的情況。
4、凈資產收益率:凈資產收益率是綜合評價一家公司盈利能力的最佳指標,凈資產收益率越高越好,最低標准在15%以上。
5、流動比率和速動比率:流動比率和速動比率代表了公司的償債能力,流動比率和速動比率越高越好,越高代表企業的償債能力越強。
除此之外還可以看上市公司主營業務是否具有發展前景,上市公司股票是否有機構投資者,上市公司是否有財務造假等歷史。
拓展資料
股票凈值:股票上市後,形成了實際成交價格,這就是通常所說的股票價格,即股價。股價大半都和票面價格大有差別,一般所謂股票凈值是指已發行的股票所含的內在價值,從會計學觀點來看,股票凈值等於公司資產減去負債的剩餘盈餘,再除以該公司所發行的股票總數。
股票周轉率:一年中股票交易的股數占交易所上市股票股數、個人和機構發行總股數的百分比。
委比:是衡量某一時段買賣盤相對強度的指標。它的計算公式為委比=(委買手數-委賣手數)/(委買手數+委賣手數)×100%。
量比:是一個衡量相對成交量的指標,它是開市後每分鍾的平均成交量與過去5個交易日每分鍾平均成交量之比。
市盈率:是最常用來評估股價水平是否合理的指標之一,由股價除以年度每股盈餘(EPS)得出(以公司市值除以年度股東應占溢利亦可得出相同結果)。
市凈率:指的是每股股價與每股凈資產的比率。市凈率可用於投資分析,一般來說市凈率較低的股票,投資價值較高,相反,則投資價值較低。
開盤價 :上午9:15—9:25為集合競價時間,在集合競價期間內,交易所的自動撮合系統只儲存而不撮合,當申報競價時間一結束,撮合系統將根據集合競價原則,產生該股票的當日開盤價。按上海證券交易所規定,如開市後半小時內某證券無成交,則以前一天的收盤價為當日開盤價。有時某證券連續幾天無成交,則由證券交易所根據客戶對該證券買賣委託的價格走勢,提出指導價格,促使其成交後作為開盤價。首日上市買賣的證券經上市前一日櫃台轉讓平均價或平均發售價為開盤價。
收盤價:收盤價是指某種證券在證券交易所一天交易活動結束前最後一筆交易的成交價格。如當日沒有成交,則採用最後一次的成交價格作為收盤價,因為收盤價是當日行情的標准,又是下一個交易日開盤價的依據,可據以預測未來證券市場行情;所以投資者對行情分析時,一般採用收盤價作為計算依據。
Ⅵ 大數據時代已經到來,什麼是大數據
大數據時代已經到來,什麼是大數據
大數據時代已經到來,你了解嗎?什麼是大數據?一、大數據出現的背景進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的證券公司等寫進了投資推薦報告。數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然現在企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識 到數據對企業的重要性。大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。最早提出大數據時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的 挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日, 卻因為近年來互聯網和信息行業的發展而引起人們關注。大數據在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。二、什麼是大數據?信息技術領域原先已經有「海量數據」、「大規模數據」等概念,但這些概念只著眼於數據規模本身,未能充分反映數據爆發背景下的數據處理與應用需求,而「大數據」這一新概念不僅指規模龐大的數據對象,也包含對這些數據對象的處理和應用活動,是數據對象、技術與應用三者的統一。1、大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據對象既可能是實際的、有限的數據集合,如某個政府部門或企業掌握的資料庫,也可能是虛擬的、無限的數據集合,如微博、微信、社交網路上的全部信息。大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。亞馬遜網路服務(AWS)、 大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。研發小組對大數據的定義:「大數據是最大的 宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。」Kelly說:「大數據是可能不包含所有的 信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。2、大數據技術,是指從各種各樣類型的大數據中,快速獲得有價值信息的技術的能力,包括數據採集、存儲、管理、分析挖掘、可視化等技術及其集成。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。3、大數據應用,是 指對特定的大數據集合,集成應用大數據技術,獲得有價值信息的行為。對於不同領域、不同企業的不同業務,甚至同一領域不同企業的相同業務來說,由於其業務 需求、數據集合和分析挖掘目標存在差異,所運用的大數據技術和大數據信息系統也可能有著相當大的不同。惟有堅持「對象、技術、應用」三位一體同步發展,才 能充分實現大數據的價值。當你的技術達到極限時,也就是數據的極限」。大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。三、大數據的類型和價值挖掘方法1、大數據的類型大致可分為三類:1)傳統企業數據(Traditionalenterprisedata):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。2)機器和感測器數據(Machine-generated/sensor data):包括呼叫記錄(CallDetail Records),智能儀表,工業設備感測器,設備日誌(通常是Digital exhaust),交易數據等。3)社交數據(Socialdata):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。2、大數據挖掘商業價值的方法主要分為四種:1)客戶群體細分,然後為每個群體量定製特別的服務。2)模擬現實環境,發掘新的需求同時提高投資的回報率。3)加強部門聯系,提高整條管理鏈條和產業鏈條的效率。4)降低服務成本,發現隱藏線索進行產品和服務的創新。四、大數據的特點業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。具體來說,大數據具有4個基本特徵:1、是數據體量巨大數據體量(volumes)大,指代大型數據集,一般在10TB規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量; 網路資料表明,其新首頁導航每天需要提供的數據超過1.5PB(1PB=1024TB),這些數據如果列印出來將超過5千億張A4紙。有資料證實,到目前 為止,人類生產的所有印刷材料的數據量僅為200PB。2、是數據類別大和類型多樣數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化 數據范疇,囊括了半結構化和非結構化數據。現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數。3、是處理速度快在數據量非常龐大的情況下,也能夠做到數據的實時處理。數據處理遵循「1秒定律」,可從各種類型的數據中快速獲得高價值的信息。4、是價值真實性高和密度低數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。五、大數據的作用1、對大數據的處理分析正成為新一代信息技術融合應用的結點移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。大數據具有催生社會變革的能量。但釋放這種能量,需要嚴謹的數據治理、富有洞見的數據分析和激發管理創新的環境(Ramayya Krishnan,卡內基·梅隆大學海因茲學院院長)。2、大數據是信息產業持續高速增長的新引擎面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。3、大數據利用將成為提高核心競爭力的關鍵因素各 行各業的決策正在從「業務驅動」 轉變「數據驅動」。對大數據的分析可以使零售商實時掌握市場動態並迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支持;可以幫助企業為消費 者提供更加及時和個性化的服務;在醫療領域,可提高診斷准確性和葯物有效性;在公共事業領域,大數據也開始發揮促進經濟發展、維護社會穩定等方面的重要作 用。4、大數據時代科學研究的方法手段將發生重大改變例如,抽樣調查是社會科學的基本研究方法。在大數據時代,可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。六、大數據的商業價值1、對顧客群體細分「大數據」可以對顧客群體細分,然後對每個群體量體裁衣般的採取獨特的行動。瞄準特定的顧客群體來進行營銷和服務是商家一直以來的追求。雲存儲的海量數據和「大數據」的分析技術使得對消費者的實時和極端的細分有了成本效率極高的可能。2、模擬實境運用「大數據」模擬實境,發掘新的需求和提高投入的回報率。現在越來越多的產品中都裝有感測器,汽車和智能手機的普及使得可收集數據呈現爆炸性增長。Blog、Twitter、Facebook和微博等社交網路也在產生著海量的數據。雲計算和「大數據」分析技術使得商家可以在成本效率較高的情況下,實時地把這些數據連同交易行為的數據進行儲存和分析。交易過程、產品使用和人類行為都可以 數據化。「大數據」技術可以把這些數據整合起來進行數據挖掘,從而在某些情況下通過模型模擬來判斷不同變數(比如不同地區不同促銷方案)的情況下何種方案 投入回報最高。3、提高投入回報率提高「大數據」成果在各相關部門的分享程度,提高整個管理鏈條和產業鏈條的投入回報率。「大數據」能力強的部門可以通過雲計算、互聯網和內部搜索引擎把」大數據」成果和「大數據」能力比較薄弱的部門分享,幫助他們利用「大數據」創造商業價值。4、數據存儲空間出租企業和個人有著海量信息存儲的需求,只有將數據妥善存儲,才有可能進一步挖掘其潛在價值。具體而言,這塊業務模式又可以細分為針對個人文件存儲和針對企業用 戶兩大類。主要是通過易於使用的API,用戶可以方便地將各種數據對象放在雲端,然後再像使用水、電一樣按用量收費。目前已有多個公司推出相應服務,如亞 馬遜、網易、諾基亞等。運營商也推出了相應的服務,如中國移動的彩雲業務。5、管理客戶關系客戶管理應用的目的是根據客戶的屬性(包括自然屬性和行為屬性),從不同角度深層次分析客戶、了解客戶,以此增加新的客戶、提高客戶的忠誠度、降低客戶流失 率、提高客戶消費等。對中小客戶來說,專門的CRM顯然大而貴。不少中小商家將飛信作為初級CRM來使用。比如把老客戶加到飛信群里,在群朋友圈裡發布新 產品預告、特價銷售通知,完成售前售後服務等。6、個性化精準推薦在運營商內部,根據用戶喜好推薦各類業務或應用是常見的,比如應用商店軟體推薦、IPTV視頻節目推薦等,而通過關聯演算法、文本摘要抽取、情感分析等智能分 析演算法後,可以將之延伸到商用化服務,利用數據挖掘技術幫助客戶進行精準營銷,今後盈利可以來自於客戶增值部分的分成。以日常的「垃圾簡訊」為例,信息並不都是「垃圾」,因為收到的人並不需要而被視為垃圾。通過用戶行為數據進行分析後,可以給需要的人發送需要的信息,這樣「垃圾簡訊」就成了有價值的信息。在日本的麥當勞,用戶在手機上下載優惠券,再去餐廳用運營商DoCoMo的手機錢包優惠支付。運營商和麥當勞搜集相關消費信息,例如經常買什麼漢堡,去哪個店消費,消費頻次多少,然後精準推送優惠券給用戶。7、數據搜索數據搜索是一個並不新鮮的應用,隨著「大數據」時代的到來,實時性、全范圍搜索的需求也就變得越來越強烈。我們需要能搜索各種社交網路、用戶行為等數據。其商業應用價值是將實時的數據處理與分析和廣告聯系起來,即實時廣告業務和應用內移動廣告的社交服務。運營商掌握的用戶網上行為信息,使得所獲取的數據「具備更全面維度」,更具商業價值。典型應用如中國移動的「盤古搜索」。七、大數據對經濟社會的重要影響1、能夠推動實現巨大經濟效益比如對中國零售業凈利潤增長的貢獻,降低製造業產品開發、組裝成本等。預計2013年全球大數據直接和間接拉動信息技術支出將達1200億美元。2、能夠推動增強社會管理水平大數據在公共服務領域的應用,可有效推動相關工作開展,提高相關部門的決策水平、服務效率和社會管理水平,產生巨大社會價值。歐洲多個城市通過分析實時採集的交通流量數據,指導駕車出行者選擇最佳路徑,從而改善城市交通狀況。3、如果沒有高性能的分析工具,大數據的價值就得不到釋放對大數據應用必須保持清醒認識,既不能迷信其分析結果,也不能因為其不完全准確而否定其重要作用。1) 由於各種原因,所分析處理的數據對象中不可避免地會包括各種錯誤數據、無用數據,加之作為大數據技術核心的數據分析、人工智慧等技術尚未完全成熟,所以對 計算機完成的大數據分析處理的結果,無法要求其完全准確。例如,谷歌通過分析億萬用戶搜索內容能夠比專業機構更快地預測流感暴發,但由於微博上無用信息的 干擾,這種預測也曾多次出現不準確的情況。2)必須清楚定位的是,大數據作用與價值的重點在於能夠引導和啟發大數據應用者的創新思維,輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數據能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。所以,客觀認識和發揮大數據的作用,不誇大、不縮小,是准確認知和應用大數據的前提。八、總結不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。1、從大數據的價值鏈條來分析,存在三種模式:1)手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。2)沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,Oracle等。3)既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。2、未來在大數據領域最具有價值的是兩種事物:1)擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;2)還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。大 數據是信息技術與專業技術、信息技術產業與各行業領域緊密融合的典型領域,有著旺盛的應用需求、廣闊的應用前景。為把握這一新興領域帶來的新機遇,需要不 斷跟蹤研究大數據,不斷提升對大數據的認知和理解,堅持技術創新與應用創新的協同共進,加快經濟社會各領域的大數據開發與利用,推動國家、行業、企業對於 數據的應用需求和應用水平進入新的階段。