㈠ 關於大數據分析的四個關鍵環節
關於大數據分析的四個關鍵環節
隨著大數據時代的到來,AI 概念的火熱,人們的認知有所提高。為什麼說大數據有價值 這是不是只是一個虛的概念 大家怎麼考慮數據驅動問題 為什麼掌握更多的數據就會更有效 這些問題很難回答,但是,大數據絕不是大而空洞的。
資訊理論之父香農曾表示,信息是用來消除不信任的東西,比如預測明天會不會下雨,如果知道了今天的天氣、風速、雲層、氣壓等信息,有助於得出更准確的結論。所以大數據是用來消除不確定性的,掌握更多的有效數據,可以驅動企業進行科學客觀的決策。桑文鋒對大數據有著自己的理解,數據採集遵循「大」、「全」、「細」、「時」四字法則。「大」強調宏觀的「大」,而非物理的「大」。大數據不是一味追求數據量的「大」。比如每天各地級市的蘋果價格數據統計只有 2MB,但基於此研發出一款蘋果智能調度系統,就是一個大數據應用,而有些數據雖然很大,卻價值有限;「全」強調多種數據源。大數據採集講求全量,而不是抽樣。除了採集客戶端數據,還需採集服務端日誌、業務資料庫,以及第三方服務等數據,全面覆蓋,比如美國大選前的民意調查,希拉里有70%以上勝算,但是川普成為了美國總統,因為采樣數據有偏差,支持川普的底層人民不會上網回復。「細」強調多維度數據採集,即把事件的維度、屬性、欄位等都進行採集。如電商行業「加入購物車」的事件,除了採集用戶的 click 數據,還應採集用戶點擊的是哪個商品、對應的商戶等數據,方便後續交叉分析。「時」強調數據的時效性。顯然,具有時效性的數據才有參考價值。如國家指數,CPI 指數,月初收集到信息和月中拿到信息,價值顯然不同,數據需要實時拿到,實時分析。從另一個視角看待數據的價值,可以分為兩點,數據驅動決策,數據驅動產品智能。數據的最大價值是產品智能,有了數據基礎,再搭建好策略演算法,去回灌產品,提升產品本身的學習能力,可以不斷迭代。如今日頭條的新聞推薦,網路搜索的搜索引擎優化,都是數據驅動產品智能的體現。
數據分析四個關鍵環節 桑文鋒把數據分析分為四個環節,數據採集、數據建模、數據分析、指標。他提出了一個觀點,要想做好數據分析,一定要有自底向上的理念。很多公司的數據分析自頂向下推動,用業務分析指標來決定收集什麼數據,這是需求驅動工程師的模式,不利於公司長久的數據採集。而一個健康的自底向上模式,可以幫助公司真正建立符合自己業務的數據流和數據分析體系。 一、數據採集 想要真正做好大數據分析,首先要把數據基礎建好,核心就是「全」和「細」。 搜集數據時不能只通過 APP 或客戶端收集數據,伺服器的數據、資料庫數據都要同時收集打通,收集全量數據,而非抽樣數據,同時還要記錄相關維度,否則分析業務時可能會發現歷史數據不夠,所以不要在意數據量過大,磁碟存儲的成本相比數據積累的價值,非常廉價。 常見的數據採集方式歸結為三類,可視化/全埋點、代碼埋點、數據導入工具。
第一種是可視化/全埋點,這種方式不需要工程師做太多配合,產品經理、運營經理想做分析直接在界面點選,系統把數據收集起來,比較靈活。但是也有不好的地方,有許多維度信息會丟失,數據不夠精準。第二種是代碼埋點,代碼埋點不特指前端埋點,後端伺服器數據模塊、日誌,這些深層次的都可以代碼埋點,比如電商行業中交易相關的數據可以在後端採集。代碼埋點的優勢是,數據更加准確,通過前端去採集數據,常會發現數據對不上,跟自己的實際後台數據差異非常大。可能有三個原因:第一個原因是本身統計口徑不一樣,一定出現丟失;第二點是流量過大,導致數據丟失異常;第三點是SDK兼容,某些客戶的某些設備數據發不出去,導致數據不對稱。而代碼埋點的後台是公司自己的伺服器,自己核心的模擬可以做校準,基本進行更准確的數據採集。第三種是通過導入輔助工具,將後台生成的日誌、數據表、線下數據用實時批量方式灌到裡面,這是一個很強的耦合。數據採集需要採集數據和分析數據的人共同參與進來,分析數據的人明確業務指標,並且對於數據的准確性有敏感的判斷力,採集數據的人再結合業務進行系統性的採集。二、數據建模很多公司都有業務資料庫,裡面存放著用戶注冊信息、交易信息等,然後產品經理、運營人員向技術人員尋求幫助,用業務資料庫支持業務上的數據分析。但是這樣維護成本很高,且幾千萬、幾億條數據不能很好地操作。所以,數據分析和正常業務運轉有兩項分析,數據分析單獨建模、單獨解決問題。數據建模有兩大標准:易理解和性能好。數據驅動不是數據分析師、資料庫管理員的專利,讓公司每一個業務人員都能在工作中運用數據進行數據分析,並能在獲得秒級響應,驗證自己的新點子新思維,嘗試新方法,才是全員數據驅動的健康狀態。多維數據分析模型(OLAP)是用戶數據分析中最有效的模型,它把用戶的訪問數據都歸類為維度和指標,城市是維度,操作系統也是維度,銷售額、用戶量是指標。建立好多維數據分析模型,解決的不是某個業務指標分析的問題,使用者可以靈活組合,滿足各種需求。三、數據分析數據分析支持產品改進產品經理在改進產品功能時,往往是拍腦袋靈光一現,再對初級的點子進行再加工,這是不科學的。《精益創業》中講過一個理念,把數據分析引入產品迭代,對已有的功能進行數據採集和數據分析,得出有用的結論引入下一輪迭代,從而改進產品。在這個過程中大數據分析很關鍵。Facebook 的創始人曾經介紹過他的公司如何確定產品改進方向。Facebook 採用了一種機制:每一個員工如果有一個點子,可以抽樣幾十萬用戶進行嘗試,如果結果不行,就放棄這個點子,如果這個效果非常好,就推廣到更大范圍。這是把數據分析引入產品迭代的科學方法。桑文鋒在 2007 年加入網路時,也發現了一個現象,他打開郵箱會收到幾十封報表,將網路知道的訪問量、提問量、回答量等一一介紹。當網路的產品經理提出一個需求時,工程師會從數據的角度提出疑問,這個功能為什麼好 有什麼數據支撐 這個功能上線時如何評估 有什麼預期數據 這也是一種數據驅動產品的體現。數據驅動運營監控運營監控通常使用海盜模型,所謂的運營就是五件事:觸達是怎麼吸引用戶過來;然後激活用戶,讓用戶真正變成有效的用戶;然後留存,提高用戶粘性,讓用戶能停留在你的產品中不斷使用;接下來是引薦,獲取用戶這么困難,能不能發動已有的用戶,讓已有用戶帶來新用戶,實現自傳播;最後是營收,做產品最終要賺錢。要用數據分析,讓運營做的更好。數據分析方法互聯網常見分析方法有幾種,多維分析、漏斗分析、留存分析、用戶路徑、用戶分群、點擊分析等等,不同的數據分析方法適用於不同的業務場景,需要自主選擇。舉個多維分析的例子,神策數據有一個視頻行業的客戶叫做開眼,他們的軟體有一個下載頁面,運營人員曾經發現他們的安卓 APP 下載量遠低於 iOS,這是不合理的。他們考慮過是不是 iOS 用戶更願意看視頻,隨後從多個維度進行了分析,否定了這個結論,當他們發現某些安卓版本的下載量為零,分析到屏幕寬高時,看出這個版本下載按鈕顯示不出來,所以下載比例非常低。就這樣通過多維分析,找出了產品改進點。舉個漏斗分析的例子,神策數據的官網訪問量很高,但是注冊-登錄用戶的轉化率很低,需要進行改進。所以大家就思考如何把轉化漏斗激活地更好,後來神策做了小的改變,在提交申請試用後加了一個查看登錄頁面,這樣用戶收到賬戶名密碼後可以隨手登錄,優化了用戶體驗,轉化率也有了可觀的提升。四、指標如何定義指標 對於創業公司來說,有兩種方法非常有效:第一關鍵指標法和海盜指標法。第一關鍵指標法是《精益數據分析》中提出的理論,任何一個產品在某個階段,都有一個最需要關注的指標,其他指標都是這個指標的衍生,這個指標決定了公司當前的工作重點,對一個初創公司來說,可能開始關注日活,圍繞日活又擴展了一些指標,當公司的產品成熟後,變現就會成為關鍵,凈收入(GMV)會變成第一關鍵指標。
㈡ 大數據正在潛移默化的十三個行業
1、電視媒體
大數據應用案例之電視媒體——對於體育愛好者,追蹤電視播放的最新運動賽事幾乎是一件不可能的事情,因為有超過上百個賽事在 8000 多個電視頻道播出。而現在市面上有開發者開發了一個可追蹤所有運動賽事的應用程序—— RUWT,它已經可以在 iOS 和 Android 設備,以及在 Web 瀏覽器上使用,它不斷地分析運動數據流來讓球迷知道他們應該轉換成哪個台看到想看的節目,在電視的哪個頻道上找到,並讓他們在比賽中進行投票。
對於谷歌電視和 TiVo 用戶來說,實際上 RUWT 就是讓他們改變頻道調到一個比賽中。該程序能基於賽事的緊張激烈程度對比賽進行評分排名,用戶可通過該應用程序找到值得收看的頻道和賽事。
2、社交網路
大數據應用案例之社交網路——數據基礎設施工程部高級主管 Ghosh 描繪的 LinkedIn 數據構建圖,其中就包括 Hadoop 戰略部署。
幾年前,LinkedIn只是一家普通的科技公司。而現在,其儼然成為一個工程強國。LinkedIn 建成的一個最重要的資料庫是 Espresso。不像 Voldemort,這是繼亞馬遜 Dynamo 資料庫之後的一個最終一致性關鍵值存儲,用於高速存儲某些確定數據,Espresso作為一個事務一致性文件存儲,通過對整個公司的網路操作將取代遺留的 Oracle 資料庫。
它最初的設計就是為了提供 LinkedIn InMail 消息服務的可用性,該公司計劃今年晚些時候將推出開源
3、醫療行業
大數據應用案例之醫療行業—— Seton Healthcare 是採用 IBM 最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地分析病人的信息。
在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鍾有超過 3000 次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。
它讓更多的創業者更方便地開發產品,比如通過社交網路來收集數據的健康類 App。也許未來數年後,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。
Express Scripts 就是這么一家處方葯管理服務公司,目前它正在通過一些復雜模型來檢測虛假葯品,這些模型還能及時提醒人們何時應該停止用葯。Express Scripts 能夠解決該問題的原因在於所有有關數據。因為它每年管理著 1.4 億處方,覆蓋了一億美國人和 65,000 家葯店,雖然該公司是能夠識別潛在問題的信號模式,但它也使用數據來嘗試解決某些情況下之前曾經發現的問題。
他們還著眼於一些事情,如所開處方的葯物種類,甚至有人在網上談論醫生。如果一個醫生的行為被標記為紅色的旗幟,那麼他在網路上是個好人的形象,更是你所需要的醫生。
4、保險行業
大數據應用案例之保險行業——保險行業並非技術創新的指示燈,然而 MetLife 保險公司已經投資 3 億美金建立一個新式系統,其中的第一款產品是一個基於 MongoDB 的應用程序,它將所有客戶信息放在同一個地方。
MongoDB 匯聚了來自 70 多個遺留系統的數據,並將它合並成一個單一的記錄。它運行在兩個數據中心的 6 個伺服器上,目前存儲了 24TB 的數據。這包括 MetLife 的全部美國客戶,盡管它的目標是擴大它的國際客戶和多種語言,同時也可能創建一個面向客戶的版本。它的更新幾乎是實時的,當新客戶的數據輸入時,就好像 Facebook 牆一樣。
大多數疾病可以通過葯物來達到治療效果,但如何讓醫生和病人能夠專注參加一兩個可以真正改善病人健康狀況的干預項目卻極具挑戰。安泰保險目前正嘗試通過大數據達到此目的。安泰保險為了幫助改善代謝綜合症患者的預測,從千名患者中選擇 102 個完成實驗。在一個獨立的實驗室工作內,通過患者的一系列代謝綜合症的檢測試驗結果,在連續三年內,掃描 600,000 個化驗結果和 18 萬索賠事件。將最後的結果組成一個高度個性化的治療方案,以評估患者的危險因素和重點治療方案。這樣,醫生可以通過食用他汀類葯物及減重5磅等建議而減少未來 10 年內 50% 的發病率。或者通過你目前體內高於 20% 的含糖量,而建議你降低體內甘油三酯總量。
5、職業籃球賽
大數據應用案例之職業籃球賽——專業籃球隊會通過搜集大量數據來分析賽事情況,然而他們還在為這些數據的整理和實際意義而發愁。通過分析這些數據,可否找到兩三個制勝法寶,或者至少能保證球隊獲得高分, Krossover 公司正致力於此。
在每場比賽過後,教練只需要上傳比賽視頻。接下來,來自 Krossover 團隊的大學生將會對其分解。等到第二天教練再看昨晚的比賽時,他只需檢查任何他想要的——數據統計、比賽中的個人表現、比賽反應等等。通過分析比賽視頻,毫不誇張地分析所有的可量化的數據。
6、能源行業
大數據應用案例之能源行業——智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來 2 ~ 3 個月時間里,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測後,可以降低采購成本。
維斯塔斯風力系統,依靠的是 BigInsights 軟體和 IBM 超級計算機,然後對氣象數據進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的分析工作,現在僅需要不足 1 小時便可完成。
7、社會生活
大數據應用案例之社會生活——印度有一檔非常受歡迎的電視節目 Satyamev jayate,該節目整理並分析社會民眾關於爭議話題的各種意見,包括女性墮胎、種姓歧視和虐待兒童等社會熱點問題,並使用這些數據來推進政治改革。
雖然目前只播放了 13 集,但是來自各方的反饋數據不容小覷。來自印度電視和世界各地的 YouTube 上的 400 萬觀眾;超過 1.2 億人在其網站、Facebook,Twitter,YouTube 和移動設備上已連接 Satyamev jayate ;超過 800 萬的人通過 Facebook,網路注釋,文本消息及電話熱線等方式發送 14 萬個回應,每周有超過 10 萬個新觀眾進行回應。
8、公路交通
大數據應用案例之公路交通——在洛杉磯開過車的人一定都經歷過那裡噩夢般的交通擁堵情況。目前政府在 I-10 和 I-110 州際公路上建立了一條收費的快速通道。政府可通過大數據引導駕駛人員在該通道上的行駛情況,保證交通暢通。
施樂就是參與此次項目的公司,它的抗擁塞項目,包括用 ExpressLanes 、動態定價,上升的需求等等以維持某種秩序的想法。施樂公司的首席技術執行官表示,如果司機支付給駕駛熱車道(高佔用收費系統),他必須保證車速每小時 45 英里左右。如果交通開始擁堵,私家汽車的支付價格將上升,以減少他們進入,而將車道用於高佔用率的車輛,例如公共汽車和大巴車。
施樂還有另一個項目在洛杉磯稱為 Express Park,目標是讓人們知道他們何時即將離開房子,在哪能找到停車場和花費金額。不僅要確保定價,同時更要確保數據實時到達用戶手中。例如,應當提前 40 分鍾告知用戶停車位置。
9、汽車製造
大數據應用案例之汽車製造——當問起汽車的製造過程,大多數人腦子里隨即浮現的是各種生產裝配流水線和製造機器。然而在福特,在產品的研發設計階段,大數據就已經對汽車的部件和功能產生了重要影響。
比如,福特產品開發團隊曾經對 SUV 是否應該採取掀背式(即手動打開車後行李箱車門)或電動式進行分析。如果選擇後者,門會自動打開、便捷智能,但這種方式會影響到車門開啟有限的困惱。此前採用定期調查的方式並沒有發現這個問題,但後來根據對社交媒體的關注和分析,發現很多人都在談論這些問題。
10、零售業
大數據應用案例之零售業,某公司是一家領先的專業時裝零售商,通過當地的百貨商店、網路及其郵購目錄業務為客戶提供服務。公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨後他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。
希望通過接受免費化妝服務,讓用戶進行口碑宣傳,這是交易數據與交互數據的完美結合,為業務挑戰提供了解決方案。Informatica 的技術幫助這家零售商用社交平台上的數據充實了客戶主數據,使他的業務服務更具有目標性。
零售企業也監控客戶的店內走動情況以及與商品的互動。它們將這些數據與交易記錄相結合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方法已經幫助某領先零售企業減少了17% 的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。
11、總統競選
大數據應用案例之總統競選——許多人通過 Facebook 更新個人狀態、分享圖片以及他們"喜歡"的內容。奧巴馬的總統競選運動也通過使用社交網路的各種數據功能完成了競選,他們不僅通過社交網路尋找支持者,而且還通過社交網路召集了一批志願軍。
早在 2006 年,Facebook 聯合創始人,克里斯·休斯就建議扎克伯格在網站上推出相關服務,幫助總統候選人在 Facebook 上建立個人主頁,以便他們進行形象推廣。2006 年 9 月,Facebook 全面開放,用戶數量爆炸式增長,在年底達到 1200 萬。這一過程恰好有利地推升了奧巴馬的知名度。此後,在克里斯的輔佐下,奧巴馬掀起了一系列的網路活動,在 Facebook、MySpace 等社交網站上發表公開演講、推廣施政理念,贏得大量網民支持,募集到 5 億多美元的競選經費。
最終,"黑人平民"戰勝了實力雄厚的對手,成為美國歷史上第一位黑人總統,之後,在第二次的選舉中更獲得連任。此次選舉被認為是美國民主的巨大進步,而互聯網則提供了前所未有的實施手段,其中尤以 Facebook 代表的社交網站最為突出,以至於有人戲稱之為 " Facebook 之選"。
最近上任的川普...算了不說了...簡直就是一個噴子...
12、電子郵件
大數據應用案例之電子郵件—— MailChimp 的核心業務是提供電子郵件服務,它在一年內為大約 300 萬用戶發送了 350 億封郵件。不過真正能體現 MailChimp 未來價值的則是該公司對這些郵件數據的處理和分析。
MailChimp 的一個重要任務就是搞清楚如何幫助客戶更好地了解他們所發送的信息。考慮到這一點,該公司建立了一個服務叫 Wavelength,向客戶展示了與他們相似的其他訊息。這個系統使得 Wavelength 能夠儲存公司資料庫中每個郵件地址發生的互動。這意味著告訴了你,用戶打開了什麼樣的郵件,何時打開,他們點擊了什麼鏈接,還有訂閱了什麼郵件。MailChimp 也有一個功能叫做 Ecommerce360,能讓客戶通過轉換來跟蹤點擊。
13、音樂
大數據應用案例之音樂—— 十多年前,音樂元數據公司 Gracenote 收到來自蘋果公司的神秘忠告,建議其購買更多的伺服器。Gracenote 照做了,而後蘋果推出 iTunes 和 iPod,Gracenote 從而成為了元數據的帝國。
在車內聽的歌曲很可能反映你的真實喜好, Gracenote 就擁有此種技術。它採用智能手機和平板電腦內置的麥克風識別用戶電視或音響中播放的歌曲,並可檢測掌聲或噓聲等反應,甚至還能檢測用戶是否調高了音量。這樣,Gracenote 可以研究用戶真正喜歡的歌曲,聽歌的時間和地點。
Gracenote 擁有數百萬首歌曲的音頻和元數據,因而可以快速識別歌曲信息,並按音樂風格、歌手、地理位置等分類。 作者 佚名 本文轉載至網路,如涉及抄襲請聯系我們