大數據建模案例資產畫像_企業大數據實戰案例

❶ 金融行業如何用大數據構建精準用戶畫像

用戶畫像的焦點工作就是為用戶打「標簽」，而一個標簽通常是人為規定的高度精煉的特徵標識，如年齡、性別、地域、用戶偏好等，最後將用戶的所有標簽綜合來看，就可以勾勒出該用戶的立體「畫像」了。

為了精準地描述用戶特徵，可以參考下面的思路，從用戶微觀畫像的建立→用戶畫像的標簽建模→用戶畫像的數據架構，我們由微觀到宏觀，逐層分析。

首先我們從微觀來看，如何給用戶的微觀畫像進行分級呢？如下圖所示

總原則：基於一級分類上述分類逐級進行細分。

第一分類：人口屬性、資產特徵、營銷特性、興趣愛好、購物愛好、需求特徵

市場上用戶畫像的方法很多，許多企業也提供用戶畫像服務，將用戶畫像提升到很有逼格一件事。金融企業是最早開始用戶畫像的行業，由於擁有豐富的數據，金融企業在進行用戶畫像時，對眾多緯度的數據無從下手，總是認為用戶畫像數據緯度越多越好，畫像數據越豐富越好，某些輸入的數據還設定了權重甚至建立了模型，搞的用戶畫像是一個巨大而復雜的工程。但是費力很大力氣進行了畫像之後，卻發現只剩下了用戶畫像，和業務相聚甚遠，沒有辦法直接支持業務運營，投入精力巨大但是回報微小，可以說是得不償失，無法向領導交代。

事實上，用戶畫像涉及數據的緯度需要業務場景結合，既要簡單干練又要和業務強相關，既要篩選便捷又要方便進一步操作。用戶畫像需要堅持三個原則，分別是人口屬性和信用信息為主，強相關信息為主，定性數據為主。下面就分別展開進行解釋和分析。

描述一個用戶的信息很多，信用信息是用戶畫像中重要的信息，信用信息是描述一個人在社會中的消費能力信息。任何企業進行用戶畫像的目的是尋找目標客戶，其必須是具有潛在消費能力的用戶。信用信息可以直接證明客戶的消費能力，是用戶畫像中最重要和基礎的信息。一句戲言，所有的信息都是信用信息就是這個道理。其包含消費者工作、收入、學歷、財產等信息。

我們需要介紹一下強相關信息和弱相關信息。強相關信息就是同場景需求直接相關的信息，其可以是因果信息，也可以是相關程度很高的信息。

如果定義採用0到1作為相關系數取值范圍的化，0.6以上的相關系數就應該定義為強相關信息。例如在其他條件相同的前提下，35歲左右人的平均工資高於平均年齡為30歲的人，計算機專業畢業的學生平均工資高於哲學專業學生，從事金融行業工作的平均工資高於從事紡織行業的平均工資，上海的平均工資超過海南省平均工資。從這些信息可以看出來人的年齡、學歷、職業、地點對收入的影響較大，同收入高低是強相關關系。簡單的將，對信用信息影響較大的信息就是強相關信息，反之則是弱相關信息。

用戶其他的信息，例如用戶的身高、體重、姓名、星座等信息，很難從概率上分析出其對消費能力的影響，這些弱相關信息，這些信息就不應該放到用戶畫像中進行分析，對用戶的信用消費能力影響很小，不具有較大的商業價值。

用戶畫像和用戶分析時，需要考慮強相關信息，不要考慮弱相關信息，這是用戶畫像的一個原則。

例如可以將年齡段對客戶進行劃分，18歲-25歲定義為年輕人，25歲-35歲定義為中青年，36-45定義為中年人等。可以參考個人收入信息，將人群定義為高收入人群，中等收入人群，低收入人群。參考資產信息也可以將客戶定義為高、中、低級別。定性信息的類別和方式方法，金融可以從自身業務出發，沒有固定的模式。

將金融企業各類定量信息，集中在一起，對定性信息進行分類，並進行定性化，有利與對用戶進行篩選，快速定位目標客戶，是用戶畫像的另外一個原則。

下面內容將詳細介紹，如何根據用戶行為，構建模型產出標簽、權重。一個事件模型包括：時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件，可以詳細描述為：什麼用戶，在什麼時間，什麼地點，做了什麼事。

什麼用戶：關鍵在於對用戶的標識，用戶標識的目的是為了區分用戶、單點定位。

以上列舉了互聯網主要的用戶標識方法，獲取方式由易到難。視企業的用戶粘性，可以獲取的標識信息有所差異。

什麼時間：時間包括兩個重要信息，時間戳+時間長度。時間戳，為了標識用戶行為的時間點，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常採用精度到秒的時間戳即可。因為微秒的時間戳精度並不可靠。瀏覽器時間精度，准確度最多也只能到毫秒。時間長度，為了標識用戶在某一頁面的停留時間。

什麼地點：用戶接觸點，Touch Point。對於每個用戶接觸點。潛在包含了兩層信息：網址 + 內容。網址：每一個url鏈接（頁面/屏幕），即定位了一個互聯網頁面地址，或者某個產品的特定頁面。可以是PC上某電商網站的頁面url，也可以是手機上的微博，微信等應用某個功能頁面，某款產品應用的特定畫面。如，長城紅酒單品頁，微信訂閱號頁面，某游戲的過關頁。

內容：每個url網址（頁面/屏幕）中的內容。可以是單品的相關信息：類別、品牌、描述、屬性、網站信息等等。如，紅酒，長城，干紅，對於每個互聯網接觸點，其中網址決定了權重；內容決定了標簽。

註：接觸點可以是網址，也可以是某個產品的特定功能界面。如，同樣一瓶礦泉水，超市賣1元，火車上賣3元，景區賣5元。商品的售賣價值，不在於成本，更在於售賣地點。標簽均是礦泉水，但接觸點的不同體現出了權重差異。這里的權重可以理解為用戶對於礦泉水的需求程度不同。即願意支付的價值不同。

標簽權重

礦泉水 1 // 超市

礦泉水 3 // 火車

礦泉水 5 // 景區

類似的，用戶在京東商城瀏覽紅酒信息，與在品尚紅酒網瀏覽紅酒信息，表現出對紅酒喜好度也是有差異的。這里的關注點是不同的網址，存在權重差異，權重模型的構建，需要根據各自的業務需求構建。

所以，網址本身表徵了用戶的標簽偏好權重。網址對應的內容體現了標簽信息。

什麼事：用戶行為類型，對於電商有如下典型行為：瀏覽、添加購物車、搜索、評論、購買、點擊贊、收藏等等。

不同的行為類型，對於接觸點的內容產生的標簽信息，具有不同的權重。如，購買權重計為5，瀏覽計為1

紅酒 1 // 瀏覽紅酒

紅酒 5 // 購買紅酒

綜合上述分析，用戶畫像的數據模型，可以概括為下面的公式：用戶標識 + 時間 + 行為類型 + 接觸點（網址+內容），某用戶因為在什麼時間、地點、做了什麼事。所以會打上**標簽。

如：用戶A，昨天在品尚紅酒網瀏覽一瓶價值238元的長城干紅葡萄酒信息。

標簽：紅酒，長城

時間：因為是昨天的行為，假設衰減因子為：r=0.95

行為類型：瀏覽行為記為權重1

地點：品尚紅酒單品頁的網址子權重記為 0.9（相比京東紅酒單品頁的0.7）

假設用戶對紅酒出於真的喜歡，才會去專業的紅酒網選購，而不再綜合商城選購。

則用戶偏好標簽是：紅酒，權重是0.95*0.7 * 1=0.665，即，用戶A：紅酒 0.665、長城 0.665。

上述模型權重值的選取只是舉例參考，具體的權重值需要根據業務需求二次建模，這里強調的是如何從整體思考，去構建用戶畫像模型，進而能夠逐步細化模型。

本文並未涉及具體演算法，更多的是闡述了一種分析思想，在計劃構建用戶畫像時，能夠給您提供一個系統性、框架性的思維指導。

核心在於對用戶接觸點的理解，接觸點內容直接決定了標簽信息。內容地址、行為類型、時間衰減，決定了權重模型是關鍵，權重值本身的二次建模則是水到渠成的進階。模型舉例偏重電商，但其實，可以根據產品的不同，重新定義接觸點。

比如影視產品，我看了一部電影《英雄本色》，可能產生的標簽是：周潤發 0.6、槍戰 0.5、港台 0.3。最後，接觸點本身並不一定有內容，也可以泛化理解為某種閾值，某個行為超過多少次，達到多長時間等。

比如游戲產品，典型接觸點可能會是，關鍵任務，關鍵指數（分數）等等。如，積分超過1萬分，則標記為鑽石級用戶。鑽石用戶 1.0。

百分點現已全面應用用戶畫像技術於推薦引擎中，在對某電商客戶，針對活動頁新訪客的應用中，依靠用戶畫像產生的個性化效果，對比熱銷榜，推薦效果有顯著提升：推薦欄點擊率提升27%，訂單轉化率提升34%。

金融企業內部的信息分布在不同的系統中，一般情況下，人口屬性信息主要集中在客戶關系管理系統，信用信息主要集中在交易系統和產品系統之中，也集中在客戶關系管理系統中，消費特徵主要集中在渠道和產品系統中。

興趣愛好和社交信息需要從外部引入，例如客戶的行為軌跡可以代表其興趣愛好和品牌愛好，移動設備到位置信息可以提供較為准確的興趣愛好信息。社交信息，可以藉助於金融行業自身的文本挖掘能力進行採集和分析，也是可以藉助於廠商的技術能力在社交網站上直接獲得。社交信息往往是實時信息，商業價值較高，轉化率也較高，是大數據預測方面的主要信息來源。例如用戶在社交網站上提出羅馬哪裡好玩的問題，就代表用戶未來可能有出國旅遊的需求；如果客戶在對比兩款汽車的優良，客戶購買汽車的可能性就較大。金融企業可以及時介入，為客戶提供金融服務。

客戶畫像數據主要分為五類，人口屬性、信用信息、消費特徵、興趣愛好、社交信息。這些數據都分布在不同的信息系統，金融企業都上線了數據倉庫（DW），所有畫像相關的強相關信息都可以從數據倉庫裡面整理和集中，並且依據畫像商業需求，利用跑批作業，加工數據，生成用戶畫像的原始數據。

數據倉庫成為用戶畫像數據的主要處理工具，依據業務場景和畫像需求將原始數據進行分類、篩選、歸納、加工等，生成用戶畫像需要的原始數據。

用戶畫像的緯度信息不是越多越好，只需要找到這五大類畫像信息強相關信息，同業務場景強相關信息，同產品和目標客戶強相關信息即可。根本不存在360度的用戶畫像信息，也不存在豐富的信息可以完全了解客戶，另外數據的實效性也要重點考慮。

依據用戶畫像的原則，所有畫像信息應該是五大分類的強相關信息。強相關信息是指同業務場景強相關信息，可以幫助金融行業定位目標客戶，了解客戶潛在需求，開發需求產品。

只有強相關信息才能幫助金融企業有效結合業務需求，創造商業價值。例如姓名、手機號、家庭地址就是能夠觸達客戶的強人口屬性信息，收入、學歷、職業、資產就是客戶信用信息的強相關信息。差旅人群、境外遊人群、汽車用戶、旅遊人群、母嬰人群就是消費特徵的強相關信息。攝影愛好者、游戲愛好者、健身愛好者、電影人群、戶外愛好者就是客戶興趣愛好的強相關信息。社交媒體上發表的旅遊需求，旅遊攻略，理財咨詢，汽車需求，房產需求等信息代表了用戶的內心需求，是社交信息場景應用的強相關信息。

金融企業內部信息較多，在用戶畫像階段不需要對所有信息都採用，只需要採用同業務場景和目標客戶強相關的信息即可，這樣有助於提高產品轉化率，降低投資回報率（ROI），有利於簡單找到業務應用場景，在數據變現過程中也容易實現。

千萬不要將用戶畫像工作搞的過於復雜，同業務場景關系不大，這樣就讓很多金融企業特別是領導失去用戶畫像的興趣，看不到用戶畫像的商業，不願意在大數據領域投資。為企業帶來商業價值才是用戶畫像工作的主要動力和主要目的。

金融企業集中了所有信息之後，依據業務需求，對信息進行加工整理，需要對定量的信息進行定性，方便信息分類和篩選。這部分工作建議在數據倉庫進行，不建議在大數據管理平台（DMP）里進行加工。

定性信息進行定量分類是用戶畫像的一個重要工作環節，具有較高的業務場景要求，考驗用戶畫像商業需求的轉化。其主要目的是幫助企業將復雜數據簡單化，將交易數據定性進行歸類，並且融入商業分析的要求，對數據進行商業加工。例如可以將客戶按照年齡區間分為學生，青年，中青年，中年，中老年，老年等人生階段。源於各人生階段的金融服務需求不同，在尋找目標客戶時，可以通過人生階段進行目標客戶定位。企業可以利用客戶的收入、學歷、資產等情況將客戶分為低、中、高端客戶，並依據其金融服務需求，提供不同的金融服務。可以參考其金融消費記錄和資產信息，以及交易產品，購買的產品，將客戶消費特徵進行定性描述，區分出電商客戶，理財客戶，保險客戶，穩健投資客戶，激進投資客戶，餐飲客戶，旅遊客戶，高端客戶，公務員客戶等。利用外部的數據可以將定性客戶的興趣愛好，例如戶外愛好者，奢侈品愛好者，科技產品發燒友，攝影愛好者，高端汽車需求者等信息。

將定量信息歸納為定性信息，並依據業務需求進行標簽化，有助於金融企業找到目標客戶，並且了解客戶的潛在需求，為金融行業的產品找到目標客戶，進行精準營銷，降低營銷成本，提高產品轉化率。另外金融企業還可以依據客戶的消費特徵、興趣愛好、社交信息及時為客戶推薦產品，設計產品，優化產品流程。提高產品銷售的活躍率，幫助金融企業更好地為客戶設計產品。

利用數據進行畫像目的主要是為業務場景提供數據支持，包括尋找到產品的目標客戶和觸達客戶。金融企業自身的數據不足以了解客戶的消費特徵、興趣愛好、社交信息。

金融企業可以引入外部信息來豐富客戶畫像信息，例如引入銀聯和電商的信息來豐富消費特徵信息，引入移動大數據的位置信息來豐富客戶的興趣愛好信息，引入外部廠商的數據來豐富社交信息等。

外部信息的緯度較多，內容也很豐富，但是如何引入外部信息是一項具有挑戰的工作。外部信息在引入時需要考慮幾個問題，分別是外部數據的覆蓋率，如何和內部數據打通，和內部信息的匹配率，以及信息的相關程度，還有數據的鮮活度，這些都是引入外部信息的主要考慮緯度。外部數據魚龍混雜，數據的合規性也是金融企業在引入外部數據時的一個重要考慮，敏感的信息例如手機號、家庭住址、身份證號在引入或匹配時都應該注意隱私問題，基本的原則是不進行數據交換，可以進行數據匹配和驗證。

外部數據不會集中在某一家，需要金融企業花費大量時間進行尋找。外部數據和內部數據的打通是個很復雜的問題，手機號／設備號／身份證號的MD5數值匹配是一種好的方法，不涉及隱私數據的交換，可以進行唯一匹配。依據行業內部的經驗，沒有一家企業外部數據可以滿足企業要求，外部數據的引入需要多方面數據。一般情況下，數據覆蓋率達到70%以上，就是一個非常高的覆蓋率。覆蓋率達到20%以上就可以進行商業應用了。

金融行業外部數據源較好合作方有銀聯、芝麻信用、運營商、中航信、騰雲天下、騰訊、微博、前海徵信，各大電商平台等。市場上數據提供商已經很多，並且數據質量都不錯，需要金融行業一家一家去挖掘，或者委託一個廠商代理引入也可以。獨立第三方幫助金融行業引入外部數據可以降低數據交易成本，同時也可以降低數據合規風險，是一個不錯的嘗試。另外各大城市和區域的大數據交易平台，也是一個較好的外部數據引入方式。

用戶畫像主要目的是讓金融企業挖掘已有的數據價值，利用數據畫像技術尋找到目標客戶和客戶的潛在需求，進行產品推銷和設計改良產品。

用戶畫像從業務場景出發，實現數據商業變現重要方式。用戶畫像是數據思維運營過程中的一個重要閉環，幫助金融企業利用數據進行精細化運營和市場營銷，以及產品設計。用戶畫像就是一切以數據商業化運營為中心，以商業場景為主，幫助金融企業深度分析客戶，找到目標客戶。

DMP（大數據管理平台）在整個用戶畫像過程中起到了一個數據變現的作用。從技術角度來講，DMP將畫像數據進行標簽化，利用機器學習演算法來找到相似人群，同業務場景深度結合，篩選出具有價值的數據和客戶，定位目標客戶，觸達客戶，對營銷效果進行記錄和反饋。大數據管理平台DMP過去主要應用在廣告行業，在金融行業應用不多，未來會成為數據商業應用的主要平台。

DMP可以幫助信用卡公司篩選出未來一個月可能進行分期付款的客戶，電子產品重度購買客戶，篩選出金融理財客戶，篩選出高端客戶（在本行資產很少，但是在他行資產很多），篩選出保障險種，壽險，教育險，車險等客戶，篩選出穩健投資人，激進投資人，財富管理等方面等客戶，並且可以觸達這些客戶，提高產品轉化率，利用數據進行價值變現。DMP還可以了解客戶的消費習慣、興趣愛好、以及近期需求，為客戶定製金融產品和服務，進行跨界營銷。利用客戶的消費偏好，提高產品轉化率，提高用戶黏度。

DMP還作為引入外部數據的平台，將外部具有價值的數據引入到金融企業內部，補充用戶畫像數據，創建不同業務應用場景和商業需求，特別是移動大數據、電商數據、社交數據的應用，可以幫助金融企業來進行數據價值變現，讓用戶畫像離商業應用更加近一些，體現用戶畫像的商業價值。

用戶畫像的關鍵不是360度分析客戶，而是為企業帶來商業價值，離開了商業價值談用戶畫像就是耍流氓。金融企業用戶畫像項目出發點一定要從業務需求出發，從強相關數據出發，從業務場景應用出發。用戶畫像的本質就是深度分析客戶，掌握具有價值數據，找到目標客戶，按照客戶需求來定製產品，利用數據實現價值變現。

銀行具有豐富的交易數據、個人屬性數據、消費數據、信用數據和客戶數據，用戶畫像的需求較大。但是缺少社交信息和興趣愛好信息。

到銀行網點來辦業務的人年紀偏大，未來消費者主要在網上進行業務辦理。銀行接觸不到客戶，無法了解客戶需求，缺少觸達客戶的手段。分析客戶、了解客戶、找到目標客戶、為客戶設計其需要的產品，成了銀行進行用戶畫像的主要目的。銀行的主要業務需求集中在消費金融、財富管理、融資服務，用戶畫像要從這幾個角度出發，尋找目標客戶。

銀行的客戶數據很豐富，數據類型和總量較多，系統也很多。可以嚴格遵循用戶畫像的五大步驟。先利用數據倉庫進行數據集中，篩選出強相關信息，對定量信息定性化，生成DMP需要的數據。利用DMP進行基礎標簽和應用定製，結合業務場景需求，進行目標客戶篩選或對用戶進行深度分析。同時利用DMP引入外部數據，完善數據場景設計，提高目標客戶精準度。找到觸達客戶的方式，對客戶進行營銷，並對營銷效果進行反饋，衡量數據產品的商業價值。利用反饋數據來修正營銷活動和提高ROI。形成市場營銷的閉環，實現數據商業價值變現的閉環。另外DMP還可以深度分析客戶，依據客戶的消費特徵、興趣愛好、社交需求、信用信息來開發設計產品，為金融企業的產品開發提供數據支撐，並為產品銷售方式提供場景數據。

簡單介紹一些DMP可以做到的數據場景變現。

A 尋找分期客戶

利用發卡機構數據＋自身數據＋信用卡數據，發現信用卡消費超過其月收入的用戶，推薦其進行消費分期。

B 尋找高端資產客戶

利用發卡機構數據＋移動位置數據（別墅／高檔小區）＋物業費代扣數據＋銀行自身數據＋汽車型號數據，發現在銀行資產較少，在其他行資產較多的用戶，為其提供高端資產管理服務。

C 尋找理財客戶

利用自身數據（交易＋工資）＋移動端理財客戶端／電商活躍數據。發現客戶將工資／資產轉到外部，但是電商消費不活躍客戶，其互聯網理財可能性較大，可以為其提供理財服務，將資金留在本行。

D 尋找境外遊客戶

利用自身卡消費數據＋移動設備位置信息＋社交好境外強相關數據（攻略，航線，景點，費用），尋找境外遊客戶為其提供金融服務。

E 尋找貸款客戶

利用自身數據（人口屬性＋信用信息）＋移動設備位置信息＋社交購房／消費強相關信息，尋找即將購車／購房的目標客戶，為其提供金融服務（抵押貸款／消費貸款）。

來源: 錢塘大數據二次整理，TalkingData的鮑忠鐵原文出處，

❷ HCR大數據戰略之三：全景洞察的消費者畫像模型

當前，基於大數據與標簽化思路的消費者畫像分析，成為B2C企業深入認知目標消費者特性的重要工具，並在電商、DSP廣告等互聯網企業發揮作用。越來越多的傳統B2C行業，也開始重視其價值。同時，更多的數據資源方(如運營商等)也希望憑借其大數據資源上的消費者畫像服務，獲得更多的衍生收入。

消費者畫像，本質作為消費者研究的一種量化形式，核心問題仍然是消費者的洞察。而HCR作為市場研究公司，在消費者研究方面有著長期的模型積累和經驗豐富的研究人員。如今，HCR藉助自身研究優勢，同時吸取其他系統優點，建立推出真正具有全景、深入洞察能力的消費者畫像模型。

HCR消費者畫像模型體系由兩大部分組成：標簽體系與相應的分析模型。首先我們來介紹一下標簽體系。

已經完成的標簽體系中，設計用戶標簽近200個(根據業務/.研究深入在不斷擴展中)，共分為5大類，如下圖(限於篇幅圖中僅列舉部分標簽)

數據來源 : 大數據平台部@HCR

HCR用戶標簽體系所具有的全景刻畫能力，主要表現在：

l 提供對消費者更全面的刻畫維度。當前眾多標簽體系(以電商和在線廣告為代表)基本是面向精準營銷和個性化推薦為目的，雖然也號稱全景，但實際標簽集中於購買興趣/愛好和消費傾向這些與後續營收相關的用戶特性。而這只是HCR用戶標簽的一個子集(第四大類)。仔細研究HCR的標簽體系你會發現，除了興趣愛好外，HCR的基本屬性、社會/生活屬性與行為習慣的相關標簽類，真正從消費者實際日常生活的更多基本角度(如健康/車輛使用/住房/移動通信/居住/日常交通等等)全面立體地描述消費者的特性。

l 標簽的刻畫粒度也更加細化。比如年齡段，常規的多採用70後/80後/90後這樣的劃分原則，而HCR除此之外還能提供更多描述粒度，如中學生/高中生(甚至高三學生)/大學生… 這對發現和細分目標用戶更有價值。

而HCR用戶標簽的深入洞察能力，則主要表現在：

l 更加豐富的標簽體系帶來更多洞察可能，但這還不夠，HCR首創引入了心理學屬性標簽(第五大類共30多個)，融合了消費者研究的思想，以生活方式/個性/價值觀等深層標識，來揭示消費者的內在特性，使得我們能夠深入探查消費者的本性，也使得畫像結果有更泛化的應用價值。

l 更深入的演算法模型。基於標簽體繫上的分析演算法模型，在標注精度和廣度上都有了更大進步(見後面詳細介紹)

l 標簽的標注結果，加入程度指標來細化，這樣更准確地區分消費者對某種特性的貼近程度(如愛好游戲可分為輕度、中度和重度三種程度)。這對於更准確地理解消費者大有幫助。

與標簽體系一樣，HCR的標簽分析模型也具有獨特而有效的的分析方法。

l 主要通過行為類數據為分析依據

在標簽分析中，主要藉助行為類大數據(而非直接的屬性數據)來推演得到相應結果(如不是基於客戶身份證信息推導其性別標簽)。這樣的方法，難度大，需要對行為理解更深入，但可以避免涉及大量用戶敏感信息，同時也更具有更好的適用性。

HCR認為，用戶的行為數據(當前主要為線上行為)主要由下幾種行為場景模式組成(這里瀏覽包含網頁與視頻)。當市面上大多數標簽研究聚焦於搜索/瀏覽和購物行為數據時，我們選擇了手機App使用行為這個獨特的突破口。

數據來源 : 大數據平台部@HCR

HCR消費者畫像分析團隊由HCR資深消費者研究員與大數據平台部挖掘演算法人員組成。雙方配合探索研發兼具研究與技術分析優點的可計算模型。

n 行為規則庫抽象用戶行為模式：因為消費者的日常行為會反映其個人特性(標簽)，因此通過行為模式的推理就能為消費者打上相應標簽。相比其他方案，HCR通過研究員團隊，，把消費者行為推理思路進行抽象，得到可以用於自動分析的方法規則，記錄到規則知識庫。該規則知識庫是對消費者研究的經驗濃縮，覆蓋大量常規行為場景，並具有相當的洞察深度(如可以推演出生活方式等深層次標簽)，這是當前基於純技術驅動的分析方法所無法做到的。

n 規則推演引擎自動分析常規標簽標註：基於分析規則庫，挖掘演算法人員研發了智能推演演算法與自動處理程序，可快速計算消費者相關行為的統計/分布特性，並結合規則庫自動計算得到消費者的標簽(以概率值形式代表可能性)。自動推演引擎解決了符合規則特徵的海量用戶的標簽快速推演，模式具有獨創性，相關演算法正申請專利中。

n 機器學習演算法給更多消費者打標簽。實際分析中，很多標簽所對應的行為特點是隱性的，無法被發現和規則抽象。此時，挖掘演算法人員進一步通過機器學習演算法(有監督學習加推薦計算)，通過已標注標簽的消費者的行為特性，來推導大量未標注/新用戶的特性標簽，。這種機器學習的模式通過已分析消費者的結果，極大擴展了標簽可標注的用戶范圍。

在初步建立相關分析模型後，我們對移動互聯網用戶的App使用行為大數據進行了標簽分析的初步試驗。目標數據來自HCR HiMobile業務的數百萬移動互聯網匿名用戶的長期(2個月連續)App使用行為，共300多億記錄)，得到了良好的效果。下圖是其中某匿名用戶分析得到的實際畫像結果，非常具有代表性。

數據來源 : 大數據平台部@HCR

從圖里可以看出，該匿名屬性用戶的特性通過行為已被畫像結果有效勾勒出來(所有標簽通過可信度概率標示，右側灰色內容為分析得到的心理學屬性標簽)。無論目標描述的特性范圍和深度，都比其他系統有較大的優勢。

在大數據產業鏈中，HCR的定位是數據洞察者。而消費者畫像分析作為典型的研究洞察服務，將逐步成為HCR的核心競爭力，在未來得到不斷地加強和廣泛應用。主要的應用模式包括：

l 作為HCR所有消費者研究業務的基礎分析功能，幫助研究員在研究業務中洞察消費者的群體/個體特性。

l 為具有消費者畫像能力的企業(如電商)，提供更多角度的用戶畫像分析結果，作為其自身用戶畫像的有效補充，從而大大增加其產品推薦的精度與適用性。

l 為具有用戶行為大數據但缺乏用戶畫像能力的大量B2C企業(尤其移動互聯網企業)，以標准化API的方式，提供快速的標簽化分析服務，幫助企業輕松獲得用戶標簽化分析能力，從而將分析結果輕松應用於後續的業務服務中

在後續的研究工作中，HCR的消費者畫像團隊將繼續完善現有行為規則庫和演算法模型。並針對更多行為數據空間(如搜索和瀏覽)，擴展標簽的分析能力，力求使HCR消費者畫像分析成為最具競爭力的消費者洞察服務。

❸ 什麼是大數據畫像

大數據畫像是指，在大數據時代，企業通過對海量數據信息進行清洗、聚類、分析，將數據抽象成標簽，再利用這些標簽將用戶形象具體化的過程。

用戶畫像的建立能夠幫助企業更好地為用戶提供針對性的服務。與之相應，越來越多的第三方大數據公司，也開始依託自身的數據積累，為客戶提供用戶畫像的服務。

比如個推旗下的用戶畫像產品，能夠對用戶線上和線下行為進行大數據分析，幫助APP開發者和運營者構建全面、精準、多維的用戶畫像體系。用戶畫像的形成需要經歷四個過程，數據積累、數據清洗、數據建模分析、數據產出。

其中，數據清洗和數據建模統稱數據處理。在經過數據處理之後，個推產出獨特的冷、熱、溫數據維度，並分析用戶的線上興趣偏好和線下行為場景，形成用戶畫像。

為什麼需要用戶畫像

用戶畫像的核心工作是為用戶打標簽，打標簽的重要目的之一是為了讓人能夠理解並且方便計算機處理，如，可以做分類統計：喜歡紅酒的用戶有多少？喜歡紅酒的人群中，男、女比例是多少？

也可以做數據挖掘工作：利用關聯規則計算，喜歡紅酒的人通常喜歡什麼運動品牌？利用聚類演算法分析，喜歡紅酒的人年齡段分布情況？

大數據處理，離不開計算機的運算，標簽提供了一種便捷的方式，使得計算機能夠程序化處理與人相關的信息，甚至通過演算法、模型能夠「理解」人。

❹ 利用大數據技術如何構建用戶畫像

【導讀】目前，我們已經身處大數據時代，大數據的使用不僅普通用戶可以享受到技術帶來的便利，企業也可以從數據中提取有商業價值的信息，構建出用戶畫像，從而對用戶行為進行分析和預測。雖然用戶畫像不是什麼新鮮的概念，但是大數據技術的出現使得用戶畫像更加清晰客觀，那麼利用大數據技術如何構建用戶畫像?

1、認識用戶畫像

用戶畫像簡單來講，就是用戶信息標簽化。即收集這個用戶的各種數據和行為，從而得出這個用戶的一些基本信息和典型特徵，最後形成一個人物原型。一般用戶畫像會分析三個信息維度，分別是基本屬性、消費購物以及社交圈。其中基本屬性就是指用戶的一些基本信息，比如年紀、性別、生日、學校、所在地等等。

2、利用大數據構建用戶畫像的好處

(1)精準營銷：當企業和商家掌握了用戶的一定信息後，就可以構建出清晰的用戶畫像，這樣一來就可以根據用戶的偏好、收入等標簽，推薦給他們會感興趣的商品和服務。

(2)用戶統計：通過大數據我們可以對一些數據進行統計，比如我們經常會看到有一些APP的排行榜，甚至是滲透率、日活率這些具體數據都可以清晰統計出來。

(3)數據挖掘：構建智能推薦系統，利用關聯規則計算，喜歡紅酒的人通常喜歡什麼運動品牌，利用聚類演算法分析，喜歡紅酒的人年齡段分布情況。

(4)進行效果評估：其實相當於市場調研、用戶調研，迅速下定位服務群體，提供高水平的服務。比如你是一個買車的想要投放廣告，但是不知道哪個渠道投放更好，就可以先嘗試一下，看看數據反饋如何。

(5)私人訂制：對服務或產品進行私人訂制，然而不法商家也會利用用戶畫像來殺熟。

(6)業務經營分析：業務經營分析以及競爭分析，影響企業的商業決策，甚至發展戰略。

3、構建用戶畫像的流程

(1)數據源端：一般來講構建用戶畫像的數據來自於網站交易數據、用戶行為數據、網路日誌數據。當然也不僅限於這些數據，一些平台上還有個人徵信數據。

(2)數據預處理：第一步是清洗，把一些雜亂無序的數據清洗一下，然後歸納為結構化的數據，最後是把信息標准化。我們可以把數據的預處理簡單理解為把數據分類在一個表格中，這一步就是奠定數據分析的基石。

關於利用大數據技術如何構建用戶畫像?就給大家分享到這里了，如果你想成為大數據工程師，那就從現在開始，不斷進行自我提升，學會大數據實用技能，保證自己在大數據行業有一定的立足之地，有徵服他人之能。

❺ 有哪些大數據分析案例

如下：

1. 大數據應用案例之：醫療行業

1）Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息，通過大數據處理，更好地分析病人的信息。

在加拿大多倫多的一家醫院，針對早產嬰兒，每秒鍾有超過3000次的數據讀取。通過這些數據分析，醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施，避免早產嬰兒夭折。

它讓更多的創業者更方便地開發產品，比如通過社交網路來收集數據的健康類App。也許未來數年後，它們搜集的數據能讓醫生給你的診斷變得更為精確，比方說不是通用的成人每日三次一次一片，而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。

2）大數據配合喬布斯癌症治療

喬布斯是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此，他支付了高達幾十萬美元的費用。他得到的不是樣本，而是包括整個基因的數據文檔。醫生按照所有基因按需下葯，最終這種方式幫助喬布斯延長了好幾年的生命。

2. 大數據應用案例之：能源行業

1）智能電網現在歐洲已經做到了終端，也就是所謂的智能電表。在德國，為了鼓勵利用太陽能，會在家庭安裝太陽能，除了賣電給你，當你的太陽能有多餘電的時候還可以買回來。

通過電網收集每隔五分鍾或十分鍾收集一次數據，收集來的這些數據可以用來預測客戶的用電習慣等，從而推斷出在未來2~3個月時間里，整個電網大概需要多少電。有了這個預測後，就可以向發電或者供電企業購買一定數量的電。

因為電有點像期貨一樣，如果提前買就會比較便宜，買現貨就比較貴。通過這個預測後，可以降低采購成本。

2）丹麥的維斯塔斯風能系統(Vestas Wind Systems)運用大數據，系統依靠的是BigInsights軟體和IBM超級計算機，分析出應該在哪裡設置渦輪發電機，事實上這是風能領域的重大挑戰。在一個風電場20多年的運營過程中，准確的定位能幫助工廠實現能源產出的最大化。

為了鎖定最理想的位置，Vestas分析了來自各方面的信息：風力和天氣數據、湍流度、地形圖、公司遍及全球的2.5萬多個受控渦輪機組發回的感測器數據。這樣一套信息處理體系賦予了公司獨特的競爭優勢，幫助其客戶實現投資回報的最大化。

3. 大數據應用案例之：通信行業—通過大數據分析挽回核心客戶

法國電信-Orange集團旗下的波蘭電信公司Telekomunikacja Polska是波蘭最大的語音和寬頻固網供應商，希望有效的途徑來准確預測並解決客戶流失問題。

他們決定進行客戶細分，方法是構建一張「社交圖譜」- 分析客戶數百萬個電話的數據記錄，特別關注「誰給誰打了電話」以及「打電話的頻率」兩個方面。「社交圖譜」把公司用戶分成幾大類，如：「聯網型」、「橋梁型」、「領導型」以及「跟隨型」。

這樣的關系數據有助電信服務供應商深入洞悉一系列問題，如：哪些人會對可能「棄用」公司服務的客戶產生較大的影響?挽留最有價值客戶的難度有多大?運用這一方法，公司客戶流失預測模型的准確率提升了47%。

4、大數據應用案例之：零售業—大數據幫零售企業制定促銷策略

北美零售商百思買在北美的銷售活動非常活躍，產品總數達到3萬多種，產品的價格也隨地區和市場條件而異。由於產品種類繁多，成本變化比較頻繁，一年之中，變化可達四次之多。

結果，每年的調價次數高達12萬次。最讓高管頭疼的是定價促銷策略。公司組成了一個11人的團隊，希望透過分析消費者的購買記錄和相關信息，提高定價的准確度和響應速度。

定價團隊的分析圍繞著三個關鍵維度：

1）數量：團隊需要分析海量信息。他們收集了上千萬的消費者的購買記錄，從客戶不同維度分析，了解客戶對每種產品種類的最高接受能力，從而為產品定出最佳價位。

2）多樣性：團隊除了分析了購買記錄這種結構化的數據外，他們也利用社交媒體發帖這種新型的非結構化數據。由於消費者需要在零售商專頁上點贊或留言以獲得優惠券，團隊利用情感分析公式來分析專頁上消費者的情緒，從而判斷他們對於公司的促銷活動是否滿意，並微調促銷策略。

3）速度：為了實現價值最大化，團隊對數據進行實時或近似實時的處理。他們成功地根據一個消費者既往的麥片購買記錄，為身處超市麥片專櫃的他/她即時發送優惠券，為客戶帶來便利性和驚喜。

透過這一系列的活動，團隊提高了定價的准確度和響應速度，為零售商新增銷售額和利潤數千萬美元。

5、大數據應用案例之：網路營銷行業（SEM）

很多企業在做SEM的過程中，都有這樣的感觸：每年都會花費大量的預算在SEM推廣中，但是因為關鍵詞投入產出無法可視化，常常花了很多錢卻不見具體的回報。

在競爭如此激烈的SEM市場中，企業需要一個高效的數據分析工具來盡可能地幫企業優化SEM推廣，例如BDP，來幫企業節省不必要的支出，提升整體的經營績效。

企業可藉助數據平台提供的網路營銷整合解決方案，打通各個搜索引擎營銷（SEM）、在線客服系統和CRM系統，營銷競價人員無需掌握復雜的編程技術，簡單拖拽即可生成報表，觀察每一個關鍵詞的投入和產出，分析每一個頁面的轉化，有效降低投放成本。

通過BDP實況分析數據，可以快速洞悉對手關鍵詞的投放時段、地域及排名，並對其進行可視化的分析，實時監控自己和競爭對手的投放情況，了解對手的投放策略，支持自定義設置數據更新的時間點、監控頻次和時段，及時調整策略。知已知彼，才能百戰不殆。

6、大數據應用案例之：電商行業

意料之外：胸部最大的是新疆妹子。曾經淘寶平台顯示，中國女性購買最多的文胸尺碼為B罩杯。B罩杯佔比達41.45%，其中又以75B的銷量最好，其次是A罩杯，購買佔比達25.26%，C罩杯只有8.96%。

雖然淘寶數據平台不能代表一切，但是結合現實來看，這個也具有普遍的代表性，只能感慨中國女性普遍size。在文胸顏色中，黑色最為暢銷，黑色絕對是百搭，每個女性必備。

從省市排名，胸部最大的是新疆妹子。這些數據都對於文胸店鋪而言是很好的參考，為店鋪的庫存、定價、款式選擇等策略都有奠定數據基礎。

7、大數據應用案例之：娛樂行業

微軟大數據成功預測奧斯卡21項大獎。2013年，微軟紐約研究院的經濟學家大衛•羅斯柴爾德（David Rothschild）利用大數據成功預測24個奧斯卡獎項中的19個，成為人們津津樂道的話題。

今年羅斯柴爾德再接再厲，成功預測第86屆奧斯卡金像獎頒獎典禮24個獎項中的21個，繼續向人們展示現代科技的神奇魔力。

總的來說，大數據的終極目標並不僅僅是改變競爭環境，而是徹底扭轉整個競爭環境，帶來新機遇，企業需要應勢而變。企業只有認識到這一點，使用合適的數據分析產品、聰明地使用和管理數據，才能在長期競爭中成為終極贏家。

❻ 用戶畫像數據建模方法_用戶畫像分析

近些年，互聯網進入了「大數據時代」。經歷了12、13兩年熱炒之後，人們逐漸冷靜下來，更加聚焦於如何利用大數據挖掘潛在的商業價值，如何在企業中實實在在的應用大數據技術。伴隨著大數據應用的討論、創新，個性化技術成為了一個重要落地點。伴隨著對人的了解逐步深入，一個概念悄然而生：用戶畫像（UserProfile），完美地抽象出一個用戶的信息全貌，可以看作企業應用大數據的根基。

一、什麼是用戶畫像？

男，31歲，已婚，收入1萬以上，愛美食，團購達人，喜歡紅酒配香煙。

這樣一串描述即為用戶畫像的典型案例。如果用一句話來描述，即：用戶信息標簽化。

如果用一幅圖來展現，即：

二、為什麼需要用戶畫像

用戶畫像的核心工作是為用戶打標簽，打標簽的重要目的之一是為了讓人能夠理解並且方便計算機處理，如，可以做分類統計：喜歡紅酒的用戶有多少？喜歡紅酒的人群中，男、女比例是多少？

也可以做數據挖掘工作：利用關聯規則計算，喜歡紅酒的人通常喜歡什麼運動品牌？利用聚類演算法分析，喜歡紅酒的人年齡段分布情況？

大數據處理，離不開計算機的運算，標簽提供了一種便捷的方式，使得計算機能夠程序化處理與人相關的信息，甚至通過演算法、模型能夠「理解」人。當計算機具備這樣的能力後，無論是搜索引擎、推薦引擎、廣告投放等各種應用領域，都將能進一步提升精準度，提高信息獲取的效率。

三、如何構建用戶畫像

一個標簽通常是人為規定的高度精煉的特徵標識，如年齡段標簽：25~35歲，地域標簽：北京，標簽呈現出兩個重要特徵：語義化，人能很方便地理解每個標簽含義。這也使得用戶畫像模型具備實際意義。能夠較好的滿足業務需求。如，判斷用戶偏好。短文本，每個標簽通常只表示一種含義，標簽本身無需再做過多文本分析等預處理工作，這為利用機器提取標准化信息提供了便利。

人制定標簽規則，並能夠通過標簽快速讀出其中的信息，機器方便做標簽提取、聚合分析。所以，用戶畫像，即：用戶標簽，向我們展示了一種樸素、簡潔的方法用於描述用戶信息。

3.1 數據源分析

構建用戶畫像是為了還原用戶信息，因此數據來源於：所有用戶相關的數據。

對於用戶相關數據的分類，引入一種重要的分類思想：封閉性的分類方式。如，世界上分為兩種人，一種是學英語的人，一種是不學英語的人；客戶分三類，高價值客戶，中價值客戶，低價值客戶；產品生命周期分為，投入期、成長期、成熟期、衰退期…所有的子分類將構成了類目空間的全部集合。

這樣的分類方式，有助於後續不斷枚舉並迭代補充遺漏的信息維度。不必擔心架構上對每一層分類沒有考慮完整，造成維度遺漏留下擴展性隱患。另外，不同的分類方式根據應用場景，業務需求的不同，也許各有道理，按需劃分即可。

本文將用戶數據劃分為靜態信息數據、動態信息數據兩大類。

靜態信息數據

用戶相對穩定的信息，如圖所示，主要包括人口屬性、商業屬性等方面數據。這類信息，自成標簽，如果企業有真實信息則無需過多建模預測，更多的是數據清洗工作，因此這方面信息的數據建模不是本篇文章重點。

動態信息數據

用戶不斷變化的行為信息，如果存在上帝，每一個人的行為都在時刻被上帝那雙無形的眼睛監控著，廣義上講，一個用戶打開網頁，買了一個杯子；與該用戶傍晚溜了趟狗，白天取了一次錢，打了一個哈欠等等一樣都是上帝眼中的用戶行為。當行為集中到互聯網，乃至電商，用戶行為就會聚焦很多，如上圖所示：瀏覽凡客首頁、瀏覽休閑鞋單品頁、搜索帆布鞋、發表關於鞋品質的微博、贊「雙十一大促給力」的微博消息。等等均可看作互聯網用戶行為。

本篇文章以互聯網電商用戶，為主要分析對象，暫不考慮線下用戶行為數據（分析方法雷同，只是數據獲取途徑，用戶識別方式有些差異）。

在互聯網上，用戶行為，可以看作用戶動態信息的唯一數據來源。如何對用戶行為數據構建數據模型，分析出用戶標簽，將是本文著重介紹的內容。

3.2 目標分析

用戶畫像的目標是通過分析用戶行為，最終為每個用戶打上標簽，以及該標簽的權重。如，紅酒 0.8、李寧 0.6。

標簽，表徵了內容，用戶對該內容有興趣、偏好、需求等等。

權重，表徵了指數，用戶的興趣、偏好指數，也可能表徵用戶的需求度，可以簡單的理解為可信度，概率。

3.3 數據建模方法

下面內容將詳細介紹，如何根據用戶行為，構建模型產出標簽、權重。一個事件模型包括：時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件，可以詳細描述為：什麼用戶，在什麼時間，什麼地點，做了什麼事。

什麼用戶：關鍵在於對用戶的標識，用戶標識的目的是為了區分用戶、單點定位。

以上列舉了互聯網主要的用戶標識方法，獲取方式由易到難。視企業的用戶粘性，可以獲取的標識信息有所差異。

什麼時間：時間包括兩個重要信息，時間戳+時間長度。時間戳，為了標識用戶行為的時間點，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常採用精度到秒的時間戳即可。因為微秒的時間戳精度並不可靠。瀏覽器時間精度，准確度最多也只能到毫秒。時間長度，為了標識用戶在某一頁面的停留時間。

什麼地點：用戶接觸點，Touch Point。對於每個用戶接觸點。潛在包含了兩層信息：網址 + 內容。網址：每一個url鏈接（頁面/屏幕），即定位了一個互聯網頁面地址，或者某個產品的特定頁面。可以是PC上某電商網站的頁面url，也可以是手機上的微博，微信等應用某個功能頁面，某款產品應用的特定畫面。如，長城紅酒單品頁，微信訂閱號頁面，某游戲的過關頁。

內容：每個url網址（頁面/屏幕）中的內容。可以是單品的相關信息：類別、品牌、描述、屬性、網站信息等等。如，紅酒，長城，干紅，對於每個互聯網接觸點，其中網址決定了權重；內容決定了標簽。

註：接觸點可以是網址，也可以是某個產品的特定功能界面。如，同樣一瓶礦泉水，超市賣1元，火車上賣3元，景區賣5元。商品的售賣價值，不在於成本，更在於售賣地點。標簽均是礦泉水，但接觸點的不同體現出了權重差異。這里的權重可以理解為用戶對於礦泉水的需求程度不同。即，願意支付的價值不同。

標簽權重

礦泉水 1 // 超市

礦泉水 3 // 火車

礦泉水 5 // 景區

類似的，用戶在京東商城瀏覽紅酒信息，與在品尚紅酒網瀏覽紅酒信息，表現出對紅酒喜好度也是有差異的。這里的關注點是不同的網址，存在權重差異，權重模型的構建，需要根據各自的業務需求構建。

所以，網址本身表徵了用戶的標簽偏好權重。網址對應的內容體現了標簽信息。

什麼事：用戶行為類型，對於電商有如下典型行為：瀏覽、添加購物車、搜索、評論、購買、點擊贊、收藏等等。

不同的行為類型，對於接觸點的內容產生的標簽信息，具有不同的權重。如，購買權重計為5，瀏覽計為1

紅酒 1 // 瀏覽紅酒

紅酒 5 // 購買紅酒

綜合上述分析，用戶畫像的數據模型，可以概括為下面的公式：用戶標識 + 時間 + 行為類型 + 接觸點（網址+內容），某用戶因為在什麼時間、地點、做了什麼事。所以會打上**標簽。

用戶標簽的權重可能隨時間的增加而衰減，因此定義時間為衰減因子r，行為類型、網址決定了權重，內容決定了標簽，進一步轉換為公式：

標簽權重=衰減因子×行為權重×網址子權重

如：用戶A，昨天在品尚紅酒網瀏覽一瓶價值238元的長城干紅葡萄酒信息。

標簽：紅酒，長城

時間：因為是昨天的行為，假設衰減因子為：r=0.95

行為類型：瀏覽行為記為權重1

地點：品尚紅酒單品頁的網址子權重記為 0.9（相比京東紅酒單品頁的0.7）

假設用戶對紅酒出於真的喜歡，才會去專業的紅酒網選購，而不再綜合商城選購。

則用戶偏好標簽是：紅酒，權重是0.95*0.7 * 1=0.665，即，用戶A：紅酒 0.665、長城 0.665。

上述模型權重值的選取只是舉例參考，具體的權重值需要根據業務需求二次建模，這里強調的是如何從整體思考，去構建用戶畫像模型，進而能夠逐步細化模型。

四、總結：

本文並未涉及具體演算法，更多的是闡述了一種分析思想，在計劃構建用戶畫像時，能夠給您提供一個系統性、框架性的思維指導。

核心在於對用戶接觸點的理解，接觸點內容直接決定了標簽信息。內容地址、行為類型、時間衰減，決定了權重模型是關鍵，權重值本身的二次建模則是水到渠成的進階。模型舉例偏重電商，但其實，可以根據產品的不同，重新定義接觸點。

比如影視產品，我看了一部電影《英雄本色》，可能產生的標簽是：周潤發 0.6、槍戰 0.5、港台 0.3。

最後，接觸點本身並不一定有內容，也可以泛化理解為某種閾值，某個行為超過多少次，達到多長時間等。

比如游戲產品，典型接觸點可能會是，關鍵任務，關鍵指數（分數）等等。如，積分超過1萬分，則標記為鑽石級用戶。鑽石用戶 1.0。

百分點現已全面應用用戶畫像技術於推薦引擎中，在對某電商客戶，針對活動頁新訪客的應用中，依靠用戶畫像產生的個性化效果，對比熱銷榜，推薦效果有顯著提升：推薦欄點擊率提升27%，訂單轉化率提升34%。

❼ 大數據應用之「畫像」

隨著大數據技術的備受關注，有關「用戶畫像」、「商品畫像」、「產品畫像」、「資產畫像」……的討論就不絕於耳。那麼，究竟什麼是畫像？又如何進行畫像建設與畫像分析呢？我們就從以下幾個方面，著重探討一下。

1、什麼是畫像？

用戶畫像，被定義為一種抽象出用戶信息全貌的手段。

舉個簡單的例子，某個客戶的特徵描述為：500強企業，媒體行業，旗下產品覆蓋網站、APP、微博、微信等埠，擁有受眾9億+，這就是一個典型的用戶畫像，我們據以便可以知道其存在大數據方面的需求。如果用一句話來描述，即：用戶信息標簽畫。

大數據的時代背景下，畫像被認作為企業應用大數據的根基，並直接跟企業經營能力、競爭優勢的打造聯系在一起。

有評論指出，要看一家企業的數據化運營程度，首當其沖地要看其「畫像」構建情況：是否建設了「畫像」？「畫像」體系構建程度如何？針對什麼對象進行了畫像？構建畫像的各種標簽與指標情況如何？有沒針對已建立起來的」畫像」的應用？應用情況如何？等等

2、為什麼要進行用戶畫像

這跟用戶行為識別及數據應用直接相關。

各行各業都期待著，用戶能主動告訴我們，他們的行為偏好。然而，事實既總非如願，技術實現也非如此簡單：首先，用戶用以描述興趣的自然語言很難為自然語言理解技術所理解；其次，用戶的興趣是不斷變化的，無法不停地提供興趣描述；最後，很多時候用戶並不知道自己喜歡什麼，或很難清楚描述出自己喜歡什麼。

於是，我們需要通過演算法自動發掘用戶行為數據，從用戶的行為中推測出用戶的興趣，從而給用戶推薦滿足他們興趣的產品和服務，而畫像，就是其中最重要的應用之一。

畫像，通過為用戶打標簽的方式，使計算機能夠程序化處理與人相關的信息。

如用戶信息的分類統計:喜歡魅族的用戶有多少？喜歡魅族的人群中，男、女比例是多少？如用戶數據的挖掘工作：利用關聯規劃計算，購買該種商品的用戶還購買了什麼產品？利用聚類演算法分析，喜歡該種產品的人年齡段分布情況如何等等？

3、構建用戶畫像的關鍵是什麼？

從畫像與標簽的關系也可以窺見一斑，標簽是畫像建設的關鍵。同時，它也是大數據技術場景化的關鍵，因為如果沒有針對場景構建出來標簽，大數據的應用往往就很難「落地「。

一個標簽通常是人為規定的高度精煉的特徵指標，如年齡段標簽：25-35歲；地域標簽：北京、上海；設備標簽：PC、移動；性別標簽：男、女等等。

標簽呈現出明顯的語義化與短文本的特徵：語義化，人能很方便地理解每個標簽含義，使得用戶畫像模型具備實際意義，能夠較好的滿足業務需求；短文本，每個標簽通常只表示一種含義，標簽本身無需再做過多文本分析等預處理工作，這為利用機器提取標准化信息提供了便利。

制定標簽要遵循一定的規則，既要涵蓋重要信息，又要方便機器做標簽提取、聚合分析。

案例：用戶的商品價格偏好標簽建設過程

以某公司構建用戶消費偏好畫像為例，我們需要根據具體場景下用戶的選擇行為，將用戶偏好畫像拆分成幾個不同數據標簽：品牌、價格、購買時間、購買方式等

取用戶歷史購買消費記錄，統計用戶歷史購買商品的價格，然後對價格進行區間劃分。看用戶購買的價格帶主要集中在哪個區間中(價格帶偏愛應該是一個相對動態的標簽，更新頻率可能一個月需要定期更，而且選擇的時間段也應該是過去某個時間，不應該選擇過長時間段。大家想想為什麼？)。如何進行價格區間劃分？

方法一：按統計學的方法

1、按分位數進行。例如：25%，50%，75%

2、按等箱原則。劃分幾等分

3、看數據的分布。

4、……

方法二：按業務知識經驗

把價格帶按業務經驗，行業經驗進行劃分。

通過數據統計出來，我們可以看用戶是否商品單價是否集中的某個區間范圍內。例如,某用戶購買的商品價格主要集中在30到40這個區間內，根據歷史顯示可以說，用戶可能偏好於購買這個價格帶的商品。當未來我們需要做促銷商品推薦的時候，可以向該用戶重點推薦打折後在這個價格區間的商品。

通過用戶購買的價格區間，以及結合商品所歸屬的品類，可以看這個價格區間在這個品類中屬於什麼級別的。可以進一步給用戶打上：注重品牌、注重高性價比等標簽。

例如：如果某個品類商品的價格範圍是（5，40]，該用戶購物商品主要集中（30，40]這個商品價格區間，用戶在這個品類的消費上都是最高價格區間，說明這個用戶在購買這個品類主要購買的高端商品。這樣又可以為這個用戶打上在這個品類的消費特徵標簽：品類高端用戶。

4、構建用戶畫像的方法

從上面案例中，我們可以抽象出構建用戶畫像的方法，即用戶畫像模型的構建方法。

一個事件模型包括：時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件，可以詳細描述為：什麼用戶、在什麼時間、在什麼地點、做了什麼事。

其中用戶的屬性識別關鍵在於對用戶的標識，用戶標識的目的是為了區分用戶、單點定位。時間的屬性包括兩個重要信息：時間戳和時間長度，時間戳指的是標識用戶行為的時間點，通常精確到秒；時間長度指的是標識用戶的停留時間。地點的屬性也就是用戶接觸點，在互聯網上，用戶的接觸點就包括了網址和內容兩個重要信息。

用戶行為屬性有不同的類型，結合接觸點的內容產生的標簽信息，具有不同的權重。用戶畫像的數據模型可以概括為這樣一個公式：用戶標識+時間+行為類型+接觸點（網址+內容），某個用戶在某個時間、某個地點做了什麼事情，就會被打上一個既定的標簽。而用戶標簽的權重可能隨時間的增加而衰減，因此定義時間為衰減因子，行為類型、網址決定了權重，內容決策了標簽，可以認為公式轉變為標簽權重=衰減因子×行為權重×網址子權重。

通過這樣的計算才能夠構建用戶畫像模型，進而能夠逐步細化模型，從而最終製作出一個精準的用戶模型。而每一個精準的用戶模型都能夠根據用戶不斷調整的互聯網行為進行更新，從而精準把握用戶心理，為每一個用戶提供最完美的精細化服務，全面提升客戶感知，最終實現客戶滿意度的不斷提升。

❽ 大數據用戶畫像的方法、實踐與行業應用

大數據用戶畫像的方法、實踐與行業應用
伴隨著大數據應用的討論、創新，個性化技術成為了一個重要落地點。相比傳統的線下會員管理、問卷調查、購物籃分析，大數據第一次使得企業能夠通過互聯網便利地獲取用戶更為廣泛的反饋信息，為進一步精準、快速地分析用戶行為習慣、消費習慣等重要商業信息，提供了足夠的數據基礎。
伴隨著對人的了解逐步深入，一個概念悄然而生：用戶畫像（UserProfile），完美地抽象出一個用戶的信息全貌，可以看作企業應用大數據的根基。

❾ 企業大數據實戰案例

企業大數據實戰案例

一、家電行業

以某家電公司為例，它除了做大家熟知的空調、冰箱、電飯煲外，還做智能家居，產品有成百上千種。在其集團架構中，IT部門與HR、財務等部門並列以事業部形式運作。

目前家電及消費電子行業正值「內憂外患」，產能過剩，價格戰和同質化現象嚴重；互聯網企業涉足，顛覆競爭模式，小米的「粉絲經濟」，樂視的「平台+內容+終端+應用」，核心都是經營「用戶」而不是生產。該公司希望打造極致產品和個性化的服務，將合適的產品通過合適的渠道推薦給合適的客戶，但在CPC模型中當前只具備CP匹配（產品渠道），缺乏用戶全景視圖支持，無法打通「CP（客戶產品）」以及「CC（客戶渠道）」的匹配。

基於上述內外環境及業務驅動，該公司希望將大數據做成所有業務解決方案的樞紐。以大數據DMP作為企業數據核心，充分利用內部數據源、外部數據源，按照不同域組織企業數據，形成一個完整的企業數據資產。然後，利用此系統服務整個企業價值鏈中的各種應用。

那麼問題來了，該公司的數據分散在不同的系統中，更多的互聯網電商數據分散在各大電商平台，無法有效利用，怎麼解決？該公司的應對策略是：1）先從外部互聯網數據入手，引入大數據處理技術，一方面解決外部互聯網電商數據利用短板，另一方面可以試水大數據技術，由於互聯網數據不存在大量需要內部協調的問題，更容易快速出效果；2）建設DMP作為企業統一數據管理平台，整合內外部數據，進行用戶畫像構建用戶全景視圖。

一期建設內容：技術實現上通過定製Spark爬蟲每天抓取互聯網數據（主要是天貓、京東、國美、蘇寧、淘寶上的用戶評論等數據），利用Hadoop平台進行存儲和語義分析處理，最後實現「行業分析」、「競品分析」、「單品分析」三大模塊。

該家電公司大數據系統一期建設效果，迅速在市場洞察、品牌診斷、產品分析、用戶反饋等方面得到體現。

二期建設目標：建設統一數據管理平台，整合公司內部系統數據、外部互聯網數據（如電商數據）、第三方數據（如外部合作、塔布提供的第三方消費者數據等）。

該公司大數據項目對企業的最大價值是將沉澱的數據資產轉化成生產力。IT部門，通過建設企業統一的數據管理平台，融合企業內外部數據，對於新應用快速支持，起到敏捷IT的作用；業務部門，通過產品、品牌、行業的洞察，輔助企業在產品設計、廣告營銷、服務優化等方面進行優化改進，幫助企業進行精細化運營，基於用戶畫像的精準營銷和個性化推薦，幫助企業給用戶打造極致服務體驗，提升客戶粘性和滿意度；戰略部門，通過市場和行業分析，幫助企業進行產品布局和戰略部署。

二、快消行業

以寶潔為例，在與寶潔中國市場部的合作中發現，並不是一定要先整合內外部數據才能做用戶畫像和客戶洞察。寶潔抓取了主流網站上所有與寶潔評價相關的數據，利用語義分析和建模，掌握不同消費群體的購物喜好和習慣，僅僅利用外部公開數據，快速實現了客戶洞察。

此外，寶潔還在渠道管理上進行創新。利用互聯網用戶評論數據進行社群聆聽，監控與寶潔合作的50個零售商店相關的用戶評論，通過線上數據進行渠道/購物者研究並指導渠道管理優化。

實現過程：

1、鎖定微博、大眾點評等互聯網數據源，採集百萬級別消費者談及的與寶潔購物相關內容；

2、利用自然語言處理技術，對用戶評論進行多維建模，包括購物環境、服務、價值等10多個一級維度和50個二級維度，實現對用戶評論的量化；

3、對沃爾瑪、屈臣氏、京東等50個零售渠道進行持續監控，結果通過DashBoard和周期性分析報告呈現。

因此，寶潔能夠關聯企業內部數據，更有效掌握KA渠道整體情況，甚至進一步掌握KA渠道的關鍵細節、優勢與劣勢，指導渠道評級體系調整，幫助制定產品促銷規劃。

三、金融行業

對於消費金融來說，家電、快消的案例也是適用的，尤其是精準營銷、產品推薦等方面。這里主要分享徵信風控方面的應用。顯然，互聯網金融如果對小額貸款都像銀行一樣做實地考察，並投入大量人力進行分析評判的話，成本是很高的，所以就有了基於大數據的批量的信用評分模型。最終目的也是實現企業畫像和企業中的關鍵人物畫像，再利用數據挖掘、數據建模的方法建立授信模型。宜信的宜人貸、芝麻信用等本質上就是這個架構。

在與金融客戶的接觸中發現，不論銀行還是金融公司，對外部數據的需求都越發迫切，尤其是外部強特徵數據，比如失信記錄、第三方授權後的記錄、網路行為等。

以上是小編為大家分享的關於企業大數據實戰案例的相關內容，更多信息可以關注環球青藤分享更多干貨

❿ [恆豐銀行]基於大數據的精準營銷模型應用

【案例】恆豐銀行——基於大數據的精準營銷模型應用 https://mp.weixin.qq.com/s?src=3&timestamp=1500159788&ver=1&signature=-86itFcexY XKcX3Vb1ypwGo8v0IU6fkNgcs *=

本篇案例為數據猿推出的大型 「金融大數據主題策劃」 活動（查看詳情）第一部分的系列案例/徵文；感謝** 恆豐銀行** 的投遞

作為整體活動的第二部分，2017年6月29日，由數據猿主辦，上海金融信息行業協會、互聯網普惠金融研究院合辦，中國信息通信研究院、大數據發展促進委員會、上海大數據聯盟、首席數據官聯盟、中國大數據技術與應用聯盟協辦的 《「數據猿·超聲波」之金融科技·商業價值探索高峰論壇》 還將在上海隆重舉辦【論壇詳情】【上屆回顧（點擊閱讀原文查看）】

在論壇現場，也將頒發 「技術創新獎」、「應用創新獎」、「最佳實踐獎」、「優秀案例獎」 四大類案例獎

本文長度為 6000 字，建議閱讀 12 分鍾

如今，商業銀行信息化的迅速發展，產生了大量的業務數據、中間數據和非結構化數據，大數據隨之興起。要從這些海量數據中提取出有價值的信息，為商業銀行的各類決策提供參考和服務，需要結合大數據和人工智慧技術。國外的匯豐、花旗和瑞士銀行是數據挖掘技術應用的先行者。在國內的商業銀行中，大數據的思想和技術逐步開始在業務中獲得實踐和嘗試。

面對日趨激烈的行業內部競爭及互聯網金融帶來的沖擊，傳統的上門營銷、電話營銷，甚至是掃街營銷等方式跟不上時代的節奏。利用精準營銷可節約大量的人力物力、提高營銷精準程度，並減少業務環節，無形中為商業銀行節約了大量的營銷成本。

雖然恆豐銀行內部擁有客戶的基本信息和交易等大量數據，但是傳統的營銷系統並沒有挖掘出行內大量數據的價值，仍然停留在傳統的規則模型。當下，恆豐銀行接入了大量的外部數據，有著更多的維度，如果將內部數據與外部數據進行交叉，則能產生更大的價值。客戶信息收集越全面、完整，數據分析得到的結論就越趨向於合理和客觀。利用人工智慧技術，建立精準營銷系統變得可能且必要。

恆豐銀行基於大數據的精準營銷方案是利用大數據平台上的機器學習模型深入洞察客戶行為、客戶需求，客戶偏好，挖掘潛出在客戶，實現可持續的營銷計劃。

周期/節奏

2016.4-2016.5 完成需求梳理和業務調研，並在此基礎上進行總體方案設計。
2016.5-2016.8 整理銀行內、外部數據，根據營銷需求制定客戶標簽和設計文檔，實施用戶畫像。
2016.8-2016.10 在用戶畫像的基礎上，構建理財產品個性化推薦系統。其中包括個性化推薦演算法調研，模型對比等一系列工作。
2016.10-2017.1 客戶需求預測並對客戶價值進行建模，並完善整合精準營銷應用模型。
2017.1-2017.3 用戶畫像、個性化推薦、客戶價值預測等精準營銷模型上線。

客戶名稱/所屬分類

恆豐銀行/客戶管理

任務/目標

根據零售業務營銷要求，運用多種數據源分析客戶行為洞察客戶需求，實現精準營銷與服務，提高銀行客戶滿意度和忠誠度。

針對不同的客戶特徵、產品特徵和渠道特徵，制定不同市場推廣策略。為了完成以上任務，主要從以下幾個方面構建精準營銷系統：

1.用戶畫像： 結合用戶的歷史行為和基本屬性給用戶打標簽。

2.精準推薦系統： 給用戶推薦個性化理財產品，例如在微信銀行中給每個客戶推薦他喜歡的產品，幫客戶找到其最適合的產品，增加產品的購買率。

3.需求預測和客戶價值： 新產品發售的時候，找到最有可能購買該產品的客戶，進行簡訊營銷，進而提高產品響應率。客戶價值精準定位，根據客戶價值水平制定不同的推薦策略。銀行通過計算客戶使用其產品與服務後所形成的實際業務收益，充分了解每一個客戶的貢獻度，為管理層提供決策支撐。

挑戰

項目實施過程由用戶畫像，精準推薦系統，需求預測和客戶價值建模三部分組成，採用TDH機器學習平台Discover所提供的演算法和模型庫進行開發和驗證。

（一）用戶畫像的建立

客戶標簽主要包含客戶基本屬性，客戶等級標簽，客戶偏好標簽，客戶交易特徵，客戶流失特徵，客戶信用特徵，客戶終身價值標簽，客戶潛在需求標簽。

（二）精準推薦系統的建立

由於系統復雜，且篇幅有限，僅對其中最重要的理財推薦系統做詳細闡述。精準推薦系統架構圖如下。

2.1業務問題轉化為機器學習問題

業務問題

銀行理財產品個性化推薦給客戶。例如在微信銀行中給每個客戶推薦此客戶喜歡的產品，幫客戶找到其最適合的產品，增加產品的購買率。

將業務問題轉化為機器學習問題

理財產品種類繁多，產品迭代速度很快，客戶在繁多的產品中不能快速找到適合自己的產品，因此有必要建立一個自動化推薦模型，建立客戶理財偏好，給客戶推薦最適合的產品。

將銀行理財產品推薦業務問題轉化為機器學習問題，進而利用人工智慧技術提高推薦產品的點擊率和購買率。例如在恰當的時間，通過用戶偏好的渠道給用戶推薦產品，推薦的結果為用戶購買或者未購買。這個問題可以看作一個典型機器學習二分類問題：基於歷史營銷數據來訓練模型，讓模型自動學到客戶購買的產品偏好，並預測客戶下次購買理財產品的概率。對模型預測出所有客戶對所有產品的響應概率進行排序，可選擇客戶購買概率最高的topN個產品推薦給客戶。

下面將敘述如何構建該推薦預測模型。

2.2數據源准備

在建立的一個理財推薦模型之前，可以預見到相似的客戶可能會喜好相似的產品（需要表徵客戶和產品的數據），同一個人的喜好可能具有連續性（購買歷史交易數據，包括基金國債等），他的存款、貸款資金可能決定了他能購買什麼檔次的理財等等。因此，我們需要准備以下數據。

客戶基本屬性：客戶性別，年齡，開戶時間，評估的風險等級等等。
產品基本屬性：產品的逾期收益率，產品周期，保本非保本，風險等級等。
客戶購買理財產品的歷史：在什麼時候購買什麼產品以及購買的金額。
客戶的存款歷史：客戶歷史存款日均余額等。
客戶的貸款歷史：客戶歷史貸款信息等。
客戶工資：客戶工資的多少也決定了客戶購買理財的額度和偏好。
用戶畫像提取的特徵：用戶的AUM等級，貢獻度，之前購買基金，國債的金額等。

2.3特徵轉換和抽取

有了這么多數據，但是有一部分特徵是演算法不能直接處理的，還有一部分數據是演算法不能直接利用的。

特徵轉換

把不能處理的特徵做一些轉換，處理成演算法容易處理的干凈特徵。舉例如下：

開戶日期。就時間屬性本身來說，對模型來說不具有任何意義，需要把開戶日期轉變成到購買理財時的時間間隔。

產品特徵。從理財產品信息表裡面可以得到風險等級，起點金額等。但是並沒有標志這款產品是否是新手專屬，是否是忠誠客戶專屬。這就需要我們從產品名字抽取這款產品的上述特徵。

客戶交易的時間信息。同客戶的開戶日期，孤立時間點的交易信息不具有任何意義，我們可以把交易時間轉變為距離上次購買的時間間隔。

特徵抽取

還有一部分數據演算法不能直接利用，例如客戶存款信息，客戶交易信息。我們需用從理財交易和存款表中抽取可能有用的信息。

用戶存款信息：根據我們的經驗，客戶購買理財之前的存款變動信息更能表明客戶購買理財的真實想法，因此我們需要從客戶歷史存款數據抽取客戶近三個月，近一個月，近一周的日均余額，以體現客戶存款變化。

客戶交易信息：客戶最近一次購買的產品、購買的金額、及其相關屬性，最近一個月購買的產品、購買的金額及其相關屬性等等。

以上例舉的只是部分特徵。

2.4構造、劃分訓練和測試集

構造

以上說明了如何抽取客戶購買理財的相關特徵，只是針對正樣本的，即客戶購買某種理財時候的特徵。隱藏著的信息是，此客戶當時沒有購買其他在發售的產品。假設把客戶購買了產品的標簽設為1，沒有購買的產品樣本設為0，我們大致有如下訓練樣本（只列舉部分特徵）。

其中客戶是否購買產品是我們在有監督訓練的標簽，也就是我們建立的是一個預測客戶是否會購買產的模型。

劃分訓練集和測試集

考慮到最終模型會預測將來的某時間客戶購買某種產品的概率，為了更真實的測試模型效果，以時間來切分訓練集和測試集。具體做法如下。假設我們有2016-09-01 ~ 2017-03-20 的理財購買相關數據。以2016-09-01 ~ 2017-03-19的理財交易數據作為訓練，2017-03-20這一天的客戶對每個產品是否購買的數據作為測試。以2016-09-01 ~ 2017-03-18的理財交易數據作為訓練，2017-03-19這一天的客戶對每個產品是否購買的數據作為測試，以此類推。

2.5模型訓練

根據提取的特徵，組成樣本寬表，輸入到分類模型，這里選擇了TDH平台機器學習組件Discover所提供的近百個分布式演算法進行建模和訓練，同時我們還使用了特徵的高階交叉特性進行推薦的預測和分析。

2.6模型評估

評價推薦好壞的指標很多，比較常用的有

1.ROC曲線下面積（AUC）
2.logloss
3.推薦產品第一次命中rank的倒數（MRR）
4.TopN

針對銀行的理財推薦實際業務，客戶當天絕大多數是只購買了某一款理財，MRR(Mean Average Precision 的特殊情況)能反應這種情況下推薦的好壞。另一種直觀的評價指標是TopN，假定我們只推薦N個模型認為客戶最有可能購買的產品，並和真實情況比較，就能得到當天推薦的結果的混淆矩陣，TN，TP，FN，FP，recall，precision等。

我們在生產上驗證了最近十天的推薦效果，即測試了2017-03-20， 2017-03-19，…… , 2017-03-11等十天的推薦效果，以下是這些結果的評價。

AUC

Logloss

MRR

0.89

0.45

0.78

也可以把新客戶（之前沒有購買理財）和老客戶（至少購買過一次）分開評估效果。新客戶的購買佔了整個理財購買的1/3 以上。

測試新客戶的預測效果，可以看出模型對冷啟動問題解決的好壞。

對新客戶的預測效果

AUC

Logloss

MRR

0.80

0.73

0.32

對老客戶的預測效果

AUC

Logloss

MRR

0.92

0.38

0.88

2.7模型優化

1.上線之前的優化：特徵提取，樣本抽樣，參數調參
2.上線之後的迭代，根據實際的A/B testing和業務人員的建議改進模型

（三）需求預測和客戶價值

「顧客終生價值」(Customer Lifetime Value)指的是每個購買者在未來可能為企業帶來的收益總和。研究表明，如同某種產品一樣，顧客對於企業利潤的貢獻也可以分為導入期、快速增長期、成熟期和衰退期。

經典的客戶終身價值建模的模型基於客戶RFM模型。模型簡單的把客戶劃分為幾個狀態，有一定意義但不一定準確，畢竟RFM模型用到的特徵不全面，不能很好的表徵客戶的價值以及客戶銀行關系管理。

為了方便的對客戶終身價值建模，有幾個假定條件。其一把客戶的購買價值近似為客戶為企業帶來的總收益，其二把未來時間定義在未來一個季度、半年或者一年。也就是我們通過預測客戶在下一個時間段內的購買價值來定義客戶的終身價值。因此，我們將預測的問題分為兩個步驟：第一步預測這個客戶在下一個階段是否會發生購買（需求預測）。第二步對預測有購買行為的客戶繼續建模預測會購買多大產品價值。

3.1需求預測

提取客戶定活期存款、pos機刷卡、渠道端查詢歷史等特徵，以這些特徵作為輸入預測用戶在當前時間節點是否有購買需求，訓練和測試樣本構造如下：

1.歷史用戶購買記錄作為正樣本。
2.抽樣一部分從未購買的理財產品的用戶作為負樣本集合Un，對於每一個正樣本Un中隨機選取一個用戶構造負樣本。
3.選取2016.04-201610 的購買數據作為訓練樣本，2016.11的數據作為測試樣本。

使用機器學習演算法進行分類訓練和預測，重復上述實驗，得到下列結果:

AUC: 0.930451274
precision: 0.8993963783
recall: 0.8357507082
fmeasure: 0.8664062729

進一步對客戶分群之後，可以更好的對新客戶進行建模，對於老客戶我們可以進一步提取他們的歷史購買特徵，預測他們在下一段時間內購買的產品價值（數量，金額等），對於新客戶，可以進根據他的存款量預測其第一次購買的產品價值，把存款客戶變成理財客戶。通過分析客戶存款變動於客戶購買理財的關系，我們發現客戶購買理財的前一段時間內定活期的增加的有不同的模式，如下圖。

根據需求預測模型，我們給出新客戶最有可能購買的top N 列表，然後由業務人員進行市場推廣。

3.2客戶價值預測

進一步預測有購買需求的客戶的購買價值高低。這是個回歸問題，但是預測變數從二分類變數變為預測連續的金額值。訓練的時候預測值取訓練周期內（一個月或者季度）客戶所購買的總金額。

算出客戶的當前價值（即當前階段購買的產品價值）和未來價值（預測的下一個階段的客戶價值）可以幫助我們鑒定客戶處於流失階段，或者上升階段，或者是穩定階段。當前價值取的是當前時間前三個月的交易量。對流失階段高價值客戶可以適當給予營銷優惠，對於有購買意向的客戶適當引導。如下圖所示。

結果/效果

一是提高銀行營銷准確性。隨著客戶不斷增加，理財產品也在不斷推陳出新，在實時精準營銷平台的幫助下，銀行從以前盲目撒網式的營銷方式轉變到對不同客戶精準觸達，提高了理財產品的營銷成功率，降低銷售和運作成本。理財產品推薦的上線以來，產品推薦成功率比專家經驗排序模型最高提升10倍。

二是增加銀行獲客數量。精準營銷系統洞察客戶潛在需求和偏好，提高了銀行獲取目標客戶群的准確率。從數百萬客戶中,通過機器學習模型,找到最有可能購買產品的客戶群，通過渠道營銷，實現響應率提升。相比傳統盲發模式，發送原38%的簡訊即可覆蓋80%的客戶。

通過構建基於大數據的精準營銷方案，恆豐銀行深入洞察客戶行為、需求、偏好，幫助銀行深入了解客戶，並打造個性化推薦系統和建立客戶價值預測模型，實現可持續的營銷計劃。

導航:首頁 > 網路數據 > 大數據建模案例資產畫像

大數據建模案例資產畫像

與大數據建模案例資產畫像相關的資料

友情鏈接