大數據人物畫像標簽_那種做大數據公司人群畫像標簽是怎麼建出來的

A. 金融行業如何用大數據構建精準用戶畫像

用戶畫像的焦點工作就是為用戶打「標簽」，而一個標簽通常是人為規定的高度精煉的特徵標識，如年齡、性別、地域、用戶偏好等，最後將用戶的所有標簽綜合來看，就可以勾勒出該用戶的立體「畫像」了。

為了精準地描述用戶特徵，可以參考下面的思路，從用戶微觀畫像的建立→用戶畫像的標簽建模→用戶畫像的數據架構，我們由微觀到宏觀，逐層分析。

首先我們從微觀來看，如何給用戶的微觀畫像進行分級呢？如下圖所示

總原則：基於一級分類上述分類逐級進行細分。

第一分類：人口屬性、資產特徵、營銷特性、興趣愛好、購物愛好、需求特徵

市場上用戶畫像的方法很多，許多企業也提供用戶畫像服務，將用戶畫像提升到很有逼格一件事。金融企業是最早開始用戶畫像的行業，由於擁有豐富的數據，金融企業在進行用戶畫像時，對眾多緯度的數據無從下手，總是認為用戶畫像數據緯度越多越好，畫像數據越豐富越好，某些輸入的數據還設定了權重甚至建立了模型，搞的用戶畫像是一個巨大而復雜的工程。但是費力很大力氣進行了畫像之後，卻發現只剩下了用戶畫像，和業務相聚甚遠，沒有辦法直接支持業務運營，投入精力巨大但是回報微小，可以說是得不償失，無法向領導交代。

事實上，用戶畫像涉及數據的緯度需要業務場景結合，既要簡單干練又要和業務強相關，既要篩選便捷又要方便進一步操作。用戶畫像需要堅持三個原則，分別是人口屬性和信用信息為主，強相關信息為主，定性數據為主。下面就分別展開進行解釋和分析。

描述一個用戶的信息很多，信用信息是用戶畫像中重要的信息，信用信息是描述一個人在社會中的消費能力信息。任何企業進行用戶畫像的目的是尋找目標客戶，其必須是具有潛在消費能力的用戶。信用信息可以直接證明客戶的消費能力，是用戶畫像中最重要和基礎的信息。一句戲言，所有的信息都是信用信息就是這個道理。其包含消費者工作、收入、學歷、財產等信息。

我們需要介紹一下強相關信息和弱相關信息。強相關信息就是同場景需求直接相關的信息，其可以是因果信息，也可以是相關程度很高的信息。

如果定義採用0到1作為相關系數取值范圍的化，0.6以上的相關系數就應該定義為強相關信息。例如在其他條件相同的前提下，35歲左右人的平均工資高於平均年齡為30歲的人，計算機專業畢業的學生平均工資高於哲學專業學生，從事金融行業工作的平均工資高於從事紡織行業的平均工資，上海的平均工資超過海南省平均工資。從這些信息可以看出來人的年齡、學歷、職業、地點對收入的影響較大，同收入高低是強相關關系。簡單的將，對信用信息影響較大的信息就是強相關信息，反之則是弱相關信息。

用戶其他的信息，例如用戶的身高、體重、姓名、星座等信息，很難從概率上分析出其對消費能力的影響，這些弱相關信息，這些信息就不應該放到用戶畫像中進行分析，對用戶的信用消費能力影響很小，不具有較大的商業價值。

用戶畫像和用戶分析時，需要考慮強相關信息，不要考慮弱相關信息，這是用戶畫像的一個原則。

例如可以將年齡段對客戶進行劃分，18歲-25歲定義為年輕人，25歲-35歲定義為中青年，36-45定義為中年人等。可以參考個人收入信息，將人群定義為高收入人群，中等收入人群，低收入人群。參考資產信息也可以將客戶定義為高、中、低級別。定性信息的類別和方式方法，金融可以從自身業務出發，沒有固定的模式。

將金融企業各類定量信息，集中在一起，對定性信息進行分類，並進行定性化，有利與對用戶進行篩選，快速定位目標客戶，是用戶畫像的另外一個原則。

下面內容將詳細介紹，如何根據用戶行為，構建模型產出標簽、權重。一個事件模型包括：時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件，可以詳細描述為：什麼用戶，在什麼時間，什麼地點，做了什麼事。

什麼用戶：關鍵在於對用戶的標識，用戶標識的目的是為了區分用戶、單點定位。

以上列舉了互聯網主要的用戶標識方法，獲取方式由易到難。視企業的用戶粘性，可以獲取的標識信息有所差異。

什麼時間：時間包括兩個重要信息，時間戳+時間長度。時間戳，為了標識用戶行為的時間點，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常採用精度到秒的時間戳即可。因為微秒的時間戳精度並不可靠。瀏覽器時間精度，准確度最多也只能到毫秒。時間長度，為了標識用戶在某一頁面的停留時間。

什麼地點：用戶接觸點，Touch Point。對於每個用戶接觸點。潛在包含了兩層信息：網址 + 內容。網址：每一個url鏈接（頁面/屏幕），即定位了一個互聯網頁面地址，或者某個產品的特定頁面。可以是PC上某電商網站的頁面url，也可以是手機上的微博，微信等應用某個功能頁面，某款產品應用的特定畫面。如，長城紅酒單品頁，微信訂閱號頁面，某游戲的過關頁。

內容：每個url網址（頁面/屏幕）中的內容。可以是單品的相關信息：類別、品牌、描述、屬性、網站信息等等。如，紅酒，長城，干紅，對於每個互聯網接觸點，其中網址決定了權重；內容決定了標簽。

註：接觸點可以是網址，也可以是某個產品的特定功能界面。如，同樣一瓶礦泉水，超市賣1元，火車上賣3元，景區賣5元。商品的售賣價值，不在於成本，更在於售賣地點。標簽均是礦泉水，但接觸點的不同體現出了權重差異。這里的權重可以理解為用戶對於礦泉水的需求程度不同。即願意支付的價值不同。

標簽權重

礦泉水 1 // 超市

礦泉水 3 // 火車

礦泉水 5 // 景區

類似的，用戶在京東商城瀏覽紅酒信息，與在品尚紅酒網瀏覽紅酒信息，表現出對紅酒喜好度也是有差異的。這里的關注點是不同的網址，存在權重差異，權重模型的構建，需要根據各自的業務需求構建。

所以，網址本身表徵了用戶的標簽偏好權重。網址對應的內容體現了標簽信息。

什麼事：用戶行為類型，對於電商有如下典型行為：瀏覽、添加購物車、搜索、評論、購買、點擊贊、收藏等等。

不同的行為類型，對於接觸點的內容產生的標簽信息，具有不同的權重。如，購買權重計為5，瀏覽計為1

紅酒 1 // 瀏覽紅酒

紅酒 5 // 購買紅酒

綜合上述分析，用戶畫像的數據模型，可以概括為下面的公式：用戶標識 + 時間 + 行為類型 + 接觸點（網址+內容），某用戶因為在什麼時間、地點、做了什麼事。所以會打上**標簽。

如：用戶A，昨天在品尚紅酒網瀏覽一瓶價值238元的長城干紅葡萄酒信息。

標簽：紅酒，長城

時間：因為是昨天的行為，假設衰減因子為：r=0.95

行為類型：瀏覽行為記為權重1

地點：品尚紅酒單品頁的網址子權重記為 0.9（相比京東紅酒單品頁的0.7）

假設用戶對紅酒出於真的喜歡，才會去專業的紅酒網選購，而不再綜合商城選購。

則用戶偏好標簽是：紅酒，權重是0.95*0.7 * 1=0.665，即，用戶A：紅酒 0.665、長城 0.665。

上述模型權重值的選取只是舉例參考，具體的權重值需要根據業務需求二次建模，這里強調的是如何從整體思考，去構建用戶畫像模型，進而能夠逐步細化模型。

本文並未涉及具體演算法，更多的是闡述了一種分析思想，在計劃構建用戶畫像時，能夠給您提供一個系統性、框架性的思維指導。

核心在於對用戶接觸點的理解，接觸點內容直接決定了標簽信息。內容地址、行為類型、時間衰減，決定了權重模型是關鍵，權重值本身的二次建模則是水到渠成的進階。模型舉例偏重電商，但其實，可以根據產品的不同，重新定義接觸點。

比如影視產品，我看了一部電影《英雄本色》，可能產生的標簽是：周潤發 0.6、槍戰 0.5、港台 0.3。最後，接觸點本身並不一定有內容，也可以泛化理解為某種閾值，某個行為超過多少次，達到多長時間等。

比如游戲產品，典型接觸點可能會是，關鍵任務，關鍵指數（分數）等等。如，積分超過1萬分，則標記為鑽石級用戶。鑽石用戶 1.0。

百分點現已全面應用用戶畫像技術於推薦引擎中，在對某電商客戶，針對活動頁新訪客的應用中，依靠用戶畫像產生的個性化效果，對比熱銷榜，推薦效果有顯著提升：推薦欄點擊率提升27%，訂單轉化率提升34%。

金融企業內部的信息分布在不同的系統中，一般情況下，人口屬性信息主要集中在客戶關系管理系統，信用信息主要集中在交易系統和產品系統之中，也集中在客戶關系管理系統中，消費特徵主要集中在渠道和產品系統中。

興趣愛好和社交信息需要從外部引入，例如客戶的行為軌跡可以代表其興趣愛好和品牌愛好，移動設備到位置信息可以提供較為准確的興趣愛好信息。社交信息，可以藉助於金融行業自身的文本挖掘能力進行採集和分析，也是可以藉助於廠商的技術能力在社交網站上直接獲得。社交信息往往是實時信息，商業價值較高，轉化率也較高，是大數據預測方面的主要信息來源。例如用戶在社交網站上提出羅馬哪裡好玩的問題，就代表用戶未來可能有出國旅遊的需求；如果客戶在對比兩款汽車的優良，客戶購買汽車的可能性就較大。金融企業可以及時介入，為客戶提供金融服務。

客戶畫像數據主要分為五類，人口屬性、信用信息、消費特徵、興趣愛好、社交信息。這些數據都分布在不同的信息系統，金融企業都上線了數據倉庫（DW），所有畫像相關的強相關信息都可以從數據倉庫裡面整理和集中，並且依據畫像商業需求，利用跑批作業，加工數據，生成用戶畫像的原始數據。

數據倉庫成為用戶畫像數據的主要處理工具，依據業務場景和畫像需求將原始數據進行分類、篩選、歸納、加工等，生成用戶畫像需要的原始數據。

用戶畫像的緯度信息不是越多越好，只需要找到這五大類畫像信息強相關信息，同業務場景強相關信息，同產品和目標客戶強相關信息即可。根本不存在360度的用戶畫像信息，也不存在豐富的信息可以完全了解客戶，另外數據的實效性也要重點考慮。

依據用戶畫像的原則，所有畫像信息應該是五大分類的強相關信息。強相關信息是指同業務場景強相關信息，可以幫助金融行業定位目標客戶，了解客戶潛在需求，開發需求產品。

只有強相關信息才能幫助金融企業有效結合業務需求，創造商業價值。例如姓名、手機號、家庭地址就是能夠觸達客戶的強人口屬性信息，收入、學歷、職業、資產就是客戶信用信息的強相關信息。差旅人群、境外遊人群、汽車用戶、旅遊人群、母嬰人群就是消費特徵的強相關信息。攝影愛好者、游戲愛好者、健身愛好者、電影人群、戶外愛好者就是客戶興趣愛好的強相關信息。社交媒體上發表的旅遊需求，旅遊攻略，理財咨詢，汽車需求，房產需求等信息代表了用戶的內心需求，是社交信息場景應用的強相關信息。

金融企業內部信息較多，在用戶畫像階段不需要對所有信息都採用，只需要採用同業務場景和目標客戶強相關的信息即可，這樣有助於提高產品轉化率，降低投資回報率（ROI），有利於簡單找到業務應用場景，在數據變現過程中也容易實現。

千萬不要將用戶畫像工作搞的過於復雜，同業務場景關系不大，這樣就讓很多金融企業特別是領導失去用戶畫像的興趣，看不到用戶畫像的商業，不願意在大數據領域投資。為企業帶來商業價值才是用戶畫像工作的主要動力和主要目的。

金融企業集中了所有信息之後，依據業務需求，對信息進行加工整理，需要對定量的信息進行定性，方便信息分類和篩選。這部分工作建議在數據倉庫進行，不建議在大數據管理平台（DMP）里進行加工。

定性信息進行定量分類是用戶畫像的一個重要工作環節，具有較高的業務場景要求，考驗用戶畫像商業需求的轉化。其主要目的是幫助企業將復雜數據簡單化，將交易數據定性進行歸類，並且融入商業分析的要求，對數據進行商業加工。例如可以將客戶按照年齡區間分為學生，青年，中青年，中年，中老年，老年等人生階段。源於各人生階段的金融服務需求不同，在尋找目標客戶時，可以通過人生階段進行目標客戶定位。企業可以利用客戶的收入、學歷、資產等情況將客戶分為低、中、高端客戶，並依據其金融服務需求，提供不同的金融服務。可以參考其金融消費記錄和資產信息，以及交易產品，購買的產品，將客戶消費特徵進行定性描述，區分出電商客戶，理財客戶，保險客戶，穩健投資客戶，激進投資客戶，餐飲客戶，旅遊客戶，高端客戶，公務員客戶等。利用外部的數據可以將定性客戶的興趣愛好，例如戶外愛好者，奢侈品愛好者，科技產品發燒友，攝影愛好者，高端汽車需求者等信息。

將定量信息歸納為定性信息，並依據業務需求進行標簽化，有助於金融企業找到目標客戶，並且了解客戶的潛在需求，為金融行業的產品找到目標客戶，進行精準營銷，降低營銷成本，提高產品轉化率。另外金融企業還可以依據客戶的消費特徵、興趣愛好、社交信息及時為客戶推薦產品，設計產品，優化產品流程。提高產品銷售的活躍率，幫助金融企業更好地為客戶設計產品。

利用數據進行畫像目的主要是為業務場景提供數據支持，包括尋找到產品的目標客戶和觸達客戶。金融企業自身的數據不足以了解客戶的消費特徵、興趣愛好、社交信息。

金融企業可以引入外部信息來豐富客戶畫像信息，例如引入銀聯和電商的信息來豐富消費特徵信息，引入移動大數據的位置信息來豐富客戶的興趣愛好信息，引入外部廠商的數據來豐富社交信息等。

外部信息的緯度較多，內容也很豐富，但是如何引入外部信息是一項具有挑戰的工作。外部信息在引入時需要考慮幾個問題，分別是外部數據的覆蓋率，如何和內部數據打通，和內部信息的匹配率，以及信息的相關程度，還有數據的鮮活度，這些都是引入外部信息的主要考慮緯度。外部數據魚龍混雜，數據的合規性也是金融企業在引入外部數據時的一個重要考慮，敏感的信息例如手機號、家庭住址、身份證號在引入或匹配時都應該注意隱私問題，基本的原則是不進行數據交換，可以進行數據匹配和驗證。

外部數據不會集中在某一家，需要金融企業花費大量時間進行尋找。外部數據和內部數據的打通是個很復雜的問題，手機號／設備號／身份證號的MD5數值匹配是一種好的方法，不涉及隱私數據的交換，可以進行唯一匹配。依據行業內部的經驗，沒有一家企業外部數據可以滿足企業要求，外部數據的引入需要多方面數據。一般情況下，數據覆蓋率達到70%以上，就是一個非常高的覆蓋率。覆蓋率達到20%以上就可以進行商業應用了。

金融行業外部數據源較好合作方有銀聯、芝麻信用、運營商、中航信、騰雲天下、騰訊、微博、前海徵信，各大電商平台等。市場上數據提供商已經很多，並且數據質量都不錯，需要金融行業一家一家去挖掘，或者委託一個廠商代理引入也可以。獨立第三方幫助金融行業引入外部數據可以降低數據交易成本，同時也可以降低數據合規風險，是一個不錯的嘗試。另外各大城市和區域的大數據交易平台，也是一個較好的外部數據引入方式。

用戶畫像主要目的是讓金融企業挖掘已有的數據價值，利用數據畫像技術尋找到目標客戶和客戶的潛在需求，進行產品推銷和設計改良產品。

用戶畫像從業務場景出發，實現數據商業變現重要方式。用戶畫像是數據思維運營過程中的一個重要閉環，幫助金融企業利用數據進行精細化運營和市場營銷，以及產品設計。用戶畫像就是一切以數據商業化運營為中心，以商業場景為主，幫助金融企業深度分析客戶，找到目標客戶。

DMP（大數據管理平台）在整個用戶畫像過程中起到了一個數據變現的作用。從技術角度來講，DMP將畫像數據進行標簽化，利用機器學習演算法來找到相似人群，同業務場景深度結合，篩選出具有價值的數據和客戶，定位目標客戶，觸達客戶，對營銷效果進行記錄和反饋。大數據管理平台DMP過去主要應用在廣告行業，在金融行業應用不多，未來會成為數據商業應用的主要平台。

DMP可以幫助信用卡公司篩選出未來一個月可能進行分期付款的客戶，電子產品重度購買客戶，篩選出金融理財客戶，篩選出高端客戶（在本行資產很少，但是在他行資產很多），篩選出保障險種，壽險，教育險，車險等客戶，篩選出穩健投資人，激進投資人，財富管理等方面等客戶，並且可以觸達這些客戶，提高產品轉化率，利用數據進行價值變現。DMP還可以了解客戶的消費習慣、興趣愛好、以及近期需求，為客戶定製金融產品和服務，進行跨界營銷。利用客戶的消費偏好，提高產品轉化率，提高用戶黏度。

DMP還作為引入外部數據的平台，將外部具有價值的數據引入到金融企業內部，補充用戶畫像數據，創建不同業務應用場景和商業需求，特別是移動大數據、電商數據、社交數據的應用，可以幫助金融企業來進行數據價值變現，讓用戶畫像離商業應用更加近一些，體現用戶畫像的商業價值。

用戶畫像的關鍵不是360度分析客戶，而是為企業帶來商業價值，離開了商業價值談用戶畫像就是耍流氓。金融企業用戶畫像項目出發點一定要從業務需求出發，從強相關數據出發，從業務場景應用出發。用戶畫像的本質就是深度分析客戶，掌握具有價值數據，找到目標客戶，按照客戶需求來定製產品，利用數據實現價值變現。

銀行具有豐富的交易數據、個人屬性數據、消費數據、信用數據和客戶數據，用戶畫像的需求較大。但是缺少社交信息和興趣愛好信息。

到銀行網點來辦業務的人年紀偏大，未來消費者主要在網上進行業務辦理。銀行接觸不到客戶，無法了解客戶需求，缺少觸達客戶的手段。分析客戶、了解客戶、找到目標客戶、為客戶設計其需要的產品，成了銀行進行用戶畫像的主要目的。銀行的主要業務需求集中在消費金融、財富管理、融資服務，用戶畫像要從這幾個角度出發，尋找目標客戶。

銀行的客戶數據很豐富，數據類型和總量較多，系統也很多。可以嚴格遵循用戶畫像的五大步驟。先利用數據倉庫進行數據集中，篩選出強相關信息，對定量信息定性化，生成DMP需要的數據。利用DMP進行基礎標簽和應用定製，結合業務場景需求，進行目標客戶篩選或對用戶進行深度分析。同時利用DMP引入外部數據，完善數據場景設計，提高目標客戶精準度。找到觸達客戶的方式，對客戶進行營銷，並對營銷效果進行反饋，衡量數據產品的商業價值。利用反饋數據來修正營銷活動和提高ROI。形成市場營銷的閉環，實現數據商業價值變現的閉環。另外DMP還可以深度分析客戶，依據客戶的消費特徵、興趣愛好、社交需求、信用信息來開發設計產品，為金融企業的產品開發提供數據支撐，並為產品銷售方式提供場景數據。

簡單介紹一些DMP可以做到的數據場景變現。

A 尋找分期客戶

利用發卡機構數據＋自身數據＋信用卡數據，發現信用卡消費超過其月收入的用戶，推薦其進行消費分期。

B 尋找高端資產客戶

利用發卡機構數據＋移動位置數據（別墅／高檔小區）＋物業費代扣數據＋銀行自身數據＋汽車型號數據，發現在銀行資產較少，在其他行資產較多的用戶，為其提供高端資產管理服務。

C 尋找理財客戶

利用自身數據（交易＋工資）＋移動端理財客戶端／電商活躍數據。發現客戶將工資／資產轉到外部，但是電商消費不活躍客戶，其互聯網理財可能性較大，可以為其提供理財服務，將資金留在本行。

D 尋找境外遊客戶

利用自身卡消費數據＋移動設備位置信息＋社交好境外強相關數據（攻略，航線，景點，費用），尋找境外遊客戶為其提供金融服務。

E 尋找貸款客戶

利用自身數據（人口屬性＋信用信息）＋移動設備位置信息＋社交購房／消費強相關信息，尋找即將購車／購房的目標客戶，為其提供金融服務（抵押貸款／消費貸款）。

來源: 錢塘大數據二次整理，TalkingData的鮑忠鐵原文出處，

B. 大數據應用之「畫像」

隨著大數據技術的備受關注，有關「用戶畫像」、「商品畫像」、「產品畫像」、「資產畫像」……的討論就不絕於耳。那麼，究竟什麼是畫像？又如何進行畫像建設與畫像分析呢？我們就從以下幾個方面，著重探討一下。

1、什麼是畫像？

用戶畫像，被定義為一種抽象出用戶信息全貌的手段。

舉個簡單的例子，某個客戶的特徵描述為：500強企業，媒體行業，旗下產品覆蓋網站、APP、微博、微信等埠，擁有受眾9億+，這就是一個典型的用戶畫像，我們據以便可以知道其存在大數據方面的需求。如果用一句話來描述，即：用戶信息標簽畫。

大數據的時代背景下，畫像被認作為企業應用大數據的根基，並直接跟企業經營能力、競爭優勢的打造聯系在一起。

有評論指出，要看一家企業的數據化運營程度，首當其沖地要看其「畫像」構建情況：是否建設了「畫像」？「畫像」體系構建程度如何？針對什麼對象進行了畫像？構建畫像的各種標簽與指標情況如何？有沒針對已建立起來的」畫像」的應用？應用情況如何？等等

2、為什麼要進行用戶畫像

這跟用戶行為識別及數據應用直接相關。

各行各業都期待著，用戶能主動告訴我們，他們的行為偏好。然而，事實既總非如願，技術實現也非如此簡單：首先，用戶用以描述興趣的自然語言很難為自然語言理解技術所理解；其次，用戶的興趣是不斷變化的，無法不停地提供興趣描述；最後，很多時候用戶並不知道自己喜歡什麼，或很難清楚描述出自己喜歡什麼。

於是，我們需要通過演算法自動發掘用戶行為數據，從用戶的行為中推測出用戶的興趣，從而給用戶推薦滿足他們興趣的產品和服務，而畫像，就是其中最重要的應用之一。

畫像，通過為用戶打標簽的方式，使計算機能夠程序化處理與人相關的信息。

如用戶信息的分類統計:喜歡魅族的用戶有多少？喜歡魅族的人群中，男、女比例是多少？如用戶數據的挖掘工作：利用關聯規劃計算，購買該種商品的用戶還購買了什麼產品？利用聚類演算法分析，喜歡該種產品的人年齡段分布情況如何等等？

3、構建用戶畫像的關鍵是什麼？

從畫像與標簽的關系也可以窺見一斑，標簽是畫像建設的關鍵。同時，它也是大數據技術場景化的關鍵，因為如果沒有針對場景構建出來標簽，大數據的應用往往就很難「落地「。

一個標簽通常是人為規定的高度精煉的特徵指標，如年齡段標簽：25-35歲；地域標簽：北京、上海；設備標簽：PC、移動；性別標簽：男、女等等。

標簽呈現出明顯的語義化與短文本的特徵：語義化，人能很方便地理解每個標簽含義，使得用戶畫像模型具備實際意義，能夠較好的滿足業務需求；短文本，每個標簽通常只表示一種含義，標簽本身無需再做過多文本分析等預處理工作，這為利用機器提取標准化信息提供了便利。

制定標簽要遵循一定的規則，既要涵蓋重要信息，又要方便機器做標簽提取、聚合分析。

案例：用戶的商品價格偏好標簽建設過程

以某公司構建用戶消費偏好畫像為例，我們需要根據具體場景下用戶的選擇行為，將用戶偏好畫像拆分成幾個不同數據標簽：品牌、價格、購買時間、購買方式等

取用戶歷史購買消費記錄，統計用戶歷史購買商品的價格，然後對價格進行區間劃分。看用戶購買的價格帶主要集中在哪個區間中(價格帶偏愛應該是一個相對動態的標簽，更新頻率可能一個月需要定期更，而且選擇的時間段也應該是過去某個時間，不應該選擇過長時間段。大家想想為什麼？)。如何進行價格區間劃分？

方法一：按統計學的方法

1、按分位數進行。例如：25%，50%，75%

2、按等箱原則。劃分幾等分

3、看數據的分布。

4、……

方法二：按業務知識經驗

把價格帶按業務經驗，行業經驗進行劃分。

通過數據統計出來，我們可以看用戶是否商品單價是否集中的某個區間范圍內。例如,某用戶購買的商品價格主要集中在30到40這個區間內，根據歷史顯示可以說，用戶可能偏好於購買這個價格帶的商品。當未來我們需要做促銷商品推薦的時候，可以向該用戶重點推薦打折後在這個價格區間的商品。

通過用戶購買的價格區間，以及結合商品所歸屬的品類，可以看這個價格區間在這個品類中屬於什麼級別的。可以進一步給用戶打上：注重品牌、注重高性價比等標簽。

例如：如果某個品類商品的價格範圍是（5，40]，該用戶購物商品主要集中（30，40]這個商品價格區間，用戶在這個品類的消費上都是最高價格區間，說明這個用戶在購買這個品類主要購買的高端商品。這樣又可以為這個用戶打上在這個品類的消費特徵標簽：品類高端用戶。

4、構建用戶畫像的方法

從上面案例中，我們可以抽象出構建用戶畫像的方法，即用戶畫像模型的構建方法。

一個事件模型包括：時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件，可以詳細描述為：什麼用戶、在什麼時間、在什麼地點、做了什麼事。

其中用戶的屬性識別關鍵在於對用戶的標識，用戶標識的目的是為了區分用戶、單點定位。時間的屬性包括兩個重要信息：時間戳和時間長度，時間戳指的是標識用戶行為的時間點，通常精確到秒；時間長度指的是標識用戶的停留時間。地點的屬性也就是用戶接觸點，在互聯網上，用戶的接觸點就包括了網址和內容兩個重要信息。

用戶行為屬性有不同的類型，結合接觸點的內容產生的標簽信息，具有不同的權重。用戶畫像的數據模型可以概括為這樣一個公式：用戶標識+時間+行為類型+接觸點（網址+內容），某個用戶在某個時間、某個地點做了什麼事情，就會被打上一個既定的標簽。而用戶標簽的權重可能隨時間的增加而衰減，因此定義時間為衰減因子，行為類型、網址決定了權重，內容決策了標簽，可以認為公式轉變為標簽權重=衰減因子×行為權重×網址子權重。

通過這樣的計算才能夠構建用戶畫像模型，進而能夠逐步細化模型，從而最終製作出一個精準的用戶模型。而每一個精準的用戶模型都能夠根據用戶不斷調整的互聯網行為進行更新，從而精準把握用戶心理，為每一個用戶提供最完美的精細化服務，全面提升客戶感知，最終實現客戶滿意度的不斷提升。

C. 那種做大數據公司，人群畫像標簽是怎麼建出來的

MobTech提供大數據粉霧，據我所知，平台月活設備有5億安卓+1.5億的ios的量級，平台通過專sdk本身的分享特性，可以屬獲取到一些授權畫像數據，但是並不是每一台設備都可以獲取到所有的畫像，因此會存在一定的缺失或者異常值，關於人口屬性這部分的標簽，他們主要利用分類預測的方法進行預測和補全。
比如：地理位置、手機型號、消費記錄啊……

D. 什麼叫大數據人物畫像

大數據，是指無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》[1] 中大數據指不用隨機分析法（抽樣調查）這樣的捷徑，而採用所有數據進行分析處理。大數據的4V特點：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（價值）。特徵容量（Volume）：數據的大小決定所考慮的數據的價值的和潛在的信息；種類（Variety）：數據類型的多樣性；速度（Velocity）：指獲得數據的速度；可變性（Variability）：妨礙了處理和有效地管理數據的過程。真實性（Veracity）：數據的質量復雜性（Complexity）：數據量巨大，來源多渠道有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類，而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似，大數據並不在「大」，而在於「有用」。價值含量、挖掘成本比數量更為重要。對於很多行業而言，如何利用這些大規模數據是成為贏得競爭的關鍵。大數據的價值體現在以下幾個方面：1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;2) 做小而美模式的中長尾企業可以利用大數據做服務轉型;3) 面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。不過，「大數據」在經濟發展中的巨大意義並不代表其能取代一切對於社會問題的理性思考，科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過：「就今日言，有很多人忙碌於資料之無益累積，以致對問題之說明與解決，喪失了其對特殊的經濟意義的了解。」這確實是需要警惕的。

E. 如何利用大數據進行個人畫像

首先要知道，社交網站、購物網站包括你使用的蘋果、安卓手機，是沒有權限竊聽你的電話或者盜取你的搜索資料的，只是你的行為數據讓你的手機意識到了你具體想要什麼。再例如，你注冊一個賬號，需要輸入自己的名字；手機號；性別；所在地；這些是微不足道的基礎數據。當然還有你的消費記錄；打車頻率；瀏覽的公眾號類型；玩過的游戲...這些行為最後統統會變成幾千個事實標簽，成為你行為數據的一環節。採集標簽的目的，就是為了構建用戶畫像，從雜亂的標簽當中，最終模擬一個和你興趣、愛好、思想相近的「你」。例如，你玩手機看到一篇內容標簽為「美女」的文章，而這並不表明你真的喜歡美女，也可能是手滑點的。因此，手機判斷你的興趣喜好還要根據瀏覽的停留時間、搜索次數、是否評論轉發等等。當然，這關繫到一個初級的內容標簽權重演算法：興殲襪態趣標簽（美女）權重 = 行為權重 x 訪問時長 x 衰減因子行為權重：什好判么都不幹 1 分，評論 + 0.5，點贊 + 0.5，轉發 + 2，收藏 + 1時長權重：10S 以內權重為 0.5，10S－60S 為 1，60S 以上為 2衰減因子：0 - 3 天內權重為 1，3 - 7 天權重為 0.85，7 - 15 天權重為 0.7，15 - 30 天權重為 0.5，30 天以上權重為 0.1。興趣標簽權重和你的閱讀時長、評論、點贊、轉發收藏有著密切關系，並氏源且不同操作有著不同的加分數值，最終累積成行為權重。這點有點類似網易雲在私人FM為你推薦的歌曲類似。停留時間越長，時間權重也隨之越高。你經常瀏覽美女，評論關於美女的文章，看關於美女的視頻，手機會將你一段時間內所有關於美女的興趣權重累加，再以S形函數標准化，最終得到一個從0到10的興趣標簽值。這個數值越高，你就對含有美女的內容越感興趣。不僅僅局限於內容興趣，這種算法還能夠根據你的消費能力、消費興趣、社交習慣等多個維度建立用戶畫像，並計算你的喜好。之後，這些喜好會被轉換成特征向量，比如你的美女興趣標簽值是8，消費能力是5，社交偏好是2，那麼向量表示為r（8,5,2）。我們可以將特征向量想像成一個多維空間的一個坐標點，通過每個用戶的向量坐標去帶入余弦公式或距離公式中，就能計算出和你相似的人，進而把用戶分類。這是一個大工程。但是行為數據只能計算出你的喜好，而無法判斷出你的性別、學歷等深入的個人屬性。這需要將已知性別和學歷的用戶作為樣本，一些用來訓練模型，一些用來測試精准度。現如今，各大平台對於用戶性別的預測准確度達到90%以上。因此，你的手機就能夠得到大致這樣一個用戶畫像，它包含了你的各項興趣權重：所以說，A P P根據這個畫像，便根據類似的廣告信息，找到對應的消費者。

F. 利用大數據技術如何構建用戶畫像

【導讀】目前，我們已經身處大數據時代，大數據的使用不僅普通用戶可以享受到技術帶來的便利，企業也可以從數據中提取有商業價值的信息，構建出用戶畫像，從而對用戶行為進行分析和預測。雖然用戶畫像不是什麼新鮮的概念，但是大數據技術的出現使得用戶畫像更加清晰客觀，那麼利用大數據技術如何構建用戶畫像?

1、認識用戶畫像

用戶畫像簡單來講，就是用戶信息標簽化。即收集這個用戶的各種數據和行為，從而得出這個用戶的一些基本信息和典型特徵，最後形成一個人物原型。一般用戶畫像會分析三個信息維度，分別是基本屬性、消費購物以及社交圈。其中基本屬性就是指用戶的一些基本信息，比如年紀、性別、生日、學校、所在地等等。

2、利用大數據構建用戶畫像的好處

(1)精準營銷：當企業和商家掌握了用戶的一定信息後，就可以構建出清晰的用戶畫像，這樣一來就可以根據用戶的偏好、收入等標簽，推薦給他們會感興趣的商品和服務。

(2)用戶統計：通過大數據我們可以對一些數據進行統計，比如我們經常會看到有一些APP的排行榜，甚至是滲透率、日活率這些具體數據都可以清晰統計出來。

(3)數據挖掘：構建智能推薦系統，利用關聯規則計算，喜歡紅酒的人通常喜歡什麼運動品牌，利用聚類演算法分析，喜歡紅酒的人年齡段分布情況。

(4)進行效果評估：其實相當於市場調研、用戶調研，迅速下定位服務群體，提供高水平的服務。比如你是一個買車的想要投放廣告，但是不知道哪個渠道投放更好，就可以先嘗試一下，看看數據反饋如何。

(5)私人訂制：對服務或產品進行私人訂制，然而不法商家也會利用用戶畫像來殺熟。

(6)業務經營分析：業務經營分析以及競爭分析，影響企業的商業決策，甚至發展戰略。

3、構建用戶畫像的流程

(1)數據源端：一般來講構建用戶畫像的數據來自於網站交易數據、用戶行為數據、網路日誌數據。當然也不僅限於這些數據，一些平台上還有個人徵信數據。

(2)數據預處理：第一步是清洗，把一些雜亂無序的數據清洗一下，然後歸納為結構化的數據，最後是把信息標准化。我們可以把數據的預處理簡單理解為把數據分類在一個表格中，這一步就是奠定數據分析的基石。

關於利用大數據技術如何構建用戶畫像?就給大家分享到這里了，如果你想成為大數據工程師，那就從現在開始，不斷進行自我提升，學會大數據實用技能，保證自己在大數據行業有一定的立足之地，有徵服他人之能。

G. 什麼是大數據畫像

大數據畫像是指，在大數據時代，企業通過對海量數據信息進行清洗、聚類、分析，將數據抽象成標簽，再利用這些標簽將用戶形象具體化的過程。

用戶畫像的建立能夠幫助企業更好地為用戶提供針對性的服務。與之相應，越來越多的第三方大數據公司，也開始依託自身的數據積累，為客戶提供用戶畫像的服務。

比如個推旗下的用戶畫像產品，能夠對用戶線上和線下行為進行大數據分析，幫助APP開發者和運營者構建全面、精準、多維的用戶畫像體系。用戶畫像的形成需要經歷四個過程，數據積累、數據清洗、數據建模分析、數據產出。

其中，數據清洗和數據建模統稱數據處理。在經過數據處理之後，個推產出獨特的冷、熱、溫數據維度，並分析用戶的線上興趣偏好和線下行為場景，形成用戶畫像。

為什麼需要用戶畫像

用戶畫像的核心工作是為用戶打標簽，打標簽的重要目的之一是為了讓人能夠理解並且方便計算機處理，如，可以做分類統計：喜歡紅酒的用戶有多少？喜歡紅酒的人群中，男、女比例是多少？

也可以做數據挖掘工作：利用關聯規則計算，喜歡紅酒的人通常喜歡什麼運動品牌？利用聚類演算法分析，喜歡紅酒的人年齡段分布情況？

大數據處理，離不開計算機的運算，標簽提供了一種便捷的方式，使得計算機能夠程序化處理與人相關的信息，甚至通過演算法、模型能夠「理解」人。

導航:首頁 > 網路數據 > 大數據人物畫像標簽

大數據人物畫像標簽

與大數據人物畫像標簽相關的資料

友情鏈接