⑴ 大數據時代下的人群透視
人群透視又名人群分析,是按照用戶的屬性選取特定的人群,利用大數據的相關技術來探索數據背後的本質。常見的分析需求有觀察特定地區的購買轉化率、指定投放渠道新增用戶數和轉化率、發生業務行為的留存率等等。
我們先來看一個簡單的例子,我們為昨天的活躍用戶創建了一個指定的人群。產品人員想分析出用戶中男性比例是否高於女性,利用相關的分析技術得到分布圖。
未知是有些用戶沒有填寫性別資料(利用身份證信息也可以自動補全或者通過其他的規則和模型識別)
讀到這,想必大家對什麼是人群透視有了一定的了解。那為什麼要做人群透視?我先給大家描述一個場景,運營人員發送某個月的用戶留存突然大幅降低了,看到這個數據後,接下來應該馬上去找到是什麼原因導致的。首先,運營人員會確認各個渠道的留存率情況(按照引流渠道進行人群的劃分),發現某個渠道的新用戶注冊迅速增加,但留存率急劇下降;最後發現是由於渠道投放人員設置了針對特定人群的廣告投放,但是這些用戶卻因為產品本身無法帶來滿足和愉悅而放棄。
上述就是一個由淺及深的人群透視分析場景,如果有這樣一款數據分析工具,無需專業的數據分析師就能完成大部分的數據分析工作是不是很酷。
人群透視當前還有更多的場景。進行不同活動的效果分析對比、按照人群分析產品的走勢、增長環節找到最優的決策點。
熟悉大數據相關或者數倉模型相關的同學肯定對事實表和維度表不陌生,事實表是指特定主題域下的業務行為,維度表中記錄的是對某一個實體的描述信息。注冊的行為表就是一張事實表,而用戶畫像表或者商品表我們可以稱為維度表。人群透視就是按照用戶屬性維度表選取合適的取值來看在事實業務表上的表現情況。查看杭州地區女性的消費類型分布情況,其中「杭州地區女性」就是維度表的屬性特徵,消費類型則是消費記錄事實表的記錄。
首先明確我們要分析的業務指標。以渠道作為例子,我們想分析各個渠道的新用戶增長、注冊和登陸轉化率情況。首先建立一張事實表,明確存儲的粒度、業務欄位集合。
按照渠道我們需要分析出每一個渠道的每天廣告位點擊情況、新增激活設備數、新增用戶注冊數、新增登陸用戶數、設備激活轉化率、注冊激活轉化率、登陸活躍用戶轉化率、激活成本、注冊成本、活躍成本、總成本。
指標通常是數值類型,同時其計算規則應該滿足可累性,比如sum、max、min、cnt,函數應該符合這樣的關系:
f(A)=f(a,A-a) ,其中A是集合,a是A中的一個元素,即真對一個集合的計算可以進行迭代計算
比如mean、variance等就不是可累加的匯總函數
人群透視分析首先需要要按照屬性圈選出人群集合,這是一個倒排索引的查詢類別,市面上常用的倒排索引服務就是Eleastic Search。首先我們可以藉助其倒排查詢的能力快速勾選出用戶ID列表。
指標的查詢是一個正排索引查詢的過程,根據用戶ID查詢出相應記錄。常用的多維查詢工具有Kylin、Druid、Presto、ES等,下面分別比較下各個框架的優缺點。
由於大部分的業務的轉化需要一定時間的積累,大部分數據滿足T+1的查詢即可。同時T+1的數據可以利用數倉的數據直接進行匯總計算。如果一個業務分析指標的模型固定可以直接藉助Kylin完成數據的分析存儲。查詢的指標如果是互動式、靈活多變的,則可以採用ES、Presto這樣的存儲查詢方式。如上面的渠道分析模型,則直接可以採用Kylin進行存儲。
目標:滿足非大數據分析師日常的分析工作,幫助更快的發現問題、提出問題的方向和優先順序、執行解決問題。另外提供一套標準的框架來便於用戶導入合適的分析模型。
按照構建的生命周期我們可以分為五層,分別是人群指標定義、數據採集加工、數據存儲、數據查詢、數據圖表化展示。
按照功能模塊劃分,我們可以得到如下架構圖
場景的需求,明確要觀察分析的業務場景和數據來源。渠道的注冊轉化分析需要收集廣告的埋點點擊、App的打開埋點、用戶注冊事件、點擊成本統計等。最終藉助於數據倉庫加工成一張渠道轉化事實表。同樣的方式構建出渠道的維表信息。
人群 :符合某一個屬性取值的用戶集合。如借貸用戶群、理財用戶群體等。
人群組 :人群的組合,我們通常先真對不同的人群做對比,比如比較杭州和北京的借貸用戶群,人群組的管理可以選取哪些維度作為區分條件組,地理位置、性別等等。人群組用戶構建多維分析分析,劃分組的屬性列就是維度。對於一些連續數值列的屬性可以按照區間值進行分類處理。
指標類型通常是數值的聚合函數,聚合函數最好要能滿足可加性。
最常用的就是count,count函數無需構建在任何指標上,這種經常用於統計某一類人群的數量。
sum :統計某一列的數值的集合
max/min :統計數值最大/小的
distinct count :去重的數目統計
可以先根據表選取明確的指標列(只能是數值列,count的話數值取值默認為1),再勾選對應的聚合函數。這里可以選取不同表的不同數值列。
某一類維度的選取占整個人群的佔比,比如杭州地區的高收入人群的購買量。
對上提供一層通用的庫、表結構管理,提供一套統一的SQL給應用層面,對外根據具體的物理表存儲介質翻譯為具體的物理查詢計劃。查詢介面的請求和響應分裝為統一的結果,不對外體現具體的存儲細節。
dashboard的管理,可以為指定的人群創建一個指定的分析模板,同時可以進行圖標的新增、修改、刪除等操作。
圖表類型 :支持單維圖表和二維圖表。單維圖表通常就是數量等,常見的有餅圖、柱狀圖、儀表盤等
高級功能:選取一個圖表,可以自己勾選要展示的維度(維度可以來源為維度表也可以來源於事實表,如時間可以來源於事實表)和指標,構建一個二維甚至是多維圖形。
⑵ 基於大數據的用戶標簽體系建設思路和應用
基於大數據的用戶標簽體系建設思路和應用
在大數據時代,數據在呈現出海量化、多樣化和價值化變化的同時,也改變了傳統IT行業的市場競爭環境、營銷策略和服務模式。
如何在ZB級的海量數據中獲取並篩選有價值的信息,是對IT企業的一大挑戰。通過構建客戶標簽,支撐精準營銷服務,是應對上述挑戰的有效解決方案。
但是怎麼設計一個完善的用戶標簽體系?怎麼打標簽?打哪些標簽?誰來打?怎麼使用用戶標簽創建商業價值?
這些都是產品設計層面需要解決的問題。
掌上醫訊一直以來都致力於打造醫生的今日頭條和智能化的學習平台,通過大數據技術實現醫生學習的智能化和個性化,而要構建這樣一個學習平台,最基礎的就是要建立用戶的標簽體系。
經過長時間的學習、思考、借鑒和實踐,現在已經有了自己的標簽構建思路,並且也已經提取出了符合自身業務的標簽。我們十分重視用戶行為日誌的收集,現在已經有了億萬級別的日誌數據,正在搭建數據處理和標簽計算平台,以下是我們整理的建設思想。
標簽系統的結構
標簽系統可以分為三個部分:數據加工層、數據服務層和數據應用層。
每個層面向的用戶對象不一樣,處理事務有所不同。層級越往下,與業務的耦合度就越小。層級越往上,業務關聯性就越強。
數據加工層
數據加工層收集、清洗和提取數據。掌上醫訊有諸多的學習模塊,同時又有網站、APP、小程序等多個產品形式,每個產品模塊和產品端都會產生大量的業務數據和行為數據,這些數據極為相似又各不相同,為了搭建完善的用戶標簽體系,需要盡可能匯總最大范圍的數據。收集了所有數據之後,需要經過清洗、去重、去無效、去異常等等。
數據業務層
數據加工層為業務層提供最基礎的數據能力,提供數據原材料。業務層屬於公共資源層,並不歸屬某個產品或業務線。它主要用來維護整個標簽體系,集中在一個地方來進行管理。
在這一層,運營人員和產品能夠參與進來,提出業務要求:將原材料進行切割。
主要完成以下核心任務:
定義業務方需要的標簽。創建標簽實例。執行業務標簽實例,提供相應數據。數據應用層
應用層的任務是賦予產品和運營人員標簽的工具能力,聚合業務數據,構建具體的數據應用場景。
(1)標簽的類型
從數據提取維度來看,標簽可分為:事實標簽、模型標簽和預測標簽。
(2)事實標簽
從生產系統獲取數據,定性或定量描述用戶的自然屬性、產品屬性、消費屬性、資源屬性等,以及根據工作人員經驗積累的業務規則進行篩選、分析生產的標簽,如是否活躍用戶、是否是考生等。
(3)模型標簽
對用戶屬性及行為等屬性的抽象和聚類,通過剖析用戶的基礎數據為用戶貼上相應的總結概括性標簽及指數,標簽代表用戶的興趣、偏好、需求等,指數代表用戶的興趣程度、需求程度、購買概率等。
(4)預測標簽
基於用戶的屬性、行為、信令、位置和特徵,挖掘用戶潛在需求,針對這些潛在需求配合營銷策略、規則進行打標,實現營銷適時、適機、適景推送給用戶。
從數據的時效性來看,標簽可分為:靜態屬性標簽和動態屬性標簽。
(5)靜態屬性標簽
長期甚至永遠都不會發生改變。比如性別,出生日期,這些數據都是既定的事實,幾乎不會改變。
(6)動態屬性標簽
存在有效期,需要定期地更新,保證標簽的有效性。比如:用戶的購買力,用戶的活躍情況。
標簽的定義
給用戶打標簽,建立用戶畫像,最終都是為了去應用,所以我們要站在應用場景上去定義用戶的標簽體系,每個標簽都有最終的用途。比如:我們做考試培訓服務,我們需要建立「是否考生」的標簽。
另外,不同的行業他們的用戶特徵也是有顯著區別的,比如:醫生用戶相比普通用戶來說,就多了像「科室」、「職稱」、「所在醫院等級」等特殊含義的標簽。
而標簽是有層級關系的,既是為了管理,更好的理解,又是為了控制粗細力度,方便最終的應用。標簽深度一般控制在四級比較合適,到了第四級就是具體的標簽實例。
我們根據公司的業務首先劃分了人口屬性、行為屬性、用戶分類和商業屬性四個大的分類,下面又分了上網習慣、學習慣、人群屬性、消費能力、消費習慣等分類,最末級精確到用戶的活躍等級、閱讀來源、考試偏好等具體的標簽。
標簽的維護
每個標簽都不會憑空產生的,也不會一成不變,更不會憑空消失。標簽的維護需要生成規則,需要定義權重,需要更新策略。
生成規則
如第一部分所說,標簽分為事實標簽,模型標簽和預測標簽三大類。對於這三類的標簽,生成規則的難度和復雜性也是逐級遞增的。事實標簽只需要考慮從什麼地方提取即可,它即包含明確的標簽定義,又包含無法窮舉的標簽集,比如:關注的病種。
而模型標簽需要進行數據的關聯和邏輯關系的設計,通過一定的模型對數據進行計算得來。而預測標簽相對就非常的復雜,無法從原始數據提取標簽,標簽的生成准確度就太依賴我們大數據分析和人工智慧技術的應用。
定義權重
一個標簽會在多個場景下出現,比如:一個疾病標簽,它極可能在瀏覽過程中生成,也有可能在搜索場景下產生,但是對於這兩個場景所對應的同一個標簽,他們的權重是不同的。瀏覽相比搜索,權重要小得多,因為搜索的主動需求更大。
更新策略
上文我們從數據的時效性上對標簽分為靜態屬性標簽和動態屬性標簽,對於靜態屬性標簽的處理相對比較簡單,就不停的累加即可。但是對於動態屬性標簽,需要對過期標簽進行降權甚至刪除處理,比如:醫生考試前和考試後,會影響「是否考生」這個標簽的,這就需要制定更新策略。
標簽建設的技術架構
標簽體系的建設涉及很多環節,數據量也十分巨大,需要有一個健壯且高效的技術架構來支持數據的存儲及計算,掌上醫訊採用了sql資料庫和no-sql資料庫來滿足結構化數據和非結構化數據的存儲。
使用hadoop的分布式存儲技術及hive和hbase組件作為數據倉庫,使用MapRece和spark分布式計算來提高計算速度,使用kylin進行多維分析,通過BI工具和介面對外提供應用,使用sqoop和kettle進行數據的抽取及流程的調用。
更多的應用場景
用戶標簽建立已經基本應用在掌上醫訊的內容智能推薦的學習場景中,但隨著標簽的完善以及智能化處理的提升,這套標簽體系將有更廣闊的應用場景。
(1)智能化學習場景的構建
通過用戶學習需求的標簽的分析進行用戶分群,針對不同的用戶群在APP的功能和內容上進行個性化展示,滿足不同學習需求的用戶個性化的學習服務。
(2)精準營銷推廣的建立
更細粒度的對用戶進行篩選,同時能夠精準預測可能存在的目標用戶進行推廣,從而擴大醫生覆蓋,提升推廣的轉化率。
(3)KOL用戶畫像的描繪
基於該標簽模型,增加對外部數據的採集分析,更加完整的生成醫生360度的用戶畫像,幫助企業尋找潛在的KOL用戶,實現用戶洞察,輔助市場決策。
標簽的建設是一個看似高大上,其實很繁瑣、糾結的過程,需要對業務抽絲剝繭,還要應對運營需求的各種變化,不過對公司發展的影響也是深遠的。
⑶ 如何利用大數據技術構建用戶畫像
1、認識用戶畫像
用戶畫像簡單來講,就是用戶信息標簽化。即收集這個用戶的各種數據和行為,從而得出這個用戶的一些基本信息和典型特徵,最後形成一個人物原型。一般用戶畫像會分析三個信息維度,分別是基本屬性、消費購物以及社交圈。其中基本屬性就是指用戶的一些基本信息,比如年紀、性別、生日、學校、所在地等等。
2、利用大數據構建用戶畫像的好處
(1)精準營銷:當企業和商家掌握了用戶的一定信息後,就可以構建出清晰的用戶畫像,這樣一來就可以根據用戶的偏好、收入等標簽,推薦給他們會感興趣的商品和服務。
(2)用戶統計:通過大數據我們可以對一些數據進行統計,比如我們經常會看到有一些APP的排行榜,甚至是滲透率、日活率這些具體數據都可以清晰統計出來。
(3)數據挖掘:構建智能推薦系統,利用關聯規則計算,喜歡紅酒的人通常喜歡什麼運動品牌,利用聚類演算法分析,喜歡紅酒的人年齡段分布情況。
(4)進行效果評估:其實相當於市場調研、用戶調研,迅速下定位服務群體,提供高水平的服務。比如你是一個買車的想要投放廣告,但是不知道哪個渠道投放更好,就可以先嘗試一下,看看數據反饋如何。
(5)私人訂制:對服務或產品進行私人訂制,然而不法商家也會利用用戶畫像來殺熟。
(6)業務經營分析:業務經營分析以及競爭分析,影響企業的商業決策,甚至發展戰略。
3、構建用戶畫像的流程
(1)數據源端:一般來講構建用戶畫像的數據來自於網站交易數據、用戶行為數據、網路日誌數據。當然也不僅限於這些數據,一些平台上還有個人徵信數據。
(2)數據預處理:第一步是清洗,把一些雜亂無序的數據清洗一下,然後歸納為結構化的數據,最後是把信息標准化。我們可以把數據的預處理簡單理解為把數據分類在一個表格中,這一步就是奠定數據分析的基石。
關於如何利用大數據技術構建用戶畫像,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
⑷ 大數據應用之「畫像」
隨著大數據技術的備受關注,有關「用戶畫像」、「商品畫像」、「產品畫像」、「資產畫像」……的討論就不絕於耳。那麼,究竟什麼是畫像?又如何進行畫像建設與畫像分析呢?我們就從以下幾個方面,著重探討一下。
1、什麼是畫像?
用戶畫像,被定義為一種抽象出用戶信息全貌的手段。
舉個簡單的例子,某個客戶的特徵描述為:500強企業,媒體行業,旗下產品覆蓋網站、APP、微博、微信等埠,擁有受眾9億+,這就是一個典型的用戶畫像,我們據以便可以知道其存在大數據方面的需求。如果用一句話來描述,即:用戶信息標簽畫。
大數據的時代背景下,畫像被認作為企業應用大數據的根基,並直接跟企業經營能力、競爭優勢的打造聯系在一起。
有評論指出,要看一家企業的數據化運營程度,首當其沖地要看其「畫像」構建情況:是否建設了「畫像」?「畫像」體系構建程度如何?針對什麼對象進行了畫像?構建畫像的各種標簽與指標情況如何?有沒針對已建立起來的」畫像」的應用?應用情況如何?等等
2、為什麼要進行用戶畫像
這跟用戶行為識別及數據應用直接相關。
各行各業都期待著,用戶能主動告訴我們,他們的行為偏好。然而,事實既總非如願,技術實現也非如此簡單:首先,用戶用以描述興趣的自然語言很難為自然語言理解技術所理解;其次,用戶的 興趣是不斷變化的,無法不停地提供興趣描述;最後,很多時候用戶並不知道自己喜歡什麼,或很難清楚描述出自己喜歡什麼。
於是,我們需要通過演算法自動發掘用戶行為數據,從用 戶的行為中推測出用戶的興趣,從而給用戶推薦滿足他們興趣的產品和服務,而畫像,就是其中最重要的應用之一。
畫像,通過為用戶打標簽的方式,使計算機能夠程序化處理與人相關的信息。
如用戶信息的分類統計:喜歡魅族的用戶有多少?喜歡魅族的人群中,男、女比例是多少?如用戶數據的挖掘工作:利用關聯規劃計算,購買該種商品的用戶還購買了什麼產品?利用聚類演算法分析,喜歡該種產品的人年齡段分布情況如何等等?
3、構建用戶畫像的關鍵是什麼?
從畫像與標簽的關系也可以窺見一斑,標簽是畫像建設的關鍵。同時,它也是大數據技術場景化的關鍵,因為如果沒有針對場景構建出來標簽,大數據的應用往往就很難「落地「。
一個標簽通常是人為規定的高度精煉的特徵指標,如年齡段標簽:25-35歲;地域標簽:北京、上海;設備標簽:PC、移動;性別標簽:男、女等等。
標簽呈現出明顯的語義化與短文本的特徵:語義化,人能很方便地理解每個標簽含義,使得用戶畫像模型具備實際意義,能夠較好的滿足業務需求;短文本,每個標簽通常只表示一種含義,標簽本身無需再做過多文本分析等預處理工作,這為利用機器提取標准化信息提供了便利。
制定標簽要遵循一定的規則,既要涵蓋重要信息,又要方便機器做標簽提取、聚合分析。
案例:用戶的商品價格偏好標簽建設過程
以某公司構建用戶消費偏好畫像為例,我們需要根據具體場景下用戶的選擇行為,將用戶偏好畫像拆分成幾個不同數據標簽:品牌、價格、購買時間、購買方式等
取用戶歷史購買消費記錄,統計用戶歷史購買商品的價格,然後對價格進行區間劃分。看用戶購買的價格帶主要集中在哪個區間中(價格帶偏愛應該是一個相對動態的標簽,更新頻率可能一個月需要定期更,而且選擇的時間段也應該是過去某個時間,不應該選擇過長時間段。大家想想為什麼?)。如何進行價格區間劃分?
方法一:按統計學的方法
1、按分位數進行。例如:25%,50%,75%
2、按等箱原則。劃分幾等分
3、看數據的分布。
4、……
方法二:按業務知識經驗
把價格帶按業務經驗,行業經驗進行劃分。
通過數據統計出來,我們可以看用戶是否商品單價是否集中的某個區間范圍內。例如,某用戶購買的商品價格主要集中在30到40這個區間內,根據歷史顯示可以說,用戶可能偏好於購買這個價格帶的商品。當未來我們需要做促銷商品推薦的時候,可以向該用戶重點推薦打折後在這個價格區間的商品。
通過用戶購買的價格區間,以及結合商品所歸屬的品類,可以看這個價格區間在這個品類中屬於什麼級別的。可以進一步給用戶打上:注重品牌、注重高性價比等標簽。
例如:如果某個品類商品的價格範圍是(5,40],該用戶購物商品主要集中(30,40]這個商品價格區間,用戶在這個品類的消費上都是最高價格區間,說明這個用戶在購買這個品類主要購買的高端商品。這樣又可以為這個用戶打上在這個品類的消費特徵標簽:品類高端用戶。
4、構建用戶畫像的方法
從上面案例中,我們可以抽象出構建用戶畫像的方法,即用戶畫像模型的構建方法。
一個事件模型包括:時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件,可以詳細描述為:什麼用戶、在什麼時間、在什麼地點、做了什麼事。
其中用戶的屬性識別關鍵在於對用戶的標識,用戶標識的目的是為了區分用戶、單點定位。時間的屬性包括兩個重要信息:時間戳和時間長度,時間戳指的是標識用戶行為的時間點,通常精確到秒;時間長度指的是標識用戶的停留時間。地點的屬性也就是用戶接觸點,在互聯網上,用戶的接觸點就包括了網址和內容兩個重要信息。
用戶行為屬性有不同的類型,結合接觸點的內容產生的標簽信息,具有不同的權重。用戶畫像的數據模型可以概括為這樣一個公式:用戶標識+時間+行為類型+接觸點(網址+內容),某個用戶在某個時間、某個地點做了什麼事情,就會被打上一個既定的標簽。而用戶標簽的權重可能隨時間的增加而衰減,因此定義時間為衰減因子,行為類型、網址決定了權重,內容決策了標簽,可以認為公式轉變為標簽權重=衰減因子×行為權重×網址子權重。
通過這樣的計算才能夠構建用戶畫像模型,進而能夠逐步細化模型,從而最終製作出一個精準的用戶模型。而每一個精準的用戶模型都能夠根據用戶不斷調整的互聯網行為進行更新,從而精準把握用戶心理,為每一個用戶提供最完美的精細化服務,全面提升客戶感知,最終實現客戶滿意度的不斷提升。
⑸ 大數據時代的用戶數據如何區別保護
大數據時代的用戶數據如何區別保護
大數據時代,是物聯網的時代,隨著雲存儲和雲計算的發展,以智能手機、智能家電、可穿戴設備為代表的智能終端的普及,通過各種智能終端上傳和收集的用戶數據將越來越多,對用戶數據的分析和挖掘及利用,將是大數據的商業價值所在,蘊藏和巨大價值的用戶數據的性質及使用規則是我們值得思考的問題。
用戶數據的「區分所有權」構想
提到用戶數據,我們首先想到的是用戶的「隱私權」。民法大家王利明教授在其主編的《人格權法新論》一書中提到:隱私權是自然人享有的對其個人的與公共利益無關的個人信息、私人活動和私有領域進行支配的一種人格權。可見隱私權是一項「個體」權益,強調權利的身份和人格的屬性。
用戶數據的商業價值核心並不是「個人」的人格權益,其必要條件是具備足夠多的用戶個體樣本,其更強調「集合」的權利,單個用戶數據的商業價值是有限的。而用戶數據的核心價值在於通過對雲端存儲的海量的用戶個人狀況、行為、需求的樣本分析和挖掘,一方面為上游硬體商提供產品的開發依據,另一方面對用戶的消費、生活提供「量身打造」的服務,從而形成物聯網的全產業鏈循環,實現更高效的管理社會資源並創造更多的價值。
可見,雖然用戶數據來源於「個體」數據,但最終使社會獲益的是用戶的「集合」數據。因此,在界定用戶數據的性質方面,筆者建議根據單個數據是否具有身份屬性,將用戶數據分為身份數據和樣本數據,並對這兩類數據加以區別保護。
用戶的身份數據是指可以通過單一的個體數據,即能鎖定特定用戶的數據。如姓名、身份證號、各種賬號信息、聯系方式等。比如我們通過一個電話,就能聯繫到一個特定的用戶。因此,此類信息具有較強的身份屬性,須定義為「隱私權」的范圍,其權利主體應為用戶個人所有,其使用和經營,須經過用戶的許可,否則將被判定為侵權。現行法律法規如《全國人民代表大會常務委員會關於加強網路信息保護的決定》、工信部出台的《電信和互聯網用戶個人信息保護規定》以及消費者權益保護法、《網路交易管理辦法》中規定的個人信息,當屬於用戶的身份數據范疇。
樣本數據是指通過個體數據匯聚成的用戶個人狀況、行為、需求的資料庫以及通過分析和挖掘以上數據獲得的相關數據。此類數據的所有權應為用戶和數據收集方共有,但經營使用權建議應掌握在能夠發揮其價值的數據收集者手中。將所有權和經營權區分開來,既能從法律上保證用戶的個體權益,又符合經濟學的原理。
樣本數據的經營規則
用戶身份數據的使用規則可以依據現有的法律法規執行。我們僅需要通過立法明確以上法律所適用的數據的范圍,並在執行層面的政策上制定可操作的保護用戶身份數據和隱私權的規章制度。
對於樣本數據的使用和經營規則,現有法律並沒有明確依據。根據上文的闡述,筆者已將其所有權擬定為用戶和數據收集者共有,經營使用權則建議應掌握在能夠發揮其價值的數據收集者手中。這樣設計的目的在於,一是保留用戶的「被遺忘權」;二是發揮物盡其用的作用。
首先,保留用戶的「被遺忘權」是用戶數據使用的基礎。
大數據時代到來,人們最擔心的是自己將被暴露得一覽無余,沒有隱私可言。因此,個體信息是否公開,公開的程度,需要個體能夠掌控,即用戶自主決定其向外界公開的個人信息的廣度和深度,也可隨時自行或要求收集數據方,刪除其掌握的任何關於用戶個體的數據。用戶要求收集者刪除其樣本信息時,須提供可以辨識其個體信息的依據(一般須為身份信息),以證明其要求刪除的信息是屬於自己的樣本信息。
其次,數據收集者在收集樣本數據時,須向用戶群體公示其收集途徑和方式,以及用戶刪除自己樣本信息的途徑和方法。只有這樣,用戶才能知曉其被收集者收集的數據是什麼,以及自己的樣本信息被經營者使用的狀況是否安全,從而判斷其是否願意繼續使用數據收集者的產品,並將自己的樣本信息交給數據收集者經營。一旦用戶選擇使用某一數據收集者的產品,數據收集者將與用戶共有其收集的用戶樣本數據。
第三,數據收集者在遵守法律對用戶隱私保護前提下,無需用戶授權,可自由地使用和經營其收集到的用戶的樣本數據,直至用戶自行或要求其刪除樣本數據。
當前,各數據收集者之間進行不同程度的共享和授權數據的需求已是大數據的發展趨勢。雲與雲的互聯互通才能使數據樣本變得足夠龐大,使數據分析和挖掘的結果更有價值,使用戶不同智能終端之間的連接變得可能,從而真正的實現大數據的物聯網。
樣本數據的共享和授權中涉及到大量個體信息,如果用戶此類活動需要經過個體用戶的授權,將會極大地阻礙商業效率,其數據和信息的收集是隨時隨地的,要求單個用戶對單個的樣本授權,也會影響用戶的體驗。因此最現實的方式是數據的收集者在經營和使用其收集的數據時,無需個體用戶的單獨授權。
最後,數據收集者通過樣本數據所獲取的收益,個體用戶須有分配權。
個體用戶對數據經營的收益分配權容易理解。數據的源頭是個體,個體是樣本數據的所有者,因此其理所應當得到經營數據的利益。分配的方式和數量可由數據收集者確定並公示,一旦用戶使用特定數據收集者的產品,即表明其同意以此對價獲取收益。當然,用戶領取收益的前提是提供可以辨識其個體信息的依據(一般須為身份信息),以證明其是對應個體樣本數據的提供者。
⑹ 聽說個推有基於大數據的用戶畫像,想知道它的標簽體系是怎樣的。誰比較清楚呢,說說唄
標簽是某一種用戶特徵的符號表示,每個標簽都規定了觀察、認識和描述用戶的一個角內度,容用戶畫像是一個整體,各個維度不孤立,標簽之間有聯系,用戶畫像可以用標簽的集合來表示。個推有幾百個用戶相關的標簽,用戶的性別,年齡,興趣愛好,消費習慣,地理位置,用戶設備等。
⑺ 神策大數據用戶行為分析-1-入門知識
神策大數據用戶行為分析入門,主要涉及的知識點:
神策分析是針對 企業級客戶 推出的 深度用戶行為分析產品 ,有以下特點:
產品角色作為產品規劃者,重點關注產品
數據驅動產品優化
運營角色重點關注
渠道角色重點關注
技術角色重點關注
電商用戶通常會經歷以下 核心行為流程 :
產品核心流程可描述為
查看新客總數,同時按照日期、渠道等維度拆分下鑽
查看各渠道新客的核心流程總轉化率及各步驟間的轉化率,尋找總轉化率提升空間
神策支持查看特定用戶群的歷史行為序列,找到提交訂單行為,對此之後的行為進行人工標注,以推測後續未進行支付環節的原因
解各渠道來源用戶的活躍程度,以及目標行為——支付訂單行為發生的頻率
針對特定人群實現精準營銷,支持將特定用戶設備 List 同步到極光/小米,向流失用戶進行 App 內的精準推送,以期重新激活挽迴流失。
神策支持將分析結果添加到概覽,使業務分析人員無需配置快速獲得所關注的指標現狀
神策分析中的所有數據均來自於客戶的自有數據接入 。
神策分析主要支持採集客戶的自有數據有三類,分別是 前端操作、後端日誌及業務數據(包括歷史數據) ,接入的方式主要是有3種:
日常工作中,我們遇到的實際問題:
為了回答以上問題,需要對產品上的各種行為進行分析和統計。
對上述的行為進行統計,得到的如下指標:
神策分析使用事件模型來描述(Event 模型)用戶行為,描述用戶行為的關鍵要素: 是誰、什麼時間、什麼地點、以什麼方式、幹了什麼
主要是涉及到兩個核心事件:
一個完成的事件包含幾個關鍵要素:
每個 User 實體對應一個真實的用戶
每個用戶有各種屬性,常見的屬性例如: 年齡、性別 ,和業務相關的屬性則可能有: 會員等級、當前積分、好友數 等。這些描述用戶的欄位,就是用戶屬性。
簡單來說,在用戶 未登錄 的情況下,神策會 選取設備 ID 作為唯一標識
登錄狀態 下選取 登錄 ID 或者 userid ,一個用戶既有設備ID(亦稱作「匿名ID」)又有登錄ID
通過 用戶關聯 將同一個用戶的設備ID 和登錄 ID 關聯到一起,這樣不管用戶是匿名和登錄的狀態發生的行為,我們都能准確識別到是同一個用戶。
神策分析使用 神策 ID (即 events 表裡的 user_id 和 users 表裡的 id )來對每個產品的用戶進行唯一的標識。
神策 ID 是基於 distinct_id 按照一定規則生成的,兩種典型的 distinct_id :
users表中的fisrts_id指的是設備ID,second_id指的是登陸ID
1.特點
只要設備不變,那麼設備ID不變,神策ID不變
2.案例說明
案例解釋說明
關聯設備 ID 和登錄 ID 的方法雖然實現了更准確的用戶追蹤,但是也會增加埋點接入的復雜度。
1.適用場景
2. 局限性 *
3.案例說明
案例具體解釋
1.使用場景
一個登陸ID綁定多個設備,比如 Web 端和 App 端可能都需要進行登錄。
支持一個登錄 ID 下關聯多設備 ID 之後,用戶在多設備下的行為就會貫通,被認為是一個神策 ID 發生的。
2.局限性
3.案例說明
操作同上面的流程,重點關注第七條記錄
由於設備 Y 被關聯到登錄 ID A 下,修復設備 Y 上登錄之前的數據:神策 ID 3 ->神策 ID 1
⑻ 在利用大數據技術進行營銷時哪些數據屬於用戶的隱私信息
對大數據運用和安全保護的思考
萬平:商務智能分析師,風險計量和模型研發專家
大數據時代,對於普通客戶來講,對於所謂隱私安全、信息安全的憂慮其實已經很難自行緩釋了。筆者一直致力於企業數據分析和數據應用,特從企業數據用途角度來談談對於數據安全的思考。
一、專業分析數據,使用正確數據
在大數據運用過程中,企業要明確數據屬性和數據用途。對於企業不經常用但涉及客戶隱私的信息要嚴格保密,如姓名、身份證號、手機、郵箱、工作單位、家庭住址、車牌號碼等基礎信息,這些對於客戶來講絕對具有唯一性,是客戶最為關鍵的私密信息,而本質上不具備任何的分析功能,對於企業研究消費者消費習慣、社交網路、市場偏好、產品研發、服務運營等來講其意義並不直接,而從客戶信息安全的角度來講,這卻是最為重要的,需嚴格加密,與一般常用信息隔離存儲,以保證安全。
二、切不可隨意濫用客戶的唯一性信息
企業努力去獲取並分析客戶的消費習慣、交易行為、社會網路、產品偏好等數據,用以改善自己的運營服務、產品供給、定價策略無可厚非,這也是企業市場競爭力的表現,然而生活在互聯網時代的人們已經被各種營銷簡訊、欺詐電話困繞很長時間了。這種困局的出現,不管是企業自主還是被不法分子盜用,都是在隨意、濫用客戶的隱私信息,是對客戶人身、財產、安全的一種不道德的踐踏行為。
三、大數據時代,法律要強調保護弱者
盡管大數據時代對個人信息安全保護有各種先進的技術,但這是遠遠不夠的。比如,有報道稱儲戶遇到的銀行賬戶內資金失蹤、ATM機取假鈔、信用卡盜刷時,掌握著音頻、視頻、交易記錄等大數據的銀行卻要求客戶舉證,這無疑讓客戶淪為弱者,而法律卻無條款規定,這顯然是不科學的。同時,對於故意欺詐金融機構、欠債跑路的老賴們,公安機關要充分聯合各行業大數據維護正義。
大數據,是時代進步的必然產物,但伴隨而來的信息安全是考驗企業道德和社會法制健全的重要方面。因此,我們一方面要藉助大數據來提高企業的產品質量和服務品質;另一方面,也要切實保護客戶的信息安全。
大數據時代,客戶隱私會變得越來越少
石雲:CC-CMM標准組織常務理事、研發總監
日前網上流傳了這么一個段子:一個客戶打電話訂購比薩,客服人員根據他的會員卡號報出他的家庭住址和所有電話號碼,根據他的醫療記錄和圖書館借閱信息推薦適合他的披薩口味,根據他的信用卡和房貸欠款信息推薦現金支付,甚至還准確定位出他正在離比薩店30分鍾路程的地方騎著一輛摩托車……
我們生活在大數據的時代,「大數據」之大,不僅僅是數據容量之大,更是數據抓取、整合和分析能力的強大。不可否認,大數據在為我們帶來方便生活的同時也為企業帶來了不可估量的商業價值,尤其是移動互聯網的到來,讓每個人無論何時何地都能以不同的終端入口連接在互聯網上,一切數據都被企業以各種形式進行抓取、整合和分析。於是,我們的一舉一動企業都了如指掌,根據你的興趣愛好、你的定位信息,企業可以隨時隨地向你發送廣告和促銷活動。在這個時代,數據安全,尤其是個人隱私問題,正在日益困擾我們身邊越來越多的人。毫無疑問,客戶的數據越多,能夠分析得到的信息量就越大,但其中客戶的隱私就會變得越來越少。如何在大數據時代保護客戶數據和隱私,是我們不得不面對的問題。
企業大數據與大數據安全初探
程學勇:華遠智德(北京)科技有限公司總經理,企業績效管理資深咨詢顧問
大數據並不是一個新的概念,任何一個企業從一誕生開始便持續創造並擁有大數據。大數據環境下數據安全的首要任務仍然是對數據的非法訪問和入侵的防範,但由於大數據的特點,其安全架構也異於傳統的企業信息系統安全。針對大數據安全,企業將面臨更多更加艱難的挑戰,例如企業很難對文件丟失的原因進行追溯,很難確認一個包含敏感數據信息的非結構化文件(如Word,Excel文件)是否傳遞給了不應該擁有它的人。
即便如此,大數據技術的出現又為大數據安全帶來契機。當前的大數據技術能夠針對結構化、非結構化數據進行採集,按照預定規則進行數據採集、歸類,並按照預定規則進行實時監控分析,這大大提高了企業對大數據非法訪問和入侵檢測的技術手段。在此背景帶動下,未來的數據安全監控對象將不僅僅是信息系統賬號、許可權、數據的安全,在企業中存在於各種載體形式之下的數據都將成為安全管理對象,如電子郵件、標書報價單的內容等等。
在這一架構中,除了大數據技術,藉助於商務智能的信息安全可視化同樣為企業的信息安全防範帶來幫助。建立企業統一的數據安全視圖,使按照安全特性、安全對象、業務對象進行分類的多維度下的安全甄別線索、證據的展現更加容易讓管理員了解安全問題發生的節點、原因及可能出現的安全風險趨勢,以便制定更加完善的安全策略。
大數據時代的企業及個人隱私保護
黃成明:數據化管理咨詢顧問、培訓師
從2014年開始,大家真真正正地感覺到大數據時代的來臨,每個人都能說出幾個大數據的案例,例如大數據幫助奧巴馬連任成功、微軟大數據成功預測奧斯卡21項大獎、大數據測算出來的熱播電視劇《紙牌屋》、網路預測2014年高考作文等等。
但是,大數據帶來的副作用是個人的隱私無處遁形,我們每天產生各種數據,這些數據基本上都能被機器、程序等捕捉到。瀏覽網頁記錄會被機器追蹤,買東西的消費記錄會被商家利用,在大街上行走也會被無處不在的Wi-Fi跟蹤……
那麼,在大數據時代個人如何保護自己的隱私呢?
1、提高個人的安全防範意識,不要輕易將自己的個人信息上傳到網路或留給商家。現在的商家辦個會員卡都恨不得你把所有的家庭信息都填上,比如不久前筆者剛辦過一張健身卡,申請登記時竟然要求填身份證號碼,這當然被我拒絕。個人重要的信息包括手機號、微信微博號、QQ號、身份證號、銀行卡號、社保號等。
2、養成隨時清除無用信息的習慣,比如定時刪除自己上網的歷史記錄,將記錄了自己重要信息的文件(包括通話記錄單,銀行卡賬單等)撕碎然後扔到不同的垃圾筐中等等。
3、不要隨意下載陌生軟體,不要添加如微信中的陌生賬號,不要隨意掃二維碼,謹慎使用社交網路。
對於企業來說,保護企業的商業秘密也是重中之重:
1、需要建立一套企業信息保密制度,例如將重要信息分級管理,培訓並監督員工認真執行。可能的情況下,企業可以設立一個隱私官的職位。
2、企業必須部署網路安全設備,一是防止被外部攻擊,其次也可以追蹤企業信息流向。
閱讀原文
有用
|
分享
客戶數據管理系統,超值好物熱賣,上淘寶,放心購!
客戶數據管理系統,買東西上淘寶,海量必buy好物!物美好價,退換無憂,輕松購物!海量商品,品牌匯聚,省錢更省心!更多品質好貨,盡在淘寶,淘你滿意!
淘寶熱賣廣告
2022入駐網路愛采購-讓您訂單接到手軟
值得一看的客戶信息相關信息推薦
B2B平台-網路愛采購,旨在幫助用戶直達商品信息和優質商家同時為賣家提供了豐富的匹配詢價單信息,幫助賣家快速匹配買家,擴大有效交易量
⑼ 為什麼用戶屬性在移動營銷中如此重要呢
利用好用戶屬氏吵性在企業移動營銷中發揮的作用殲清侍是非常大的,而在技術手段利用大數據理解正虧用戶屬性並不是所用企業可以比及的,使用營銷工具則是最明智的選擇。希望心鴿電商 手機能幫到你
⑽ 金融行業如何用大數據構建精準用戶畫像
用戶畫像的焦點工作就是為用戶打「標簽」,而一個標簽通常是人為規定的高度精煉的特徵標識,如年齡、性別、地域、用戶偏好等,最後將用戶的所有標簽綜合來看,就可以勾勒出該用戶的立體「畫像」了。
為了精準地描述用戶特徵,可以參考下面的思路,從用戶微觀畫像的建立→用戶畫像的標簽建模→用戶畫像的數據架構,我們由微觀到宏觀,逐層分析。
首先我們從微觀來看,如何給用戶的微觀畫像進行分級呢?如下圖所示
總原則:基於一級分類上述分類逐級進行細分。
第一分類:人口屬性、資產特徵、營銷特性、興趣愛好、購物愛好、需求特徵
市場上用戶畫像的方法很多,許多企業也提供用戶畫像服務,將用戶畫像提升到很有逼格一件事。金融企業是最早開始用戶畫像的行業,由於擁有豐富的數據,金融企業在進行用戶畫像時,對眾多緯度的數據無從下手,總是認為用戶畫像數據緯度越多越好,畫像數據越豐富越好,某些輸入的數據還設定了權重甚至建立了模型,搞的用戶畫像是一個巨大而復雜的工程。但是費力很大力氣進行了畫像之後,卻發現只剩下了用戶畫像,和業務相聚甚遠,沒有辦法直接支持業務運營,投入精力巨大但是回報微小,可以說是得不償失,無法向領導交代。
事實上, 用戶畫像涉及數據的緯度需要業務場景結合 ,既要簡單干練又要和業務強相關,既要篩選便捷又要方便進一步操作。用戶畫像需要堅持三個原則,分別是人口屬性和信用信息為主,強相關信息為主,定性數據為主。下面就分別展開進行解釋和分析。
描述一個用戶的信息很多,信用信息是用戶畫像中重要的信息,信用信息是描述一個人在社會中的消費能力信息。任何企業進行用戶畫像的目的是尋找目標客戶,其必須是具有潛在消費能力的用戶。 信用信息可以直接證明客戶的消費能力,是用戶畫像中最重要和基礎的信息 。一句戲言,所有的信息都是信用信息就是這個道理。其包含消費者工作、收入、學歷、財產等信息。
我們需要介紹一下強相關信息和弱相關信息。 強相關信息就是同場景需求直接相關的信息,其可以是因果信息 ,也可以是相關程度很高的信息。
如果定義採用0到1作為相關系數取值范圍的化,0.6以上的相關系數就應該定義為強相關信息。例如在其他條件相同的前提下,35歲左右人的平均工資高於平均年齡為30歲的人,計算機專業畢業的學生平均工資高於哲學專業學生,從事金融行業工作的平均工資高於從事紡織行業的平均工資,上海的平均工資超過海南省平均工資。從這些信息可以看出來人的年齡、學歷、職業、地點對收入的影響較大,同收入高低是強相關關系。簡單的將,對信用信息影響較大的信息就是強相關信息,反之則是弱相關信息。
用戶其他的信息,例如用戶的身高、體重、姓名、星座等信息,很難從概率上分析出其對消費能力的影響,這些弱相關信息,這些信息就不應該放到用戶畫像中進行分析,對用戶的信用消費能力影響很小,不具有較大的商業價值。
用戶畫像和用戶分析時,需要考慮強相關信息,不要考慮弱相關信息,這是用戶畫像的一個原則。
例如可以將年齡段對客戶進行劃分,18歲-25歲定義為年輕人,25歲-35歲定義為中青年,36-45定義為中年人等。可以參考個人收入信息,將人群定義為高收入人群,中等收入人群,低收入人群。參考資產信息也可以將客戶定義為高、中、低級別。定性信息的類別和方式方法,金融可以從自身業務出發,沒有固定的模式。
將金融企業各類定量信息,集中在一起,對定性信息進行分類,並進行定性化,有利與對用戶進行篩選,快速定位目標客戶,是用戶畫像的另外一個原則。
下面內容將詳細介紹,如何根據用戶行為,構建模型產出標簽、權重。一個事件模型包括:時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件,可以詳細描述為:什麼用戶,在什麼時間,什麼地點,做了什麼事。
什麼用戶 :關鍵在於對用戶的標識,用戶標識的目的是為了區分用戶、單點定位。
以上列舉了互聯網主要的用戶標識方法,獲取方式由易到難。視企業的用戶粘性,可以獲取的標識信息有所差異。
什麼時間 :時間包括兩個重要信息,時間戳+時間長度。時間戳,為了標識用戶行為的時間點,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常採用精度到秒的時間戳即可。因為微秒的時間戳精度並不可靠。瀏覽器時間精度,准確度最多也只能到毫秒。時間長度,為了標識用戶在某一頁面的停留時間。
什麼地點 :用戶接觸點,Touch Point。對於每個用戶接觸點。潛在包含了兩層信息:網址 + 內容。網址:每一個url鏈接(頁面/屏幕),即定位了一個互聯網頁面地址,或者某個產品的特定頁面。可以是PC上某電商網站的頁面url,也可以是手機上的微博,微信等應用某個功能頁面,某款產品應用的特定畫面。如,長城紅酒單品頁,微信訂閱號頁面,某游戲的過關頁。
內容 :每個url網址(頁面/屏幕)中的內容。可以是單品的相關信息:類別、品牌、描述、屬性、網站信息等等。如,紅酒,長城,干紅,對於每個互聯網接觸點,其中網址決定了權重;內容決定了標簽。
註:接觸點可以是網址,也可以是某個產品的特定功能界面。如,同樣一瓶礦泉水,超市賣1元,火車上賣3元,景區賣5元。 商品的售賣價值,不在於成本,更在於售賣地點。 標簽均是礦泉水,但接觸點的不同體現出了權重差異。這里的權重可以理解為用戶對於礦泉水的需求程度不同。即願意支付的價值不同。
標簽 權重
礦泉水 1 // 超市
礦泉水 3 // 火車
礦泉水 5 // 景區
類似的,用戶在京東商城瀏覽紅酒信息,與在品尚紅酒網瀏覽紅酒信息,表現出對紅酒喜好度也是有差異的。這里的關注點是不同的網址,存在權重差異,權重模型的構建,需要根據各自的業務需求構建。
所以,網址本身表徵了用戶的標簽偏好權重。網址對應的內容體現了標簽信息。
什麼事 :用戶行為類型,對於電商有如下典型行為:瀏覽、添加購物車、搜索、評論、購買、點擊贊、收藏 等等。
不同的行為類型,對於接觸點的內容產生的標簽信息,具有不同的權重。如,購買權重計為5,瀏覽計為1
紅酒 1 // 瀏覽紅酒
紅酒 5 // 購買紅酒
綜合上述分析,用戶畫像的數據模型,可以概括為下面的公式: 用戶標識 + 時間 + 行為類型 + 接觸點(網址+內容) ,某用戶因為在什麼時間、地點、做了什麼事。所以會打上**標簽。
如:用戶A,昨天在品尚紅酒網瀏覽一瓶價值238元的長城干紅葡萄酒信息。
標簽: 紅酒,長城
時間: 因為是昨天的行為,假設衰減因子為:r=0.95
行為類型: 瀏覽行為記為權重1
地點: 品尚紅酒單品頁的網址子權重記為 0.9(相比京東紅酒單品頁的0.7)
假設用戶對紅酒出於真的喜歡,才會去專業的紅酒網選購,而不再綜合商城選購。
則用戶偏好標簽是:紅酒,權重是0.95*0.7 * 1=0.665,即,用戶A:紅酒 0.665、長城 0.665。
上述模型權重值的選取只是舉例參考,具體的權重值需要根據業務需求二次建模,這里強調的是如何從整體思考,去構建用戶畫像模型,進而能夠逐步細化模型。
本文並未涉及具體演算法,更多的是闡述了一種分析思想,在計劃構建用戶畫像時,能夠給您提供一個系統性、框架性的思維指導。
核心在於對用戶接觸點的理解,接觸點內容直接決定了標簽信息。內容地址、行為類型、時間衰減,決定了權重模型是關鍵,權重值本身的二次建模則是水到渠成的進階。模型舉例偏重電商,但其實,可以根據產品的不同,重新定義接觸點。
比如影視產品,我看了一部電影《英雄本色》,可能產生的標簽是:周潤發 0.6、槍戰 0.5、港台 0.3。最後,接觸點本身並不一定有內容,也可以泛化理解為某種閾值,某個行為超過多少次,達到多長時間等。
比如游戲產品,典型接觸點可能會是,關鍵任務,關鍵指數(分數)等等。如,積分超過1萬分,則標記為鑽石級用戶。鑽石用戶 1.0。
百分點現已全面應用用戶畫像技術於推薦引擎中 ,在對某電商客戶,針對活動頁新訪客的應用中,依靠用戶畫像產生的個性化效果,對比熱銷榜,推薦效果有顯著提升:推薦欄點擊率提升27%, 訂單轉化率提升34%。
金融企業內部的信息分布在不同的系統中,一般情況下, 人口屬性信息主要集中在客戶關系管理系統 , 信用信息主要集中在交易系統和產品系統之中 ,也集中在客戶關系管理系統中, 消費特徵主要集中在渠道和產品系統中 。
興趣愛好和社交信息需要從外部引入 ,例如客戶的行為軌跡可以代表其興趣愛好和品牌愛好,移動設備到位置信息可以提供較為准確的興趣愛好信息。社交信息,可以藉助於金融行業自身的文本挖掘能力進行採集和分析,也是可以藉助於廠商的技術能力在社交網站上直接獲得。社交信息往往是實時信息,商業價值較高,轉化率也較高,是大數據預測方面的主要信息來源。例如用戶在社交網站上提出羅馬哪裡好玩的問題,就代表用戶未來可能有出國旅遊的需求;如果客戶在對比兩款汽車的優良,客戶購買汽車的可能性就較大。金融企業可以及時介入,為客戶提供金融服務。
客戶畫像數據主要分為五類, 人口屬性、信用信息、消費特徵、興趣愛好、社交信息。 這些數據都分布在不同的信息系統,金融企業都上線了數據倉庫(DW),所有畫像相關的強相關信息都可以從數據倉庫裡面整理和集中,並且依據畫像商業需求,利用跑批作業,加工數據,生成用戶畫像的原始數據。
數據倉庫成為用戶畫像數據的主要處理工具,依據業務場景和畫像需求將原始數據進行分類、篩選、歸納、加工等,生成用戶畫像需要的原始數據。
用戶畫像的緯度信息不是越多越好,只需要找到這五大類畫像信息強相關信息,同業務場景強相關信息,同產品和目標客戶強相關信息即可。根本不存在360度的用戶畫像信息,也不存在豐富的信息可以完全了解客戶,另外數據的實效性也要重點考慮。
依據用戶畫像的原則,所有畫像信息應該是五大分類的強相關信息。強相關信息是指同業務場景強相關信息,可以幫助金融行業定位目標客戶,了解客戶潛在需求,開發需求產品。
只有強相關信息才能幫助金融企業有效結合業務需求,創造商業價值 。例如姓名、手機號、家庭地址就是能夠觸達客戶的強人口屬性信息,收入、學歷、職業、資產就是客戶信用信息的強相關信息。差旅人群、境外遊人群、汽車用戶、旅遊人群、母嬰人群就是消費特徵的強相關信息。攝影愛好者、游戲愛好者、健身愛好者、電影人群、戶外愛好者就是客戶興趣愛好的強相關信息。社交媒體上發表的旅遊需求,旅遊攻略,理財咨詢,汽車需求,房產需求等信息代表了用戶的內心需求,是社交信息場景應用的強相關信息。
金融企業內部信息較多,在用戶畫像階段不需要對所有信息都採用,只需要採用同業務場景和目標客戶強相關的信息即可,這樣有助於提高產品轉化率,降低投資回報率(ROI),有利於簡單找到業務應用場景,在數據變現過程中也容易實現。
千萬不要將用戶畫像工作搞的過於復雜,同業務場景關系不大, 這樣就讓很多金融企業特別是領導失去用戶畫像的興趣,看不到用戶畫像的商業,不願意在大數據領域投資。為企業帶來商業價值才是用戶畫像工作的主要動力和主要目的。
金融企業集中了所有信息之後,依據業務需求,對信息進行加工整理,需要對定量的信息進行定性,方便信息分類和篩選。這部分工作建議在數據倉庫進行,不建議在大數據管理平台(DMP)里進行加工。
定性信息進行定量分類是用戶畫像的一個重要工作環節,具有較高的業務場景要求,考驗用戶畫像商業需求的轉化。其主要目的是幫助企業將復雜數據簡單化,將交易數據定性進行歸類,並且融入商業分析的要求,對數據進行商業加工。例如可以將客戶按照年齡區間分為學生,青年,中青年,中年,中老年,老年等人生階段。源於各人生階段的金融服務需求不同,在尋找目標客戶時,可以通過人生階段進行目標客戶定位。企業可以利用客戶的收入、學歷、資產等情況將客戶分為低、中、高端客戶,並依據其金融服務需求,提供不同的金融服務。可以參考其金融消費記錄和資產信息,以及交易產品,購買的產品,將客戶消費特徵進行定性描述,區分出電商客戶,理財客戶,保險客戶,穩健投資客戶,激進投資客戶,餐飲客戶,旅遊客戶,高端客戶,公務員客戶等。利用外部的數據可以將定性客戶的興趣愛好,例如戶外愛好者,奢侈品愛好者,科技產品發燒友,攝影愛好者,高端汽車需求者等信息。
將定量信息歸納為定性信息,並依據業務需求進行標簽化 ,有助於金融企業找到目標客戶,並且了解客戶的潛在需求,為金融行業的產品找到目標客戶,進行精準營銷,降低營銷成本,提高產品轉化率。另外金融企業還可以依據客戶的消費特徵、興趣愛好、社交信息及時為客戶推薦產品,設計產品,優化產品流程。提高產品銷售的活躍率,幫助金融企業更好地為客戶設計產品。
利用數據進行畫像目的主要是為業務場景提供數據支持,包括尋找到產品的目標客戶和觸達客戶。金融企業自身的數據不足以了解客戶的消費特徵、興趣愛好、社交信息。
金融企業可以引入外部信息來豐富客戶畫像信息,例如引入銀聯和電商的信息來豐富消費特徵信息,引入移動大數據的位置信息來豐富客戶的興趣愛好信息,引入外部廠商的數據來豐富社交信息等。
外部信息的緯度較多,內容也很豐富,但是如何引入外部信息是一項具有挑戰的工作。外部信息在引入時需要考慮幾個問題,分別是外部數據的覆蓋率,如何和內部數據打通,和內部信息的匹配率,以及信息的相關程度,還有數據的鮮活度,這些都是引入外部信息的主要考慮緯度。外部數據魚龍混雜,數據的合規性也是金融企業在引入外部數據時的一個重要考慮, 敏感的信息例如手機號、家庭住址、身份證號在引入或匹配時都應該注意隱私問題 , 基本的原則是不進行數據交換,可以進行數據匹配和驗證。
外部數據不會集中在某一家,需要金融企業花費大量時間進行尋找。外部數據和內部數據的打通是個很復雜的問題, 手機號/設備號/身份證號的MD5數值匹配是一種好的方法 ,不涉及隱私數據的交換,可以進行唯一匹配。依據行業內部的經驗,沒有一家企業外部數據可以滿足企業要求,外部數據的引入需要多方面數據。一般情況下,數據覆蓋率達到70%以上,就是一個非常高的覆蓋率。覆蓋率達到20%以上就可以進行商業應用了。
金融行業外部數據源較好合作方有 銀聯、芝麻信用、運營商、中航信、騰雲天下、騰訊、微博、前海徵信,各大電商平台等 。市場上數據提供商已經很多,並且數據質量都不錯,需要金融行業一家一家去挖掘,或者委託一個廠商代理引入也可以。獨立第三方幫助金融行業引入外部數據可以降低數據交易成本,同時也可以降低數據合規風險,是一個不錯的嘗試。另外各大城市和區域的大數據交易平台,也是一個較好的外部數據引入方式。
用戶畫像主要目的是讓金融企業挖掘已有的數據價值,利用數據畫像技術尋找到目標客戶和客戶的潛在需求,進行產品推銷和設計改良產品。
用戶畫像從業務場景出發,實現數據商業變現重要方式。 用戶畫像是數據思維運營過程中的一個重要閉環,幫助金融企業利用數據進行精細化運營和市場營銷,以及產品設計。用戶畫像就是一切以數據商業化運營為中心,以商業場景為主,幫助金融企業深度分析客戶,找到目標客戶。
DMP(大數據管理平台)在整個用戶畫像過程中起到了一個數據變現的作用。從技術角度來講,DMP將畫像數據進行標簽化,利用機器學習演算法來找到相似人群,同業務場景深度結合,篩選出具有價值的數據和客戶,定位目標客戶,觸達客戶,對營銷效果進行記錄和反饋。大數據管理平台DMP過去主要應用在廣告行業,在金融行業應用不多,未來會成為數據商業應用的主要平台。
DMP可以幫助信用卡公司篩選出未來一個月可能進行分期付款的客戶,電子產品重度購買客戶,篩選出金融理財客戶,篩選出高端客戶(在本行資產很少,但是在他行資產很多),篩選出保障險種,壽險,教育險,車險等客戶,篩選出穩健投資人,激進投資人,財富管理等方面等客戶,並且可以觸達這些客戶,提高產品轉化率,利用數據進行價值變現。DMP還可以了解客戶的消費習慣、興趣愛好、以及近期需求,為客戶定製金融產品和服務,進行跨界營銷。利用客戶的消費偏好,提高產品轉化率,提高用戶黏度。
DMP還作為引入外部數據的平台,將外部具有價值的數據引入到金融企業內部,補充用戶畫像數據,創建不同業務應用場景和商業需求,特別是移動大數據、電商數據、社交數據的應用,可以幫助金融企業來進行數據價值變現,讓用戶畫像離商業應用更加近一些,體現用戶畫像的商業價值。
用戶畫像的關鍵不是360度分析客戶,而是為企業帶來商業價值 ,離開了商業價值談用戶畫像就是耍流氓。金融企業用戶畫像項目出發點一定要從業務需求出發,從強相關數據出發,從業務場景應用出發。用戶畫像的本質就是深度分析客戶,掌握具有價值數據,找到目標客戶,按照客戶需求來定製產品,利用數據實現價值變現。
銀行具有豐富的交易數據、個人屬性數據、消費數據、信用數據和客戶數據,用戶畫像的需求較大。但是缺少社交信息和興趣愛好信息。
到銀行網點來辦業務的人年紀偏大,未來消費者主要在網上進行業務辦理。銀行接觸不到客戶,無法了解客戶需求,缺少觸達客戶的手段。分析客戶、了解客戶、找到目標客戶、為客戶設計其需要的產品,成了銀行進行用戶畫像的主要目的。銀行的主要業務需求集中在消費金融、財富管理、融資服務,用戶畫像要從這幾個角度出發,尋找目標客戶。
銀行的客戶數據很豐富,數據類型和總量較多,系統也很多。可以嚴格遵循用戶畫像的五大步驟。先利用數據倉庫進行數據集中,篩選出強相關信息,對定量信息定性化,生成DMP需要的數據。利用DMP進行基礎標簽和應用定製,結合業務場景需求,進行目標客戶篩選或對用戶進行深度分析。同時利用DMP引入外部數據,完善數據場景設計,提高目標客戶精準度。找到觸達客戶的方式,對客戶進行營銷,並對營銷效果進行反饋,衡量數據產品的商業價值。利用反饋數據來修正營銷活動和提高ROI。形成市場營銷的閉環,實現數據商業價值變現的閉環。另外DMP還可以深度分析客戶,依據客戶的消費特徵、興趣愛好、社交需求、信用信息來開發設計產品,為金融企業的產品開發提供數據支撐,並為產品銷售方式提供場景數據。
簡單介紹一些DMP可以做到的數據場景變現。
A 尋找分期客戶
利用發卡機構數據+自身數據+信用卡數據,發現信用卡消費超過其月收入的用戶,推薦其進行消費分期。
B 尋找高端資產客戶
利用發卡機構數據+移動位置數據(別墅/高檔小區)+物業費代扣數據+銀行自身數據+汽車型號數據,發現在銀行資產較少,在其他行資產較多的用戶,為其提供高端資產管理服務。
C 尋找理財客戶
利用自身數據(交易+工資)+移動端理財客戶端/電商活躍數據。發現客戶將工資/資產轉到外部,但是電商消費不活躍客戶,其互聯網理財可能性較大,可以為其提供理財服務,將資金留在本行。
D 尋找境外遊客戶
利用自身卡消費數據+移動設備位置信息+社交好境外強相關數據(攻略,航線,景點,費用),尋找境外遊客戶為其提供金融服務。
E 尋找貸款客戶
利用自身數據(人口屬性+信用信息)+移動設備位置信息+社交購房/消費強相關信息,尋找即將購車/購房的目標客戶,為其提供金融服務(抵押貸款/消費貸款)。
來源: 錢塘大數據二次整理,TalkingData的鮑忠鐵原文出處,