1. 聽說個推有基於大數據的用戶畫像,想知道它的標簽體系是怎樣的。誰比較清楚呢,說說唄
標簽是某一種用戶特徵的符號表示,每個標簽都規定了觀察、認識和描述用戶的一個角內度,容用戶畫像是一個整體,各個維度不孤立,標簽之間有聯系,用戶畫像可以用標簽的集合來表示。個推有幾百個用戶相關的標簽,用戶的性別,年齡,興趣愛好,消費習慣,地理位置,用戶設備等。
2. 阿里達摩盤:如何運用「人貨場」方法構建標簽體系
作者介紹
畫像數據產品@草帽小子
《大數據實踐之路:中台+分析+應用》核心作者
專注用戶畫像,著有用戶畫像、標簽體系等系列文章
人人都是產品經理專欄作家
「數據人創作者聯盟」成員
大家好,我是草帽小子~
用戶標簽是通過對用戶基礎信息、用戶行為、業務信息等數據,進行數據建模所產生的用戶特徵。標簽是用戶畫像、用戶分層的基礎,在畫像產品的工作中,標簽體系的建設處於核心位置。
之前草帽小子有分析對比過不同廠的標簽體系建設方法,對比後會發現不同業務下標簽體系的分類方法也不一樣,具體見《 干貨 | 阿里/網易/汽車之家畫像標簽體系 》,下面我們來深入看看阿里達摩盤的標簽體系。
01 標簽體系
通常標簽較多時,用戶都會無從下手,就像是我們去到超市,要是貨架上的商品雜亂無章,我們也難以找到自己想要的商品。因而超市的做法會將商品按品類或是用途來進行分類,方便用戶尋找。
達摩盤標簽體系的劃分也使用了分類的方法,商家面對海量標簽會無從下手,因而達摩盤將電商中「人貨場」的方法運用於標簽分類中,劃分出用戶特徵、品類特徵、渠道特徵、私域特徵,從而更好地滿足商家的使用需求。
個體特徵,包含基礎特徵、親緣關系、地理位置、社會特徵、消費特徵、長期興趣、策略人群。
例如,消費力分級標簽:基於用戶在淘寶的瀏覽、搜索、購買等行為,綜合計算出用戶的消費能力水平,並劃分為5個等級,等級越高則表明消費能力越強。
品類特徵,包含類目行為、類目客單價、類目消費力分級、類目消費決策導向、行業特徵。這個類別構建了「人-商品」間的關系,跟《 阿里達摩盤:畫像營銷洞察有哪5種玩法? 》中的單品圈人類似。
例如,美妝行業特徵標簽:根據用戶近60天在淘寶天貓,進行寶貝搜索和瀏覽收藏等互動行為時,所對應的寶貝屬性,篩選出用戶top30感興趣的屬性詞,並經過演算法加工後歸納到類目的屬性特徵人群。
渠道特徵,包含搜索渠道、推薦渠道、活動渠道、內容渠道、站外渠道、廣告渠道、天貓渠道。
例如,活動渠道行為標簽:根據近30天用戶在淘寶天貓活動渠道上,分類目的瀏覽、收藏等具體互動行為,進行偏好度計算,並按30%、40%、30%的比例進行高中低的偏好度打分。
02 標簽市場
在系統呈現層面,增加了標簽熱門指數、展現指數、點擊指數、出價指數,可進行標簽應用質量的評估。
增加了一些最新上線、實時標簽、我的收藏、即將下線的一些分類,方便用戶使用。
草帽小子:目前一些公開資料,只能看到前台的一些功能。而對於標簽建設者來說,標簽後台管理模塊也至關重要,能夠支持對標簽進行新增、下架、修改、查看等。感興趣的可以研究一些第三方CDP平台。
03 標簽推薦
標簽推薦模塊,平台提供今日精選推薦、實時人群播報、標簽排行榜、星耀精選、優質人群推薦服務,幫助商家快速選擇合適的人群。
標簽排行榜通過拉新場景榜、店鋪用戶運營榜、大促營銷榜,從不同維度對標簽進行排名,可以幫助商家在不知如何選時,參考熱門標簽。
系統推薦店鋪潛客、店鋪新客、店鋪老客的顯著特徵,從而方便商家圈選人群。
標簽上新也會進行推薦,這樣標簽上線容易被發現,不然會無人問津。
草帽小子:在上一個洞察模塊《 阿里達摩盤:畫像營銷洞察有哪5種玩法? 》,我們也會發現有標簽推薦的功能。很多團隊在業績匯報時,會說我們這個季度建設了多少標簽,可能已經建設了上千個。但是在做標簽應用時,會發現營銷人員用起來難。
面對上千個標簽,營銷人員腦子也會一頭霧水,到底什麼場景下,使用什麼標簽才能更好?
最後很不幸的結果是,營銷人員通常只會用幾個平時用的比較多的標簽,圈選出來的人群推送效果達不到最佳。標簽產研團隊最後也會被老闆質疑,投入這么多精力開發上千個標簽,一半以上的標簽都沒人用,你們怎麼搞的?
因而,系統建設者需要結合一些運營模型,做到不同運營場景下的標簽組合推薦。
04 小結
不同業務標簽體系劃分的方式不一樣,如電商業務使用的「人貨場」標簽體系、長租業務中是用「人房客」標簽體系、汽車業務使用「人車「標簽體系…盡管不同行業建設的標簽體系千變萬化,但不變的是標簽體系的劃分,要符合用戶的使用習慣,方便用戶尋找特定標簽。
3. 基於大數據的用戶標簽體系建設思路和應用
基於大數據的用戶標簽體系建設思路和應用
在大數據時代,數據在呈現出海量化、多樣化和價值化變化的同時,也改變了傳統IT行業的市場競爭環境、營銷策略和服務模式。
如何在ZB級的海量數據中獲取並篩選有價值的信息,是對IT企業的一大挑戰。通過構建客戶標簽,支撐精準營銷服務,是應對上述挑戰的有效解決方案。
但是怎麼設計一個完善的用戶標簽體系?怎麼打標簽?打哪些標簽?誰來打?怎麼使用用戶標簽創建商業價值?
這些都是產品設計層面需要解決的問題。
掌上醫訊一直以來都致力於打造醫生的今日頭條和智能化的學習平台,通過大數據技術實現醫生學習的智能化和個性化,而要構建這樣一個學習平台,最基礎的就是要建立用戶的標簽體系。
經過長時間的學習、思考、借鑒和實踐,現在已經有了自己的標簽構建思路,並且也已經提取出了符合自身業務的標簽。我們十分重視用戶行為日誌的收集,現在已經有了億萬級別的日誌數據,正在搭建數據處理和標簽計算平台,以下是我們整理的建設思想。
標簽系統的結構
標簽系統可以分為三個部分:數據加工層、數據服務層和數據應用層。
每個層面向的用戶對象不一樣,處理事務有所不同。層級越往下,與業務的耦合度就越小。層級越往上,業務關聯性就越強。
數據加工層
數據加工層收集、清洗和提取數據。掌上醫訊有諸多的學習模塊,同時又有網站、APP、小程序等多個產品形式,每個產品模塊和產品端都會產生大量的業務數據和行為數據,這些數據極為相似又各不相同,為了搭建完善的用戶標簽體系,需要盡可能匯總最大范圍的數據。收集了所有數據之後,需要經過清洗、去重、去無效、去異常等等。
數據業務層
數據加工層為業務層提供最基礎的數據能力,提供數據原材料。業務層屬於公共資源層,並不歸屬某個產品或業務線。它主要用來維護整個標簽體系,集中在一個地方來進行管理。
在這一層,運營人員和產品能夠參與進來,提出業務要求:將原材料進行切割。
主要完成以下核心任務:
定義業務方需要的標簽。創建標簽實例。執行業務標簽實例,提供相應數據。數據應用層
應用層的任務是賦予產品和運營人員標簽的工具能力,聚合業務數據,構建具體的數據應用場景。
(1)標簽的類型
從數據提取維度來看,標簽可分為:事實標簽、模型標簽和預測標簽。
(2)事實標簽
從生產系統獲取數據,定性或定量描述用戶的自然屬性、產品屬性、消費屬性、資源屬性等,以及根據工作人員經驗積累的業務規則進行篩選、分析生產的標簽,如是否活躍用戶、是否是考生等。
(3)模型標簽
對用戶屬性及行為等屬性的抽象和聚類,通過剖析用戶的基礎數據為用戶貼上相應的總結概括性標簽及指數,標簽代表用戶的興趣、偏好、需求等,指數代表用戶的興趣程度、需求程度、購買概率等。
(4)預測標簽
基於用戶的屬性、行為、信令、位置和特徵,挖掘用戶潛在需求,針對這些潛在需求配合營銷策略、規則進行打標,實現營銷適時、適機、適景推送給用戶。
從數據的時效性來看,標簽可分為:靜態屬性標簽和動態屬性標簽。
(5)靜態屬性標簽
長期甚至永遠都不會發生改變。比如性別,出生日期,這些數據都是既定的事實,幾乎不會改變。
(6)動態屬性標簽
存在有效期,需要定期地更新,保證標簽的有效性。比如:用戶的購買力,用戶的活躍情況。
標簽的定義
給用戶打標簽,建立用戶畫像,最終都是為了去應用,所以我們要站在應用場景上去定義用戶的標簽體系,每個標簽都有最終的用途。比如:我們做考試培訓服務,我們需要建立「是否考生」的標簽。
另外,不同的行業他們的用戶特徵也是有顯著區別的,比如:醫生用戶相比普通用戶來說,就多了像「科室」、「職稱」、「所在醫院等級」等特殊含義的標簽。
而標簽是有層級關系的,既是為了管理,更好的理解,又是為了控制粗細力度,方便最終的應用。標簽深度一般控制在四級比較合適,到了第四級就是具體的標簽實例。
我們根據公司的業務首先劃分了人口屬性、行為屬性、用戶分類和商業屬性四個大的分類,下面又分了上網習慣、學習慣、人群屬性、消費能力、消費習慣等分類,最末級精確到用戶的活躍等級、閱讀來源、考試偏好等具體的標簽。
標簽的維護
每個標簽都不會憑空產生的,也不會一成不變,更不會憑空消失。標簽的維護需要生成規則,需要定義權重,需要更新策略。
生成規則
如第一部分所說,標簽分為事實標簽,模型標簽和預測標簽三大類。對於這三類的標簽,生成規則的難度和復雜性也是逐級遞增的。事實標簽只需要考慮從什麼地方提取即可,它即包含明確的標簽定義,又包含無法窮舉的標簽集,比如:關注的病種。
而模型標簽需要進行數據的關聯和邏輯關系的設計,通過一定的模型對數據進行計算得來。而預測標簽相對就非常的復雜,無法從原始數據提取標簽,標簽的生成准確度就太依賴我們大數據分析和人工智慧技術的應用。
定義權重
一個標簽會在多個場景下出現,比如:一個疾病標簽,它極可能在瀏覽過程中生成,也有可能在搜索場景下產生,但是對於這兩個場景所對應的同一個標簽,他們的權重是不同的。瀏覽相比搜索,權重要小得多,因為搜索的主動需求更大。
更新策略
上文我們從數據的時效性上對標簽分為靜態屬性標簽和動態屬性標簽,對於靜態屬性標簽的處理相對比較簡單,就不停的累加即可。但是對於動態屬性標簽,需要對過期標簽進行降權甚至刪除處理,比如:醫生考試前和考試後,會影響「是否考生」這個標簽的,這就需要制定更新策略。
標簽建設的技術架構
標簽體系的建設涉及很多環節,數據量也十分巨大,需要有一個健壯且高效的技術架構來支持數據的存儲及計算,掌上醫訊採用了sql資料庫和no-sql資料庫來滿足結構化數據和非結構化數據的存儲。
使用hadoop的分布式存儲技術及hive和hbase組件作為數據倉庫,使用MapRece和spark分布式計算來提高計算速度,使用kylin進行多維分析,通過BI工具和介面對外提供應用,使用sqoop和kettle進行數據的抽取及流程的調用。
更多的應用場景
用戶標簽建立已經基本應用在掌上醫訊的內容智能推薦的學習場景中,但隨著標簽的完善以及智能化處理的提升,這套標簽體系將有更廣闊的應用場景。
(1)智能化學習場景的構建
通過用戶學習需求的標簽的分析進行用戶分群,針對不同的用戶群在APP的功能和內容上進行個性化展示,滿足不同學習需求的用戶個性化的學習服務。
(2)精準營銷推廣的建立
更細粒度的對用戶進行篩選,同時能夠精準預測可能存在的目標用戶進行推廣,從而擴大醫生覆蓋,提升推廣的轉化率。
(3)KOL用戶畫像的描繪
基於該標簽模型,增加對外部數據的採集分析,更加完整的生成醫生360度的用戶畫像,幫助企業尋找潛在的KOL用戶,實現用戶洞察,輔助市場決策。
標簽的建設是一個看似高大上,其實很繁瑣、糾結的過程,需要對業務抽絲剝繭,還要應對運營需求的各種變化,不過對公司發展的影響也是深遠的。
4. 大數據智能計算的基礎標簽體系的標簽計數
現在各個行業都運用大數據這樣的技術,技術標簽體系也應用了這樣的方式,可以節省我們很多的工作。