A. 基於大數據的用戶標簽體系建設思路和應用
基於大數據的用戶標簽體系建設思路和應用
在大數據時代,數據在呈現出海量化、多樣化和價值化變化的同時,也改變了傳統IT行業的市場競爭環境、營銷策略和服務模式。
如何在ZB級的海量數據中獲取並篩選有價值的信息,是對IT企業的一大挑戰。通過構建客戶標簽,支撐精準營銷服務,是應對上述挑戰的有效解決方案。
但是怎麼設計一個完善的用戶標簽體系?怎麼打標簽?打哪些標簽?誰來打?怎麼使用用戶標簽創建商業價值?
這些都是產品設計層面需要解決的問題。
掌上醫訊一直以來都致力於打造醫生的今日頭條和智能化的學習平台,通過大數據技術實現醫生學習的智能化和個性化,而要構建這樣一個學習平台,最基礎的就是要建立用戶的標簽體系。
經過長時間的學習、思考、借鑒和實踐,現在已經有了自己的標簽構建思路,並且也已經提取出了符合自身業務的標簽。我們十分重視用戶行為日誌的收集,現在已經有了億萬級別的日誌數據,正在搭建數據處理和標簽計算平台,以下是我們整理的建設思想。
標簽系統的結構
標簽系統可以分為三個部分:數據加工層、數據服務層和數據應用層。
每個層面向的用戶對象不一樣,處理事務有所不同。層級越往下,與業務的耦合度就越小。層級越往上,業務關聯性就越強。
數據加工層
數據加工層收集、清洗和提取數據。掌上醫訊有諸多的學習模塊,同時又有網站、APP、小程序等多個產品形式,每個產品模塊和產品端都會產生大量的業務數據和行為數據,這些數據極為相似又各不相同,為了搭建完善的用戶標簽體系,需要盡可能匯總最大范圍的數據。收集了所有數據之後,需要經過清洗、去重、去無效、去異常等等。
數據業務層
數據加工層為業務層提供最基礎的數據能力,提供數據原材料。業務層屬於公共資源層,並不歸屬某個產品或業務線。它主要用來維護整個標簽體系,集中在一個地方來進行管理。
在這一層,運營人員和產品能夠參與進來,提出業務要求:將原材料進行切割。
主要完成以下核心任務:
定義業務方需要的標簽。創建標簽實例。執行業務標簽實例,提供相應數據。數據應用層
應用層的任務是賦予產品和運營人員標簽的工具能力,聚合業務數據,構建具體的數據應用場景。
(1)標簽的類型
從數據提取維度來看,標簽可分為:事實標簽、模型標簽和預測標簽。
(2)事實標簽
從生產系統獲取數據,定性或定量描述用戶的自然屬性、產品屬性、消費屬性、資源屬性等,以及根據工作人員經驗積累的業務規則進行篩選、分析生產的標簽,如是否活躍用戶、是否是考生等。
(3)模型標簽
對用戶屬性及行為等屬性的抽象和聚類,通過剖析用戶的基礎數據為用戶貼上相應的總結概括性標簽及指數,標簽代表用戶的興趣、偏好、需求等,指數代表用戶的興趣程度、需求程度、購買概率等。
(4)預測標簽
基於用戶的屬性、行為、信令、位置和特徵,挖掘用戶潛在需求,針對這些潛在需求配合營銷策略、規則進行打標,實現營銷適時、適機、適景推送給用戶。
從數據的時效性來看,標簽可分為:靜態屬性標簽和動態屬性標簽。
(5)靜態屬性標簽
長期甚至永遠都不會發生改變。比如性別,出生日期,這些數據都是既定的事實,幾乎不會改變。
(6)動態屬性標簽
存在有效期,需要定期地更新,保證標簽的有效性。比如:用戶的購買力,用戶的活躍情況。
標簽的定義
給用戶打標簽,建立用戶畫像,最終都是為了去應用,所以我們要站在應用場景上去定義用戶的標簽體系,每個標簽都有最終的用途。比如:我們做考試培訓服務,我們需要建立「是否考生」的標簽。
另外,不同的行業他們的用戶特徵也是有顯著區別的,比如:醫生用戶相比普通用戶來說,就多了像「科室」、「職稱」、「所在醫院等級」等特殊含義的標簽。
而標簽是有層級關系的,既是為了管理,更好的理解,又是為了控制粗細力度,方便最終的應用。標簽深度一般控制在四級比較合適,到了第四級就是具體的標簽實例。
我們根據公司的業務首先劃分了人口屬性、行為屬性、用戶分類和商業屬性四個大的分類,下面又分了上網習慣、學習慣、人群屬性、消費能力、消費習慣等分類,最末級精確到用戶的活躍等級、閱讀來源、考試偏好等具體的標簽。
標簽的維護
每個標簽都不會憑空產生的,也不會一成不變,更不會憑空消失。標簽的維護需要生成規則,需要定義權重,需要更新策略。
生成規則
如第一部分所說,標簽分為事實標簽,模型標簽和預測標簽三大類。對於這三類的標簽,生成規則的難度和復雜性也是逐級遞增的。事實標簽只需要考慮從什麼地方提取即可,它即包含明確的標簽定義,又包含無法窮舉的標簽集,比如:關注的病種。
而模型標簽需要進行數據的關聯和邏輯關系的設計,通過一定的模型對數據進行計算得來。而預測標簽相對就非常的復雜,無法從原始數據提取標簽,標簽的生成准確度就太依賴我們大數據分析和人工智慧技術的應用。
定義權重
一個標簽會在多個場景下出現,比如:一個疾病標簽,它極可能在瀏覽過程中生成,也有可能在搜索場景下產生,但是對於這兩個場景所對應的同一個標簽,他們的權重是不同的。瀏覽相比搜索,權重要小得多,因為搜索的主動需求更大。
更新策略
上文我們從數據的時效性上對標簽分為靜態屬性標簽和動態屬性標簽,對於靜態屬性標簽的處理相對比較簡單,就不停的累加即可。但是對於動態屬性標簽,需要對過期標簽進行降權甚至刪除處理,比如:醫生考試前和考試後,會影響「是否考生」這個標簽的,這就需要制定更新策略。
標簽建設的技術架構
標簽體系的建設涉及很多環節,數據量也十分巨大,需要有一個健壯且高效的技術架構來支持數據的存儲及計算,掌上醫訊採用了sql資料庫和no-sql資料庫來滿足結構化數據和非結構化數據的存儲。
使用hadoop的分布式存儲技術及hive和hbase組件作為數據倉庫,使用MapRece和spark分布式計算來提高計算速度,使用kylin進行多維分析,通過BI工具和介面對外提供應用,使用sqoop和kettle進行數據的抽取及流程的調用。
更多的應用場景
用戶標簽建立已經基本應用在掌上醫訊的內容智能推薦的學習場景中,但隨著標簽的完善以及智能化處理的提升,這套標簽體系將有更廣闊的應用場景。
(1)智能化學習場景的構建
通過用戶學習需求的標簽的分析進行用戶分群,針對不同的用戶群在APP的功能和內容上進行個性化展示,滿足不同學習需求的用戶個性化的學習服務。
(2)精準營銷推廣的建立
更細粒度的對用戶進行篩選,同時能夠精準預測可能存在的目標用戶進行推廣,從而擴大醫生覆蓋,提升推廣的轉化率。
(3)KOL用戶畫像的描繪
基於該標簽模型,增加對外部數據的採集分析,更加完整的生成醫生360度的用戶畫像,幫助企業尋找潛在的KOL用戶,實現用戶洞察,輔助市場決策。
標簽的建設是一個看似高大上,其實很繁瑣、糾結的過程,需要對業務抽絲剝繭,還要應對運營需求的各種變化,不過對公司發展的影響也是深遠的。
B. 如何理解數據資產目錄和數據資產標簽
《數據資產管理實踐白皮書》中對數據資產管理的定義、重要性、管理范圍以及項目落地實施的步驟作了全面的指導性說明,白皮書中匯集了國內各行業數據資產管理專家的智慧結晶,對完善國內數據資產管理相關理論體系起到了非常大的促進作用。
白皮書中也明確說明了數據資產管理是為了解決企業在釋放數據價值過程中面臨的諸多問題,通過系統化的管理方式實現數據的可得、可用、好用的目的,從而實現數據資產價值的最大化。而在實施落地過程中,要實現數據資產「可得」這個目標,首先就需要明確如何實現數據資產管理的全面性,也就是要優先解決企業中有哪些數據資產,以及這些數據資產在哪裡的問題。
同時,數據資產管理系統的用戶涵蓋了企業中對數據資產進行管理和使用在內的多種多樣的角色,而不同的角色,關心的內容也不同,因此,數據資產管理系統中需要從不同的角度來描述數據資產,並對數據資產從類型、用途等多種角度進行分類,以滿足不同工作崗位的不同角色對企業數據資產進行查找和使用的問題。為了滿足用戶對數據資產分類管理和便捷查詢的目的,數據資產管理系統中引入了資產目錄和資產標簽這兩個概念。
雖然,資產目錄和資產標簽這兩個概念的目的都是為了對數據資產進行歸類,但是,在實踐的過程中,會遇到對這兩個概念定義不清,導致大家都知道這兩個概念,又無法對兩者的區別給出明確定義的問題。並且,對於這兩者的概念和區別,很少能在哪個資料中明確地給出一個標准統一的說明,也導致在數據資產系統建設的初期會出現一定程度概念不清晰,需求溝通過程中效率低下的問題。
那麼,數據資產目錄和數據資產標簽的區別是什麼呢?
在說明這兩個概念的差別之前,可以想一下目錄和標簽的區別,在生活中的很多場景中都使用了這兩個概念。
例如,每一本書都會有目錄,目錄中描述了整本書的內容體系框架,也明確標注了不同章節內容的頁碼,方便讀者快速定位。那麼,目錄其實至少包含了兩個方面的作用,第一個是為了讓讀者快速了解書中包含的內容,第二個是為了讓讀者根據內容的體系框架快速定位到頁數,方便快速查找。有很多專業書籍中,不僅會有目錄,在書籍的最後還會有專業術語表或者是參考文獻表等。而這些,都是為了滿足讀者從某一個專業術語角度或是某一篇參考文獻為出發點,找到書中相對應內容的需求。
再舉一個例子,市面上有很多雲筆記軟體,國內比較著名的有印象筆記、有道雲筆記和為知筆記等,在這些雲筆記軟體中也能夠找到目錄和標簽的概念。例如,雲筆記軟體中可以創建筆記本組、筆記本或是筆記的文件夾結構用於對用戶記錄的筆記進行歸類,同時,又會有一個標簽管理的功能,用戶可以定義不同的標簽組和標簽,並且可以對筆記本中的筆記打上多個標簽。這樣又實現了可以從目錄中定位到筆記,又可以從某個標簽找到與標簽相關筆記的目的。
從這兩個例子闡述的目錄和標簽的特徵,比較之後可以歸結出幾個特點:
根據以上例子中所描述的場景,進而總結出的目錄和標簽的差別,再結合數據資產管理的業務場景,基本可以總結出數據資產目錄和數據資產標簽的特徵和構建的方式。
數據資產目錄和數據資產標簽的概念是在建設數據資產管理系統中,必需要考慮和設計的前提條件,甚至是在整體規劃和咨詢的必需產出物。目錄和標簽的構建,體現出的不僅僅是企業資產的種類和范圍,還體現了對業務場景中數據資產的應用程度,同時也是賦能業務和數據資產價值最大化的體現。
C. 瀹㈡埛鐢誨儚鍙婃爣絳句綋緋
涓銆佹爣絳劇$悊緋葷粺鐨勫簲鐢ㄥ強鍏跺満鏅
1.鏍囩劇郴緇熺殑瀹氫箟
鐢ㄦ埛鏍囩炬槸濉鍏呯敤鎴風敾鍍忕殑鏍稿績鍥犵礌錛屾槸灝嗙敤鎴峰湪騫沖彴鍐呮墍浜х敓鐨勮屼負鏁版嵁錛屽垎鏋愭彁鐐煎悗鐢熸垚鍏鋒湁宸寮傛х壒寰佺殑褰㈠硅瘝銆傚湪鐢ㄦ埛涓庝紒涓氫簰鍔ㄧ殑榪囩▼涓錛屼篃浼氫富鍔ㄦ垨鑰呰鍔ㄧ暀涓嬪悇縐嶈屼負鏁版嵁錛屼紒涓氬彲浠ュ皢榪欎簺鏁版嵁鎶撳彇騫跺綊綰蟲垚涓涓涓鏍囩捐瘝錛屽氨褰㈡垚浜嗘弿榪扮敤鎴風壒寰佺殑鏍囩俱
2.鏍囩劇郴緇熺殑搴旂敤
鏍囩劇郴緇熶富瑕佸簲鐢ㄤ簬浠ヤ笅鍦烘櫙錛
1銆佺敤鎴風壒寰佹礊瀵
鐢ㄦ埛鐢誨儚鏄甯鍔╀紒涓氬憳宸ヤ簡瑙g敤鎴風殑閲嶈佸伐鍏鳳紝鍙浠ヨ緟鍔╀笟鍔′漢鍛樺揩閫熻幏鍙栫敤鎴風殑淇℃伅錛屽緩絝嬭ょ煡錛屽彂鐜扮敤鎴風壒寰侊紝鑾峰緱涓氬姟鐏墊劅銆
2銆佸唴瀹圭簿鍑嗘帹閫
浠ュ㈡埛鏈嬪弸鍦堣繍钀ヤ負渚嬶紝榪愯惀浜哄憳鍙浠ユ寚瀹氭爣絳劇敤鎴峰彲瑙侊紝璁╂秷鎮綺懼噯瑙﹁揪錛岃繖鏍峰彲浠ュ疄鐜版湅鍙嬪湀鐨勫畾鍚戞帹閫併
瀹氭湡鍦板仛涓浜涘㈡埛鏈嬪弸鍦堛佸井淇$兢紱忓埄媧誨姩錛屽畾鍚戦個璇鋒煇涓鏍囩劇殑鐢ㄦ埛鍙備笌錛屾彁鍗囩ぞ緹よ繍钀ユ晥鐜囷紝騫朵笖鎻愬崌钀ラ攢鐨勭簿鍑嗘с
濡傛灉鏄鍥哄畾鐨勬枃妗&钀ラ攢鎺ㄩ侊紝鍙浠ュ仛鎴愯嚜鍔ㄥ寲錛屾瘮濡備細鍛樺埌鏈熸彁閱掋佹矇榛橀勮︽彁閱掋佹祦澶卞彫鍥炵瓑銆
3銆佹暟鎹鍒嗘瀽
鎴戜滑鍙浠ラ氳繃鏍囩懼仛寰堝氱淮搴︾殑鍒嗘瀽銆
渚嬪備互鎬у埆緇村害榪涜屽垎鏋愮粺璁★紝浠ヨ屼笟榪涜屽垎鏋愮粺璁★紝濡傛灉浠ョ敤鎴風殑棣栨℃潵婧愪綔涓烘爣絳撅紝榪樺彲浠ヤ簡瑙g敤鎴風殑娓犻亾淇℃伅銆傜敤鎴鋒爣絳撅紙鐢ㄦ埛灞炴э級鍙浠ヤ綔涓虹粏鍒嗙淮搴︽敮鎸佸氳嗚掔殑鏁版嵁灞曠ず銆
4銆佸叾浠栧姛鑳藉簲鐢
闄や簡涓婅堪鍦烘櫙浠ュ栵紝鐢ㄦ埛鏍囩捐繕鍙浠ユ垚涓哄叾浠栧姛鑳界殑鍩虹錛屾瘮濡傚ソ鍙嬭傚彉鍔熻兘錛屾櫤鑳借〃鍗曞姛鑳界瓑銆傝嚜鍔ㄥ寲鐨勪笟鍔$郴緇熻兘鏇存湁鏁堢殑鍒╃敤榪欎簺鐢ㄦ埛鏍囩撅紝浠庤屽彂鎸ユ洿宸ㄥぇ鐨勫▉鍔涖
浜屻佸満鏅鏍囩劇被鍨
1.闈欐佹爣絳句笌鍔ㄦ佹爣絳
鎸夋暟鎹鐨勫疄鏁堟ф潵鐪嬶紝鏍囩懼彲鍒嗕負闈欐佸睘鎬ф爣絳句笌鍔ㄦ佸睘鎬ф爣絳俱
闈欐佹爣絳撅細鐢ㄦ埛涓誨姩鎻愪緵鐨勬暟鎹錛氭寚鐢ㄦ埛涓嶅彉鐨勫熀紜淇℃伅錛屽氫負鐢ㄦ埛鍥哄畾鏁版嵁錛屽傚撳悕銆佹у埆銆佸勾榫勩佽韓楂樸佷綋閲嶃佽亴涓氥佸湴鍖恆佽懼囦俊鎮銆佹潵婧愭笭閬撶瓑銆 闈欐佹爣絳句富瑕佺敤浜庝簡瑙g敤鎴風殑鍩虹闇奼傘
鍔ㄦ佹爣絳撅細瀛樺湪鏈夋晥鏈燂紝闇瑕佸畾鏈熷湴鏇存柊錛屼繚璇佹爣絳劇殑鏈夋晥鎬с傛瘮濡傜敤鎴風殑璐涔板姏錛岀敤鎴風殑媧昏穬鎯呭喌銆