1. 大數據應用之「畫像」
隨著大數據技術的備受關注,有關「用戶畫像」、「商品畫像」、「產品畫像」、「資產畫像」……的討論就不絕於耳。那麼,究竟什麼是畫像?又如何進行畫像建設與畫像分析呢?我們就從以下幾個方面,著重探討一下。
1、什麼是畫像?
用戶畫像,被定義為一種抽象出用戶信息全貌的手段。
舉個簡單的例子,某個客戶的特徵描述為:500強企業,媒體行業,旗下產品覆蓋網站、APP、微博、微信等埠,擁有受眾9億+,這就是一個典型的用戶畫像,我們據以便可以知道其存在大數據方面的需求。如果用一句話來描述,即:用戶信息標簽畫。
大數據的時代背景下,畫像被認作為企業應用大數據的根基,並直接跟企業經營能力、競爭優勢的打造聯系在一起。
有評論指出,要看一家企業的數據化運營程度,首當其沖地要看其「畫像」構建情況:是否建設了「畫像」?「畫像」體系構建程度如何?針對什麼對象進行了畫像?構建畫像的各種標簽與指標情況如何?有沒針對已建立起來的」畫像」的應用?應用情況如何?等等
2、為什麼要進行用戶畫像
這跟用戶行為識別及數據應用直接相關。
各行各業都期待著,用戶能主動告訴我們,他們的行為偏好。然而,事實既總非如願,技術實現也非如此簡單:首先,用戶用以描述興趣的自然語言很難為自然語言理解技術所理解;其次,用戶的 興趣是不斷變化的,無法不停地提供興趣描述;最後,很多時候用戶並不知道自己喜歡什麼,或很難清楚描述出自己喜歡什麼。
於是,我們需要通過演算法自動發掘用戶行為數據,從用 戶的行為中推測出用戶的興趣,從而給用戶推薦滿足他們興趣的產品和服務,而畫像,就是其中最重要的應用之一。
畫像,通過為用戶打標簽的方式,使計算機能夠程序化處理與人相關的信息。
如用戶信息的分類統計:喜歡魅族的用戶有多少?喜歡魅族的人群中,男、女比例是多少?如用戶數據的挖掘工作:利用關聯規劃計算,購買該種商品的用戶還購買了什麼產品?利用聚類演算法分析,喜歡該種產品的人年齡段分布情況如何等等?
3、構建用戶畫像的關鍵是什麼?
從畫像與標簽的關系也可以窺見一斑,標簽是畫像建設的關鍵。同時,它也是大數據技術場景化的關鍵,因為如果沒有針對場景構建出來標簽,大數據的應用往往就很難「落地「。
一個標簽通常是人為規定的高度精煉的特徵指標,如年齡段標簽:25-35歲;地域標簽:北京、上海;設備標簽:PC、移動;性別標簽:男、女等等。
標簽呈現出明顯的語義化與短文本的特徵:語義化,人能很方便地理解每個標簽含義,使得用戶畫像模型具備實際意義,能夠較好的滿足業務需求;短文本,每個標簽通常只表示一種含義,標簽本身無需再做過多文本分析等預處理工作,這為利用機器提取標准化信息提供了便利。
制定標簽要遵循一定的規則,既要涵蓋重要信息,又要方便機器做標簽提取、聚合分析。
案例:用戶的商品價格偏好標簽建設過程
以某公司構建用戶消費偏好畫像為例,我們需要根據具體場景下用戶的選擇行為,將用戶偏好畫像拆分成幾個不同數據標簽:品牌、價格、購買時間、購買方式等
取用戶歷史購買消費記錄,統計用戶歷史購買商品的價格,然後對價格進行區間劃分。看用戶購買的價格帶主要集中在哪個區間中(價格帶偏愛應該是一個相對動態的標簽,更新頻率可能一個月需要定期更,而且選擇的時間段也應該是過去某個時間,不應該選擇過長時間段。大家想想為什麼?)。如何進行價格區間劃分?
方法一:按統計學的方法
1、按分位數進行。例如:25%,50%,75%
2、按等箱原則。劃分幾等分
3、看數據的分布。
4、……
方法二:按業務知識經驗
把價格帶按業務經驗,行業經驗進行劃分。
通過數據統計出來,我們可以看用戶是否商品單價是否集中的某個區間范圍內。例如,某用戶購買的商品價格主要集中在30到40這個區間內,根據歷史顯示可以說,用戶可能偏好於購買這個價格帶的商品。當未來我們需要做促銷商品推薦的時候,可以向該用戶重點推薦打折後在這個價格區間的商品。
通過用戶購買的價格區間,以及結合商品所歸屬的品類,可以看這個價格區間在這個品類中屬於什麼級別的。可以進一步給用戶打上:注重品牌、注重高性價比等標簽。
例如:如果某個品類商品的價格範圍是(5,40],該用戶購物商品主要集中(30,40]這個商品價格區間,用戶在這個品類的消費上都是最高價格區間,說明這個用戶在購買這個品類主要購買的高端商品。這樣又可以為這個用戶打上在這個品類的消費特徵標簽:品類高端用戶。
4、構建用戶畫像的方法
從上面案例中,我們可以抽象出構建用戶畫像的方法,即用戶畫像模型的構建方法。
一個事件模型包括:時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件,可以詳細描述為:什麼用戶、在什麼時間、在什麼地點、做了什麼事。
其中用戶的屬性識別關鍵在於對用戶的標識,用戶標識的目的是為了區分用戶、單點定位。時間的屬性包括兩個重要信息:時間戳和時間長度,時間戳指的是標識用戶行為的時間點,通常精確到秒;時間長度指的是標識用戶的停留時間。地點的屬性也就是用戶接觸點,在互聯網上,用戶的接觸點就包括了網址和內容兩個重要信息。
用戶行為屬性有不同的類型,結合接觸點的內容產生的標簽信息,具有不同的權重。用戶畫像的數據模型可以概括為這樣一個公式:用戶標識+時間+行為類型+接觸點(網址+內容),某個用戶在某個時間、某個地點做了什麼事情,就會被打上一個既定的標簽。而用戶標簽的權重可能隨時間的增加而衰減,因此定義時間為衰減因子,行為類型、網址決定了權重,內容決策了標簽,可以認為公式轉變為標簽權重=衰減因子×行為權重×網址子權重。
通過這樣的計算才能夠構建用戶畫像模型,進而能夠逐步細化模型,從而最終製作出一個精準的用戶模型。而每一個精準的用戶模型都能夠根據用戶不斷調整的互聯網行為進行更新,從而精準把握用戶心理,為每一個用戶提供最完美的精細化服務,全面提升客戶感知,最終實現客戶滿意度的不斷提升。
2. 如何解決highcharts畫大數據時畫圖效率問題
方法一:在Axis(包括xAxis和yAxis)有一個屬性,number類型,表示間隔,也就是間隔多少個值顯示,比如設置為5,則表示每隔5個值才顯示一個,在上面的基礎上,經過設置tickInterval值為5,效果如下:
1
2
3
4
5
6
7
8
9
xAxis: {
tickInterval: 5,
categories:['2013-08-01 00:00:00','2013-08-01 00:00:10','2013-08-01 00:00:20','2013-08-01 00:00:30','2013-08-01 00:00:40','2013-08-01 00:00:50','2013-08-01 00:01:00','2013-08-01 00:01:10','2013-08-01 00:01:20','2013-08-01 00:01:30','2013-08-01 00:01:40','2013-08-01 00:01:50','2013-08-01 00:02:00','2013-08-01 00:02:10','2013-08-01 00:02:20','2013-08-01 00:02:30','2013-08-01 00:02:40','2013-08-01 00:02:50','2013-08-01 00:03:00','2013-08-01 00:03:10','2013-08-01 00:03:20','2013-08-01 00:03:30','2013-08-01 00:03:40','2013-08-01 00:03:50','2013-08-01 00:04:00'],
labels:{
x:45,//調節x偏移
//y:-35,//調節y偏移
//rotation:25//調節傾斜角度偏移
}
},
方法二:設置滾動條
3. 有哪些軟體可以做大數據畫像
TempoBI可以做大數據畫像,給你看一個用他做的員工與學生畫像截圖。
4. 什麼叫大數據人物畫像
大數據,是指無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》[1] 中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據進行分析處理。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。 特徵 容量(Volume):數據的大小決定所考慮的數據的價值的和潛在的信息; 種類(Variety):數據類型的多樣性; 速度(Velocity):指獲得數據的速度; 可變性(Variability):妨礙了處理和有效地管理數據的過程。 真實性(Veracity):數據的質量 復雜性(Complexity):數據量巨大,來源多渠道 有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。 大數據的價值體現在以下幾個方面:1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;2) 做小而美模式的中長尾企業可以利用大數據做服務轉型;3) 面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。 不過,「大數據」在經濟發展中的巨大意義並不代表其能取代一切對於社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:「就今日言,有很多人忙碌於資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經濟意義的了解。」這確實是需要警惕的。
5. 如何利用大數據技術構建用戶畫像
1、認識用戶畫像
用戶畫像簡單來講,就是用戶信息標簽化。即收集這個用戶的各種數據和行為,從而得出這個用戶的一些基本信息和典型特徵,最後形成一個人物原型。一般用戶畫像會分析三個信息維度,分別是基本屬性、消費購物以及社交圈。其中基本屬性就是指用戶的一些基本信息,比如年紀、性別、生日、學校、所在地等等。
2、利用大數據構建用戶畫像的好處
(1)精準營銷:當企業和商家掌握了用戶的一定信息後,就可以構建出清晰的用戶畫像,這樣一來就可以根據用戶的偏好、收入等標簽,推薦給他們會感興趣的商品和服務。
(2)用戶統計:通過大數據我們可以對一些數據進行統計,比如我們經常會看到有一些APP的排行榜,甚至是滲透率、日活率這些具體數據都可以清晰統計出來。
(3)數據挖掘:構建智能推薦系統,利用關聯規則計算,喜歡紅酒的人通常喜歡什麼運動品牌,利用聚類演算法分析,喜歡紅酒的人年齡段分布情況。
(4)進行效果評估:其實相當於市場調研、用戶調研,迅速下定位服務群體,提供高水平的服務。比如你是一個買車的想要投放廣告,但是不知道哪個渠道投放更好,就可以先嘗試一下,看看數據反饋如何。
(5)私人訂制:對服務或產品進行私人訂制,然而不法商家也會利用用戶畫像來殺熟。
(6)業務經營分析:業務經營分析以及競爭分析,影響企業的商業決策,甚至發展戰略。
3、構建用戶畫像的流程
(1)數據源端:一般來講構建用戶畫像的數據來自於網站交易數據、用戶行為數據、網路日誌數據。當然也不僅限於這些數據,一些平台上還有個人徵信數據。
(2)數據預處理:第一步是清洗,把一些雜亂無序的數據清洗一下,然後歸納為結構化的數據,最後是把信息標准化。我們可以把數據的預處理簡單理解為把數據分類在一個表格中,這一步就是奠定數據分析的基石。
關於如何利用大數據技術構建用戶畫像,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
6. 你認為大數據課程要學習哪些主要知識模塊嘗試畫一幅思維導圖並提交。
入門學習需要掌握的基本技能:
1、Java
2、Linux命令
3、HDFS
4、MapRece
5、 Hadoop
6、Hive
7、ZooKeeper
8、HBase
9、Redis
10、Flume
11、SSM
12、Kafka
13、Scala
14、Spark
15、MongoDB
16、Python與數據分析等等。
我們所說的大數據培訓學習,一般是指大數據開發。大數據開發需要學習的東西可以參考一下加米穀大數據培訓0基礎學習的課程,具體描述可見guan網:
第一階段:Java設計與編程思想
第二階段: Web前端開發
第三階段: JavaEE進階
第四階段: 大數據基礎
第五階段: HDFS分布式文件系統
第六階段:MapRece分布式計算模型
第七階段: Yarn分布式資源管理器
第八階段: Zookeeper分布式協調服務
第九階段: Hbase分布式資料庫
第十階段: Hive分布式數據倉庫
第十一階段: FlumeNG分布式數據採集系統
第十二階段: Sqoop大數據遷移系統
第十三階段: Scala大數據黃金語言
第十四階段: kafka分布式匯流排系統
第十五階段: SparkCore大數據計算基石
第十六階段: SparkSQL數據挖掘利器
第十七階段: SparkStreaming流失計算平台
第十八階段: SparkMllib機器學習平台
第十九階段:SparkGraphx圖計算平台
第二十階段: 大數據項目實戰
7. 什麼是大數據畫像
大數據畫像是指,在大數據時代,企業通過對海量數據信息進行清洗、聚類、分析,將數據抽象成標簽,再利用這些標簽將用戶形象具體化的過程。
用戶畫像的建立能夠幫助企業更好地為用戶提供針對性的服務。與之相應,越來越多的第三方大數據公司,也開始依託自身的數據積累,為客戶提供用戶畫像的服務。
比如個推旗下的用戶畫像產品,能夠對用戶線上和線下行為進行大數據分析,幫助APP開發者和運營者構建全面、精準、多維的用戶畫像體系。用戶畫像的形成需要經歷四個過程,數據積累、數據清洗、數據建模分析、數據產出。
其中,數據清洗和數據建模統稱數據處理。在經過數據處理之後,個推產出獨特的冷、熱、溫數據維度,並分析用戶的線上興趣偏好和線下行為場景,形成用戶畫像。
為什麼需要用戶畫像
用戶畫像的核心工作是為用戶打標簽,打標簽的重要目的之一是為了讓人能夠理解並且方便計算機處理,如,可以做分類統計:喜歡紅酒的用戶有多少?喜歡紅酒的人群中,男、女比例是多少?
也可以做數據挖掘工作:利用關聯規則計算,喜歡紅酒的人通常喜歡什麼運動品牌?利用聚類演算法分析,喜歡紅酒的人年齡段分布情況?
大數據處理,離不開計算機的運算,標簽提供了一種便捷的方式,使得計算機能夠程序化處理與人相關的信息,甚至通過演算法、模型能夠「理解」 人。