A. 金融行业如何用大数据构建精准用户画像
用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了。
为了精准地描述用户特征,可以参考下面的思路,从用户微观画像的建立→用户画像的标签建模→用户画像的数据架构,我们由微观到宏观,逐层分析。
首先我们从微观来看,如何给用户的微观画像进行分级呢?如下图所示
总原则:基于一级分类上述分类逐级进行细分。
第一分类:人口属性、资产特征、营销特性、兴趣爱好、购物爱好、需求特征
市场上用户画像的方法很多,许多企业也提供用户画像服务,将用户画像提升到很有逼格一件事。金融企业是最早开始用户画像的行业,由于拥有丰富的数据,金融企业在进行用户画像时,对众多纬度的数据无从下手,总是认为用户画像数据纬度越多越好,画像数据越丰富越好,某些输入的数据还设定了权重甚至建立了模型,搞的用户画像是一个巨大而复杂的工程。但是费力很大力气进行了画像之后,却发现只剩下了用户画像,和业务相聚甚远,没有办法直接支持业务运营,投入精力巨大但是回报微小,可以说是得不偿失,无法向领导交代。
事实上, 用户画像涉及数据的纬度需要业务场景结合 ,既要简单干练又要和业务强相关,既要筛选便捷又要方便进一步操作。用户画像需要坚持三个原则,分别是人口属性和信用信息为主,强相关信息为主,定性数据为主。下面就分别展开进行解释和分析。
描述一个用户的信息很多,信用信息是用户画像中重要的信息,信用信息是描述一个人在社会中的消费能力信息。任何企业进行用户画像的目的是寻找目标客户,其必须是具有潜在消费能力的用户。 信用信息可以直接证明客户的消费能力,是用户画像中最重要和基础的信息 。一句戏言,所有的信息都是信用信息就是这个道理。其包含消费者工作、收入、学历、财产等信息。
我们需要介绍一下强相关信息和弱相关信息。 强相关信息就是同场景需求直接相关的信息,其可以是因果信息 ,也可以是相关程度很高的信息。
如果定义采用0到1作为相关系数取值范围的化,0.6以上的相关系数就应该定义为强相关信息。例如在其他条件相同的前提下,35岁左右人的平均工资高于平均年龄为30岁的人,计算机专业毕业的学生平均工资高于哲学专业学生,从事金融行业工作的平均工资高于从事纺织行业的平均工资,上海的平均工资超过海南省平均工资。从这些信息可以看出来人的年龄、学历、职业、地点对收入的影响较大,同收入高低是强相关关系。简单的将,对信用信息影响较大的信息就是强相关信息,反之则是弱相关信息。
用户其他的信息,例如用户的身高、体重、姓名、星座等信息,很难从概率上分析出其对消费能力的影响,这些弱相关信息,这些信息就不应该放到用户画像中进行分析,对用户的信用消费能力影响很小,不具有较大的商业价值。
用户画像和用户分析时,需要考虑强相关信息,不要考虑弱相关信息,这是用户画像的一个原则。
例如可以将年龄段对客户进行划分,18岁-25岁定义为年轻人,25岁-35岁定义为中青年,36-45定义为中年人等。可以参考个人收入信息,将人群定义为高收入人群,中等收入人群,低收入人群。参考资产信息也可以将客户定义为高、中、低级别。定性信息的类别和方式方法,金融可以从自身业务出发,没有固定的模式。
将金融企业各类定量信息,集中在一起,对定性信息进行分类,并进行定性化,有利与对用户进行筛选,快速定位目标客户,是用户画像的另外一个原则。
下面内容将详细介绍,如何根据用户行为,构建模型产出标签、权重。一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事。
什么用户 :关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。
以上列举了互联网主要的用户标识方法,获取方式由易到难。视企业的用户粘性,可以获取的标识信息有所差异。
什么时间 :时间包括两个重要信息,时间戳+时间长度。时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度,准确度最多也只能到毫秒。时间长度,为了标识用户在某一页面的停留时间。
什么地点 :用户接触点,Touch Point。对于每个用户接触点。潜在包含了两层信息:网址 + 内容。网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。可以是PC上某电商网站的页面url,也可以是手机上的微博,微信等应用某个功能页面,某款产品应用的特定画面。如,长城红酒单品页,微信订阅号页面,某游戏的过关页。
内容 :每个url网址(页面/屏幕)中的内容。可以是单品的相关信息:类别、品牌、描述、属性、网站信息等等。如,红酒,长城,干红,对于每个互联网接触点,其中网址决定了权重;内容决定了标签。
注:接触点可以是网址,也可以是某个产品的特定功能界面。如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。 商品的售卖价值,不在于成本,更在于售卖地点。 标签均是矿泉水,但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即愿意支付的价值不同。
标签 权重
矿泉水 1 // 超市
矿泉水 3 // 火车
矿泉水 5 // 景区
类似的,用户在京东商城浏览红酒信息,与在品尚红酒网浏览红酒信息,表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。
所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。
什么事 :用户行为类型,对于电商有如下典型行为:浏览、添加购物车、搜索、评论、购买、点击赞、收藏 等等。
不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。如,购买权重计为5,浏览计为1
红酒 1 // 浏览红酒
红酒 5 // 购买红酒
综合上述分析,用户画像的数据模型,可以概括为下面的公式: 用户标识 + 时间 + 行为类型 + 接触点(网址+内容) ,某用户因为在什么时间、地点、做了什么事。所以会打上**标签。
如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。
标签: 红酒,长城
时间: 因为是昨天的行为,假设衰减因子为:r=0.95
行为类型: 浏览行为记为权重1
地点: 品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)
假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。
则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。
上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。
本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。
核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。
比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战 0.5、港台 0.3。最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。
比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户 1.0。
百分点现已全面应用用户画像技术于推荐引擎中 ,在对某电商客户,针对活动页新访客的应用中,依靠用户画像产生的个性化效果,对比热销榜,推荐效果有显著提升:推荐栏点击率提升27%, 订单转化率提升34%。
金融企业内部的信息分布在不同的系统中,一般情况下, 人口属性信息主要集中在客户关系管理系统 , 信用信息主要集中在交易系统和产品系统之中 ,也集中在客户关系管理系统中, 消费特征主要集中在渠道和产品系统中 。
兴趣爱好和社交信息需要从外部引入 ,例如客户的行为轨迹可以代表其兴趣爱好和品牌爱好,移动设备到位置信息可以提供较为准确的兴趣爱好信息。社交信息,可以借助于金融行业自身的文本挖掘能力进行采集和分析,也是可以借助于厂商的技术能力在社交网站上直接获得。社交信息往往是实时信息,商业价值较高,转化率也较高,是大数据预测方面的主要信息来源。例如用户在社交网站上提出罗马哪里好玩的问题,就代表用户未来可能有出国旅游的需求;如果客户在对比两款汽车的优良,客户购买汽车的可能性就较大。金融企业可以及时介入,为客户提供金融服务。
客户画像数据主要分为五类, 人口属性、信用信息、消费特征、兴趣爱好、社交信息。 这些数据都分布在不同的信息系统,金融企业都上线了数据仓库(DW),所有画像相关的强相关信息都可以从数据仓库里面整理和集中,并且依据画像商业需求,利用跑批作业,加工数据,生成用户画像的原始数据。
数据仓库成为用户画像数据的主要处理工具,依据业务场景和画像需求将原始数据进行分类、筛选、归纳、加工等,生成用户画像需要的原始数据。
用户画像的纬度信息不是越多越好,只需要找到这五大类画像信息强相关信息,同业务场景强相关信息,同产品和目标客户强相关信息即可。根本不存在360度的用户画像信息,也不存在丰富的信息可以完全了解客户,另外数据的实效性也要重点考虑。
依据用户画像的原则,所有画像信息应该是五大分类的强相关信息。强相关信息是指同业务场景强相关信息,可以帮助金融行业定位目标客户,了解客户潜在需求,开发需求产品。
只有强相关信息才能帮助金融企业有效结合业务需求,创造商业价值 。例如姓名、手机号、家庭地址就是能够触达客户的强人口属性信息,收入、学历、职业、资产就是客户信用信息的强相关信息。差旅人群、境外游人群、汽车用户、旅游人群、母婴人群就是消费特征的强相关信息。摄影爱好者、游戏爱好者、健身爱好者、电影人群、户外爱好者就是客户兴趣爱好的强相关信息。社交媒体上发表的旅游需求,旅游攻略,理财咨询,汽车需求,房产需求等信息代表了用户的内心需求,是社交信息场景应用的强相关信息。
金融企业内部信息较多,在用户画像阶段不需要对所有信息都采用,只需要采用同业务场景和目标客户强相关的信息即可,这样有助于提高产品转化率,降低投资回报率(ROI),有利于简单找到业务应用场景,在数据变现过程中也容易实现。
千万不要将用户画像工作搞的过于复杂,同业务场景关系不大, 这样就让很多金融企业特别是领导失去用户画像的兴趣,看不到用户画像的商业,不愿意在大数据领域投资。为企业带来商业价值才是用户画像工作的主要动力和主要目的。
金融企业集中了所有信息之后,依据业务需求,对信息进行加工整理,需要对定量的信息进行定性,方便信息分类和筛选。这部分工作建议在数据仓库进行,不建议在大数据管理平台(DMP)里进行加工。
定性信息进行定量分类是用户画像的一个重要工作环节,具有较高的业务场景要求,考验用户画像商业需求的转化。其主要目的是帮助企业将复杂数据简单化,将交易数据定性进行归类,并且融入商业分析的要求,对数据进行商业加工。例如可以将客户按照年龄区间分为学生,青年,中青年,中年,中老年,老年等人生阶段。源于各人生阶段的金融服务需求不同,在寻找目标客户时,可以通过人生阶段进行目标客户定位。企业可以利用客户的收入、学历、资产等情况将客户分为低、中、高端客户,并依据其金融服务需求,提供不同的金融服务。可以参考其金融消费记录和资产信息,以及交易产品,购买的产品,将客户消费特征进行定性描述,区分出电商客户,理财客户,保险客户,稳健投资客户,激进投资客户,餐饮客户,旅游客户,高端客户,公务员客户等。利用外部的数据可以将定性客户的兴趣爱好,例如户外爱好者,奢侈品爱好者,科技产品发烧友,摄影爱好者,高端汽车需求者等信息。
将定量信息归纳为定性信息,并依据业务需求进行标签化 ,有助于金融企业找到目标客户,并且了解客户的潜在需求,为金融行业的产品找到目标客户,进行精准营销,降低营销成本,提高产品转化率。另外金融企业还可以依据客户的消费特征、兴趣爱好、社交信息及时为客户推荐产品,设计产品,优化产品流程。提高产品销售的活跃率,帮助金融企业更好地为客户设计产品。
利用数据进行画像目的主要是为业务场景提供数据支持,包括寻找到产品的目标客户和触达客户。金融企业自身的数据不足以了解客户的消费特征、兴趣爱好、社交信息。
金融企业可以引入外部信息来丰富客户画像信息,例如引入银联和电商的信息来丰富消费特征信息,引入移动大数据的位置信息来丰富客户的兴趣爱好信息,引入外部厂商的数据来丰富社交信息等。
外部信息的纬度较多,内容也很丰富,但是如何引入外部信息是一项具有挑战的工作。外部信息在引入时需要考虑几个问题,分别是外部数据的覆盖率,如何和内部数据打通,和内部信息的匹配率,以及信息的相关程度,还有数据的鲜活度,这些都是引入外部信息的主要考虑纬度。外部数据鱼龙混杂,数据的合规性也是金融企业在引入外部数据时的一个重要考虑, 敏感的信息例如手机号、家庭住址、身份证号在引入或匹配时都应该注意隐私问题 , 基本的原则是不进行数据交换,可以进行数据匹配和验证。
外部数据不会集中在某一家,需要金融企业花费大量时间进行寻找。外部数据和内部数据的打通是个很复杂的问题, 手机号/设备号/身份证号的MD5数值匹配是一种好的方法 ,不涉及隐私数据的交换,可以进行唯一匹配。依据行业内部的经验,没有一家企业外部数据可以满足企业要求,外部数据的引入需要多方面数据。一般情况下,数据覆盖率达到70%以上,就是一个非常高的覆盖率。覆盖率达到20%以上就可以进行商业应用了。
金融行业外部数据源较好合作方有 银联、芝麻信用、运营商、中航信、腾云天下、腾讯、微博、前海征信,各大电商平台等 。市场上数据提供商已经很多,并且数据质量都不错,需要金融行业一家一家去挖掘,或者委托一个厂商代理引入也可以。独立第三方帮助金融行业引入外部数据可以降低数据交易成本,同时也可以降低数据合规风险,是一个不错的尝试。另外各大城市和区域的大数据交易平台,也是一个较好的外部数据引入方式。
用户画像主要目的是让金融企业挖掘已有的数据价值,利用数据画像技术寻找到目标客户和客户的潜在需求,进行产品推销和设计改良产品。
用户画像从业务场景出发,实现数据商业变现重要方式。 用户画像是数据思维运营过程中的一个重要闭环,帮助金融企业利用数据进行精细化运营和市场营销,以及产品设计。用户画像就是一切以数据商业化运营为中心,以商业场景为主,帮助金融企业深度分析客户,找到目标客户。
DMP(大数据管理平台)在整个用户画像过程中起到了一个数据变现的作用。从技术角度来讲,DMP将画像数据进行标签化,利用机器学习算法来找到相似人群,同业务场景深度结合,筛选出具有价值的数据和客户,定位目标客户,触达客户,对营销效果进行记录和反馈。大数据管理平台DMP过去主要应用在广告行业,在金融行业应用不多,未来会成为数据商业应用的主要平台。
DMP可以帮助信用卡公司筛选出未来一个月可能进行分期付款的客户,电子产品重度购买客户,筛选出金融理财客户,筛选出高端客户(在本行资产很少,但是在他行资产很多),筛选出保障险种,寿险,教育险,车险等客户,筛选出稳健投资人,激进投资人,财富管理等方面等客户,并且可以触达这些客户,提高产品转化率,利用数据进行价值变现。DMP还可以了解客户的消费习惯、兴趣爱好、以及近期需求,为客户定制金融产品和服务,进行跨界营销。利用客户的消费偏好,提高产品转化率,提高用户黏度。
DMP还作为引入外部数据的平台,将外部具有价值的数据引入到金融企业内部,补充用户画像数据,创建不同业务应用场景和商业需求,特别是移动大数据、电商数据、社交数据的应用,可以帮助金融企业来进行数据价值变现,让用户画像离商业应用更加近一些,体现用户画像的商业价值。
用户画像的关键不是360度分析客户,而是为企业带来商业价值 ,离开了商业价值谈用户画像就是耍流氓。金融企业用户画像项目出发点一定要从业务需求出发,从强相关数据出发,从业务场景应用出发。用户画像的本质就是深度分析客户,掌握具有价值数据,找到目标客户,按照客户需求来定制产品,利用数据实现价值变现。
银行具有丰富的交易数据、个人属性数据、消费数据、信用数据和客户数据,用户画像的需求较大。但是缺少社交信息和兴趣爱好信息。
到银行网点来办业务的人年纪偏大,未来消费者主要在网上进行业务办理。银行接触不到客户,无法了解客户需求,缺少触达客户的手段。分析客户、了解客户、找到目标客户、为客户设计其需要的产品,成了银行进行用户画像的主要目的。银行的主要业务需求集中在消费金融、财富管理、融资服务,用户画像要从这几个角度出发,寻找目标客户。
银行的客户数据很丰富,数据类型和总量较多,系统也很多。可以严格遵循用户画像的五大步骤。先利用数据仓库进行数据集中,筛选出强相关信息,对定量信息定性化,生成DMP需要的数据。利用DMP进行基础标签和应用定制,结合业务场景需求,进行目标客户筛选或对用户进行深度分析。同时利用DMP引入外部数据,完善数据场景设计,提高目标客户精准度。找到触达客户的方式,对客户进行营销,并对营销效果进行反馈,衡量数据产品的商业价值。利用反馈数据来修正营销活动和提高ROI。形成市场营销的闭环,实现数据商业价值变现的闭环。另外DMP还可以深度分析客户,依据客户的消费特征、兴趣爱好、社交需求、信用信息来开发设计产品,为金融企业的产品开发提供数据支撑,并为产品销售方式提供场景数据。
简单介绍一些DMP可以做到的数据场景变现。
A 寻找分期客户
利用发卡机构数据+自身数据+信用卡数据,发现信用卡消费超过其月收入的用户,推荐其进行消费分期。
B 寻找高端资产客户
利用发卡机构数据+移动位置数据(别墅/高档小区)+物业费代扣数据+银行自身数据+汽车型号数据,发现在银行资产较少,在其他行资产较多的用户,为其提供高端资产管理服务。
C 寻找理财客户
利用自身数据(交易+工资)+移动端理财客户端/电商活跃数据。发现客户将工资/资产转到外部,但是电商消费不活跃客户,其互联网理财可能性较大,可以为其提供理财服务,将资金留在本行。
D 寻找境外游客户
利用自身卡消费数据+移动设备位置信息+社交好境外强相关数据(攻略,航线,景点,费用),寻找境外游客户为其提供金融服务。
E 寻找贷款客户
利用自身数据(人口属性+信用信息)+移动设备位置信息+社交购房/消费强相关信息,寻找即将购车/购房的目标客户,为其提供金融服务(抵押贷款/消费贷款)。
来源: 钱塘大数据二次整理,TalkingData的鲍忠铁原文出处,
B. 大数据应用之“画像”
随着大数据技术的备受关注,有关“用户画像”、“商品画像”、“产品画像”、“资产画像”……的讨论就不绝于耳。那么,究竟什么是画像?又如何进行画像建设与画像分析呢?我们就从以下几个方面,着重探讨一下。
1、什么是画像?
用户画像,被定义为一种抽象出用户信息全貌的手段。
举个简单的例子,某个客户的特征描述为:500强企业,媒体行业,旗下产品覆盖网站、APP、微博、微信等端口,拥有受众9亿+,这就是一个典型的用户画像,我们据以便可以知道其存在大数据方面的需求。如果用一句话来描述,即:用户信息标签画。
大数据的时代背景下,画像被认作为企业应用大数据的根基,并直接跟企业经营能力、竞争优势的打造联系在一起。
有评论指出,要看一家企业的数据化运营程度,首当其冲地要看其“画像”构建情况:是否建设了“画像”?“画像”体系构建程度如何?针对什么对象进行了画像?构建画像的各种标签与指标情况如何?有没针对已建立起来的”画像”的应用?应用情况如何?等等
2、为什么要进行用户画像
这跟用户行为识别及数据应用直接相关。
各行各业都期待着,用户能主动告诉我们,他们的行为偏好。然而,事实既总非如愿,技术实现也非如此简单:首先,用户用以描述兴趣的自然语言很难为自然语言理解技术所理解;其次,用户的 兴趣是不断变化的,无法不停地提供兴趣描述;最后,很多时候用户并不知道自己喜欢什么,或很难清楚描述出自己喜欢什么。
于是,我们需要通过算法自动发掘用户行为数据,从用 户的行为中推测出用户的兴趣,从而给用户推荐满足他们兴趣的产品和服务,而画像,就是其中最重要的应用之一。
画像,通过为用户打标签的方式,使计算机能够程序化处理与人相关的信息。
如用户信息的分类统计:喜欢魅族的用户有多少?喜欢魅族的人群中,男、女比例是多少?如用户数据的挖掘工作:利用关联规划计算,购买该种商品的用户还购买了什么产品?利用聚类算法分析,喜欢该种产品的人年龄段分布情况如何等等?
3、构建用户画像的关键是什么?
从画像与标签的关系也可以窥见一斑,标签是画像建设的关键。同时,它也是大数据技术场景化的关键,因为如果没有针对场景构建出来标签,大数据的应用往往就很难“落地“。
一个标签通常是人为规定的高度精炼的特征指标,如年龄段标签:25-35岁;地域标签:北京、上海;设备标签:PC、移动;性别标签:男、女等等。
标签呈现出明显的语义化与短文本的特征:语义化,人能很方便地理解每个标签含义,使得用户画像模型具备实际意义,能够较好的满足业务需求;短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
制定标签要遵循一定的规则,既要涵盖重要信息,又要方便机器做标签提取、聚合分析。
案例:用户的商品价格偏好标签建设过程
以某公司构建用户消费偏好画像为例,我们需要根据具体场景下用户的选择行为,将用户偏好画像拆分成几个不同数据标签:品牌、价格、购买时间、购买方式等
取用户历史购买消费记录,统计用户历史购买商品的价格,然后对价格进行区间划分。看用户购买的价格带主要集中在哪个区间中(价格带偏爱应该是一个相对动态的标签,更新频率可能一个月需要定期更,而且选择的时间段也应该是过去某个时间,不应该选择过长时间段。大家想想为什么?)。如何进行价格区间划分?
方法一:按统计学的方法
1、按分位数进行。例如:25%,50%,75%
2、按等箱原则。划分几等分
3、看数据的分布。
4、……
方法二:按业务知识经验
把价格带按业务经验,行业经验进行划分。
通过数据统计出来,我们可以看用户是否商品单价是否集中的某个区间范围内。例如,某用户购买的商品价格主要集中在30到40这个区间内,根据历史显示可以说,用户可能偏好于购买这个价格带的商品。当未来我们需要做促销商品推荐的时候,可以向该用户重点推荐打折后在这个价格区间的商品。
通过用户购买的价格区间,以及结合商品所归属的品类,可以看这个价格区间在这个品类中属于什么级别的。可以进一步给用户打上:注重品牌、注重高性价比等标签。
例如:如果某个品类商品的价格范围是(5,40],该用户购物商品主要集中(30,40]这个商品价格区间,用户在这个品类的消费上都是最高价格区间,说明这个用户在购买这个品类主要购买的高端商品。这样又可以为这个用户打上在这个品类的消费特征标签:品类高端用户。
4、构建用户画像的方法
从上面案例中,我们可以抽象出构建用户画像的方法,即用户画像模型的构建方法。
一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户、在什么时间、在什么地点、做了什么事。
其中用户的属性识别关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。时间的属性包括两个重要信息:时间戳和时间长度,时间戳指的是标识用户行为的时间点,通常精确到秒;时间长度指的是标识用户的停留时间。地点的属性也就是用户接触点,在互联网上,用户的接触点就包括了网址和内容两个重要信息。
用户行为属性有不同的类型,结合接触点的内容产生的标签信息,具有不同的权重。用户画像的数据模型可以概括为这样一个公式:用户标识+时间+行为类型+接触点(网址+内容),某个用户在某个时间、某个地点做了什么事情,就会被打上一个既定的标签。而用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子,行为类型、网址决定了权重,内容决策了标签,可以认为公式转变为标签权重=衰减因子×行为权重×网址子权重。
通过这样的计算才能够构建用户画像模型,进而能够逐步细化模型,从而最终制作出一个精准的用户模型。而每一个精准的用户模型都能够根据用户不断调整的互联网行为进行更新,从而精准把握用户心理,为每一个用户提供最完美的精细化服务,全面提升客户感知,最终实现客户满意度的不断提升。
C. 那种做大数据公司,人群画像标签是怎么建出来的
MobTech提供大数据粉雾,据我所知,平台月活设备有5亿安卓+1.5亿的ios的量级,平台通过专sdk本身的分享特性,可以属获取到一些授权画像数据,但是并不是每一台设备都可以获取到所有的画像,因此会存在一定的缺失或者异常值,关于人口属性这部分的标签,他们主要利用分类预测的方法进行预测和补全。
比如:地理位置、手机型号、消费记录啊……
D. 什么叫大数据人物画像
大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[1] 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。 特征 容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息; 种类(Variety):数据类型的多样性; 速度(Velocity):指获得数据的速度; 可变性(Variability):妨碍了处理和有效地管理数据的过程。 真实性(Veracity):数据的质量 复杂性(Complexity):数据量巨大,来源多渠道 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。 大数据的价值体现在以下几个方面:1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;2) 做小而美模式的中长尾企业可以利用大数据做服务转型;3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。 不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。
E. 如何利用大数据进行个人画像
首先要知道,社 交网 站、购物网 站包括你使用的苹 果、安 卓手机,是没有权 限窃 听你的电话或者盗 取你的搜 索资料的,只是你的行为数据让你的手机意识到了你具体想要什么。再例如,你注 册一个账号,需要输入自己的名字;手机号;性 别;所在地;这些是微不足道的基础数据。当然还有你的消费记录;打 车频率;浏 览的公 众号类型;玩过的游戏...这些行为最后统统会变成几千个事实标 签,成为你行为数 据的一环节。采集标签的目的,就是为了构 建用户画 像,从杂 乱的标签当中,最终模 拟一个和你兴趣、爱好、思想相近的“你”。例如,你玩手机看到一篇内容标签为“美 女”的文章,而这并不表明你真的喜欢美 女,也可能是手 滑点的。因此,手机判 断你的兴趣喜好还要根据浏 览的停 留时间、搜 索次数、是否评 论转 发等等。当然,这关系到一个初级的内容标签 权 重算法:兴歼袜态趣标签( 美 女 )权 重 = 行为权 重 x 访问时长 x 衰 减因子行为权 重:什好判么都不干 1 分,评 论 + 0.5,点 赞 + 0.5,转 发 + 2,收 藏 + 1时长权 重:10S 以内权重为 0.5,10S-60S 为 1,60S 以上为 2衰 减因子:0 - 3 天内权 重为 1,3 - 7 天权 重为 0.85,7 - 15 天权 重为 0.7,15 - 30 天权 重为 0.5,30 天以上权 重为 0.1。兴趣标签权 重和你的阅读时长、评 论、点 赞、转 发收 藏有着密 切关系,并氏源且不同操作有着不同的加分数值,最终累 积成行为权 重。这点有点类 似网 易 云在私 人FM为你推 荐的歌曲类 似。停留时间越长,时间权 重也随之越高。你经常浏 览美 女,评 论关于美 女的文章,看关于美 女的视频,手机会将你一段时间内所有关于美 女的兴趣权 重累 加,再以S形函数标准化,最终得到一个从0到10的兴趣标签值。这个数值越高,你就对含有美 女的内容越感兴趣。不仅仅局 限于内容兴趣,这种算 法还能够根据你的消费能力、消费兴趣、社交习惯等多个维 度建立用 户画 像,并计算你的喜好。之后,这些喜好会被转换成特 征向 量,比如你的美 女兴趣标签值是8,消费能力是5,社 交偏 好是2,那么向量表示为r(8,5,2)。我们可以将特 征向 量想象成一个多 维空 间的一个坐 标点,通过每个用户的向 量坐标去带入余 弦公式或距离公式中,就能计算出和你相 似的人,进而把用 户分类。这是一个大工程。但是行为数 据只能计算出你的喜好,而无法判 断出你的性 别、学历等深入的个 人属 性。这需要将已知性 别和学 历的用户作为样 本,一些用来训练模 型,一些用来测 试精 准 度。现如今,各大平 台对于用户性 别的预 测准 确 度达到90%以上。因此,你的手机就能够得到大致这样一个用户画 像,它包含了你的各项兴趣权 重:所以说,A P P根 据这个画 像,便根据类 似的广告信息,找到对应的消费 者。
F. 利用大数据技术如何构建用户画像
【导读】目前,我们已经身处大数据时代,大数据的使用不仅普通用户可以享受到技术带来的便利,企业也可以从数据中提取有商业价值的信息,构建出用户画像,从而对用户行为进行分析和预测。虽然用户画像不是什么新鲜的概念,但是大数据技术的出现使得用户画像更加清晰客观,那么利用大数据技术如何构建用户画像?
1、认识用户画像
用户画像简单来讲,就是用户信息标签化。即收集这个用户的各种数据和行为,从而得出这个用户的一些基本信息和典型特征,最后形成一个人物原型。一般用户画像会分析三个信息维度,分别是基本属性、消费购物以及社交圈。其中基本属性就是指用户的一些基本信息,比如年纪、性别、生日、学校、所在地等等。
2、利用大数据构建用户画像的好处
(1)精准营销:当企业和商家掌握了用户的一定信息后,就可以构建出清晰的用户画像,这样一来就可以根据用户的偏好、收入等标签,推荐给他们会感兴趣的商品和服务。
(2)用户统计:通过大数据我们可以对一些数据进行统计,比如我们经常会看到有一些APP的排行榜,甚至是渗透率、日活率这些具体数据都可以清晰统计出来。
(3)数据挖掘:构建智能推荐系统,利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌,利用聚类算法分析,喜欢红酒的人年龄段分布情况。
(4)进行效果评估:其实相当于市场调研、用户调研,迅速下定位服务群体,提供高水平的服务。比如你是一个买车的想要投放广告,但是不知道哪个渠道投放更好,就可以先尝试一下,看看数据反馈如何。
(5)私人订制:对服务或产品进行私人订制,然而不法商家也会利用用户画像来杀熟。
(6)业务经营分析:业务经营分析以及竞争分析,影响企业的商业决策,甚至发展战略。
3、构建用户画像的流程
(1)数据源端:一般来讲构建用户画像的数据来自于网站交易数据、用户行为数据、网络日志数据。当然也不仅限于这些数据,一些平台上还有个人征信数据。
(2)数据预处理:第一步是清洗,把一些杂乱无序的数据清洗一下,然后归纳为结构化的数据,最后是把信息标准化。我们可以把数据的预处理简单理解为把数据分类在一个表格中,这一步就是奠定数据分析的基石。
关于利用大数据技术如何构建用户画像?就给大家分享到这里了,如果你想成为大数据工程师,那就从现在开始,不断进行自我提升,学会大数据实用技能,保证自己在大数据行业有一定的立足之地,有征服他人之能。
G. 什么是大数据画像
大数据画像是指,在大数据时代,企业通过对海量数据信息进行清洗、聚类、分析,将数据抽象成标签,再利用这些标签将用户形象具体化的过程。
用户画像的建立能够帮助企业更好地为用户提供针对性的服务。与之相应,越来越多的第三方大数据公司,也开始依托自身的数据积累,为客户提供用户画像的服务。
比如个推旗下的用户画像产品,能够对用户线上和线下行为进行大数据分析,帮助APP开发者和运营者构建全面、精准、多维的用户画像体系。用户画像的形成需要经历四个过程,数据积累、数据清洗、数据建模分析、数据产出。
其中,数据清洗和数据建模统称数据处理。在经过数据处理之后,个推产出独特的冷、热、温数据维度,并分析用户的线上兴趣偏好和线下行为场景,形成用户画像。
为什么需要用户画像
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?
也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况?
大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解” 人。