大数据建模案例资产画像_企业大数据实战案例

❶ 金融行业如何用大数据构建精准用户画像

用户画像的焦点工作就是为用户打“标签”，而一个标签通常是人为规定的高度精炼的特征标识，如年龄、性别、地域、用户偏好等，最后将用户的所有标签综合来看，就可以勾勒出该用户的立体“画像”了。

为了精准地描述用户特征，可以参考下面的思路，从用户微观画像的建立→用户画像的标签建模→用户画像的数据架构，我们由微观到宏观，逐层分析。

首先我们从微观来看，如何给用户的微观画像进行分级呢？如下图所示

总原则：基于一级分类上述分类逐级进行细分。

第一分类：人口属性、资产特征、营销特性、兴趣爱好、购物爱好、需求特征

市场上用户画像的方法很多，许多企业也提供用户画像服务，将用户画像提升到很有逼格一件事。金融企业是最早开始用户画像的行业，由于拥有丰富的数据，金融企业在进行用户画像时，对众多纬度的数据无从下手，总是认为用户画像数据纬度越多越好，画像数据越丰富越好，某些输入的数据还设定了权重甚至建立了模型，搞的用户画像是一个巨大而复杂的工程。但是费力很大力气进行了画像之后，却发现只剩下了用户画像，和业务相聚甚远，没有办法直接支持业务运营，投入精力巨大但是回报微小，可以说是得不偿失，无法向领导交代。

事实上，用户画像涉及数据的纬度需要业务场景结合，既要简单干练又要和业务强相关，既要筛选便捷又要方便进一步操作。用户画像需要坚持三个原则，分别是人口属性和信用信息为主，强相关信息为主，定性数据为主。下面就分别展开进行解释和分析。

描述一个用户的信息很多，信用信息是用户画像中重要的信息，信用信息是描述一个人在社会中的消费能力信息。任何企业进行用户画像的目的是寻找目标客户，其必须是具有潜在消费能力的用户。信用信息可以直接证明客户的消费能力，是用户画像中最重要和基础的信息。一句戏言，所有的信息都是信用信息就是这个道理。其包含消费者工作、收入、学历、财产等信息。

我们需要介绍一下强相关信息和弱相关信息。强相关信息就是同场景需求直接相关的信息，其可以是因果信息，也可以是相关程度很高的信息。

如果定义采用0到1作为相关系数取值范围的化，0.6以上的相关系数就应该定义为强相关信息。例如在其他条件相同的前提下，35岁左右人的平均工资高于平均年龄为30岁的人，计算机专业毕业的学生平均工资高于哲学专业学生，从事金融行业工作的平均工资高于从事纺织行业的平均工资，上海的平均工资超过海南省平均工资。从这些信息可以看出来人的年龄、学历、职业、地点对收入的影响较大，同收入高低是强相关关系。简单的将，对信用信息影响较大的信息就是强相关信息，反之则是弱相关信息。

用户其他的信息，例如用户的身高、体重、姓名、星座等信息，很难从概率上分析出其对消费能力的影响，这些弱相关信息，这些信息就不应该放到用户画像中进行分析，对用户的信用消费能力影响很小，不具有较大的商业价值。

用户画像和用户分析时，需要考虑强相关信息，不要考虑弱相关信息，这是用户画像的一个原则。

例如可以将年龄段对客户进行划分，18岁-25岁定义为年轻人，25岁-35岁定义为中青年，36-45定义为中年人等。可以参考个人收入信息，将人群定义为高收入人群，中等收入人群，低收入人群。参考资产信息也可以将客户定义为高、中、低级别。定性信息的类别和方式方法，金融可以从自身业务出发，没有固定的模式。

将金融企业各类定量信息，集中在一起，对定性信息进行分类，并进行定性化，有利与对用户进行筛选，快速定位目标客户，是用户画像的另外一个原则。

下面内容将详细介绍，如何根据用户行为，构建模型产出标签、权重。一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

什么用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。

以上列举了互联网主要的用户标识方法，获取方式由易到难。视企业的用户粘性，可以获取的标识信息有所差异。

什么时间：时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度，准确度最多也只能到毫秒。时间长度，为了标识用户在某一页面的停留时间。

什么地点：用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址 + 内容。网址：每一个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面url，也可以是手机上的微博，微信等应用某个功能页面，某款产品应用的特定画面。如，长城红酒单品页，微信订阅号页面，某游戏的过关页。

内容：每个url网址（页面/屏幕）中的内容。可以是单品的相关信息：类别、品牌、描述、属性、网站信息等等。如，红酒，长城，干红，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。

注：接触点可以是网址，也可以是某个产品的特定功能界面。如，同样一瓶矿泉水，超市卖1元，火车上卖3元，景区卖5元。商品的售卖价值，不在于成本，更在于售卖地点。标签均是矿泉水，但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即愿意支付的价值不同。

标签权重

矿泉水 1 // 超市

矿泉水 3 // 火车

矿泉水 5 // 景区

类似的，用户在京东商城浏览红酒信息，与在品尚红酒网浏览红酒信息，表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址，存在权重差异，权重模型的构建，需要根据各自的业务需求构建。

所以，网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。

什么事：用户行为类型，对于电商有如下典型行为：浏览、添加购物车、搜索、评论、购买、点击赞、收藏等等。

不同的行为类型，对于接触点的内容产生的标签信息，具有不同的权重。如，购买权重计为5，浏览计为1

红酒 1 // 浏览红酒

红酒 5 // 购买红酒

综合上述分析，用户画像的数据模型，可以概括为下面的公式：用户标识 + 时间 + 行为类型 + 接触点（网址+内容），某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

如：用户A，昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

标签：红酒，长城

时间：因为是昨天的行为，假设衰减因子为：r=0.95

行为类型：浏览行为记为权重1

地点：品尚红酒单品页的网址子权重记为 0.9（相比京东红酒单品页的0.7）

假设用户对红酒出于真的喜欢，才会去专业的红酒网选购，而不再综合商城选购。

则用户偏好标签是：红酒，权重是0.95*0.7 * 1=0.665，即，用户A：红酒 0.665、长城 0.665。

上述模型权重值的选取只是举例参考，具体的权重值需要根据业务需求二次建模，这里强调的是如何从整体思考，去构建用户画像模型，进而能够逐步细化模型。

本文并未涉及具体算法，更多的是阐述了一种分析思想，在计划构建用户画像时，能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解，接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减，决定了权重模型是关键，权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商，但其实，可以根据产品的不同，重新定义接触点。

比如影视产品，我看了一部电影《英雄本色》，可能产生的标签是：周润发 0.6、枪战 0.5、港台 0.3。最后，接触点本身并不一定有内容，也可以泛化理解为某种阈值，某个行为超过多少次，达到多长时间等。

比如游戏产品，典型接触点可能会是，关键任务，关键指数（分数）等等。如，积分超过1万分，则标记为钻石级用户。钻石用户 1.0。

百分点现已全面应用用户画像技术于推荐引擎中，在对某电商客户，针对活动页新访客的应用中，依靠用户画像产生的个性化效果，对比热销榜，推荐效果有显著提升：推荐栏点击率提升27%，订单转化率提升34%。

金融企业内部的信息分布在不同的系统中，一般情况下，人口属性信息主要集中在客户关系管理系统，信用信息主要集中在交易系统和产品系统之中，也集中在客户关系管理系统中，消费特征主要集中在渠道和产品系统中。

兴趣爱好和社交信息需要从外部引入，例如客户的行为轨迹可以代表其兴趣爱好和品牌爱好，移动设备到位置信息可以提供较为准确的兴趣爱好信息。社交信息，可以借助于金融行业自身的文本挖掘能力进行采集和分析，也是可以借助于厂商的技术能力在社交网站上直接获得。社交信息往往是实时信息，商业价值较高，转化率也较高，是大数据预测方面的主要信息来源。例如用户在社交网站上提出罗马哪里好玩的问题，就代表用户未来可能有出国旅游的需求；如果客户在对比两款汽车的优良，客户购买汽车的可能性就较大。金融企业可以及时介入，为客户提供金融服务。

客户画像数据主要分为五类，人口属性、信用信息、消费特征、兴趣爱好、社交信息。这些数据都分布在不同的信息系统，金融企业都上线了数据仓库（DW），所有画像相关的强相关信息都可以从数据仓库里面整理和集中，并且依据画像商业需求，利用跑批作业，加工数据，生成用户画像的原始数据。

数据仓库成为用户画像数据的主要处理工具，依据业务场景和画像需求将原始数据进行分类、筛选、归纳、加工等，生成用户画像需要的原始数据。

用户画像的纬度信息不是越多越好，只需要找到这五大类画像信息强相关信息，同业务场景强相关信息，同产品和目标客户强相关信息即可。根本不存在360度的用户画像信息，也不存在丰富的信息可以完全了解客户，另外数据的实效性也要重点考虑。

依据用户画像的原则，所有画像信息应该是五大分类的强相关信息。强相关信息是指同业务场景强相关信息，可以帮助金融行业定位目标客户，了解客户潜在需求，开发需求产品。

只有强相关信息才能帮助金融企业有效结合业务需求，创造商业价值。例如姓名、手机号、家庭地址就是能够触达客户的强人口属性信息，收入、学历、职业、资产就是客户信用信息的强相关信息。差旅人群、境外游人群、汽车用户、旅游人群、母婴人群就是消费特征的强相关信息。摄影爱好者、游戏爱好者、健身爱好者、电影人群、户外爱好者就是客户兴趣爱好的强相关信息。社交媒体上发表的旅游需求，旅游攻略，理财咨询，汽车需求，房产需求等信息代表了用户的内心需求，是社交信息场景应用的强相关信息。

金融企业内部信息较多，在用户画像阶段不需要对所有信息都采用，只需要采用同业务场景和目标客户强相关的信息即可，这样有助于提高产品转化率，降低投资回报率（ROI），有利于简单找到业务应用场景，在数据变现过程中也容易实现。

千万不要将用户画像工作搞的过于复杂，同业务场景关系不大，这样就让很多金融企业特别是领导失去用户画像的兴趣，看不到用户画像的商业，不愿意在大数据领域投资。为企业带来商业价值才是用户画像工作的主要动力和主要目的。

金融企业集中了所有信息之后，依据业务需求，对信息进行加工整理，需要对定量的信息进行定性，方便信息分类和筛选。这部分工作建议在数据仓库进行，不建议在大数据管理平台（DMP）里进行加工。

定性信息进行定量分类是用户画像的一个重要工作环节，具有较高的业务场景要求，考验用户画像商业需求的转化。其主要目的是帮助企业将复杂数据简单化，将交易数据定性进行归类，并且融入商业分析的要求，对数据进行商业加工。例如可以将客户按照年龄区间分为学生，青年，中青年，中年，中老年，老年等人生阶段。源于各人生阶段的金融服务需求不同，在寻找目标客户时，可以通过人生阶段进行目标客户定位。企业可以利用客户的收入、学历、资产等情况将客户分为低、中、高端客户，并依据其金融服务需求，提供不同的金融服务。可以参考其金融消费记录和资产信息，以及交易产品，购买的产品，将客户消费特征进行定性描述，区分出电商客户，理财客户，保险客户，稳健投资客户，激进投资客户，餐饮客户，旅游客户，高端客户，公务员客户等。利用外部的数据可以将定性客户的兴趣爱好，例如户外爱好者，奢侈品爱好者，科技产品发烧友，摄影爱好者，高端汽车需求者等信息。

将定量信息归纳为定性信息，并依据业务需求进行标签化，有助于金融企业找到目标客户，并且了解客户的潜在需求，为金融行业的产品找到目标客户，进行精准营销，降低营销成本，提高产品转化率。另外金融企业还可以依据客户的消费特征、兴趣爱好、社交信息及时为客户推荐产品，设计产品，优化产品流程。提高产品销售的活跃率，帮助金融企业更好地为客户设计产品。

利用数据进行画像目的主要是为业务场景提供数据支持，包括寻找到产品的目标客户和触达客户。金融企业自身的数据不足以了解客户的消费特征、兴趣爱好、社交信息。

金融企业可以引入外部信息来丰富客户画像信息，例如引入银联和电商的信息来丰富消费特征信息，引入移动大数据的位置信息来丰富客户的兴趣爱好信息，引入外部厂商的数据来丰富社交信息等。

外部信息的纬度较多，内容也很丰富，但是如何引入外部信息是一项具有挑战的工作。外部信息在引入时需要考虑几个问题，分别是外部数据的覆盖率，如何和内部数据打通，和内部信息的匹配率，以及信息的相关程度，还有数据的鲜活度，这些都是引入外部信息的主要考虑纬度。外部数据鱼龙混杂，数据的合规性也是金融企业在引入外部数据时的一个重要考虑，敏感的信息例如手机号、家庭住址、身份证号在引入或匹配时都应该注意隐私问题，基本的原则是不进行数据交换，可以进行数据匹配和验证。

外部数据不会集中在某一家，需要金融企业花费大量时间进行寻找。外部数据和内部数据的打通是个很复杂的问题，手机号／设备号／身份证号的MD5数值匹配是一种好的方法，不涉及隐私数据的交换，可以进行唯一匹配。依据行业内部的经验，没有一家企业外部数据可以满足企业要求，外部数据的引入需要多方面数据。一般情况下，数据覆盖率达到70%以上，就是一个非常高的覆盖率。覆盖率达到20%以上就可以进行商业应用了。

金融行业外部数据源较好合作方有银联、芝麻信用、运营商、中航信、腾云天下、腾讯、微博、前海征信，各大电商平台等。市场上数据提供商已经很多，并且数据质量都不错，需要金融行业一家一家去挖掘，或者委托一个厂商代理引入也可以。独立第三方帮助金融行业引入外部数据可以降低数据交易成本，同时也可以降低数据合规风险，是一个不错的尝试。另外各大城市和区域的大数据交易平台，也是一个较好的外部数据引入方式。

用户画像主要目的是让金融企业挖掘已有的数据价值，利用数据画像技术寻找到目标客户和客户的潜在需求，进行产品推销和设计改良产品。

用户画像从业务场景出发，实现数据商业变现重要方式。用户画像是数据思维运营过程中的一个重要闭环，帮助金融企业利用数据进行精细化运营和市场营销，以及产品设计。用户画像就是一切以数据商业化运营为中心，以商业场景为主，帮助金融企业深度分析客户，找到目标客户。

DMP（大数据管理平台）在整个用户画像过程中起到了一个数据变现的作用。从技术角度来讲，DMP将画像数据进行标签化，利用机器学习算法来找到相似人群，同业务场景深度结合，筛选出具有价值的数据和客户，定位目标客户，触达客户，对营销效果进行记录和反馈。大数据管理平台DMP过去主要应用在广告行业，在金融行业应用不多，未来会成为数据商业应用的主要平台。

DMP可以帮助信用卡公司筛选出未来一个月可能进行分期付款的客户，电子产品重度购买客户，筛选出金融理财客户，筛选出高端客户（在本行资产很少，但是在他行资产很多），筛选出保障险种，寿险，教育险，车险等客户，筛选出稳健投资人，激进投资人，财富管理等方面等客户，并且可以触达这些客户，提高产品转化率，利用数据进行价值变现。DMP还可以了解客户的消费习惯、兴趣爱好、以及近期需求，为客户定制金融产品和服务，进行跨界营销。利用客户的消费偏好，提高产品转化率，提高用户黏度。

DMP还作为引入外部数据的平台，将外部具有价值的数据引入到金融企业内部，补充用户画像数据，创建不同业务应用场景和商业需求，特别是移动大数据、电商数据、社交数据的应用，可以帮助金融企业来进行数据价值变现，让用户画像离商业应用更加近一些，体现用户画像的商业价值。

用户画像的关键不是360度分析客户，而是为企业带来商业价值，离开了商业价值谈用户画像就是耍流氓。金融企业用户画像项目出发点一定要从业务需求出发，从强相关数据出发，从业务场景应用出发。用户画像的本质就是深度分析客户，掌握具有价值数据，找到目标客户，按照客户需求来定制产品，利用数据实现价值变现。

银行具有丰富的交易数据、个人属性数据、消费数据、信用数据和客户数据，用户画像的需求较大。但是缺少社交信息和兴趣爱好信息。

到银行网点来办业务的人年纪偏大，未来消费者主要在网上进行业务办理。银行接触不到客户，无法了解客户需求，缺少触达客户的手段。分析客户、了解客户、找到目标客户、为客户设计其需要的产品，成了银行进行用户画像的主要目的。银行的主要业务需求集中在消费金融、财富管理、融资服务，用户画像要从这几个角度出发，寻找目标客户。

银行的客户数据很丰富，数据类型和总量较多，系统也很多。可以严格遵循用户画像的五大步骤。先利用数据仓库进行数据集中，筛选出强相关信息，对定量信息定性化，生成DMP需要的数据。利用DMP进行基础标签和应用定制，结合业务场景需求，进行目标客户筛选或对用户进行深度分析。同时利用DMP引入外部数据，完善数据场景设计，提高目标客户精准度。找到触达客户的方式，对客户进行营销，并对营销效果进行反馈，衡量数据产品的商业价值。利用反馈数据来修正营销活动和提高ROI。形成市场营销的闭环，实现数据商业价值变现的闭环。另外DMP还可以深度分析客户，依据客户的消费特征、兴趣爱好、社交需求、信用信息来开发设计产品，为金融企业的产品开发提供数据支撑，并为产品销售方式提供场景数据。

简单介绍一些DMP可以做到的数据场景变现。

A 寻找分期客户

利用发卡机构数据＋自身数据＋信用卡数据，发现信用卡消费超过其月收入的用户，推荐其进行消费分期。

B 寻找高端资产客户

利用发卡机构数据＋移动位置数据（别墅／高档小区）＋物业费代扣数据＋银行自身数据＋汽车型号数据，发现在银行资产较少，在其他行资产较多的用户，为其提供高端资产管理服务。

C 寻找理财客户

利用自身数据（交易＋工资）＋移动端理财客户端／电商活跃数据。发现客户将工资／资产转到外部，但是电商消费不活跃客户，其互联网理财可能性较大，可以为其提供理财服务，将资金留在本行。

D 寻找境外游客户

利用自身卡消费数据＋移动设备位置信息＋社交好境外强相关数据（攻略，航线，景点，费用），寻找境外游客户为其提供金融服务。

E 寻找贷款客户

利用自身数据（人口属性＋信用信息）＋移动设备位置信息＋社交购房／消费强相关信息，寻找即将购车／购房的目标客户，为其提供金融服务（抵押贷款／消费贷款）。

来源: 钱塘大数据二次整理，TalkingData的鲍忠铁原文出处，

❷ HCR大数据战略之三：全景洞察的消费者画像模型

当前，基于大数据与标签化思路的消费者画像分析，成为B2C企业深入认知目标消费者特性的重要工具，并在电商、DSP广告等互联网企业发挥作用。越来越多的传统B2C行业，也开始重视其价值。同时，更多的数据资源方(如运营商等)也希望凭借其大数据资源上的消费者画像服务，获得更多的衍生收入。

消费者画像，本质作为消费者研究的一种量化形式，核心问题仍然是消费者的洞察。而HCR作为市场研究公司，在消费者研究方面有着长期的模型积累和经验丰富的研究人员。如今，HCR借助自身研究优势，同时吸取其他系统优点，建立推出真正具有全景、深入洞察能力的消费者画像模型。

HCR消费者画像模型体系由两大部分组成：标签体系与相应的分析模型。首先我们来介绍一下标签体系。

已经完成的标签体系中，设计用户标签近200个(根据业务/.研究深入在不断扩展中)，共分为5大类，如下图(限于篇幅图中仅列举部分标签)

数据来源 : 大数据平台部@HCR

HCR用户标签体系所具有的全景刻画能力，主要表现在：

l 提供对消费者更全面的刻画维度。当前众多标签体系(以电商和在线广告为代表)基本是面向精准营销和个性化推荐为目的，虽然也号称全景，但实际标签集中于购买兴趣/爱好和消费倾向这些与后续营收相关的用户特性。而这只是HCR用户标签的一个子集(第四大类)。仔细研究HCR的标签体系你会发现，除了兴趣爱好外，HCR的基本属性、社会/生活属性与行为习惯的相关标签类，真正从消费者实际日常生活的更多基本角度(如健康/车辆使用/住房/移动通信/居住/日常交通等等)全面立体地描述消费者的特性。

l 标签的刻画粒度也更加细化。比如年龄段，常规的多采用70后/80后/90后这样的划分原则，而HCR除此之外还能提供更多描述粒度，如中学生/高中生(甚至高三学生)/大学生… 这对发现和细分目标用户更有价值。

而HCR用户标签的深入洞察能力，则主要表现在：

l 更加丰富的标签体系带来更多洞察可能，但这还不够，HCR首创引入了心理学属性标签(第五大类共30多个)，融合了消费者研究的思想，以生活方式/个性/价值观等深层标识，来揭示消费者的内在特性，使得我们能够深入探查消费者的本性，也使得画像结果有更泛化的应用价值。

l 更深入的算法模型。基于标签体系上的分析算法模型，在标注精度和广度上都有了更大进步(见后面详细介绍)

l 标签的标注结果，加入程度指标来细化，这样更准确地区分消费者对某种特性的贴近程度(如爱好游戏可分为轻度、中度和重度三种程度)。这对于更准确地理解消费者大有帮助。

与标签体系一样，HCR的标签分析模型也具有独特而有效的的分析方法。

l 主要通过行为类数据为分析依据

在标签分析中，主要借助行为类大数据(而非直接的属性数据)来推演得到相应结果(如不是基于客户身份证信息推导其性别标签)。这样的方法，难度大，需要对行为理解更深入，但可以避免涉及大量用户敏感信息，同时也更具有更好的适用性。

HCR认为，用户的行为数据(当前主要为线上行为)主要由下几种行为场景模式组成(这里浏览包含网页与视频)。当市面上大多数标签研究聚焦于搜索/浏览和购物行为数据时，我们选择了手机App使用行为这个独特的突破口。

数据来源 : 大数据平台部@HCR

HCR消费者画像分析团队由HCR资深消费者研究员与大数据平台部挖掘算法人员组成。双方配合探索研发兼具研究与技术分析优点的可计算模型。

n 行为规则库抽象用户行为模式：因为消费者的日常行为会反映其个人特性(标签)，因此通过行为模式的推理就能为消费者打上相应标签。相比其他方案，HCR通过研究员团队，，把消费者行为推理思路进行抽象，得到可以用于自动分析的方法规则，记录到规则知识库。该规则知识库是对消费者研究的经验浓缩，覆盖大量常规行为场景，并具有相当的洞察深度(如可以推演出生活方式等深层次标签)，这是当前基于纯技术驱动的分析方法所无法做到的。

n 规则推演引擎自动分析常规标签标注：基于分析规则库，挖掘算法人员研发了智能推演算法与自动处理程序，可快速计算消费者相关行为的统计/分布特性，并结合规则库自动计算得到消费者的标签(以概率值形式代表可能性)。自动推演引擎解决了符合规则特征的海量用户的标签快速推演，模式具有独创性，相关算法正申请专利中。

n 机器学习算法给更多消费者打标签。实际分析中，很多标签所对应的行为特点是隐性的，无法被发现和规则抽象。此时，挖掘算法人员进一步通过机器学习算法(有监督学习加推荐计算)，通过已标注标签的消费者的行为特性，来推导大量未标注/新用户的特性标签，。这种机器学习的模式通过已分析消费者的结果，极大扩展了标签可标注的用户范围。

在初步建立相关分析模型后，我们对移动互联网用户的App使用行为大数据进行了标签分析的初步试验。目标数据来自HCR HiMobile业务的数百万移动互联网匿名用户的长期(2个月连续)App使用行为，共300多亿记录)，得到了良好的效果。下图是其中某匿名用户分析得到的实际画像结果，非常具有代表性。

数据来源 : 大数据平台部@HCR

从图里可以看出，该匿名属性用户的特性通过行为已被画像结果有效勾勒出来(所有标签通过可信度概率标示，右侧灰色内容为分析得到的心理学属性标签)。无论目标描述的特性范围和深度，都比其他系统有较大的优势。

在大数据产业链中，HCR的定位是数据洞察者。而消费者画像分析作为典型的研究洞察服务，将逐步成为HCR的核心竞争力，在未来得到不断地加强和广泛应用。主要的应用模式包括：

l 作为HCR所有消费者研究业务的基础分析功能，帮助研究员在研究业务中洞察消费者的群体/个体特性。

l 为具有消费者画像能力的企业(如电商)，提供更多角度的用户画像分析结果，作为其自身用户画像的有效补充，从而大大增加其产品推荐的精度与适用性。

l 为具有用户行为大数据但缺乏用户画像能力的大量B2C企业(尤其移动互联网企业)，以标准化API的方式，提供快速的标签化分析服务，帮助企业轻松获得用户标签化分析能力，从而将分析结果轻松应用于后续的业务服务中

在后续的研究工作中，HCR的消费者画像团队将继续完善现有行为规则库和算法模型。并针对更多行为数据空间(如搜索和浏览)，扩展标签的分析能力，力求使HCR消费者画像分析成为最具竞争力的消费者洞察服务。

❸ 什么是大数据画像

大数据画像是指，在大数据时代，企业通过对海量数据信息进行清洗、聚类、分析，将数据抽象成标签，再利用这些标签将用户形象具体化的过程。

用户画像的建立能够帮助企业更好地为用户提供针对性的服务。与之相应，越来越多的第三方大数据公司，也开始依托自身的数据积累，为客户提供用户画像的服务。

比如个推旗下的用户画像产品，能够对用户线上和线下行为进行大数据分析，帮助APP开发者和运营者构建全面、精准、多维的用户画像体系。用户画像的形成需要经历四个过程，数据积累、数据清洗、数据建模分析、数据产出。

其中，数据清洗和数据建模统称数据处理。在经过数据处理之后，个推产出独特的冷、热、温数据维度，并分析用户的线上兴趣偏好和线下行为场景，形成用户画像。

为什么需要用户画像

用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜欢红酒的人群中，男、女比例是多少？

也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？

大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。

❹ 利用大数据技术如何构建用户画像

【导读】目前，我们已经身处大数据时代，大数据的使用不仅普通用户可以享受到技术带来的便利，企业也可以从数据中提取有商业价值的信息，构建出用户画像，从而对用户行为进行分析和预测。虽然用户画像不是什么新鲜的概念，但是大数据技术的出现使得用户画像更加清晰客观，那么利用大数据技术如何构建用户画像?

1、认识用户画像

用户画像简单来讲，就是用户信息标签化。即收集这个用户的各种数据和行为，从而得出这个用户的一些基本信息和典型特征，最后形成一个人物原型。一般用户画像会分析三个信息维度，分别是基本属性、消费购物以及社交圈。其中基本属性就是指用户的一些基本信息，比如年纪、性别、生日、学校、所在地等等。

2、利用大数据构建用户画像的好处

(1)精准营销：当企业和商家掌握了用户的一定信息后，就可以构建出清晰的用户画像，这样一来就可以根据用户的偏好、收入等标签，推荐给他们会感兴趣的商品和服务。

(2)用户统计：通过大数据我们可以对一些数据进行统计，比如我们经常会看到有一些APP的排行榜，甚至是渗透率、日活率这些具体数据都可以清晰统计出来。

(3)数据挖掘：构建智能推荐系统，利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌，利用聚类算法分析，喜欢红酒的人年龄段分布情况。

(4)进行效果评估：其实相当于市场调研、用户调研，迅速下定位服务群体，提供高水平的服务。比如你是一个买车的想要投放广告，但是不知道哪个渠道投放更好，就可以先尝试一下，看看数据反馈如何。

(5)私人订制：对服务或产品进行私人订制，然而不法商家也会利用用户画像来杀熟。

(6)业务经营分析：业务经营分析以及竞争分析，影响企业的商业决策，甚至发展战略。

3、构建用户画像的流程

(1)数据源端：一般来讲构建用户画像的数据来自于网站交易数据、用户行为数据、网络日志数据。当然也不仅限于这些数据，一些平台上还有个人征信数据。

(2)数据预处理：第一步是清洗，把一些杂乱无序的数据清洗一下，然后归纳为结构化的数据，最后是把信息标准化。我们可以把数据的预处理简单理解为把数据分类在一个表格中，这一步就是奠定数据分析的基石。

关于利用大数据技术如何构建用户画像?就给大家分享到这里了，如果你想成为大数据工程师，那就从现在开始，不断进行自我提升，学会大数据实用技能，保证自己在大数据行业有一定的立足之地，有征服他人之能。

❺ 有哪些大数据分析案例

如下：

1. 大数据应用案例之：医疗行业

1）Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息，通过大数据处理，更好地分析病人的信息。

在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。

它让更多的创业者更方便地开发产品，比如通过社交网络来收集数据的健康类App。也许未来数年后，它们搜集的数据能让医生给你的诊断变得更为精确，比方说不是通用的成人每日三次一次一片，而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。

2）大数据配合乔布斯癌症治疗

乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此，他支付了高达几十万美元的费用。他得到的不是样本，而是包括整个基因的数据文档。医生按照所有基因按需下药，最终这种方式帮助乔布斯延长了好几年的生命。

2. 大数据应用案例之：能源行业

1）智能电网现在欧洲已经做到了终端，也就是所谓的智能电表。在德国，为了鼓励利用太阳能，会在家庭安装太阳能，除了卖电给你，当你的太阳能有多余电的时候还可以买回来。

通过电网收集每隔五分钟或十分钟收集一次数据，收集来的这些数据可以用来预测客户的用电习惯等，从而推断出在未来2~3个月时间里，整个电网大概需要多少电。有了这个预测后，就可以向发电或者供电企业购买一定数量的电。

因为电有点像期货一样，如果提前买就会比较便宜，买现货就比较贵。通过这个预测后，可以降低采购成本。

2）丹麦的维斯塔斯风能系统(Vestas Wind Systems)运用大数据，系统依靠的是BigInsights软件和IBM超级计算机，分析出应该在哪里设置涡轮发电机，事实上这是风能领域的重大挑战。在一个风电场20多年的运营过程中，准确的定位能帮助工厂实现能源产出的最大化。

为了锁定最理想的位置，Vestas分析了来自各方面的信息：风力和天气数据、湍流度、地形图、公司遍及全球的2.5万多个受控涡轮机组发回的传感器数据。这样一套信息处理体系赋予了公司独特的竞争优势，帮助其客户实现投资回报的最大化。

3. 大数据应用案例之：通信行业—通过大数据分析挽回核心客户

法国电信-Orange集团旗下的波兰电信公司Telekomunikacja Polska是波兰最大的语音和宽带固网供应商，希望有效的途径来准确预测并解决客户流失问题。

他们决定进行客户细分，方法是构建一张“社交图谱”- 分析客户数百万个电话的数据记录，特别关注 “谁给谁打了电话”以及“打电话的频率”两个方面。“社交图谱”把公司用户分成几大类，如：“联网型”、“桥梁型”、“领导型”以及“跟随型”。

这样的关系数据有助电信服务供应商深入洞悉一系列问题，如：哪些人会对可能“弃用”公司服务的客户产生较大的影响?挽留最有价值客户的难度有多大?运用这一方法，公司客户流失预测模型的准确率提升了47%。

4、大数据应用案例之：零售业—大数据帮零售企业制定促销策略

北美零售商百思买在北美的销售活动非常活跃，产品总数达到3万多种，产品的价格也随地区和市场条件而异。由于产品种类繁多，成本变化比较频繁，一年之中，变化可达四次之多。

结果，每年的调价次数高达12万次。最让高管头疼的是定价促销策略。公司组成了一个11人的团队，希望透过分析消费者的购买记录和相关信息，提高定价的准确度和响应速度。

定价团队的分析围绕着三个关键维度：

1）数量：团队需要分析海量信息。他们收集了上千万的消费者的购买记录，从客户不同维度分析，了解客户对每种产品种类的最高接受能力，从而为产品定出最佳价位。

2）多样性：团队除了分析了购买记录这种结构化的数据外，他们也利用社交媒体发帖这种新型的非结构化数据。由于消费者需要在零售商专页上点赞或留言以获得优惠券，团队利用情感分析公式来分析专页上消费者的情绪，从而判断他们对于公司的促销活动是否满意，并微调促销策略。

3）速度：为了实现价值最大化，团队对数据进行实时或近似实时的处理。他们成功地根据一个消费者既往的麦片购买记录，为身处超市麦片专柜的他/她即时发送优惠券，为客户带来便利性和惊喜。

透过这一系列的活动，团队提高了定价的准确度和响应速度，为零售商新增销售额和利润数千万美元。

5、大数据应用案例之：网络营销行业（SEM）

很多企业在做SEM的过程中，都有这样的感触：每年都会花费大量的预算在SEM推广中，但是因为关键词投入产出无法可视化，常常花了很多钱却不见具体的回报。

在竞争如此激烈的SEM市场中，企业需要一个高效的数据分析工具来尽可能地帮企业优化SEM推广，例如BDP，来帮企业节省不必要的支出，提升整体的经营绩效。

企业可借助数据平台提供的网络营销整合解决方案，打通各个搜索引擎营销（SEM）、在线客服系统和CRM系统，营销竞价人员无需掌握复杂的编程技术，简单拖拽即可生成报表，观察每一个关键词的投入和产出，分析每一个页面的转化，有效降低投放成本。

通过BDP实况分析数据，可以快速洞悉对手关键词的投放时段、地域及排名，并对其进行可视化的分析，实时监控自己和竞争对手的投放情况，了解对手的投放策略，支持自定义设置数据更新的时间点、监控频次和时段，及时调整策略。知已知彼，才能百战不殆。

6、大数据应用案例之：电商行业

意料之外：胸部最大的是新疆妹子。曾经淘宝平台显示，中国女性购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%，其中又以75B的销量最好，其次是A罩杯，购买占比达25.26%，C罩杯只有8.96%。

虽然淘宝数据平台不能代表一切，但是结合现实来看，这个也具有普遍的代表性，只能感慨中国女性普遍size。在文胸颜色中，黑色最为畅销，黑色绝对是百搭，每个女性必备。

从省市排名，胸部最大的是新疆妹子。这些数据都对于文胸店铺而言是很好的参考，为店铺的库存、定价、款式选择等策略都有奠定数据基础。

7、大数据应用案例之：娱乐行业

微软大数据成功预测奥斯卡21项大奖。2013年，微软纽约研究院的经济学家大卫•罗斯柴尔德（David Rothschild）利用大数据成功预测24个奥斯卡奖项中的19个，成为人们津津乐道的话题。

今年罗斯柴尔德再接再厉，成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个，继续向人们展示现代科技的神奇魔力。

总的来说，大数据的终极目标并不仅仅是改变竞争环境，而是彻底扭转整个竞争环境，带来新机遇，企业需要应势而变。企业只有认识到这一点，使用合适的数据分析产品、聪明地使用和管理数据，才能在长期竞争中成为终极赢家。

❻ 用户画像数据建模方法_用户画像分析

近些年，互联网进入了“ 大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。

一、什么是用户画像？

男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。

这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。

如果用一幅图来展现，即：

二、为什么需要用户画像

用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜欢红酒的人群中，男、女比例是多少？

也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？

大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。

三、如何构建用户画像

一个标签通常是人为规定的高度精炼的特征标识，如年龄段标签：25~35岁，地域标签：北京，标签呈现出两个重要特征：语义化，人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如，判断用户偏好。短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。

人制定标签规则，并能够通过标签快速读出其中的信息，机器方便做标签提取、聚合分析。所以，用户画像，即：用户标签，向我们展示了一种朴素、简洁的方法用于描述用户信息。

3.1 数据源分析

构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。

对于用户相关数据的分类，引入一种重要的分类思想：封闭性的分类方式。如，世界上分为两种人，一种是学英语的人，一种是不学英语的人；客户分三类，高价值客户，中价值客户，低价值客户；产品生命周期分为，投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。

这样的分类方式，有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整，造成维度遗漏留下扩展性隐患。另外，不同的分类方式根据应用场景，业务需求的不同，也许各有道理，按需划分即可。

本文将用户数据划分为静态信息数据、动态信息数据两大类。

静态信息数据

用户相对稳定的信息，如图所示，主要包括人口属性、商业属性等方面数据。这类信息，自成标签，如果企业有真实信息则无需过多建模预测，更多的是数据清洗工作，因此这方面信息的数据建模不是本篇文章重点。

动态信息数据

用户不断变化的行为信息，如果存在上帝，每一个人的行为都在时刻被上帝那双无形的眼睛监控着，广义上讲，一个用户打开网页，买了一个杯子；与该用户傍晚溜了趟狗，白天取了一次钱，打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网，乃至电商，用户行为就会聚焦很多，如上图所示：浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。

本篇文章以互联网电商用户，为主要分析对象，暂不考虑线下用户行为数据（分析方法雷同，只是数据获取途径，用户识别方式有些差异）。

在互联网上，用户行为，可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型，分析出用户标签，将是本文着重介绍的内容。

3.2 目标分析

用户画像的目标是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。如，红酒 0.8、李宁 0.6。

标签，表征了内容，用户对该内容有兴趣、偏好、需求等等。

权重，表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度，概率。

3.3 数据建模方法

下面内容将详细介绍，如何根据用户行为，构建模型产出标签、权重。一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

什么用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。

以上列举了互联网主要的用户标识方法，获取方式由易到难。视企业的用户粘性，可以获取的标识信息有所差异。

什么时间：时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度，准确度最多也只能到毫秒。时间长度，为了标识用户在某一页面的停留时间。

什么地点：用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址 + 内容。网址：每一个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面url，也可以是手机上的微博，微信等应用某个功能页面，某款产品应用的特定画面。如，长城红酒单品页，微信订阅号页面，某游戏的过关页。

内容：每个url网址（页面/屏幕）中的内容。可以是单品的相关信息：类别、品牌、描述、属性、网站信息等等。如，红酒，长城，干红，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。

注：接触点可以是网址，也可以是某个产品的特定功能界面。如，同样一瓶矿泉水，超市卖1元，火车上卖3元，景区卖5元。商品的售卖价值，不在于成本，更在于售卖地点。标签均是矿泉水，但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即，愿意支付的价值不同。

标签权重

矿泉水 1 // 超市

矿泉水 3 // 火车

矿泉水 5 // 景区

类似的，用户在京东商城浏览红酒信息，与在品尚红酒网浏览红酒信息，表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址，存在权重差异，权重模型的构建，需要根据各自的业务需求构建。

所以，网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。

什么事：用户行为类型，对于电商有如下典型行为：浏览、添加购物车、搜索、评论、购买、点击赞、收藏等等。

不同的行为类型，对于接触点的内容产生的标签信息，具有不同的权重。如，购买权重计为5，浏览计为1

红酒 1 // 浏览红酒

红酒 5 // 购买红酒

综合上述分析，用户画像的数据模型，可以概括为下面的公式：用户标识 + 时间 + 行为类型 + 接触点（网址+内容），某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：

标签权重=衰减因子×行为权重×网址子权重

如：用户A，昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

标签：红酒，长城

时间：因为是昨天的行为，假设衰减因子为：r=0.95

行为类型：浏览行为记为权重1

地点：品尚红酒单品页的网址子权重记为 0.9（相比京东红酒单品页的0.7）

假设用户对红酒出于真的喜欢，才会去专业的红酒网选购，而不再综合商城选购。

则用户偏好标签是：红酒，权重是0.95*0.7 * 1=0.665，即，用户A：红酒 0.665、长城 0.665。

上述模型权重值的选取只是举例参考，具体的权重值需要根据业务需求二次建模，这里强调的是如何从整体思考，去构建用户画像模型，进而能够逐步细化模型。

四、总结：

本文并未涉及具体算法，更多的是阐述了一种分析思想，在计划构建用户画像时，能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解，接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减，决定了权重模型是关键，权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商，但其实，可以根据产品的不同，重新定义接触点。

比如影视产品，我看了一部电影《英雄本色》，可能产生的标签是：周润发 0.6、枪战 0.5、港台 0.3。

最后，接触点本身并不一定有内容，也可以泛化理解为某种阈值，某个行为超过多少次，达到多长时间等。

比如游戏产品，典型接触点可能会是，关键任务，关键指数（分数）等等。如，积分超过1万分，则标记为钻石级用户。钻石用户 1.0。

百分点现已全面应用用户画像技术于推荐引擎中，在对某电商客户，针对活动页新访客的应用中，依靠用户画像产生的个性化效果，对比热销榜，推荐效果有显著提升：推荐栏点击率提升27%，订单转化率提升34%。

❼ 大数据应用之“画像”

随着大数据技术的备受关注，有关“用户画像”、“商品画像”、“产品画像”、“资产画像”……的讨论就不绝于耳。那么，究竟什么是画像？又如何进行画像建设与画像分析呢？我们就从以下几个方面，着重探讨一下。

1、什么是画像？

用户画像，被定义为一种抽象出用户信息全貌的手段。

举个简单的例子，某个客户的特征描述为：500强企业，媒体行业，旗下产品覆盖网站、APP、微博、微信等端口，拥有受众9亿+，这就是一个典型的用户画像，我们据以便可以知道其存在大数据方面的需求。如果用一句话来描述，即：用户信息标签画。

大数据的时代背景下，画像被认作为企业应用大数据的根基，并直接跟企业经营能力、竞争优势的打造联系在一起。

有评论指出，要看一家企业的数据化运营程度，首当其冲地要看其“画像”构建情况：是否建设了“画像”？“画像”体系构建程度如何？针对什么对象进行了画像？构建画像的各种标签与指标情况如何？有没针对已建立起来的”画像”的应用？应用情况如何？等等

2、为什么要进行用户画像

这跟用户行为识别及数据应用直接相关。

各行各业都期待着，用户能主动告诉我们，他们的行为偏好。然而，事实既总非如愿，技术实现也非如此简单：首先，用户用以描述兴趣的自然语言很难为自然语言理解技术所理解；其次，用户的兴趣是不断变化的，无法不停地提供兴趣描述；最后，很多时候用户并不知道自己喜欢什么，或很难清楚描述出自己喜欢什么。

于是，我们需要通过算法自动发掘用户行为数据，从用户的行为中推测出用户的兴趣，从而给用户推荐满足他们兴趣的产品和服务，而画像，就是其中最重要的应用之一。

画像，通过为用户打标签的方式，使计算机能够程序化处理与人相关的信息。

如用户信息的分类统计:喜欢魅族的用户有多少？喜欢魅族的人群中，男、女比例是多少？如用户数据的挖掘工作：利用关联规划计算，购买该种商品的用户还购买了什么产品？利用聚类算法分析，喜欢该种产品的人年龄段分布情况如何等等？

3、构建用户画像的关键是什么？

从画像与标签的关系也可以窥见一斑，标签是画像建设的关键。同时，它也是大数据技术场景化的关键，因为如果没有针对场景构建出来标签，大数据的应用往往就很难“落地“。

一个标签通常是人为规定的高度精炼的特征指标，如年龄段标签：25-35岁；地域标签：北京、上海；设备标签：PC、移动；性别标签：男、女等等。

标签呈现出明显的语义化与短文本的特征：语义化，人能很方便地理解每个标签含义，使得用户画像模型具备实际意义，能够较好的满足业务需求；短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。

制定标签要遵循一定的规则，既要涵盖重要信息，又要方便机器做标签提取、聚合分析。

案例：用户的商品价格偏好标签建设过程

以某公司构建用户消费偏好画像为例，我们需要根据具体场景下用户的选择行为，将用户偏好画像拆分成几个不同数据标签：品牌、价格、购买时间、购买方式等

取用户历史购买消费记录，统计用户历史购买商品的价格，然后对价格进行区间划分。看用户购买的价格带主要集中在哪个区间中(价格带偏爱应该是一个相对动态的标签，更新频率可能一个月需要定期更，而且选择的时间段也应该是过去某个时间，不应该选择过长时间段。大家想想为什么？)。如何进行价格区间划分？

方法一：按统计学的方法

1、按分位数进行。例如：25%，50%，75%

2、按等箱原则。划分几等分

3、看数据的分布。

4、……

方法二：按业务知识经验

把价格带按业务经验，行业经验进行划分。

通过数据统计出来，我们可以看用户是否商品单价是否集中的某个区间范围内。例如,某用户购买的商品价格主要集中在30到40这个区间内，根据历史显示可以说，用户可能偏好于购买这个价格带的商品。当未来我们需要做促销商品推荐的时候，可以向该用户重点推荐打折后在这个价格区间的商品。

通过用户购买的价格区间，以及结合商品所归属的品类，可以看这个价格区间在这个品类中属于什么级别的。可以进一步给用户打上：注重品牌、注重高性价比等标签。

例如：如果某个品类商品的价格范围是（5，40]，该用户购物商品主要集中（30，40]这个商品价格区间，用户在这个品类的消费上都是最高价格区间，说明这个用户在购买这个品类主要购买的高端商品。这样又可以为这个用户打上在这个品类的消费特征标签：品类高端用户。

4、构建用户画像的方法

从上面案例中，我们可以抽象出构建用户画像的方法，即用户画像模型的构建方法。

一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户、在什么时间、在什么地点、做了什么事。

其中用户的属性识别关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。时间的属性包括两个重要信息：时间戳和时间长度，时间戳指的是标识用户行为的时间点，通常精确到秒；时间长度指的是标识用户的停留时间。地点的属性也就是用户接触点，在互联网上，用户的接触点就包括了网址和内容两个重要信息。

用户行为属性有不同的类型，结合接触点的内容产生的标签信息，具有不同的权重。用户画像的数据模型可以概括为这样一个公式：用户标识+时间+行为类型+接触点（网址+内容），某个用户在某个时间、某个地点做了什么事情，就会被打上一个既定的标签。而用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子，行为类型、网址决定了权重，内容决策了标签，可以认为公式转变为标签权重=衰减因子×行为权重×网址子权重。

通过这样的计算才能够构建用户画像模型，进而能够逐步细化模型，从而最终制作出一个精准的用户模型。而每一个精准的用户模型都能够根据用户不断调整的互联网行为进行更新，从而精准把握用户心理，为每一个用户提供最完美的精细化服务，全面提升客户感知，最终实现客户满意度的不断提升。

❽ 大数据用户画像的方法、实践与行业应用

大数据用户画像的方法、实践与行业应用
伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。
伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。

❾ 企业大数据实战案例

企业大数据实战案例

一、家电行业

以某家电公司为例，它除了做大家熟知的空调、冰箱、电饭煲外，还做智能家居，产品有成百上千种。在其集团架构中，IT部门与HR、财务等部门并列以事业部形式运作。

目前家电及消费电子行业正值“内忧外患”，产能过剩，价格战和同质化现象严重；互联网企业涉足，颠覆竞争模式，小米的“粉丝经济”，乐视的“平台+内容+终端+应用”，核心都是经营“用户”而不是生产。该公司希望打造极致产品和个性化的服务，将合适的产品通过合适的渠道推荐给合适的客户，但在CPC模型中当前只具备CP匹配（产品渠道），缺乏用户全景视图支持，无法打通“CP（客户产品）”以及“CC（客户渠道）”的匹配。

基于上述内外环境及业务驱动，该公司希望将大数据做成所有业务解决方案的枢纽。以大数据DMP作为企业数据核心，充分利用内部数据源、外部数据源，按照不同域组织企业数据，形成一个完整的企业数据资产。然后，利用此系统服务整个企业价值链中的各种应用。

那么问题来了，该公司的数据分散在不同的系统中，更多的互联网电商数据分散在各大电商平台，无法有效利用，怎么解决？该公司的应对策略是：1）先从外部互联网数据入手，引入大数据处理技术，一方面解决外部互联网电商数据利用短板，另一方面可以试水大数据技术，由于互联网数据不存在大量需要内部协调的问题，更容易快速出效果；2）建设DMP作为企业统一数据管理平台，整合内外部数据，进行用户画像构建用户全景视图。

一期建设内容：技术实现上通过定制Spark爬虫每天抓取互联网数据（主要是天猫、京东、国美、苏宁、淘宝上的用户评论等数据），利用Hadoop平台进行存储和语义分析处理，最后实现“行业分析”、“竞品分析”、“单品分析” 三大模块。

该家电公司大数据系统一期建设效果，迅速在市场洞察、品牌诊断、产品分析、用户反馈等方面得到体现。

二期建设目标：建设统一数据管理平台，整合公司内部系统数据、外部互联网数据（如电商数据）、第三方数据（如外部合作、塔布提供的第三方消费者数据等）。

该公司大数据项目对企业的最大价值是将沉淀的数据资产转化成生产力。IT部门，通过建设企业统一的数据管理平台，融合企业内外部数据，对于新应用快速支持，起到敏捷IT的作用；业务部门，通过产品、品牌、行业的洞察，辅助企业在产品设计、广告营销、服务优化等方面进行优化改进，帮助企业进行精细化运营，基于用户画像的精准营销和个性化推荐，帮助企业给用户打造极致服务体验，提升客户粘性和满意度；战略部门，通过市场和行业分析，帮助企业进行产品布局和战略部署。

二、快消行业

以宝洁为例，在与宝洁中国市场部的合作中发现，并不是一定要先整合内外部数据才能做用户画像和客户洞察。宝洁抓取了主流网站上所有与宝洁评价相关的数据，利用语义分析和建模，掌握不同消费群体的购物喜好和习惯，仅仅利用外部公开数据，快速实现了客户洞察。

此外，宝洁还在渠道管理上进行创新。利用互联网用户评论数据进行社群聆听，监控与宝洁合作的50个零售商店相关的用户评论，通过线上数据进行渠道/购物者研究并指导渠道管理优化。

实现过程：

1、锁定微博、大众点评等互联网数据源，采集百万级别消费者谈及的与宝洁购物相关内容；

2、利用自然语言处理技术，对用户评论进行多维建模，包括购物环境、服务、价值等10多个一级维度和50个二级维度，实现对用户评论的量化；

3、对沃尔玛、屈臣氏、京东等50个零售渠道进行持续监控，结果通过DashBoard和周期性分析报告呈现。

因此，宝洁能够关联企业内部数据，更有效掌握KA渠道整体情况，甚至进一步掌握KA渠道的关键细节、优势与劣势，指导渠道评级体系调整，帮助制定产品促销规划。

三、金融行业

对于消费金融来说，家电、快消的案例也是适用的，尤其是精准营销、产品推荐等方面。这里主要分享征信风控方面的应用。显然，互联网金融如果对小额贷款都像银行一样做实地考察，并投入大量人力进行分析评判的话，成本是很高的，所以就有了基于大数据的批量的信用评分模型。最终目的也是实现企业画像和企业中的关键人物画像，再利用数据挖掘、数据建模的方法建立授信模型。宜信的宜人贷、芝麻信用等本质上就是这个架构。

在与金融客户的接触中发现，不论银行还是金融公司，对外部数据的需求都越发迫切，尤其是外部强特征数据，比如失信记录、第三方授权后的记录、网络行为等。

以上是小编为大家分享的关于企业大数据实战案例的相关内容，更多信息可以关注环球青藤分享更多干货

❿ [恒丰银行]基于大数据的精准营销模型应用

【案例】恒丰银行——基于大数据的精准营销模型应用 https://mp.weixin.qq.com/s?src=3&timestamp=1500159788&ver=1&signature=-86itFcexY XKcX3Vb1ypwGo8v0IU6fkNgcs *=

本篇案例为数据猿推出的大型 “金融大数据主题策划” 活动（查看详情）第一部分的系列案例/征文；感谢** 恒丰银行** 的投递

作为整体活动的第二部分，2017年6月29日，由数据猿主办，上海金融信息行业协会、互联网普惠金融研究院合办，中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的 《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》 还将在上海隆重举办【论坛详情】【上届回顾（点击阅读原文查看）】

在论坛现场，也将颁发 “技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖” 四大类案例奖

本文长度为 6000 字，建议阅读 12 分钟

如今，商业银行信息化的迅速发展，产生了大量的业务数据、中间数据和非结构化数据，大数据随之兴起。要从这些海量数据中提取出有价值的信息，为商业银行的各类决策提供参考和服务，需要结合大数据和人工智能技术。国外的汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者。在国内的商业银行中，大数据的思想和技术逐步开始在业务中获得实践和尝试。

面对日趋激烈的行业内部竞争及互联网金融带来的冲击，传统的上门营销、电话营销，甚至是扫街营销等方式跟不上时代的节奏。利用精准营销可节约大量的人力物力、提高营销精准程度，并减少业务环节，无形中为商业银行节约了大量的营销成本。

虽然恒丰银行内部拥有客户的基本信息和交易等大量数据，但是传统的营销系统并没有挖掘出行内大量数据的价值，仍然停留在传统的规则模型。当下，恒丰银行接入了大量的外部数据，有着更多的维度，如果将内部数据与外部数据进行交叉，则能产生更大的价值。客户信息收集越全面、完整，数据分析得到的结论就越趋向于合理和客观。利用人工智能技术，建立精准营销系统变得可能且必要。

恒丰银行基于大数据的精准营销方案是利用大数据平台上的机器学习模型深入洞察客户行为、客户需求，客户偏好，挖掘潜出在客户，实现可持续的营销计划。

周期/节奏

2016.4-2016.5 完成需求梳理和业务调研，并在此基础上进行总体方案设计。
2016.5-2016.8 整理银行内、外部数据，根据营销需求制定客户标签和设计文档，实施用户画像。
2016.8-2016.10 在用户画像的基础上，构建理财产品个性化推荐系统。其中包括个性化推荐算法调研，模型对比等一系列工作。
2016.10-2017.1 客户需求预测并对客户价值进行建模，并完善整合精准营销应用模型。
2017.1-2017.3 用户画像、个性化推荐、客户价值预测等精准营销模型上线。

客户名称/所属分类

恒丰银行/客户管理

任务/目标

根据零售业务营销要求，运用多种数据源分析客户行为洞察客户需求，实现精准营销与服务，提高银行客户满意度和忠诚度。

针对不同的客户特征、产品特征和渠道特征，制定不同市场推广策略。为了完成以上任务，主要从以下几个方面构建精准营销系统：

1.用户画像： 结合用户的历史行为和基本属性给用户打标签。

2.精准推荐系统： 给用户推荐个性化理财产品，例如在微信银行中给每个客户推荐他喜欢的产品，帮客户找到其最适合的产品，增加产品的购买率。

3.需求预测和客户价值： 新产品发售的时候，找到最有可能购买该产品的客户，进行短信营销，进而提高产品响应率。客户价值精准定位，根据客户价值水平制定不同的推荐策略。银行通过计算客户使用其产品与服务后所形成的实际业务收益，充分了解每一个客户的贡献度，为管理层提供决策支撑。

挑战

项目实施过程由用户画像，精准推荐系统，需求预测和客户价值建模三部分组成，采用TDH机器学习平台Discover所提供的算法和模型库进行开发和验证。

（一）用户画像的建立

客户标签主要包含客户基本属性，客户等级标签，客户偏好标签，客户交易特征，客户流失特征，客户信用特征，客户终身价值标签，客户潜在需求标签。

（二）精准推荐系统的建立

由于系统复杂，且篇幅有限，仅对其中最重要的理财推荐系统做详细阐述。精准推荐系统架构图如下。

2.1业务问题转化为机器学习问题

业务问题

银行理财产品个性化推荐给客户。例如在微信银行中给每个客户推荐此客户喜欢的产品，帮客户找到其最适合的产品，增加产品的购买率。

将业务问题转化为机器学习问题

理财产品种类繁多，产品迭代速度很快，客户在繁多的产品中不能快速找到适合自己的产品，因此有必要建立一个自动化推荐模型，建立客户理财偏好，给客户推荐最适合的产品。

将银行理财产品推荐业务问题转化为机器学习问题，进而利用人工智能技术提高推荐产品的点击率和购买率。例如在恰当的时间，通过用户偏好的渠道给用户推荐产品，推荐的结果为用户购买或者未购买。这个问题可以看作一个典型机器学习二分类问题：基于历史营销数据来训练模型，让模型自动学到客户购买的产品偏好，并预测客户下次购买理财产品的概率。对模型预测出所有客户对所有产品的响应概率进行排序，可选择客户购买概率最高的topN个产品推荐给客户。

下面将叙述如何构建该推荐预测模型。

2.2数据源准备

在建立的一个理财推荐模型之前，可以预见到相似的客户可能会喜好相似的产品（需要表征客户和产品的数据），同一个人的喜好可能具有连续性（购买历史交易数据，包括基金国债等），他的存款、贷款资金可能决定了他能购买什么档次的理财等等。因此，我们需要准备以下数据。

客户基本属性：客户性别，年龄，开户时间，评估的风险等级等等。
产品基本属性：产品的逾期收益率，产品周期，保本非保本，风险等级等。
客户购买理财产品的历史：在什么时候购买什么产品以及购买的金额。
客户的存款历史：客户历史存款日均余额等。
客户的贷款历史：客户历史贷款信息等。
客户工资：客户工资的多少也决定了客户购买理财的额度和偏好。
用户画像提取的特征：用户的AUM等级，贡献度，之前购买基金，国债的金额等。

2.3特征转换和抽取

有了这么多数据，但是有一部分特征是算法不能直接处理的，还有一部分数据是算法不能直接利用的。

特征转换

把不能处理的特征做一些转换，处理成算法容易处理的干净特征。举例如下：

开户日期。就时间属性本身来说，对模型来说不具有任何意义，需要把开户日期转变成到购买理财时的时间间隔。

产品特征。从理财产品信息表里面可以得到风险等级，起点金额等。但是并没有标志这款产品是否是新手专属，是否是忠诚客户专属。这就需要我们从产品名字抽取这款产品的上述特征。

客户交易的时间信息。同客户的开户日期，孤立时间点的交易信息不具有任何意义，我们可以把交易时间转变为距离上次购买的时间间隔。

特征抽取

还有一部分数据算法不能直接利用，例如客户存款信息，客户交易信息。我们需用从理财交易和存款表中抽取可能有用的信息。

用户存款信息：根据我们的经验，客户购买理财之前的存款变动信息更能表明客户购买理财的真实想法，因此我们需要从客户历史存款数据抽取客户近三个月，近一个月，近一周的日均余额，以体现客户存款变化。

客户交易信息：客户最近一次购买的产品、购买的金额、及其相关属性，最近一个月购买的产品、购买的金额及其相关属性等等。

以上例举的只是部分特征。

2.4构造、划分训练和测试集

构造

以上说明了如何抽取客户购买理财的相关特征，只是针对正样本的，即客户购买某种理财时候的特征。隐藏着的信息是，此客户当时没有购买其他在发售的产品。假设把客户购买了产品的标签设为1，没有购买的产品样本设为0，我们大致有如下训练样本（只列举部分特征）。

其中客户是否购买产品是我们在有监督训练的标签，也就是我们建立的是一个预测客户是否会购买产的模型。

划分训练集和测试集

考虑到最终模型会预测将来的某时间客户购买某种产品的概率，为了更真实的测试模型效果，以时间来切分训练集和测试集。具体做法如下。假设我们有2016-09-01 ~ 2017-03-20 的理财购买相关数据。以2016-09-01 ~ 2017-03-19的理财交易数据作为训练，2017-03-20这一天的客户对每个产品是否购买的数据作为测试。以2016-09-01 ~ 2017-03-18的理财交易数据作为训练，2017-03-19这一天的客户对每个产品是否购买的数据作为测试，以此类推。

2.5模型训练

根据提取的特征，组成样本宽表，输入到分类模型，这里选择了TDH平台机器学习组件Discover所提供的近百个分布式算法进行建模和训练，同时我们还使用了特征的高阶交叉特性进行推荐的预测和分析。

2.6模型评估

评价推荐好坏的指标很多，比较常用的有

1.ROC曲线下面积（AUC）
2.logloss
3.推荐产品第一次命中rank的倒数（MRR）
4.TopN

针对银行的理财推荐实际业务，客户当天绝大多数是只购买了某一款理财，MRR(Mean Average Precision 的特殊情况)能反应这种情况下推荐的好坏。另一种直观的评价指标是TopN，假定我们只推荐N个模型认为客户最有可能购买的产品，并和真实情况比较，就能得到当天推荐的结果的混淆矩阵，TN，TP，FN，FP，recall，precision等。

我们在生产上验证了最近十天的推荐效果，即测试了2017-03-20， 2017-03-19，…… , 2017-03-11等十天的推荐效果，以下是这些结果的评价。

AUC

Logloss

MRR

0.89

0.45

0.78

也可以把新客户（之前没有购买理财）和老客户（至少购买过一次）分开评估效果。新客户的购买占了整个理财购买的1/3 以上。

测试新客户的预测效果，可以看出模型对冷启动问题解决的好坏。

对新客户的预测效果

AUC

Logloss

MRR

0.80

0.73

0.32

对老客户的预测效果

AUC

Logloss

MRR

0.92

0.38

0.88

2.7模型优化

1.上线之前的优化：特征提取，样本抽样，参数调参
2.上线之后的迭代，根据实际的A/B testing和业务人员的建议改进模型

（三）需求预测和客户价值

“顾客终生价值”(Customer Lifetime Value)指的是每个购买者在未来可能为企业带来的收益总和。研究表明，如同某种产品一样，顾客对于企业利润的贡献也可以分为导入期、快速增长期、成熟期和衰退期。

经典的客户终身价值建模的模型基于客户RFM模型。模型简单的把客户划分为几个状态，有一定意义但不一定准确，毕竟RFM模型用到的特征不全面，不能很好的表征客户的价值以及客户银行关系管理。

为了方便的对客户终身价值建模，有几个假定条件。其一把客户的购买价值近似为客户为企业带来的总收益，其二把未来时间定义在未来一个季度、半年或者一年。也就是我们通过预测客户在下一个时间段内的购买价值来定义客户的终身价值。因此，我们将预测的问题分为两个步骤：第一步预测这个客户在下一个阶段是否会发生购买（需求预测）。第二步对预测有购买行为的客户继续建模预测会购买多大产品价值。

3.1需求预测

提取客户定活期存款、pos机刷卡、渠道端查询历史等特征，以这些特征作为输入预测用户在当前时间节点是否有购买需求，训练和测试样本构造如下：

1.历史用户购买记录作为正样本。
2.抽样一部分从未购买的理财产品的用户作为负样本集合Un，对于每一个正样本Un中随机选取一个用户构造负样本。
3.选取2016.04-201610 的购买数据作为训练样本，2016.11的数据作为测试样本。

使用机器学习算法进行分类训练和预测，重复上述实验，得到下列结果:

AUC: 0.930451274
precision: 0.8993963783
recall: 0.8357507082
fmeasure: 0.8664062729

进一步对客户分群之后，可以更好的对新客户进行建模，对于老客户我们可以进一步提取他们的历史购买特征，预测他们在下一段时间内购买的产品价值（数量，金额等），对于新客户，可以进根据他的存款量预测其第一次购买的产品价值，把存款客户变成理财客户。通过分析客户存款变动于客户购买理财的关系，我们发现客户购买理财的前一段时间内定活期的增加的有不同的模式，如下图。

根据需求预测模型，我们给出新客户最有可能购买的top N 列表，然后由业务人员进行市场推广。

3.2客户价值预测

进一步预测有购买需求的客户的购买价值高低。这是个回归问题，但是预测变量从二分类变量变为预测连续的金额值。训练的时候预测值取训练周期内（一个月或者季度）客户所购买的总金额。

算出客户的当前价值（即当前阶段购买的产品价值）和未来价值（预测的下一个阶段的客户价值）可以帮助我们鉴定客户处于流失阶段，或者上升阶段，或者是稳定阶段。当前价值取的是当前时间前三个月的交易量。对流失阶段高价值客户可以适当给予营销优惠，对于有购买意向的客户适当引导。如下图所示。

结果/效果

一是提高银行营销准确性。随着客户不断增加，理财产品也在不断推陈出新，在实时精准营销平台的帮助下，银行从以前盲目撒网式的营销方式转变到对不同客户精准触达，提高了理财产品的营销成功率，降低销售和运作成本。理财产品推荐的上线以来，产品推荐成功率比专家经验排序模型最高提升10倍。

二是增加银行获客数量。精准营销系统洞察客户潜在需求和偏好，提高了银行获取目标客户群的准确率。从数百万客户中,通过机器学习模型,找到最有可能购买产品的客户群，通过渠道营销，实现响应率提升。相比传统盲发模式，发送原38%的短信即可覆盖80%的客户。

通过构建基于大数据的精准营销方案，恒丰银行深入洞察客户行为、需求、偏好，帮助银行深入了解客户，并打造个性化推荐系统和建立客户价值预测模型，实现可持续的营销计划。

导航:首页 > 网络数据 > 大数据建模案例资产画像

大数据建模案例资产画像

与大数据建模案例资产画像相关的资料

友情链接