1. 听说个推有基于大数据的用户画像,想知道它的标签体系是怎样的。谁比较清楚呢,说说呗
标签是某一种用户特征的符号表示,每个标签都规定了观察、认识和描述用户的一个角内度,容用户画像是一个整体,各个维度不孤立,标签之间有联系,用户画像可以用标签的集合来表示。个推有几百个用户相关的标签,用户的性别,年龄,兴趣爱好,消费习惯,地理位置,用户设备等。
2. 阿里达摩盘:如何运用“人货场”方法构建标签体系
作者介绍
画像数据产品@草帽小子
《大数据实践之路:中台+分析+应用》核心作者
专注用户画像,著有用户画像、标签体系等系列文章
人人都是产品经理专栏作家
“数据人创作者联盟”成员
大家好,我是草帽小子~
用户标签是通过对用户基础信息、用户行为、业务信息等数据,进行数据建模所产生的用户特征。标签是用户画像、用户分层的基础,在画像产品的工作中,标签体系的建设处于核心位置。
之前草帽小子有分析对比过不同厂的标签体系建设方法,对比后会发现不同业务下标签体系的分类方法也不一样,具体见《 干货 | 阿里/网易/汽车之家画像标签体系 》,下面我们来深入看看阿里达摩盘的标签体系。
01 标签体系
通常标签较多时,用户都会无从下手,就像是我们去到超市,要是货架上的商品杂乱无章,我们也难以找到自己想要的商品。因而超市的做法会将商品按品类或是用途来进行分类,方便用户寻找。
达摩盘标签体系的划分也使用了分类的方法,商家面对海量标签会无从下手,因而达摩盘将电商中“人货场”的方法运用于标签分类中,划分出用户特征、品类特征、渠道特征、私域特征,从而更好地满足商家的使用需求。
个体特征,包含基础特征、亲缘关系、地理位置、社会特征、消费特征、长期兴趣、策略人群。
例如,消费力分级标签:基于用户在淘宝的浏览、搜索、购买等行为,综合计算出用户的消费能力水平,并划分为5个等级,等级越高则表明消费能力越强。
品类特征,包含类目行为、类目客单价、类目消费力分级、类目消费决策导向、行业特征。这个类别构建了“人-商品”间的关系,跟《 阿里达摩盘:画像营销洞察有哪5种玩法? 》中的单品圈人类似。
例如,美妆行业特征标签:根据用户近60天在淘宝天猫,进行宝贝搜索和浏览收藏等互动行为时,所对应的宝贝属性,筛选出用户top30感兴趣的属性词,并经过算法加工后归纳到类目的属性特征人群。
渠道特征,包含搜索渠道、推荐渠道、活动渠道、内容渠道、站外渠道、广告渠道、天猫渠道。
例如,活动渠道行为标签:根据近30天用户在淘宝天猫活动渠道上,分类目的浏览、收藏等具体互动行为,进行偏好度计算,并按30%、40%、30%的比例进行高中低的偏好度打分。
02 标签市场
在系统呈现层面,增加了标签热门指数、展现指数、点击指数、出价指数,可进行标签应用质量的评估。
增加了一些最新上线、实时标签、我的收藏、即将下线的一些分类,方便用户使用。
草帽小子:目前一些公开资料,只能看到前台的一些功能。而对于标签建设者来说,标签后台管理模块也至关重要,能够支持对标签进行新增、下架、修改、查看等。感兴趣的可以研究一些第三方CDP平台。
03 标签推荐
标签推荐模块,平台提供今日精选推荐、实时人群播报、标签排行榜、星耀精选、优质人群推荐服务,帮助商家快速选择合适的人群。
标签排行榜通过拉新场景榜、店铺用户运营榜、大促营销榜,从不同维度对标签进行排名,可以帮助商家在不知如何选时,参考热门标签。
系统推荐店铺潜客、店铺新客、店铺老客的显著特征,从而方便商家圈选人群。
标签上新也会进行推荐,这样标签上线容易被发现,不然会无人问津。
草帽小子:在上一个洞察模块《 阿里达摩盘:画像营销洞察有哪5种玩法? 》,我们也会发现有标签推荐的功能。很多团队在业绩汇报时,会说我们这个季度建设了多少标签,可能已经建设了上千个。但是在做标签应用时,会发现营销人员用起来难。
面对上千个标签,营销人员脑子也会一头雾水,到底什么场景下,使用什么标签才能更好?
最后很不幸的结果是,营销人员通常只会用几个平时用的比较多的标签,圈选出来的人群推送效果达不到最佳。标签产研团队最后也会被老板质疑,投入这么多精力开发上千个标签,一半以上的标签都没人用,你们怎么搞的?
因而,系统建设者需要结合一些运营模型,做到不同运营场景下的标签组合推荐。
04 小结
不同业务标签体系划分的方式不一样,如电商业务使用的“人货场”标签体系、长租业务中是用“人房客”标签体系、汽车业务使用“人车“标签体系…尽管不同行业建设的标签体系千变万化,但不变的是标签体系的划分,要符合用户的使用习惯,方便用户寻找特定标签。
3. 基于大数据的用户标签体系建设思路和应用
基于大数据的用户标签体系建设思路和应用
在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境、营销策略和服务模式。
如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战。通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案。
但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值?
这些都是产品设计层面需要解决的问题。
掌上医讯一直以来都致力于打造医生的今日头条和智能化的学习平台,通过大数据技术实现医生学习的智能化和个性化,而要构建这样一个学习平台,最基础的就是要建立用户的标签体系。
经过长时间的学习、思考、借鉴和实践,现在已经有了自己的标签构建思路,并且也已经提取出了符合自身业务的标签。我们十分重视用户行为日志的收集,现在已经有了亿万级别的日志数据,正在搭建数据处理和标签计算平台,以下是我们整理的建设思想。
标签系统的结构
标签系统可以分为三个部分:数据加工层、数据服务层和数据应用层。
每个层面向的用户对象不一样,处理事务有所不同。层级越往下,与业务的耦合度就越小。层级越往上,业务关联性就越强。
数据加工层
数据加工层收集、清洗和提取数据。掌上医讯有诸多的学习模块,同时又有网站、APP、小程序等多个产品形式,每个产品模块和产品端都会产生大量的业务数据和行为数据,这些数据极为相似又各不相同,为了搭建完善的用户标签体系,需要尽可能汇总最大范围的数据。收集了所有数据之后,需要经过清洗、去重、去无效、去异常等等。
数据业务层
数据加工层为业务层提供最基础的数据能力,提供数据原材料。业务层属于公共资源层,并不归属某个产品或业务线。它主要用来维护整个标签体系,集中在一个地方来进行管理。
在这一层,运营人员和产品能够参与进来,提出业务要求:将原材料进行切割。
主要完成以下核心任务:
定义业务方需要的标签。创建标签实例。执行业务标签实例,提供相应数据。数据应用层
应用层的任务是赋予产品和运营人员标签的工具能力,聚合业务数据,构建具体的数据应用场景。
(1)标签的类型
从数据提取维度来看,标签可分为:事实标签、模型标签和预测标签。
(2)事实标签
从生产系统获取数据,定性或定量描述用户的自然属性、产品属性、消费属性、资源属性等,以及根据工作人员经验积累的业务规则进行筛选、分析生产的标签,如是否活跃用户、是否是考生等。
(3)模型标签
对用户属性及行为等属性的抽象和聚类,通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数,标签代表用户的兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等。
(4)预测标签
基于用户的属性、行为、信令、位置和特征,挖掘用户潜在需求,针对这些潜在需求配合营销策略、规则进行打标,实现营销适时、适机、适景推送给用户。
从数据的时效性来看,标签可分为:静态属性标签和动态属性标签。
(5)静态属性标签
长期甚至永远都不会发生改变。比如性别,出生日期,这些数据都是既定的事实,几乎不会改变。
(6)动态属性标签
存在有效期,需要定期地更新,保证标签的有效性。比如:用户的购买力,用户的活跃情况。
标签的定义
给用户打标签,建立用户画像,最终都是为了去应用,所以我们要站在应用场景上去定义用户的标签体系,每个标签都有最终的用途。比如:我们做考试培训服务,我们需要建立“是否考生”的标签。
另外,不同的行业他们的用户特征也是有显著区别的,比如:医生用户相比普通用户来说,就多了像“科室”、“职称”、“所在医院等级”等特殊含义的标签。
而标签是有层级关系的,既是为了管理,更好的理解,又是为了控制粗细力度,方便最终的应用。标签深度一般控制在四级比较合适,到了第四级就是具体的标签实例。
我们根据公司的业务首先划分了人口属性、行为属性、用户分类和商业属性四个大的分类,下面又分了上网习惯、学习惯、人群属性、消费能力、消费习惯等分类,最末级精确到用户的活跃等级、阅读来源、考试偏好等具体的标签。
标签的维护
每个标签都不会凭空产生的,也不会一成不变,更不会凭空消失。标签的维护需要生成规则,需要定义权重,需要更新策略。
生成规则
如第一部分所说,标签分为事实标签,模型标签和预测标签三大类。对于这三类的标签,生成规则的难度和复杂性也是逐级递增的。事实标签只需要考虑从什么地方提取即可,它即包含明确的标签定义,又包含无法穷举的标签集,比如:关注的病种。
而模型标签需要进行数据的关联和逻辑关系的设计,通过一定的模型对数据进行计算得来。而预测标签相对就非常的复杂,无法从原始数据提取标签,标签的生成准确度就太依赖我们大数据分析和人工智能技术的应用。
定义权重
一个标签会在多个场景下出现,比如:一个疾病标签,它极可能在浏览过程中生成,也有可能在搜索场景下产生,但是对于这两个场景所对应的同一个标签,他们的权重是不同的。浏览相比搜索,权重要小得多,因为搜索的主动需求更大。
更新策略
上文我们从数据的时效性上对标签分为静态属性标签和动态属性标签,对于静态属性标签的处理相对比较简单,就不停的累加即可。但是对于动态属性标签,需要对过期标签进行降权甚至删除处理,比如:医生考试前和考试后,会影响“是否考生”这个标签的,这就需要制定更新策略。
标签建设的技术架构
标签体系的建设涉及很多环节,数据量也十分巨大,需要有一个健壮且高效的技术架构来支持数据的存储及计算,掌上医讯采用了sql数据库和no-sql数据库来满足结构化数据和非结构化数据的存储。
使用hadoop的分布式存储技术及hive和hbase组件作为数据仓库,使用MapRece和spark分布式计算来提高计算速度,使用kylin进行多维分析,通过BI工具和接口对外提供应用,使用sqoop和kettle进行数据的抽取及流程的调用。
更多的应用场景
用户标签建立已经基本应用在掌上医讯的内容智能推荐的学习场景中,但随着标签的完善以及智能化处理的提升,这套标签体系将有更广阔的应用场景。
(1)智能化学习场景的构建
通过用户学习需求的标签的分析进行用户分群,针对不同的用户群在APP的功能和内容上进行个性化展示,满足不同学习需求的用户个性化的学习服务。
(2)精准营销推广的建立
更细粒度的对用户进行筛选,同时能够精准预测可能存在的目标用户进行推广,从而扩大医生覆盖,提升推广的转化率。
(3)KOL用户画像的描绘
基于该标签模型,增加对外部数据的采集分析,更加完整的生成医生360度的用户画像,帮助企业寻找潜在的KOL用户,实现用户洞察,辅助市场决策。
标签的建设是一个看似高大上,其实很繁琐、纠结的过程,需要对业务抽丝剥茧,还要应对运营需求的各种变化,不过对公司发展的影响也是深远的。
4. 大数据智能计算的基础标签体系的标签计数
现在各个行业都运用大数据这样的技术,技术标签体系也应用了这样的方式,可以节省我们很多的工作。