1. 大数据应用之“画像”
随着大数据技术的备受关注,有关“用户画像”、“商品画像”、“产品画像”、“资产画像”……的讨论就不绝于耳。那么,究竟什么是画像?又如何进行画像建设与画像分析呢?我们就从以下几个方面,着重探讨一下。
1、什么是画像?
用户画像,被定义为一种抽象出用户信息全貌的手段。
举个简单的例子,某个客户的特征描述为:500强企业,媒体行业,旗下产品覆盖网站、APP、微博、微信等端口,拥有受众9亿+,这就是一个典型的用户画像,我们据以便可以知道其存在大数据方面的需求。如果用一句话来描述,即:用户信息标签画。
大数据的时代背景下,画像被认作为企业应用大数据的根基,并直接跟企业经营能力、竞争优势的打造联系在一起。
有评论指出,要看一家企业的数据化运营程度,首当其冲地要看其“画像”构建情况:是否建设了“画像”?“画像”体系构建程度如何?针对什么对象进行了画像?构建画像的各种标签与指标情况如何?有没针对已建立起来的”画像”的应用?应用情况如何?等等
2、为什么要进行用户画像
这跟用户行为识别及数据应用直接相关。
各行各业都期待着,用户能主动告诉我们,他们的行为偏好。然而,事实既总非如愿,技术实现也非如此简单:首先,用户用以描述兴趣的自然语言很难为自然语言理解技术所理解;其次,用户的 兴趣是不断变化的,无法不停地提供兴趣描述;最后,很多时候用户并不知道自己喜欢什么,或很难清楚描述出自己喜欢什么。
于是,我们需要通过算法自动发掘用户行为数据,从用 户的行为中推测出用户的兴趣,从而给用户推荐满足他们兴趣的产品和服务,而画像,就是其中最重要的应用之一。
画像,通过为用户打标签的方式,使计算机能够程序化处理与人相关的信息。
如用户信息的分类统计:喜欢魅族的用户有多少?喜欢魅族的人群中,男、女比例是多少?如用户数据的挖掘工作:利用关联规划计算,购买该种商品的用户还购买了什么产品?利用聚类算法分析,喜欢该种产品的人年龄段分布情况如何等等?
3、构建用户画像的关键是什么?
从画像与标签的关系也可以窥见一斑,标签是画像建设的关键。同时,它也是大数据技术场景化的关键,因为如果没有针对场景构建出来标签,大数据的应用往往就很难“落地“。
一个标签通常是人为规定的高度精炼的特征指标,如年龄段标签:25-35岁;地域标签:北京、上海;设备标签:PC、移动;性别标签:男、女等等。
标签呈现出明显的语义化与短文本的特征:语义化,人能很方便地理解每个标签含义,使得用户画像模型具备实际意义,能够较好的满足业务需求;短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
制定标签要遵循一定的规则,既要涵盖重要信息,又要方便机器做标签提取、聚合分析。
案例:用户的商品价格偏好标签建设过程
以某公司构建用户消费偏好画像为例,我们需要根据具体场景下用户的选择行为,将用户偏好画像拆分成几个不同数据标签:品牌、价格、购买时间、购买方式等
取用户历史购买消费记录,统计用户历史购买商品的价格,然后对价格进行区间划分。看用户购买的价格带主要集中在哪个区间中(价格带偏爱应该是一个相对动态的标签,更新频率可能一个月需要定期更,而且选择的时间段也应该是过去某个时间,不应该选择过长时间段。大家想想为什么?)。如何进行价格区间划分?
方法一:按统计学的方法
1、按分位数进行。例如:25%,50%,75%
2、按等箱原则。划分几等分
3、看数据的分布。
4、……
方法二:按业务知识经验
把价格带按业务经验,行业经验进行划分。
通过数据统计出来,我们可以看用户是否商品单价是否集中的某个区间范围内。例如,某用户购买的商品价格主要集中在30到40这个区间内,根据历史显示可以说,用户可能偏好于购买这个价格带的商品。当未来我们需要做促销商品推荐的时候,可以向该用户重点推荐打折后在这个价格区间的商品。
通过用户购买的价格区间,以及结合商品所归属的品类,可以看这个价格区间在这个品类中属于什么级别的。可以进一步给用户打上:注重品牌、注重高性价比等标签。
例如:如果某个品类商品的价格范围是(5,40],该用户购物商品主要集中(30,40]这个商品价格区间,用户在这个品类的消费上都是最高价格区间,说明这个用户在购买这个品类主要购买的高端商品。这样又可以为这个用户打上在这个品类的消费特征标签:品类高端用户。
4、构建用户画像的方法
从上面案例中,我们可以抽象出构建用户画像的方法,即用户画像模型的构建方法。
一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户、在什么时间、在什么地点、做了什么事。
其中用户的属性识别关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。时间的属性包括两个重要信息:时间戳和时间长度,时间戳指的是标识用户行为的时间点,通常精确到秒;时间长度指的是标识用户的停留时间。地点的属性也就是用户接触点,在互联网上,用户的接触点就包括了网址和内容两个重要信息。
用户行为属性有不同的类型,结合接触点的内容产生的标签信息,具有不同的权重。用户画像的数据模型可以概括为这样一个公式:用户标识+时间+行为类型+接触点(网址+内容),某个用户在某个时间、某个地点做了什么事情,就会被打上一个既定的标签。而用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子,行为类型、网址决定了权重,内容决策了标签,可以认为公式转变为标签权重=衰减因子×行为权重×网址子权重。
通过这样的计算才能够构建用户画像模型,进而能够逐步细化模型,从而最终制作出一个精准的用户模型。而每一个精准的用户模型都能够根据用户不断调整的互联网行为进行更新,从而精准把握用户心理,为每一个用户提供最完美的精细化服务,全面提升客户感知,最终实现客户满意度的不断提升。
2. 如何解决highcharts画大数据时画图效率问题
方法一:在Axis(包括xAxis和yAxis)有一个属性,number类型,表示间隔,也就是间隔多少个值显示,比如设置为5,则表示每隔5个值才显示一个,在上面的基础上,经过设置tickInterval值为5,效果如下:
1
2
3
4
5
6
7
8
9
xAxis: {
tickInterval: 5,
categories:['2013-08-01 00:00:00','2013-08-01 00:00:10','2013-08-01 00:00:20','2013-08-01 00:00:30','2013-08-01 00:00:40','2013-08-01 00:00:50','2013-08-01 00:01:00','2013-08-01 00:01:10','2013-08-01 00:01:20','2013-08-01 00:01:30','2013-08-01 00:01:40','2013-08-01 00:01:50','2013-08-01 00:02:00','2013-08-01 00:02:10','2013-08-01 00:02:20','2013-08-01 00:02:30','2013-08-01 00:02:40','2013-08-01 00:02:50','2013-08-01 00:03:00','2013-08-01 00:03:10','2013-08-01 00:03:20','2013-08-01 00:03:30','2013-08-01 00:03:40','2013-08-01 00:03:50','2013-08-01 00:04:00'],
labels:{
x:45,//调节x偏移
//y:-35,//调节y偏移
//rotation:25//调节倾斜角度偏移
}
},
方法二:设置滚动条
3. 有哪些软件可以做大数据画像
TempoBI可以做大数据画像,给你看一个用他做的员工与学生画像截图。
4. 什么叫大数据人物画像
大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[1] 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。 特征 容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息; 种类(Variety):数据类型的多样性; 速度(Velocity):指获得数据的速度; 可变性(Variability):妨碍了处理和有效地管理数据的过程。 真实性(Veracity):数据的质量 复杂性(Complexity):数据量巨大,来源多渠道 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。 大数据的价值体现在以下几个方面:1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;2) 做小而美模式的中长尾企业可以利用大数据做服务转型;3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。 不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。
5. 如何利用大数据技术构建用户画像
1、认识用户画像
用户画像简单来讲,就是用户信息标签化。即收集这个用户的各种数据和行为,从而得出这个用户的一些基本信息和典型特征,最后形成一个人物原型。一般用户画像会分析三个信息维度,分别是基本属性、消费购物以及社交圈。其中基本属性就是指用户的一些基本信息,比如年纪、性别、生日、学校、所在地等等。
2、利用大数据构建用户画像的好处
(1)精准营销:当企业和商家掌握了用户的一定信息后,就可以构建出清晰的用户画像,这样一来就可以根据用户的偏好、收入等标签,推荐给他们会感兴趣的商品和服务。
(2)用户统计:通过大数据我们可以对一些数据进行统计,比如我们经常会看到有一些APP的排行榜,甚至是渗透率、日活率这些具体数据都可以清晰统计出来。
(3)数据挖掘:构建智能推荐系统,利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌,利用聚类算法分析,喜欢红酒的人年龄段分布情况。
(4)进行效果评估:其实相当于市场调研、用户调研,迅速下定位服务群体,提供高水平的服务。比如你是一个买车的想要投放广告,但是不知道哪个渠道投放更好,就可以先尝试一下,看看数据反馈如何。
(5)私人订制:对服务或产品进行私人订制,然而不法商家也会利用用户画像来杀熟。
(6)业务经营分析:业务经营分析以及竞争分析,影响企业的商业决策,甚至发展战略。
3、构建用户画像的流程
(1)数据源端:一般来讲构建用户画像的数据来自于网站交易数据、用户行为数据、网络日志数据。当然也不仅限于这些数据,一些平台上还有个人征信数据。
(2)数据预处理:第一步是清洗,把一些杂乱无序的数据清洗一下,然后归纳为结构化的数据,最后是把信息标准化。我们可以把数据的预处理简单理解为把数据分类在一个表格中,这一步就是奠定数据分析的基石。
关于如何利用大数据技术构建用户画像,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
6. 你认为大数据课程要学习哪些主要知识模块尝试画一幅思维导图并提交。
入门学习需要掌握的基本技能:
1、Java
2、Linux命令
3、HDFS
4、MapRece
5、 Hadoop
6、Hive
7、ZooKeeper
8、HBase
9、Redis
10、Flume
11、SSM
12、Kafka
13、Scala
14、Spark
15、MongoDB
16、Python与数据分析等等。
我们所说的大数据培训学习,一般是指大数据开发。大数据开发需要学习的东西可以参考一下加米谷大数据培训0基础学习的课程,具体描述可见guan网:
第一阶段:Java设计与编程思想
第二阶段: Web前端开发
第三阶段: JavaEE进阶
第四阶段: 大数据基础
第五阶段: HDFS分布式文件系统
第六阶段:MapRece分布式计算模型
第七阶段: Yarn分布式资源管理器
第八阶段: Zookeeper分布式协调服务
第九阶段: Hbase分布式数据库
第十阶段: Hive分布式数据仓库
第十一阶段: FlumeNG分布式数据采集系统
第十二阶段: Sqoop大数据迁移系统
第十三阶段: Scala大数据黄金语言
第十四阶段: kafka分布式总线系统
第十五阶段: SparkCore大数据计算基石
第十六阶段: SparkSQL数据挖掘利器
第十七阶段: SparkStreaming流失计算平台
第十八阶段: SparkMllib机器学习平台
第十九阶段:SparkGraphx图计算平台
第二十阶段: 大数据项目实战
7. 什么是大数据画像
大数据画像是指,在大数据时代,企业通过对海量数据信息进行清洗、聚类、分析,将数据抽象成标签,再利用这些标签将用户形象具体化的过程。
用户画像的建立能够帮助企业更好地为用户提供针对性的服务。与之相应,越来越多的第三方大数据公司,也开始依托自身的数据积累,为客户提供用户画像的服务。
比如个推旗下的用户画像产品,能够对用户线上和线下行为进行大数据分析,帮助APP开发者和运营者构建全面、精准、多维的用户画像体系。用户画像的形成需要经历四个过程,数据积累、数据清洗、数据建模分析、数据产出。
其中,数据清洗和数据建模统称数据处理。在经过数据处理之后,个推产出独特的冷、热、温数据维度,并分析用户的线上兴趣偏好和线下行为场景,形成用户画像。
为什么需要用户画像
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?
也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况?
大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解” 人。