【导读】作为大数据工程师,其必须要掌握的基础知识就是java与mysql的关系、交互和连接,作为基础,也是面试考官经常会考的内容,为了帮助大家都能顺利通过考试,今天小编就来和大家唠一唠java与mysql的关系、交互和连接,好了,开始今天的内容大数据分析师面试必备:java与mysql解析。
1. SQL语言四大类:
DQL 数据查询语言 select
DML 数据操作语言 insert、update、delete
DDL 数据界说语言 create、alter
DCL 数据控制语言 grant权限
2. mysql数据库中的decimal类型(是数值型,不能存放字符串):
举例:decimal(18,0) 常用于身份证号码,但是带x的不可以。
举例:decimal(5,2)
状况一:假设小数点前面是3位,后边是2位,正常状况。
状况二:5指的是小数点前后不能超过5位,小数点后有必要是2位。
3. mysql中InnoDB和MyISAM引擎的差异:
innodb支撑:事务和主外键
myisam不支撑:事务和主外键
4. 【不需要背诵,选择题考点】向mysql中,a向表中添加数据的几种写法,题目:id int 主键自增,name varchar(11)
不为空。
5. 操作mysql数据库表有两种方式,第一种:点八点吧;第二种:写代码。【不需要背诵,只需要了解,考试选择题会出】
6. 在Java中,简述面向对象三大特征。
7. 在Java中,常用关键字:
1. 定义类的关键字是什么? class
2. 继承的关键字是什么? extends
3. 定义接口的关键字是什么? interface
4. 实现接口的关键字是什么? implements
5. 抽象类的关键字是什么? abstract
8. 在Java中,抽象类和接口的区别:
1. 抽象类中可以包含普通方法和抽象方法,接口中只能包含抽象方法
2. 抽象类中可以有构造方法,接口中没有构造方法
3. 抽象类只能单继承,可以实现多个接口
9. Java接口中有哪些成员?
1. 构造方法,没有
2. 常量,默认访问修饰符public static final,没有变量
3. 抽象方法,默认访问修饰符public abstract
10. 在Java中,抽象类和抽象方法的关系:
1. 抽象类中可以包含普通方法和抽象方法,抽象方法一定存在抽象类中。
2. 子类继承抽象父类,必须实现|重写抽象方法,除非子类也是抽象类。
3. 【判断题】抽象类中必须包含抽象方法?【错误×】
4. 【判断题】抽象方法一定存在抽象类中?【正确√】
11. Java重载的特点:
1. 在同一个类中
2. 方法名相同
3. 参数列表(个数、类型、顺序)不同
4. 与返回值类型和访问修饰符无关
12. Java重写的特点:
1. 在父子类中
2. 方法名相同
3. 参数列表相同
4. 返回值类型相同,或是其子类
5. 访问修饰符相同,或不能严于父类
13. 列举几种Java实现多态的形式:
1. 继承的存在
2. 父类引用指向子类对象 | 向上转型
3. 父类作为方法的返回值类型,父类作为方法的参数
14. Java接口的特性:单根性和传递性
15. 在Java中,throws和throw的区别:
1. throws 声明异常,用在定义方法小括号的后面
2. throw 抛出异常,写在方法体内
以上就是小编今天给大家整理发送的关于大数据分析师面试必备:java与mysql解析的相关内容,希望对各位考生有所帮助,想知道更多关于数据分析师的基本要求有哪些,关注小编持续更新数据分析师岗位解析。
2. 大数据面试题及答案谁能分享一下
大数据时代才刚刚开始。随着越来越多的公司倾向于大数据运营,人才需求达到历史最高水平。这对你意味着什么?如果您想在任何大数据岗位上工作,它只能转化为更好的机会。您可以选择成为数据分析师,数据科学家,数据库管理员,大数据工程师,Hadoop大数据工程师等。在本文中,慧都网将介绍与大数据相关的前10大数据面试问题。
以下是最重要的大数据面试问题以及具体问题的详细解答。对于更广泛的问题,答案取决于您的经验,我们将分享一些如何回答它们的提示。
无论何时进行大数据采访,采访者都可能会询问一些基本问题。无论您是大数据领域的新手还是经验丰富,都需要基础知识。因此,让我们来介绍一些常见的基本大数据面试问题以及破解大数据面试的答案。
1.您对“大数据”一词有何了解?
答:大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据,这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务,并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。
2.大数据的五个V是什么?
答:大数据的五个V如下:
Volume -Volume表示体积大,即以高速率增长的数据量,即以PB为单位的数据量
Velocity -Velocity是数据增长的速度。社交媒体在数据增长速度方面发挥着重要作用。
Variety -Variety是指不同的数据类型,即各种数据格式,如文本,音频,视频等。
Veracity -Veracity是指可用数据的不确定性。由于大量数据带来不完整性和不一致性,因此产生了准确性。
Value -价值是指将数据转化为价值。通过将访问的大数据转换为价值,企业可以创造收入。
YARN的两个主要组成部分:
ResourceManager-该组件接收处理请求,并根据处理需要相应地分配给各个NodeManager。
NodeManager-它在每个单个数据节点上执行任务
7.为什么Hadoop可用于大数据分析?
答:由于数据分析已成为业务的关键参数之一,因此,企业正在处理大量结构化,非结构化和半结构化数据。在Hadoop主要支持其功能的情况下,分析非结构化数据非常困难
存储
处理
数据采集
此外,Hadoop是开源的,可在商用硬件上运行。因此,它是企业的成本效益解决方案。
8.什么是fsck?
答:fsck代表文件系统检查。它是HDFS使用的命令。此命令用于检查不一致性以及文件中是否存在任何问题。例如,如果文件有任何丢失的块,则通过此命令通知HDFS。
9. NAS(网络附加存储)和HDFS之间的主要区别是什么?
答:NAS(网络附加存储)和HDFS之间的主要区别 -
HDFS在一组计算机上运行,而NAS在单个计算机上运行。因此,数据冗余是HDFS中的常见问题。相反,复制协议在NAS的情况下是不同的。因此,数据冗余的可能性要小得多。
在HDFS的情况下,数据作为数据块存储在本地驱动器中。在NAS的情况下,它存储在专用硬件中。
10.格式化NameNode的命令是什么?
答:$ hdfs namenode -format。
欢迎咨询慧都在线客服,我们将帮您转接大数据专家团队,并发送相关资料给您!
以上就是大数据面试题及答案,希望我的回答对您有帮助!
3. 面试题-关于大数据量的分布式处理
面试题-关于大数据量的分布式处理
题目:生产系统每天会产生一个日志文件F,数据量在5000W行的级别。文件F保存了两列数据,一列是来源渠道,一列是来源渠道上的用户标识。文件F用来记录当日各渠道上的所有访问用户,每访问一次,记录一条。
请问如何快速计算出各渠道上新增的用户?
问题分析:首先本次面试的是有关于分布式数据处理以及数据分析的职位,所以相关的面试题目可能会偏向于使用分布式的思想去解决。但无奈本人当时反应太慢,实在没向分布式处理方向思考。
方案一:
本题最直观的一个处理方法就是,直接拿着当日新增的5000W条访问记录一条一条的去匹配历史访问用户。若存在历史访问记录,则忽略;若不存在访问记录,则保存为新增记录。很明显,假若历史访问用户有2亿条记录,则需要和2亿条数据比较5000W次。比较次数可想而知。
由于本人一直在做基于数据库的数据处理工作,很容易就想到将历史数据保存在数据库的一张表中,并对来源渠道和用户标识这两个字段建立索引,然后遍历日志文件F(5000W次)。根据日志文件F中的每一行去匹配数据库中的历史访问记录。由于历史数据表有索引,单次查询的速度也非常快。但是需要5000W次的数据库查询,很明显效率低下。
方案二:
既然多次单一查询无法满足要求,于是可以先通过一种数据导入技术将当日新增数据导入到数据库的另一张表中,并和历史数据做左外关联。若能关联成功,则表示此用户已存在;若关联失败,则表示此用户不存在。
此方案暂且不说5000W条记录的大表与2亿条记录的大表关联效率有多高以及使用到的数据库缓冲区的资源有多少,单就5000W条访问记录导入数据库表,都是一个不小的时间花费。
方案三:
很明显,面试时方案二的回答并未达到面试官的预期,最初被遗憾的PASS掉。一家很有潜力,自己很看好的公司,并计划做为自己未来发展方向的职位,就这样丢下我,扬长而去了。
这几天又看了下分布式相关的介绍,突然想到这道题。一下子醒悟过来,其实还是因为对题目要考察的点分析得不够透彻。当时以为只是仅仅考数据处理效率的一个题目,其实考的是一种将复杂问题拆分为简单问题的拆分思想。了解到这一层,一种新的方式立马在脑海中浮现出来。具体如下:
假如现在有N(N>=2)个存储块,并存在一个函数f(来源渠道,用户标识),对于给定的一组(来源渠道,用户标识),总能将其分发到一个固定的存储块内。那么可以使用此函数将5000W行访问记录尽量均匀的分发至N个存储块上,并同时使用此函数将历史访问记录也分发至这些存储块上。由于相同的一组记录,肯定会被分配至同一个存储块,所以比较时,只需要分别比较各个存储块上当日新增记录与历史访问用户,然后将N个存储块上比较的结果汇总,即可得到最终结果。
假设历史访问用户数据已通过函数f(来源渠道,用户标识)被分发至了N个历史文件H1、H2、…、HN。则详细处理步骤如下:
1、将F中的内容使用函数f(来源渠道,用户标识),分发至文件F1、F2、…、FN内。(可开M(M>=2)个并行,且若N-M越大,同时向同一文件写入数据的概率越小)
2、将文件F1、F2、…、FN内的访问记录去重。(可开N个并行分别处理对应的N个文件)。
3、将文件Fn(1=<n<=N)去重后的结果与对应的历史文件Hn比较得出新增用户结果Rn。(可开N个并行分别处理对应的N个文件且当N足够大时,实际要处理数据的量级就会相当小)。
4、合并第3步得到的结果R1、R2、…、RN即可得到当日新增用户。(可并行)
5、为使历史数据文件H1、H2、…、HN中的数据最全,将结果R1、R2、…、RN分别写入对应的历史文件中。(可并行)
本方案主要有以下优点:
1、数据的分发、处理、合并都可并行处理,明显提高了处理效率。
2、由于每个存储块上的新增数据,只需要与它对应存储块上的历史数据比较即可,大大减少了比较次数。(对于当日每一条记录来说,都只需要与大约历史的N分之一条数据去比较)
3、基本不需要考虑历史全量数据的保存及获取问题。
本方案缺点:
1、处理方案明显变的复杂许多,不仅需要处理数据的分发,处理,还需要一个并行的快速收集方法。
2、可能需要多台服务器并行处理。
本方案难点:
1、一个稳定(对于相同的一组来源渠道和用户标识,必定会被分发至同一存储块)、快速(根据一条来源渠道和用户标识数据,可以快速的计算出它将要被分发至的存储块)、均匀(当日新增数据及历史数据都能尽量均匀的被分发至N个存储块,最理想的情况是每个存储块上分发到的数据都是总数据的N分之一)的分发函数至关重要。
2、如何分发、并行处理及汇总数据。
4. 大数据分析师面试题:Redis的耐久化战略
【导读】众所周知,大数据分析师的面试流程与其他行业的不大一样,比如你面试一份文员工作,只需要携带简历就可以了,不过要想面试成功大数据分析师,不仅需要携带简历,还要做好考试的准备,这是每一个大数据分析师的入职必经流程,今天小编就来和大家说说大数据分析师面试题:Redis的耐久化战略,希望对各位考生有所帮助。
一、RDB介绍
RDB 是 Redis
默许的耐久化计划。在指定的时间距离内,实行指定次数的写操作,则会将内存中的数据写入到磁盘中。即在指定目录下生成一个mp.rdb文件。Redis
重启会通过加载mp.rdb文件恢复数据。
可以在redis.windows.conf配备文件中修正save来进行相应的配备
注意事项
60秒内10000条数据则保存
这儿有三个save,只需满意其间任意一条就可以保存
比方:
(1)在redis中保存几条新的数据,用kill
-9粗暴杀死redis进程,模仿redis缺点失常退出,导致内存数据丢掉的场景(或许在,也或许不在,根据save的状况)
(2)手动设置一个save检查点,save 5 1
写入几条数据,等候5秒钟,会发现自动进行了一次mp rdb快照,在mp.rdb中发现了数据
失常停掉redis进程,再从头发起redis,看方才刺进的数据还在
二、AOF介绍
AOF :Redis 默许不打开。它的呈现是为了补偿RDB的缺乏(数据的不一致性),所以它采用日志的方法来记载每个写操作,并追加到文件中。Redis
重启的会根据日志文件的内容将写指令早年到后实行一次以结束数据的恢复作业。(appendonly yes)
注意事项注意事项
可以在redis.windows.conf中进行配备
打开AOF
将appendonly 的no 改为 yes
下面是文件名可以运用默许的文件名,也可以自己改
注意事项
appendfsync运用默许的everysec就可以了
以上就是小编今天给大家整理发送的关于大数据分析师面试题:Redis的耐久化战略的相关内容,希望对各位考生有所帮助,想知道更多关于数据分析师的基本要求有哪些,关注小编持续更新数据分析师岗位解析。
5. 数据分析师面试题目和答案:动手题
【导读】众所周知,随着社会的发展,数据分析师成为了炙手可热的热门执业,一方面是其高薪待遇另一方面就是其未来广阔的发展前景。一般情况下用人单位会给问答题和动手题来检测应聘者的真实实力,可以说面试笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。为此小编就以此为例和大家说说2020年数据分析面试解答技巧:动手题,希望对大家有所帮助。
动手题
1. 我给你一组数据,如果要你做数据清洗,你会怎么做?
实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在 2 个问题:典韦出现了 2
次,张飞的数学成绩缺失。
针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。
2. 豆瓣电影数据集关联规则挖掘
在数据分析领域,有一个很经典的案例,那就是“啤酒 +
尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。
如果让你用 Apriori 算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?
以上就是小编今天给大家整理发送的关于“数据分析师面试题目和答案:动手题”的相关内容,希望对大家有所帮助。想了解更多关于数据分析及人工智能就业岗位分析,关注小编持续更新。
6. 大数据技术Hadoop面试题
单项选择题
1.下面哪个程序负责HDFS数据存储。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2.HDfS中的block默认保存几份?
a)3份
b)2份
c)1份
d)不确定
3.下列哪个程序通常与NameNode在一个节点启动?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
4.Hadoop作者
a)MartinFowler
b)KentBeck
c)Dougcutting
5.HDFS默认BlockSize
a)32MB
b)64MB
c)128MB
6.下列哪项通常是集群的最主要瓶颈
a)CPU
b)网络
c)磁盘
d)内存
7.关于SecondaryNameNode哪项是正确的?
a)它是NameNode的热备
b)它对内存没有要求
c)它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间
d)SecondaryNameNode应与NameNode部署到一个节点
多选题
8.下列哪项可以作为集群的管理工具
a)Puppet
b)Pdsh
c)ClouderaManager
d)d)Zookeeper
9.配置机架感知的下面哪项正确
a)如果一个机架出问题,不会影响数据读写
b)写入数据的时候会写到不同机架的DataNode中
c)MapRece会根据机架获取离自己比较近的网络数据
10.Client端上传文件的时候下列哪项正确
a)数据经过NameNode传递给DataNode
b)Client端将文件切分为Block,依次上传
c)Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作
11.下列哪个是Hadoop运行的模式
a)单机版
b)伪分布式
c)分布式
12.Cloudera提供哪几种安装CDH的方法
a)Clouderamanager
b)Tarball
c)Yumd)Rpm
判断题
13.Ganglia不仅可以进行监控,也可以进行告警。()
14.BlockSize是不可以修改的。()
15.Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持。()
16.如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。() 1 2 3
7. 面试问你们大数据项目的数据结构是怎样的
一些最常见的编程面来试问自题:
1.数组编码面试问题
数组是最基本的数据结构,它将元素存储在一个连续的内存位置。这也是面试官们热衷的话题之一。以下是一些热门的基于数组的编程面试问题:
1.如何在一个1到100的整数数组中找到丢失的数字?(方法)
2.如何在给定的整数数组中找到重复的数字? (方法)
3.如何在未排序整数数组中找到最大值和最小值? (方法)
4.如何找到数组所有和等于一个给定数的数对? (方法)
5.如果一个数组包含多重复制,那么如何找到重复的数字? (方法)
6.在Java中如何从给定数组中删除多重复制? (方法)
7.如何使用快速排序算法对整数数组进行排序? (方法)
8.如何从数组中删除多重复制? (方法)
9.如何在Java中对数组进行反向操作? (方法)
10.如何在不使用任何库的情况下从数组中删除多重复制? (方法)
这些问题不仅可以帮助你提高解决问题的能力,还可以提高你对数组数据结构的认识。
8. 大数据研究与应用协会市场推广面试问题
传统的用户研究包括品牌研究、客户满意度研究、商圈研究、市场细分、渠道研究、产品定价研究以及产品测试,这些研究大多数用市场调研的方法来实现。市场调研由于调研方法带来的诸多问题,导致结果的代表性、准确性以及研究的效率都存在不同程度的挑战。我们相信,随着大数据的发展,大数据将对市场与用户研究方法将带来革命性的变化。本文将介绍大数据目前在市场与用户研究方面的应用与探索。
一、大数据用于品牌研究
品牌认知度、品牌形象和品牌满意度研究是品牌研究的三大重要部分。
1)品牌认知度是品牌资产的重要组成部分,品牌认知度是衡量消费者对品牌内涵及价值的认识和理解度的标准,同时也是公司竞争力的一种体现。
2)而品牌形象是品牌在公众心中所表现出的个性特征,它体现公众特别是消费者对品牌的评价与认知,以及对品牌所具有的一切联想。品牌形象分为三个层级的形象:产品或服务本身的形象、使用者的形象、产品或提供者的形象。
3)品牌满意度是消费者通过对一个品牌产品或服务的可感知效果与对比预期相比较后,所形成的愉悦或失望的状态,可以不满意、满意、满足、愉悦等四种情绪,一个拥有高满意度的品牌,其顾客的购买率及重复购买率也在相应提升,因此品牌满意度的研究也非常重要。
在传统的市场研究中,品牌认知、品牌形象和品牌满意度研究是通过市场调查的手段来实现。在大数据时代,我们可以利用互联网大数据辅助品牌认知度、品牌形象和品牌满意度研究。我们可以通过网络爬虫技术,对新闻媒体、社会化媒体等网站实时全网监测,实时掌握网民对品牌和竞品的品牌提及量、产品提及量以及提及量的趋势,掌握自己品牌和竞争的品牌形象评价;通过品牌和产品的正负面评论的监测,及时了解对品牌消费者对品牌的满意度情况,及时发现问题。过去,进行品牌认知度、品牌形象以及品牌满意度的市场调研,从调查开始到报告产生,至少需要半个月到一个月,而且由于成本和操作性的限制,只能选取一些代表性的人群和地点做代表性的抽样不够全面。利用大数据手段,我们可以实现更快更全面以及更真实的统计,这对我们及时的了解品牌认知度、品牌形象以及品牌满意度的现状和趋势非常有帮助。
专栏:企业实施大数据的五大关键
专栏:大数据应用于企业运营
大数据在电信行业的应用
二、大数据用于忠诚度研究
净推荐值研究方法是客户忠诚度研究中的重要方法。净推荐值(NPS)研究方法由国际知名咨询公司贝恩咨询客户忠诚度业务的创始人佛瑞德·赖克霍徳(Fred Reichheld)在2003《哈佛大学商业评论》文章“你需要致力于增长的一个数字”的文章中首次提到。该方法通过调查客户问题“您有多大可能向您的朋友或同事推荐我们公司的产品或服务?(0-10分)” 来获得,根据客户的回答分数分成三组:
第一组给公司9分或10分,称之为“推荐者”(promoters);他们是对公司产品或服务满意度和忠诚度非常高的客户,在当今社会化媒体营销时代,他们是公司产品或服务免费营销人员,他们会推荐朋友和亲人来购买。
第二组给公司7分或8分,为“被动满意者”(passively satisfied);他们对公司产品或服务既无不满意,也无满意的客户,较易被其他竞争者吸引。
第三组给0至6分,是“贬损者”(detractors)。他们对公司的产品或服务非常不满意,不仅仅停止购买公司的产品或服务,他们会尽一切可能劝周围的人不要买,同时会转向其他竞争者。
NPS值即为推荐者所占百分比与贬低者所占百分比的差值(如下图)。NPS的业务逻辑是:推荐者会继续购买并且推荐给其他人来加速你的成长,而贬损者则能破坏你的名声,不仅仅停止购买,而且劝说周围朋友购买,让你在负面的口碑中阻止成长,NPS则是反映了这两股力量较量的结果。Fred Reichheld实证研究证明NPS和长期利润成长有正相关性,NPS表现越好,未来企业利润的成长就会越好。
图:NPS计算方法
大家可能会问,NPS分数在多少为比较理想的状态。实证研究表明,NPS分数在NPS的得分值在50%以上被认为是表现不错,得分值在70-80%之间则证明公司拥有一批高忠诚度的好客户(如苹果、Google等互联网公司的NPS超过70%),大部分公司的NPS值在5-10%之间,更差的公司NPS还可能是负值。当然,我们仅了解NPS是不够的,NPS本身不能提供具体的改进意见,我们还需要结合影响满意度的原因深入研究,尤其是对贬损者指标进行深入的满意度研究,挖掘“贬损”背后的原因。
大数据技术革新传统NPS研究方式。大部分NPS的研究其数据获取方式都采用调查问卷的方式,这种方式很容易受到抽样方式、客户心态甚至活动礼品等多方面的影响,导致数据失真。在大数据时代,NPS的数据可以来源于客服系统的语音数据和评价文本数据、电商平台购物用户的打分及用户评论文本数据以及社会化媒体如微博、论坛等的评论文本数据,这些数据我们都称之为“用户反馈数据”。我们可以利用语音分析技术、文本分析技术将这些非结构化的“用户反馈数据”结构化,从而更好的进行数据挖掘,识别“贬损者”和“推荐者”,全面和快速的计算NPS,并可以利用这些大数据,了解“贬损者”的“贬损”的原因。如果还能够把业务系统和运营系统的“用户行为数据”关联整合进来,我们不仅仅通过“用户反馈数据”了解用户“贬损”原因,还可以了解“贬损者”的历史“用户行为数据,将更有利于我们更好的洞察用户,更全面、更及时优化“贬损者”的用户体验和改进方向;同时可以定向为“推荐者”展开更多的优惠促销或者附加增值服务。通过大数据手段可以更好的实时掌握NPS,还可以洞察NPS“推荐”或“贬损”的原因,为市场推广、客户服务、业务运营等部门的关键应用场景提供决策支撑,有利于进一步提升用户亲密度和忠诚度。
三、大数据用于市场细分
市场细分是按照消费者在市场需求、购买动机、购买行为和购买能力方面的差异,运用系统方法将整体市场即全部顾客和潜在顾客划分为数个不同的消费者群(子市场),以便选择确定自己的目标市场。市场细分的基础是购买者对产品需求的差异性。但是,这种差异性一般很难直接度量,故常用其它比较容易度量以及和需求密切相关的变量来对市场进行细分。这些变量包括地理、人口统计学属性、行为以及消费心态等变量:地理细分是将市场划分为不同的区域市场,例如可按下列地理特征将市场细分:行政区划、城市规模、资源状况和气候;人口统计学细分人口统计变量来细分市场,常用来细分市场的人口学变量有年龄、性别、民族、居住地、家庭规模与生命周期等;行为和态度细分是根据消费者对产品的购买动机、购买行为和使用情况来细分;心理细分是按消费者的社会阶层、生活方式、人格特征划分为不同的群体。市场细分既可以按照以上单维度细分,也可以组合以上维度进行多重标准细分,同时按照多重标准可以将消费者分为比较小的、同质性更高的群体。
区别于传统的市场细分,大数据应用于市场细分在以下方面起到更为重要的作用:
1)数据采集的维度更为全面,数据采集更为实时,尤其是在行为数据的采集更为及时、细腻和全方位;
2)用大数据算法进行细分模型建模,可以吸纳更多的细分维度,从而可以细分出更小、同质性更高的细分群体;
3)数据更新更快,计算速度更快,市场细分模型更新速度更快,更能及时反映用户需求的变化,从而可以做出更准确、及时细分;
4)市场细分可以和营销渠道、营销活动进行实时关联和调优,通过大数据算法判定的细分群体可以实时的进行最有效营销活动推荐,并可以用大数据计算最为有效推广渠道触达这些细分群体。
四、大数据用于产品测试
产品测试指的是企业运用专业的技术手段和研究方法进行以获得目标消费者(或用户)对相关产品的认知或评价,以测试新产品的接受度或改进现有产品。产品测试在产品的各生命周期均有应用:
在产品的开发期,产品处于研发和概念阶段,此时可以对已有产品进行测试,以了解消费者认为需要改进的方面;或者对尚未成型的产品进行概念性的测试,指导产品经理对正在开放的产品做调整和改进;
在产品介绍期,产品准备投放市场以及刚刚投放市场不久,企业可以通过产品测试以了解最有效的销售渠道和促销方式,以及对产品的包装、价格进行测试;
在产品的成长期和成熟期,企业可以通过自身产品和竞争产品进行对比测试,及时掌握消费者(或用户)对产品的评价和态度;
在产品的衰退期,为了延长产品生命周期,企业会进行产品的改进或者产品新方向的测试。
以上不同阶段的产品测试,传统的实施方法一般是通过市场调查方式来实现,通常是对消费者(或用户)进行调查或者访问,利用多种访问或调查工具来实现。在大数据和互联网时代,我们可以用更快和更为准确的方式来进行产品测试:
在产品的开发期,我们可以通过电商平台或者微博、论坛等社会化媒体对现有产品的网上评论进行收集,通过自然语言处理和数据挖掘手段,以了解消费者的不满和产品改进方向;或者灰度测试来了解新版本的效果,即让一部分用户继续用老版本,一部分用户开始用新版本,如果用户对新版本没有什么反对意见,那么逐步扩大范围,把所有用户都迁移到新版本上面来。灰度测试和发布可以保证整体产品系统的稳定,在初始灰度的时候就可以发现、调整问题。
在产品的介绍期,产品的包装、外观设计和价格等也可以通过灰度测试和发布的方式来掌握消费者的反馈以进行相关的调优。
在产品的成长期和成熟期,我们同样可以通过大数据手段对电商平台和社会化媒体收集消费者对自身产品和竞争产品的评论,通过自然语言处理和数据挖掘掌握消费者对产品的不满,以改进我们自己的产品。像宝洁这种对传统市场调查非常重视的企业,目前已经逐渐开始利用大数据方式进行产品测试,尤其是通过电商平台对每一个产品都能收集评价和反馈,帮助产品的改进和创新。
五、大数据与商圈研究以及空间商业智能
商圈是指商店以其所在地点为中心沿着一定的方向和距离扩展所能吸引顾客的范围。按照离商店的距离,商圈分为三层,包括核心商圈,次级商圈和边缘商圈。核心商圈是离商店最近,顾客密度最高,约占商店顾客的55%-70%;次级商圈是指位于核心商圈外围的商圈,顾客分布较为分散,约占商店顾客的15-20%;边缘商圈是于商圈的最外缘,包含商圈剩下的客户,此商圈顾客最为分散,数量最少。
按照商圈的性质,商圈可以分为六大类,包括:
(1)商业区,商业集中的地区;
(2)住宅区,住宅区住户数量至少1000户以上;
(3)文教区,其附近有一所或以上的学校;
(4)办公区,办公大楼较多的地区;
(5)工业区,即工厂较多的地区;
(6)混合区,以上5类的混合,如住商混合、住教混合、工商混合等。
影响商圈的因素可以分为内部因素和外部因素。内部因素包括:
店铺经营商品的种类。经营传统商品、日常用品的店铺吸引顾客的区域范围较小,商圈范围小;经营非常用品,吸引顾客的能力强,商圈范围广。
店铺的经营规模。随着店铺经营规模的扩大,其商圈也在随之扩大,但增大到一定规模时,商圈范围也不会扩大;
店铺的经营特征。经营同类商品的两个店铺即便同处一地的同一条街道,其对顾客的吸引力也会有所不同,相应的商圈规模也不一样。经营灵活、商品齐全、服务周到,在顾客中留有良好形象的店铺,顾客竞争力强,自然商圈规模相对也会较其他同行业店铺大;
店铺的主体设计,包括店铺所在楼层构成及配置,吸引顾客的设施状况,如停车场停车位的多少以及其所处位置等。
影响商圈的外部因素包括:
店铺的促销手段。利用人员推销与营业推广活动等可以吸引更多的次级以及边缘商圈的顾客,可以更好扩张商圈范围;
竞争店铺的位置。相互竞争的两店之间距离越大,它们各自的商圈也越大。如潜在顾客居于两家同行业店铺之间,各自店铺分别会吸引一部分潜在顾客,造成客流分散,商圈都会因此而缩小。但有些相互竞争的店铺毗邻而设,顾客因有较多的比较、选择机会而被吸引过来,则商圈反而会因竞争而扩大;
人口流动性。人口流动是指在交通要道、繁华商业区、公共场所过往的人口。一个地区的流动人口越多,在这一地区经营的店铺的潜在顾客就越多。
交通地理状况。交通地理条件与商圈规模密切相关。在商业繁华地带,交通条件发达,人口流动性强,有大量的潜在顾客,因而商圈范围也就越大;反之,店铺设在交通偏僻地区,顾客主要是分布在店铺附近的居住人口,其商圈范围一般较小。
人口统计学特征和消费特征。包括商圈的客户性别、年龄、收入、家庭规模、消费支出能力等。
基于商圈的地理信息和数据挖掘可以应用于商铺选址、销售区域分配、物流配送路径优化、潜在消费者空间分布、线下广告投放优化、城市规划等数据可以通过大数据的手段进行获取。在这些应用中,商铺选址应用最多,尤其是应用于银行、快消、电信、医药、家具等行业。
传统的商圈相关信息获取是通过市场调查的手段获得。在大数据时代,商圈相关的位置、客流和消费者信息是可以通过大数据获取的,尤其是通过电信运营商或具有地图服务能力的互联网企业。如中国联通推出的商铺选址大数据应用服务,中国联通可以把城市区域进行栅格化处理,分析每个栅格(不同位置)的用户群信息、客流信息等,为零售商进行店铺选址的决策依据,并且已经成功的应用到烟草直营零售终端的分析和选址优化中。而国内的一些城市的相关企业也在启动智慧商圈的基础服务。他们借助为公众提供免费WiFi服务的同时,把商圈人流数据收集成为城市大数据,建立智慧商圈大数据分析平台和应用服务,通过智慧商圈服务数据分析平台的应用服务于城市管理,比如了解商圈人流、客流,为城市规划和交通线路设计提供依据和参考,也可以为商家选址和广告促销提供依据。在国外,一家名为PiinPoint的企业,他们提供基于网络的分析工具,可以帮助企业和商铺选址进行优化,它能够收集各种数据,包括人口、税率、交通信息和房产信息等,对不同的待选地址进行深度分析,并吸引了许多有扩张计划的美国零售商。
对于大数据与商圈信息的结合研究,无论是工业界还是学术界都在积极探索,甚至这些研究发展已经逐步发展为空间商业智能的探索。美国密西根大学中国信息研究中心主任鲍曙明是这样界定的空间商业智能:空间商业智能是商业智能服务的一种扩展,涉及到空间和网点的分布,周边的人口、环境、地理等等之间的关系。大数据、移动技术以及云计算是未来发展趋势,如何将这些新技术和空间商业智能有机整合,提升应用的能力,并将地理智慧普及到更广泛的商业领域,目前还处于探索阶段,还需要业界同仁共同努力。
近两年兴起的室内定位技术ibeacon将会对空间商业智能的发展有着更为积极的促进作用。iBeacon是苹果公司2013年9月发布的移动设备用OS(iOS7)上配备的新功能,通过软件和硬件的结合,从而大大提高室内精度,从原来的几百米或者几十米的定位精度提高到一米以内的定位精度。这种能力将极大的强化购物体验,如当客户走到某个商品前,手机应用自动跳出商品的介绍和促销信息。对于商家,也可以更加精准的判别潜在消费者,及时的向消费者进行精准营销。随着iBeacon的发展,商家位置信息将更为精准,线下商品信息更为丰富,尤其是极大弥补室内定位的数据源,这对空间商业智能的发展是极大的利好。
总之,大数据应用于市场和用户研究仍仍处于探索阶段,依然面临着诸多的挑战,尤其是数据采集的不全面的问题、数据质量的问题以及数据处理和分析技术有待加强尤其是非结构化数据的处理和分析技术。但我们不可否认的是,大数据应用与市场和用户研究将带来研究速度和效率的极大提升。随着大数据相关技术的发展和成熟,我们有理由相信,利用大数据进行更好的市场洞察和用户洞察洞察。市场与用户研究的同仁,我们一起拥抱大数据吧。