❶ 大数据分析公司有哪些
星环科技
星环信息科技主要从事大数据时代核心平台数据库软件的研发与服务,被Gartner列为国际主流Hadoop发行版厂商。其产品Transwarp Data Hub提供高速SQL引擎Transwarp Inceptor, NoSQL搜索引擎Transwarp Hyperbase、流处理引擎Transwarp Stream和数据挖掘组件Transwarp Discover。
帆软软件
帆软软件由报表软件FineReport起家,目前已成为报表领域的权威者,拥有10年企业数据分析的行业经验。后发布的商业智能自助式BI工具FineBI,提供包括Hadoop、分布式数据库、多维数据库的大数据可视化分析;提供PC端、移动端、大屏的可视化方案,广泛应用于银行、电商、地产、医药、制造、电信、制造、化工等行业,拥有成熟的行业化解决方案。
数据可视化类
数字冰雹
数字冰雹主营大数据可视化业务,提供集设计、程序开发、硬件集成为一体的解决方案,广泛应用于航天战场、智慧城市、网络安全、企业管理、工业监控等领域。
海云数据
海云数据的产品——图易能够集成用户内部系统大量结构化、非结构化数据,在真实的数据源上,将行业大数据进行多维度的可视分析。目前主要应用于公安、航空、快消、制造、金融、医疗、信息安全等领域。
星图数据
星图数据是互联网大数据服务公司,涉及线上零售、线上娱乐、线上教育等领域。基于分布式大数据获取与存储系统进行大数据处理及分析,具有自有的大数据分析体系和云计算处理技术。
用户行为/精准营销分析类
大数据技术使得用户在互联网的行为,得到精准定位,从而细化营销方案、快速迭代产品。这方面的厂商有GrowingIO、神策数据等。
GrowingIO
GrowingIO是基于互联网的用户行为数据分析产品,具有无埋点的数据采集技术,可以通过网页或APP的浏览轨迹、点击记录和鼠标滑动轨迹等行为数据,进行实时的用户行为数据分析,用于优化产品体验,实现精益化运营。
神策数据
与GrowingIO类似,也是基于用户网络行为,采集数据进行分析。技术上提供开放的查询 API 和完整的 SQL 接口,同时与 MapRece 和 Spark 等计算引擎无缝融合,随时以最高效的方式来访问干净、规范的数据。
分析服务类
提供舆情分析的有网络统计、品友互动、Talking data、友盟、中科数据等等。
网络统计
网络统计是专业的网站流量分析工具,和GA类似,提供免费的流量分析、来源分析、网站分析等多种统计分析服务,能够告诉用户访客是如何找到并浏览用户的网站,在网站上做了些什么,以此来改善访客在用户的网站上的使用体验。
Talking Data
TalkingData是独立的第三方移动数据服务品牌。其产品及服务涵盖移动应用数据统计、移动广告监测、移动游戏运营、公共数据查询、综合数据管理等多款极具针对性的产品及服务。在银行、互联网、电商行业有广泛的数据服务应用。
友盟+
第三方全域大数据服务提供商,通过全面覆盖PC、手机、传感器、无线路由器等多种设备数据,打造全域数据平台。提供全业务链数据应用解决方案,包括基础统计、运营分析、数据决策和数据业务等,帮助企业实现数据化运营和管理。
❷ 发现又出来一个做大数据的公司S+,Splus,看他们的宣传都是跟DataEye一起的,两家是什么关系
去扒一扒公司官网就知道啦,splus.cn,Splus是做游戏大数据的品牌名,是DataEye新做的一个品牌,应该是回DataEye以后要走全方位的答大数据的路子,游戏这块的业务集中一个品牌名上就是DataEye Splus了,不过splus是DataEye和韩国INCA两个公司的技术和数据合资而成的,没想到还有点外资的背景,具体产品上是游戏的数据统计分析Game Analytics(DataEye的老业务啦)和游戏的安全反外挂业务Game Protect,英文名字不太好记,虽然看起来高大上,方便记就叫GA和GP啦,不过你看了会不会想起来google analytics和google play呢?
❸ 数据分析报告怎么用
数据分析报告怎么用
本文是作者基于自身多年数据分析的经验,总结的一体化数据分析框架,简单地介绍下数据分析能分析能落地的几点。enjoy~
大数据,这个被炒烂了的概念,现如今已被人工智能替代。我们先不讨论人工智能,就大数据而言,我们都是在强调他的技术,例如网络热词:hadoop+spark,data mining。而我们在用大数据时候,经常用它的来神话它的影响。例如,广告投放精准化,社会安全管理有序,医药行业智能化等。
当然这些是我们的畅想,同时确实也离不开数据分析影响,但是我们有没有停下脚步去想一想,到底大数据怎么去落地呢,怎么去分析?怎么利用数据来去使企业做出决策,例如:广告投放精准化?
我们了解什么叫大数据分析么?
麦肯锡给大数据定义:
“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。“
基于我对以上定义的理解,我总结的大数据分析就是,将获取的数据,打通,整合,找寻规律,立即得出决策信息。
数据获取
我总结的数据源可分类三类:
(1)一方数据:用户事实数据
例如用户在某金融机构购买的理财产品,时间,哪个出单口,姓名,电话等,或者运营数据,例如某互联金融app,用户操作行为数据
(2)二方数据:其实这部分叫做广告投放数据
例如,广告展示量,活动页点击量,广告来源等。也有公司将这部分数据作为第三方数据,因为有些广告监测公司会利用此数据和人群数据整合构建自己dmp这样的公司一般宣称为第三方公司,三方数据
(3)三方数据:行业数据,也叫公开数据
例如行协的数据,或者互联网行为数据,例如某互联网公司用户在此网站的行为数据,或者嵌入sdk的app后我们能采集到的安装活跃列表,以及可采集到线下数据。
打通:其实就是利用关键点的采集整合一二三方数据。例如我们可以通过手机号将一方和三方数据整合,或者利用cookie,或者imei号等将二方、三方数据整合。但是由于现在监管制度对手机号敏感数据的控制,以及互联网和移动端数据的跨平台打通技术难点,我们现实的匹配率很低,例如一方和三方的数据匹配达到20%其实就算比较不错的情况,当然运营商数据除外。
找寻规律:目标就是数据清理,从非结构化数据变成结构化数据,以便统计,数据探索,找寻规律,形成数据分析报告观点。本文将会在第三部分阐述。
立即决策:将数据分析报告中的观点系统化或产品化,目前而言,大部分公司还是会依靠人工决策。
为什么需要大数据分析?看上去大数据分析似乎按照这些步骤来,但是从第一步的数据源来说,其实已经反应了大数据的特点,就是杂乱无章,那么怎么从这些数据找寻规律,分析的内容和目标是否对应上,似乎就是我们需要大数据分析的理由
现在,大数据的分析通常采用的数据报表来反映企业运营状况,同时,对于热点,人群分析,我们看到的统计值,目标核心都是用数据分析报告提炼的观点来指导运营,那么问题来了,怎么用数据分析来指导数据决策呢?
数据分析的报告思路(本文从移动端的角度进行切入)
基于我对数据分析的理解,我将数据报告会分成三大类:市场分析、运营分析、用户行为分析。
市场分析
由于市场分析一般而言是定性、定量分析,最近热播剧《我的前半生》贺函和唐晶的职业就是来去咨询公司的一般会以访谈、问卷调查来一份市场分析报告去告诉客户他们的市场占有量,消费者观点等。
这里,我们以移动互联网数据的市场分析为例,通常来说,数据源是公开数据,或者在第三方数据。正如我们所讲,将sdk嵌入开发者应用,就可以收集到安装以及使用列表,那么开发者使用的sdk越多,我们能收集的数据源也越多,这样就可以形成安装app排名,使用app排名,这里面所说的覆盖率、活跃率也是这个意思,例如:即此款应用安装量、使用量在整体金融类的安装量、使用量占比。
那么,这些市场分析的作用呢,一般而言,是对公司市场营销的总结,比如某金融公司kpi是为了获客,他们做了一系列营销,下个月排名我们可以查询到此款应用的安装量,是否较上个月上升呢?那么我们的竞品表现呢,他们是不是也做了一些列的营销活动排名上升下降?我们都可以通过市场分析,竞品分析来观测,但是这部分的观点由于是市场数据,我们只能通过大量的搜寻官网活动,或者互联网广告推测营销来推测是否竞争对手排名上升和这些营销活动有关。
同时,根据市场的走势图,我们能发现潜在的竞争对手,例如:我们能看出下图中的工商银行由于手机属于高覆盖高活跃组,即安装xxapp活跃人群也是最高的,因此,无疑xx银行是所有银行组潜在竞争对手。需要更加注意他们的市场策略
运营分析
移动互联网提出的方法论:3A3R,笔者之前在做咨询的时候,此方法论也可以将网站分析套用,总结来说3A3R就是:
感知 → 获取 → 活跃 → 获取 → 营收 → 传播 → 感知
这里需要注明下,运营分析只是一个公司的baseline,让产品经理,运营人员,市场人员根据自己本公司的数据参考做出合理的决定,同时,运营的数据只是参考或者叫警示,若要具体,需要特定细节的分析,例如是否app改版,怎么改?需要增加哪家渠道合作?
(1)Awareness 感知
根据广告投放数据进行分析,目的判断渠道广告页对app 或者网站引流情况,同时可以帮助广告主设计监测表格,以数字角度衡量广告投放效果
但是,广告数据一般而言在广告监测公司手中,或者公开的使用工具上例如GA,我们需要依靠广告公司设计营销环节,例如活动页,加监测代码,或者在媒体,app应用商店加入代码便于监测广告表现,而往往这样的数据很难加载,一般是由应用商店,或者媒体提供,同时,以上数据,监测公司数据一般而言也不会提供给广告主,只是会提供统计值,这部分的分析我会在之后详细写出,欢迎大家关注我的运营号
言归正传,我们看感知数据其实目的就是想衡量我们的大量的营销投放钱花的对不对,广告的展示量,点击量等是最好衡量一个公司的广告市场部门绩效,没有广告投放,就无法带来获客,因此钱花的值不值,能带来多少客人,才会有下一步 acquisition。
(2)Acquisition 获客
获客是第一步广告投放拓展,用户点击广告后到达应用商店或者着陆页后去下载app,访问网页后,登陆app后的数据是广告公司或者应用商店提供不了的数据,因此获客其实有两重目的。
目的1:衡量第一步提供的数据是否准确,即是否渠道作弊
目的2:判断渠道是否好坏
目的3:判断营销活动是否有效
例如下图中,我们发现4成用户是搜索流量较上个月增加了6%,是不是我们需要增加和sem的合作呢?而在媒体引荐渠道中,我们通过渠道衡量客户转化率,点击-用户激活的,激活的注册转化,可否重点对某应用商店增加合作
下图是目的3的应用,来衡量三个月内的新增用户,活跃用户是否受活动营销、广告投放、版本更迭等影响。例如:7月28日的版本更迭,增加新用户的利器,那么产品经理需要分析下这个版本到底哪里的改变,让用户增长这么快,而8月份的营销活动会唤醒沉睡用户,反应考核运营人员的绩效,那么,是否我们在做促活时候可以借鉴8月的成功经验呢?而这个成功经验需要进一步做专题分析
(3)Activities 活跃
获客后,我们想看看我们的新增、活跃用户的表现情况,那么就到了第三步 活跃,其实就是为产品经理改版app或者页面提供数据支持
活跃分析可参考以下三个步骤:
第一:从页面浏览次数,独立访问人数,来圈定主要页面分析。
例如某款app首页是pv,uv最高,我们会重点分析首页。
第二:根据圈定页面,制作点击热力图,便于产品经理对后续页面改造提供数据支持,例如我们可以将点击量小的按钮在下次改版删除,对点击量大的重新排序
第三:根据圈定页面,制作点击热力图,便于产品经理对后续页面改造提供数据支持,例如我们可以将点击量小的按钮在下次改版删除,对点击量大的重新排序
(4)Retention留存分析& Revenue & Refer
这几个实际上在企业运用的并不多,这里简要说明下。
① Retention
用户积累到一定数量后,我们想看下用户粘性,那么我们就来到retention,一般是衡量活动效果时候运用的比较多,来看此次活动过后,是否用户依旧会使用我们的app,但是由于金融app属性不会像游戏应用每天进行访问,因此Retention 在实际应用中不会太多,下面的例子是个展示,不做赘述
② Revenue
这些留下来的客户给公司贡献多少现金呢?会看收入步骤, 一般公司不会将现金流数据放入在统计平台中,但是我们需要提出用户贡献的流水金额数据供我们使用,便于人群划分,例如下面简要分析:
Refer 传播:
最后,我们想让这些客户进行传播;核心是口碑营销,即用户自发的转发给其他用户链接,让他们下载app或者参与活动,因此传播的下一个环节又会转换营销,但是传播会受到很多限制,例如没有奖励机制的口碑传播,几乎转发量为0,同时,传播若要衡量比较困难,尤其在大量互联网用户基础上,这样会造成资源代码叠加,系统负担,因此一般企业也不会设计这样活动让营销人员参考
用户分析
若说大数据分析的核心,其实就是在于用户分析,正如我们前面所讲,用户分析的步骤流程如下:
即在力所能及的搜集数据范围内,打通数据,客户用户,精准营销。
第一,我们可以筛选的条件列表,我们可以通过应用条件,位置,标签条件将数据整合,整合的目的就是刻画客户,定出营销策略。
例如:我们想筛选金融客户(应用条件筛选),出现在五星级酒店(位置条件),且为母婴人群(标签)
但是需要注意的是,条件越多,用户轮廓越清晰,人群会越少。
第二,根据筛选的人群,我们将线上/线上统计化,或者建模多维度分析。
例如,我们根据筛选的人群,发现男性多于女性,苹果手机属性最高,常手机工具使用,那么我们可以将这部分目标人群用增加手机工具合作、或者和苹果合作获客或者促活。
第三,整合以上数据分析,形成人群画像。
结束语
这篇文章基于我多年数据分析的经验,总结的一体化数据分析框架,其实就是简单介绍下数据分析能分析能落地的几点。当然,这里面需要大量的数据清洗工作,以及对行业的认知,此篇只是从数据分析角度的概要,内容上的细化,其实可以单拿出来细细分析,尤其用户画像那章节。
❹ 视频图像解析平台
http://www.netposa.com/2017/0928/vaas/2613.html
产品概述
视频图像解析系统遵循《 GA/T 1399公安视频图像分析系统》和《GA/ T 1400公安视频图像信息应用系统》等标准,通过整合视频资源、车辆卡口资源、人脸卡口资源、RFID数据资源、WIFI探针资源等多种数据信息,依托于混合云计算技术、智能视频结构化分析技术和大数据技术等,面向各类行业用户,提供统一的视频图像解析服务和大数据应用服务的生态系统。
功能特性
1、满足公安标准的视频图像信息采集与共享能力
系统兼容并遵循《 GA/T 1399公安视频图像分析系统》和《GA/ T 1400公安视频图像信息应用系统》等标准,提供不同厂家、不同终端、不同视图资源类型的标准化和非标准化的接入、汇聚、整合、共享分发与应用服务。
2、公安视图资源和社会公共视图资源的整合与服务能力
系统构建了以人、车、物、案事件为核心的视图大数据服务体系,接入并整合了各类公安视图资源、社会化资源和其他感知识别资源信息,为公共安全及社会化应用提供全面的服务与支撑。
公安视图资源、社会化资源接入与整合示意图
3、基于深度学习的视频智能识别与分析应用能力
充分利用 CPU+GPU协同计算能力实现资源动态调配,采用先进的智能分析技术,自动提取实时/历史/文件视频图像中的价值人体、人脸和车辆的细节特征信息,对目标类型、颜色等形成结构化描述,为事前、事中、事后的事件布防、综合布控、研判分析提供数据基础,保证信息查找检索的高效性,提高公安视频的应用效率。
视频实时结构化展示
4、综合化、立体化、多维度的信息布控能力
面向车站、码头、机场、商场等重要场所,提供针对同一目标或多个目标的多个维度、多种信息类型的综合化、立体化、多维度的布控检测与预警能力。
综合布控示意图
5、一点查询、全网响应的多级视图大数据级联应用
基于各级视频图像解析系统,提供跨区域、跨网段、跨系统的省、市、县多级联网的资源布控与资源检索应用,实现一点查询或布控、全网响应的级联应用服务能力。
省、市、县多级级联检索与布控
6、以地图为中心的资源时空一体化指挥与作战能力
整合地图可视化与大数据检索分析,将各类资源时空信息与数据分析应用融入到地图中,提供时空一体化的指挥与作战能力。
时空一体化资源检索
检索结果展示
7、基于多种视图大数据的全文检索与以图搜图能力
基于输入检索信息的语义分析和图片特征提取服务,实现视图大数据的全文检索与以图搜图功能,快速从千亿数据中找到符合的人员、车辆、WIFI、物品等线索信息。
视图大数据以图搜图
8、跨场景多摄像机的人体目标轨迹追踪
适用于在复杂的治安场景查找人员,依据人体进行追踪,获取不同场景下,不同角度的人体目标,形成嫌疑人员活动轨迹。
人体目标追踪
9、视图大数据碰撞分析与关系挖掘应用
基于大数据分析技术及深度学习技术,结合实战业务应用要求,提供人脸、人体、车辆、WIFI、RFID等资源信息的分析模型,满足千亿级记录信息的目标快速查找、行为追踪、关系碰撞、研判挖掘等应用需求,为案事件涉及目标的分析检索、研判比对,提供技术支持和数据支撑。
视图大数据碰撞分析与关系挖掘应用
10、面向多种视图数据的连环技战法应用
基于系统丰富技战法模型,提供面向多种视图数据的连环技战法,实现技战法关联应用,确保侦查过程可追溯。
多种视图数据的连环技战法
11、基于项目规模的硬件资源高扩展配置支撑能力
根据项目规模及接入处理的数据资源情况,选取高密度服务器、普通服务器和高性能GPU服务器灵活配置组合,保证系统高性能运行的同时,提供低碳、环保、灵活扩展的应用支撑能力。
技术特色
1、标准化的多源异构数据资源服务能力:
符合《GA/ T 1400公安视频图像信息应用系统》标准,提供多源、多级数据的接入、存储、共享、分析,及对外标准化接口服务的能力。
2、精准的视图智能分析处理能力:
基于深度学习的人员、车辆、物品智能识别算法,提供高效的视图内容自动化提取分析与识别解析的能力。
3、高效的CPU+GPU协同计算能力:
根据业务需求,系统自动分析任务类型,按所需要的计算资源,混合调度CPU和GPU资源,打破数据与计算资源壁垒,实现系统整体能力的最大化利用,提供超级计算的能力。
4、快捷的大数据检索与数据挖掘能力:
针对视频大数据下的海量视图信息,能够进行多种数据融合碰撞,结合案件、WIFI等信息提升资源整体价值,提供千亿级数据处理能力。
5、多种业务应用的处理能力:
根据业务需求,系统实现了多种技战法及业务分析应用,为反恐维稳、指挥处置、治安反恐、侦查破案、公共安全、执法监督、服务民生等应用服务,提供快捷高效的处理能力。
❺ 开发中,GA、Beta、GA、Trial到底是什么含义
用过maven的都应该知道,创建maven项目时,其版本号默认会以SNAPSHOT结尾,如下:
通过英文很容易就可以知道这是一个快照版本。但是,在开发中,或者使用别的软件的时候,我们常常会见到各种各样的版本命名,比如:GA、Beta、OEM等等,不去了解下的话,就很容易被这些版本号整懵了。通过本篇文章,将带大家了解下常见的一些版本的含义。
快照版本,用于开发阶段的命名,快照版是频繁发布迭代的,这也正是快照的含义。在创建maven项目时,相信大家都有注意过。
内部测试版,一般是打包给内部测试人员使用的版本。
Beta版本,也就是对外发布的测试版本,也可以说是公测版本。如微软的chromium内核的edge浏览器Beta版本
是beta 版做过一些修改,成为正式发布的候选版本。
GA,英文全称是General Availability,是一种正式版本的命名。比如MySQL就用GA来命令其正式版本
全称ReleaseCandidate,意为候补的正式版。
全称Original Equipment Manufacturer,意为“初始设备厂家”。是给计算机厂商随着计算机贩卖的,相信大家对OEM也不陌生(比如激活巨硬的时候~)
Build,用于区分不同的编译版本,一般为递增数字或日期。
这个相信我们也比较常见。Trial的意思是:实验、试用。Trial也就是试用版的意思,用在付费软件上。试用结束,需要用户付费才能使用
未注册版本。也是一种付费软件的版本命名方式。其跟Trial版的区别就是,Unregistered一般不存在试用期这么一说(不是绝对的,也可能存在免费使用期限),可以一直使用。这种版本一般会阉割掉一些功能,需要注册(付费)之后才能使用全部功能。
注册版本,显然这个是跟Unregistered对应的。
企业版,企业付费购买的版本。比如,windows enterprise版本,企业需要付费购买enterprise版本才有使用windows的权限(但是现实中恐怕。。。。)
还有常见的javaee或者叫j2ee,也就是Java 的企业版本的命名。
社区版本,这种版本一般都是开源免费的。比如MySQL存在开源的社区版本分支,MySQL也有企业版。像Intellij IDEA也存在社区版。
标准版本。标准版中包含了该软件的基本组件及一些常用功能,可以满足一般用户的需求。比如常见的javase或者j2se。
以上只是列举了比较常见的(本人)一些版本命名,在介绍的时候都是根据本人的理解进行介绍的,如果有误,或者读者想要补充,可以在下方留言,我会定期整合到文章中。
搜索公众号【Happyjava】,回复【电子书】和【视频】,即可获取大量优质电子书和大数据、kafka、nginx、MySQL等视频资料
❻ 大数据分析一般用什么工具分析
大数据就是大数据,一般说的可视化是指数据分析,大数据一词还是内很广泛的。
数据分析工具的话容 向前面提到的,有很多啊 什么诸葛IO,tableau还有BDP个人版这些都可以做到,而且操作也比较简单,我们公司用的就是BDP,老板一直很推荐,高层们也比较喜欢~·可以给你简单看下我之前做的一些分析图表~
❼ 常见的大数据分析工具有哪些
大数据分析的前瞻性使得很多公司以及企业都开始使用大数据分析对公司的决策做出帮助,而大数据分析是去分析海量的数据,所以就不得不借助一些工具去分析大数据,。一般来说,数据分析工作中都是有很多层次的,这些层次分别是数据存储层、数据报表层、数据分析层、数据展现层。对于不同的层次是有不同的工具进行工作的。下面小编就对大数据分析工具给大家好好介绍一下。
首先我们从数据存储来讲数据分析的工具。我们在分析数据的时候首先需要存储数据,数据的存储是一个非常重要的事情,如果懂得数据库技术,并且能够操作好数据库技术,这就能够提高数据分析的效率。而数据存储的工具主要是以下的工具。
1、MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。
2、SQL Server的最新版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。
3、DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台;
接着说数据报表层。一般来说,当企业存储了数据后,首先要解决报表的问题。解决报表的问题才能够正确的分析好数据库。关于数据报表所用到的数据分析工具就是以下的工具。
1、Crystal Report水晶报表,Bill报表,这都是全球最流行的报表工具,非常规范的报表设计思想,早期商业智能其实大部分人的理解就是报表系统,不借助IT技术人员就可以获取企业各种信息——报表。
2、Tableau软件,这个软件是近年来非常棒的一个软件,当然它已经不是单纯的数据报表软件了,而是更为可视化的数据分析软件,因为很多人经常用它来从数据库中进行报表和可视化分析。
第三说的是数据分析层。这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;
1、Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;
2、SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件。
最后说表现层的软件。一般来说表现层的软件都是很实用的工具。表现层的软件就是下面提到的内容。
1、PowerPoint软件:大部分人都是用PPT写报告。
2、Visio、SmartDraw软件:这些都是非常好用的流程图、营销图表、地图等,而且从这里可以得到很多零件;
3、Swiff Chart软件:制作图表的软件,生成的是Flash
❽ 2019数据架构选型必读:1月数据库产品技术解析
本期目录
DB-Engines数据库排行榜
新闻快讯
一、RDBMS家族
二、NoSQL家族
三、NewSQL家族
四、时间序列
五、大数据生态圈
六、国产数据库概览
七、云数据库
八、推出dbaplus Newsletter的想法
九、感谢名单
为方便阅读、重点呈现,本期Newsletter(2019年1月)将对各个板块的内容进行精简。需要阅读全文的同学可点击文末 【阅读原文】 或登录https://pan..com/s/13BgipbaHeMfvm0YPtiYviA
DB-Engines数据库排行榜
以下取自2019年1月的数据,具体信息可以参考http://db-engines.com/en/ranking/,数据仅供参考。
DB-Engines排名的数据依据5个不同的因素:
新闻快讯
1、2018年9月24日,微软公布了SQL Server2019预览版,SQL Server 2019将结合Spark创建统一数据平台。
2、2018年10月5日,ElasticSearch在美国纽约证券交易所上市。
3、亚马逊放弃甲骨文数据库软件,导致最大仓库之一在黄金时段宕机。受此消息影响,亚马逊盘前股价小幅跳水,跌超2%。
4、2018年10月31日,Percona发布了Percona Server 8.0 RC版本,发布对MongoDB 4.0的支持,发布对XtraBackup测试第二个版本。
5、2018年10月31日,Gartner陆续发布了2018年的数据库系列报告,包括《数据库魔力象限》、《数据库核心能力》以及《数据库推荐报告》。
今年的总上榜数据库产品达到了5家,分别来自:阿里云,华为,巨杉数据库,腾讯云,星环 科技 。其中阿里云和巨杉数据库已经连续两年入选。
6、2018年11月初,Neo4j宣布完成E轮8000万美元融资。11月15日,Neo4j宣布企业版彻底闭源:
7、2019年1月8日,阿里巴巴以1.033亿美元(9000万欧元)的价格收购了Apache Flink商业公司DataArtisans。
8、2019年1月11日早间消息,亚马逊宣布推出云数据库软件,亚马逊和MongoDB将会直接竞争。
RDBMS家族
Oracle 发布18.3版本
2018年7月,Oracle Database 18.3通用版开始提供下载。我们可以将Oracle Database 18c视为采用之前发布模式的Oracle Database 12c第2版的第一个补丁集。未来,客户将不再需要等待多年才能用上最新版Oracle数据库,而是每年都可以期待新数据库特性和增强。Database 19c将于2019年Q1率先在Oracle cloud上发布云版本。
Oracle Database 18c及19c部分关键功能:
1、性能
2、多租户,大量功能增强及改进,大幅节省成本和提高敏捷性
3、高可用
4、数据仓库和大数据
MySQL发布8.0.13版本
1、账户管理
经过配置,修改密码时,必须带上原密码。在之前的版本,用户登录之后,就可以修改自己的密码。这种方式存在一定安全风险。比如用户登录上数据库后,中途离开一段时间,那么非法用户可能会修改密码。由参数password_require_current控制。
2、配置
Innodb表必须有主键。在用户没有指定主键时,系统会生成一个默认的主键。但是在主从复制的场景下,默认的主键,会对丛库应用速度带来致命的影响。如果设置sql_require_primary_key,那么数据库会强制用户在创建表、修改表时,加上主键。
3、字段默认值
BLOB、TEXT、GEOMETRY和jsON字段可以指定默认值了。
4、优化器
1)Skip Scan
非前缀索引也可以用了。
之前的版本,任何没有带上f1字段的查询,都没法使用索引。在新的版本中,它可以忽略前面的字段,让这个查询使用到索引。其实现原理就是把(f1 = 1 AND f2 > 40) 和(f1 = 2 AND f2 > 40)的查询结果合并。
2)函数索引
之前版本只能基于某个列或者多个列加索引,但是不允许在上面做计算,如今这个限制消除了。
5、SQL语法
GROUP BY ASC和GROUP BY DESC语法已经被废弃,要想达到类似的效果,请使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。
6、功能变化
1)设置用户变量,请使用SET语句
如下类型语句将要被废弃SELECT @var, @var:=@var+1。
2)新增innodb_fsync_threshold
该变量是控制文件刷新到磁盘的速率,防止磁盘在短时间内饱和。
3)新增会话级临时表空间
在以往的版本中,当执行SQL时,产生的临时表都在全局表空间ibtmp1中,及时执行结束,临时表被释放,空间不会被回收。新版本中,会为session从临时表空间池中分配一个临时表空间,当连接断开时,临时表空间的磁盘空间被回收。
4)在线切换Group Replication的状态
5)新增了group_replication_member_expel_timeout
之前,如果某个节点被怀疑有问题,在5秒检测期结束之后,那么就直接被驱逐出这个集群。即使该节点恢复正常时,也不会再被加入集群。那么,瞬时的故障,会把某些节点驱逐出集群。
group_replication_member_expel_timeout让管理员能更好的依据自身的场景,做出最合适的配置(建议配置时间小于一个小时)。
MariaDB 10.3版本功能展示
1、MariaDB 10.3支持update多表ORDER BY and LIMIT
1)update连表更新,limit语句
update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;
MySQL 8.0直接报错
MariaDB 10.3更新成功
2)update连表更新,ORDER BY and LIMIT语句
update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;
MySQL 8.0直接报错
MariaDB 10.3更新成功
参考:
https://jira.mariadb.org/browse/MDEV-13911
2、MariaDB10.3增补AliSQL补丁——安全执行Online DDL
Online DDL从名字上看很容易误导新手,以为不论什么情况,修改表结构都不会锁表,理想很丰满,现实很骨感,注意这个坑!
有以下两种情况执行DDL操作会锁表的,Waiting for table metadata lock(元数据表锁):
针对第二种情况,MariaDB10.3增补AliSQL补丁-DDL FAST FAIL,让其DDL操作快速失败。
例:
如果线上有某个慢SQL对该表进行操作,可以使用WAIT n(以秒为单位设置等待)或NOWAIT在语句中显式设置锁等待超时,在这种情况下,如果无法获取锁,语句将立即失败。 WAIT 0相当于NOWAIT。
参考:
https://jira.mariadb.org/browse/MDEV-11388
3、MariaDB Window Functions窗口函数分组取TOP N记录
窗口函数在MariaDB10.2版本里实现,其简化了复杂SQL的撰写,提高了可读性。
参考:
https://mariadb.com/kb/en/library/window-functions-overview/
Percona Server发布8.0 GA版本
2018年12月21日,Percona发布了Percona Server 8.0 GA版本。
在支持MySQL8.0社区的基础版上,Percona Server for MySQL 8.0版本中带来了许多新功能:
1、安全性和合规性
2、性能和可扩展性
3、可观察性和可用性
Percona Server for MySQL 8.0中将要被废用功能:
Percona Server for MySQL 8.0中删除的功能:
RocksDB发布V5.17.2版本
2018年10月24日,RocksDB发布V5.17.2版本。
RocksDB是Facebook在LevelDB基础上用C++写的高效内嵌式K/V存储引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底层的存储都是基于RocksDB来构建。
PostgreSQL发布11版本
2018年10月18日,PostgreSQL 11发布。
1、PostgreSQL 11的重大增强
2、PostgreSQL 插件动态
1)分布式插件citus发布 8.1
citus是PostgreSQL的一款sharding插件,目前国内苏宁、铁总、探探有较大量使用案例。
https://github.com/citusdata/citus
2)地理信息插件postgis发布2.5.1
PostGIS是专业的时空数据库插件,在测绘、航天、气象、地震、国土资源、地图等时空专业领域应用广泛。同时在互联网行业也得到了对GIS有性能、功能深度要求的客户青睐,比如共享出行、外卖等客户。
http://postgis.net/
3)时序插件timescale发布1.1.1
timescale是PostgreSQL的一款时序数据库插件,在IoT行业中有非常好的应用。github star数目前有5000多,是一个非常火爆的插件。
https://github.com/timescale/timescaledb
4)流计算插件 pipelinedb 正式插件化
Pipelinedb是PostgreSQL的一款流计算插件,使用这个创建可以对高速写入的数据进行实时根据定义的聚合规则进行聚合(支持概率计算),实时根据定义的规则触发事件(支持事件处理函数的自定义)。可用于IoT,监控,FEED实时计算等场景。
https://github.com/pipelinedb/pipelinedb
3、PostgreSQL衍生开源产品动态
1)agensgraph发布 2.0.0版本
agensgraph是兼容PostgreSQL、opencypher的专业图数据库,适合图式关系的管理。
https://github.com/bitnine-oss/agensgraph
2)gpdb发布5.15
gpdb是兼容PostgreSQL的mpp数据库,适合OLAP场景。近两年,gpdb一直在追赶PostgreSQL的社区版本,预计很快会追上10的PostgreSQL,在TP方面的性能也会得到显著提升。
https://github.com/greenplum-db/gpdb
3)antdb发布3.2
antdb是以Postgres-XC为基础开发的一款PostgreSQL sharding数据库,亚信主导开发,开源,目前主要服务于亚信自有客户。
https://github.com/ADBSQL/AntDB
4)迁移工具MTK发布52版本
MTK是EDB提供的可以将Oracle、PostgreSQL、MySQL、MSSQL、Sybase数据库迁移到PostgreSQL, PPAS的产品,迁移速度可以达到100万行/s以上。
https://github.com/digoal/blog/blob/master/201812/20181226_01.md
DB2发布 11.1.4.4版本
DB2最新发布Mod Pack 4 and Fix Pack 4,包含以下几方面的改动及增强:
1、性能
2、高可用
3、管理视图
4、应用开发方面
5、联邦功能
6、pureScale
NoSQL家族
Redis发布5.0.3版本
MongoDB升级更新MongoDB Mobile和MongoDB Stitch
2018年11月21日,MongoDB升级更新MongoDB Mobile和MongoDB Stitch,助力开发人员提升工作效率。
MongoDB 公司日前发布了多项新产品功能,旨在更好地帮助开发人员在世界各地管理数据。通过利用存储在移动设备和后台数据库的数据之间的实时、自动的同步特性,MongoDB Mobile通用版本助力开发人员构建更快捷、反应更迅速的应用程序。此前,这只能通过在移动应用内部安装一个可供选择或限定功能的数据库来实现。
MongoDB Mobile在为客户提供随处运行的自由度方面更进了一步。用户在iOS和安卓终端设备上可拥有MongoDB所有功能,将网络边界扩展到其物联网资产范畴。应用系统还可以使用MongoDB Stitch的软件开发包访问移动客户端或后台数据,帮助开发人员通过他们希望的任意方式查询移动终端数据和物联网数据,包括本地读写、本地JSON存储、索引和聚合。通过Stitch移动同步功能(现可提供beta版),用户可以自动对保存在本地的数据以及后台数据库的数据进行同步。
本期新秀:Cassandra发布3.11.3版本
2018年8月11日,Cassandra发布正式版3.11.3。
Apache Cassandra是一款开源分布式NoSQL数据库系统,使用了基于Google BigTable的数据模型,与面向行(row)的传统关系型数据库或键值存储key-value数据库不同,Cassandra使用的是宽列存储模型(Wide Column Stores)。与BigTable和其模仿者HBase不同,数据并不存储在分布式文件系统如GFS或HDFS中,而是直接存于本地。
Cassandra的系统架构与Amazon DynamoDB类似,是基于一致性哈希的完全P2P架构,每行数据通过哈希来决定应该存在哪个或哪些节点中。集群没有master的概念,所有节点都是同样的角色,彻底避免了整个系统的单点问题导致的不稳定性,集群间的状态同步通过Gossip协议来进行P2P的通信。
3.11.3版本的一些bug fix和改进:
NewSQL家族
TiDB 发布2.1.2版本
2018 年 12 月 22 日,TiDB 发布 2.1.2 版,TiDB-Ansible 相应发布 2.1.2 版本。该版本在 2.1.1 版的基础上,对系统兼容性、稳定性做出了改进。
TiDB 是一款定位于在线事务处理/在线分析处理( HTAP: Hybrid Transactional/Analytical Processing)的融合型数据库产品。除了底层的 RocksDB 存储引擎之外,分布式SQL层、分布式KV存储引擎(TiKV)完全自主设计和研发。
TiDB 完全开源,兼容MySQL协议和语法,可以简单理解为一个可以无限水平扩展的MySQL,并且提供分布式事务、跨节点 JOIN、吞吐和存储容量水平扩展、故障自恢复、高可用等优异的特性;对业务没有任何侵入性,简化开发,利于维护和平滑迁移。
TiDB:
PD:
TiKV:
Tools:
1)TiDB-Lightning
2)TiDB-Binlog
EsgynDB发布R2.5版本
2018年12月22日,EsgynDB R2.5版本正式发布。
作为企业级产品,EsgynDB 2.5向前迈进了一大步,它拥有以下功能和改进:
CockroachDB发布2.1版本
2018年10月30日,CockroachDB正式发布2.1版本,其新增特性如下:
新增企业级特性:
新增SQL特性:
新增内核特性:
Admin UI增强:
时间序列
本期新秀:TimescaleDB发布1.0版本
10月底,TimescaleDB 1.0宣布正式推出,官方表示该版本已可用于生产环境,支持完整SQL和扩展。
TimescaleDB是基于PostgreSQL数据库开发的一款时序数据库,以插件化的形式打包提供,随着PostgreSQL的版本升级而升级,不会因为另立分支带来麻烦。
TimescaleDB架构:
数据自动按时间和空间分片(chunk)
更新亮点:
https://github.com/timescale/timescaledb/releases/tag/1.0.0
大数据生态圈
Hadoop发布2.9.2版本
2018年11月中旬,Hadoop在2.9分支上发布了新的2.9.2版本,该版本进行了204个大大小小的变更,主要变更如下:
Greenplum 发布5.15版本
Greenplum最新的5.15版本中发布了流式数据加载工具。
该版本中的Greenplum Streem Server组件已经集成了Kafka流式加载功能,并通过了Confluent官方的集成认证,其支持的主要功能如下:
国产数据库概览
K-DB发布数据库一体机版
2018年11月7日,K-DB发布了数据库一体机版。该版本更新情况如下:
OceanBase迁移服务发布1.0版本
1月4日,OceanBase 正式发布OMS迁移服务1.0版本。
以下内容包含 OceanBase 迁移服务的重要特性和功能:
SequoiaDB发布3.0.1新版本
1、架构
1)完整计算存储分离架构,兼容MySQL协议、语法
计算存储分离体系以松耦合的方式将计算与存储层分别部署,通过标准接口或插件对各个模块和组件进行无缝替换,在计算层与存储层均可实现自由的弹性伸缩。
SequoiaDB巨杉数据库“计算-存储分离”架构详细示意
用户可以根据自身业务特征选择面向交易的SQL解析器(例如MySQL或PGSQL)或面向统计分析的执行引擎(例如SparkSQL)。众所周知,使用不同的SQL优化与执行方式,数据库的访问性能可能会存在上千上万倍的差距。计算存储分离的核心思想便是在数据存储层面进行一体化存储,在计算层面则利用每种执行引擎的特点针对不同业务场景进行选择和优化,用户可以在存储层进行逻辑与物理的隔离,将面向高频交易的前端业务与面向高吞吐量的统计分析使用不同的硬件进行存储,确保在多类型数据访问时互不干扰,以真正达到生产环境可用的多租户与HTAP能力。
2、其他更新信息
1)接口变更:
2)主要特性:
云数据库
本期新秀:腾讯发布数据库CynosDB,开启公测
1、News
1)腾讯云数据库MySQL2018年重大更新:
2)腾讯云数据库MongoDB2018年重大更新:
3)腾讯云数据库Redis/CKV+2018年重大更新:
4)腾讯云数据库CTSDB2018年重大更新:
2、Redis 4.0集群版商业化上线
2018年10月,腾讯云数据库Redis 4.0集群版完成邀测、公测、商业化三个迭代,在广州、上海、北京正式全量商业化上线。
产品特性:
使用场景:
官网文档:
https://cloud.tencent.com/document/proct/239/18336
3、腾讯自研数据库CynosDB发布,开启公测
2018年11月22日,腾讯云召开新一代自研数据库CynosDB发布会,业界第一款全面兼容市面上两大最主流的开源数据库MySQL和PostgreSQL的高性能企业级分布式云数据库。
本期新秀:京东云DRDS发布1.0版本
12月24日,京东云分布式关系型数据库DRDS正式发布1.0版本。
DRDS是京东云精心自研的数据库中间件产品,获得了2018年 ”可信云技术创新奖”。DRDS可实现海量数据下的自动分库分表,具有高性能,分布式,弹性升级,兼容MySQL等优点,适用于高并发、大规模数据的在线交易, 历史 数据查询,自动数据分片等业务场景,历经多次618,双十一的考验,已经在京东集团内大规模使用。
京东云DRDS产品有以下主要特性
1)自动分库分表
通过简单的定义即可自动实现分库分表,将数据实际存放在多个MySQL实例的数据库中,但呈现给应用程序的依旧是一张表,对业务透明,应用程序几乎无需改动,实现了对数据库存储和处理能力的水平扩展。
2)分布式架构
基于分布式架构的集群方案,多个对等节点同时对外提供服务,不但可有效规避服务的单点故障,而且更加容易扩展。
3)超强性能
具有极高的处理能力,双节点即可支持数万QPS,满足用户超大规模处理能力的需求。
4)兼容MySQL
兼容绝大部分MySQL语法,包括MySQL语法、数据类型、索引、常用函数、排序、关联等DDL,DML语句,使用成本低。
参考链接:
https://www.jdcloud.com/cn/procts/drds
RadonDB发布1.0.3版本
2018年12月26日,MyNewSQL领域的RadonDB云数据库发布1.0.3版本。
推出dbaplus Newsletter的想法
dbaplus Newsletter旨在向广大技术爱好者提供数据库行业的最新技术发展趋势,为社区的技术发展提供一个统一的发声平台。为此,我们策划了RDBMS、NoSQL、NewSQL、时间序列、大数据生态圈、国产数据库、云数据库等几个版块。
我们不以商业宣传为目的,不接受任何商业广告宣传,严格审查信息源的可信度和准确性,力争为大家提供一个纯净的技术学习环境,欢迎大家监督指正。
至于Newsletter发布的周期,目前计划是每三个月左右会做一次跟进, 下期计划时间是2019年4月14日~4月25日, 如果有相关的信息提供请发送至邮箱:[email protected]
感谢名单
最后要感谢那些提供宝贵信息和建议的专家朋友,排名不分先后。
往期回顾:
↓↓别忘了点这里下载 2019年1月 完整版Newsletter 哦~
❾ 餐饮营运TA、TC、GA、GC是什么意思
TA = Table Average,每桌(单)消费额
TC=Table Count,总共有多少桌(单)
GA=General Average,总平均值
GC=Gain Cell,增益控制
餐饮营运的潮流趋势:
1、客户越来越年轻化
《2017中国餐饮消费报告》显示,现今80后和90后年轻人群在餐饮用户中占比接近7成,而90后正在逐渐超越80后,成为餐饮业消费主体,年轻人的消费习惯与观念也在引领餐饮行业的潮流。
2、网红店越来越多
随着80后、90后成为餐饮消费主力,餐饮已从解决温饱上升到精神情感需求。好吃又好玩的创意餐饮、实现网红效应、自然健康轻食等代表新兴生活方式的餐饮,更能得到年轻消费人群的青睐。
3、外卖需求在增加
动动手指足不出户点个外卖或夜宵。根据《中国城市夜宵消费趋势大数据报告》,年轻人成为当之无愧的夜宵主力。90后的总数占比达59.36%,80后占比26.14%。在品类上,以小龙虾为代表的小吃成为夜宵的首选,其次是各类快餐,火锅位列第三。
以上内容参考:人民健康网—餐饮新势力的玩法已经大变
❿ 大数据分析师这个职业怎么样
近期成为月入两万的数据分析师的广告遍地都是,可能会对一些未入行的同学造成错觉。我个人感觉数据分析师这个岗位,可能近几年会消亡。
这不意味着这份工作本身不重要,而是说这份工作本身可能会转化为产品运营的一些必备技能,而不再需要单独特设人力去做这件事。或者说,不是再需要你学习SQL或者学习python,只是为了成为一名数据分析师。作为一名数据分析师,职业自身的壁垒正在不断消减,更加主动的拥抱业务,解决真正的产品和用户需求,或将成为未来的发展趋势。
数据分析师的日常工作
我们来看下预设中的分析师的一些工作场景,看看数据分析师核心的工作价值。
取数
数据清洗
数据可视化
统计分析
数据方向建设和规划
数据报告
取数 — SQL
很多人对数据分析师的预设是SQL达人,包括现在很多数据分析师的核心工作其实就是进行SQL取数。
这项工作的痛点和难点在于,我们为了得到一个结果,通常需要join很多的数据集,然后整个SQL语句就会写的特别长,而且可能会出现一些问题:比如join的表可能会出现key是重复的情况,造成最终的SQL结果因为重复而变得不可用。所以我们需要专人去专门维护各种各样的数据集,他们知道每张表应该怎么用。
但这个其实是关系型数据库遗留下来的产物——我们完全可以不需要join那么多的表。现在的分布式计算的框架,已经完全可以支持我们只保留一张大宽表,有需要的所有字段,然后所有的操作都在这张大宽表上进行,而且可以保证查询速度。这样数据分析最大的痛点已经没有了。至于你说大宽表里面存了很多重复的数据,是不是很浪费资源(关系型数据库之所以不用大宽表就是从存储空间和性能的trade-off角度考虑的):放心,分布式存储本身是不贵的,而计算效率则是由分布式计算框架进行专门优化的。现在的计算框架计算的响应速度,已经可以在大宽表上可以很快的得到结果了。相比之下,多次join操作反而可能会更慢一些。
同时,现在很多公司的NB框架,其实都已经支持拖拽取数了,也根本不需要写SQL了。
此外,不得不说的一点是,SQL语句本身真的不难。可能如果你自己静下心来想学,一个周末的时间肯定能搞定。而资历老的数据分析师,并不会比资历轻的数据分析师,在SQL语句的写作上有什么本质的区别。以前可能还有一些小表join大表的trick,但现在计算框架大多都已经优化过这些了。所以即使是需要写SQL的场景,本身也是没有什么难度的。
所以,通过大宽表来解放数据分析工作的生产力。即使在一定要写SQL做join操作的时候,本身也不是一件壁垒特别高的事情。取数这件事儿,对于其他岗位的同学,就已经没那么复杂了。
数据清洗 — Python
数据清洗其实是很多强调python进行数据分析课程中,python部分的主要卖点。包括但不限于,怎么处理异常值,怎么从一些原始的数据中,得到我们想要的数据。
在日常产品需求过程中,这种需求的场景其实很小。因为数据大部分都是自己产生的,很少会出现没有预设到的极端值或者异常情况。如果有的话,一般就是生产数据的同学代码写的有bug,这种发现了之后修复代码bug就行。
数据清洗在工作场景的应用在于落表——就是把原始数据变成上面提到的,可以通过SQL提取的hive表。这个工作是需要懂代码的同学去支持的,他们负责数据的产出,包括数据的准确性,数据的延时性(不能太晚产出)等等。前文提到的生成大宽表,其实也可以是他们的工作。这其中就涉及到一些代码的效率优化问题,这个就不是简单懂一点python可以搞定的了,可能涉及到一些数据压缩格式的转化,比如Json/Proto buffer到hive表的转化,还有一些计算框架层面的调优,比如spark设置什么样的参数,以及怎么样存储可以更好的提升查询速度。
所以这部分工作一般是由懂代码的同学完成的。可能数据团队会有比较少数的同学,管理支持全公司的基础表的生成。
数据可视化 — Tableau
很多之前在数据分析做实习的同学,主要的工作内容就是在一个商业化的软件(比如Tableau)上,做一些统计报表。这样可以通过这些数据报表,可以很方便的查看到所属业务的一些关键指标。这些商业软件通常都比较难用,比如可能需要先预计算一下才能输出结果;而且不太好做自定义功能的开发。稍微复杂一点的需求场景,可能就需要一个专门的同学捣鼓一阵,才能输出最终的统计报表。
现在有更先进的套路了。
首先可视化。很多公司打通了前端和后端的数据,这样就可以通过网页查询原始的数据库得到数据结果。而现在很多优秀的前端可视化插件,已经可以提供非常丰富的统计图形的支持。而且因为代码是开源的,可以根据公司的需求场景进行针对性的开发,公司可以再辅以配置一些更加用户友好的操作界面,这样一些复杂需求也有了简单拖拽实现的可能。而且这些前端js代码都是免费的!对于公司来说也能省去一笔商业公司的采买成本。
其次很多商业软件,都是针对小数据集场景设计的。在一些大数据集的场景,一般需要先预计算一些中间表。而如果自己公司定制化开发的前端展示结果,就可以根据需要自主设置计算逻辑和配置计算资源,先在后端进行预计算,前端最终只是作为一个结果展示模块,把结果展示和需要的预计算进行解耦。这样就省去了很多中间表的产出,也会更加快速的得到想要的业务指标,快速迭代。
所以可视化数据的工作量也会大大减少。而且会变成一个人人都可以操作,快速得到结果的场景。
统计分析
对于一名数据分析师而言,统计学分析可能是一块知识性的壁垒。尤其是在现在ab实验成为互联网公司迭代标配的今天。需要把实验设计的那套理论应用起来:比如ab实验进行后的显著性检验,多少样本量的数据才能让这个结论有效可信呢。
但是,你我都知道,经典的统计分析其实是一个非常套路性的工作。其实就是套公式,对应到代码层面,可能也就一两行就搞定了。这个代码的统计分析结果可以作为ab平台的指标展示在最终的ab结果上,大家看一眼就能明白。即使是对那些可能不知道显著性是什么意思的人,你可以跟他简单说,显著了才有效,不显著就别管。
这么一想是不是其实不怎么需要投入额外的人力进行分析?
其他数据相关的工作
数据层面的规划和设计。移动互联网刚刚兴起的时候,可能那时候数据分析师需要对每一个数据怎么来设计一套方案,包括原始的埋点怎么样,又要怎么统计出想要的结果。但现在大部分已经过了快速迭代的时代了,新产品的埋点添加可以参考老产品,这就意味着形成套路了。而一旦形成套路,其实就意味着可以通过程序直接完成或者辅助完成。
数据报告。那就真的是一件人人都能做的事情了,试想谁没在大学期间做过数据报告呢?以前只是因为数据都是从分析师产出的,而如果人人都能取到数据的话,数据报告是不是也不是一个真需求呢?
在我看来,数据分析师这个岗位的天花板和其他岗位相比起来是比较低的。可能工作一两年之后,从岗位本身就已经学不到什么额外的工作知识了。主要的工作内容技术含量不是特别高,技能性的更多的是一些可以简单上手的东西,而且做的时间长了,在这些技能性的事情上得到的积累并不是很多。
数据分析师更像是一个在时代变迁过程中的一个中间岗位:我们从一个基本没有数据的时代,突然进入了一个数据极大丰富的时代,在这个过程中,我们都知道重视数据。那怎么能够利用这个数据呢?可能之前的那一帮人并没有太多的经验,于是老板就招一些人专门来研究一下它,同时做一些底层数据的优化。
经过多年的迭代,现在互联网行业的每个人都知道数据的价值,也大概知道了什么样的数据是重要的,怎样可以更好的挖掘数据背后的价值。同时底层的基础设施也已经支持可以让一个之前没有经验的同学可以快速的上手得到自己想要的关键数据。这时候对于一个职业数据分析师来说,他的任务就已经完成了。就如同当人人都会讲英语的时候,翻译其实也就没有存在的价值了。
此后的数据分析工作,可能不再是一些单独的人做的工作。它会变成一个产品和运营的基础工具,而且足够简单,没有取数的门槛。只是产品运营怎么样可以更好的认识数据,通过数据本身更好的配合产品运营的工作,这已经超脱我们一般理解的数据分析师的工作了,而是一个产品运营分内的工作。
对于那些已经在从事数据分析师岗位的同学来说,建议不要把心思全部投入到数据分析的本职工作上,以完成任务为核心KPI。而是不要给自己设置边界,多从用户的角度思考问题,不要因为是产品运营的工作就不去做了。数据分析师这个职业发展到这个阶段,要么做更加底层的数据建设,要么拥抱业务,最大化的发掘数据背后背后的价值。不要再死守着数据分析的“固有技能”沾沾自喜了。
数据本身的价值是无穷的,作为数据分析师,你们已经先人一步的掌握它了,要有先发优势。你们最接近数据的人,是最可能发现用户的宝藏的人。