1. 大数据概述及基本概念
大数据的定义首先,还是要重新审视大数据的定义。
行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。
广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。
狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。
相比较而言,我还是喜欢技术定义,哈哈。
大家注意,关键词我都在上面原句加粗了哈!
要做什么?——获取数据、存储数据、分析数据
对谁做?——大容量数据
目的是什么?——挖掘价值
获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。
例如,每月的月初,考勤管理员会获取每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有多少人迟到、缺勤,然后扣TA工资。
但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。
2.大数据,到底有多大?
我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的关系,大家应该都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大数据是什么级别呢?PB/EB级别。
大部分人都没听过。其实也就是继续翻1024倍:
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看这几个字母的话,貌似不是很直观。我来举个例子吧。
1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是671部《红楼梦》小说。
1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。
1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。
阿里、网络、腾讯这样的互联网巨头,数据量据说已经接近EB级。
EB还不是最大的。目前全人类的数据量,是ZB级。
1 ZB = 1024 EB (ZB - zettabyte)
2011年,全球被创建和复制的数据总量是1.8ZB。
而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。
数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。
目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。
大数据的级别定位:1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
3.数据的来源
数据的增长,为什么会如此之快?
说到这里,就要回顾一下人类社会数据产生的几个重要阶段。
大致来说,是三个重要的阶段。
第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。
这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。如果你对大数据开发感兴趣,想系统学习大数据的话,可以戳我加入大数据技术学习交流群,私信管理员即可免费领取开发工具以及入门学习资料
第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。
随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。
第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。
经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。
4.大数据的4Vs
行业里对大数据的特点,概括为4个V。前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,分别是Variety、Velocity、Value。
我们一个一个来介绍。
Variety(多样化)
数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。
数据又分为结构化数据和非结构化数据。
从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。
例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。
而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。
在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。
大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。
Velocity(时效性)
大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。
我们还是用数字来说话:
就在刚刚过去的这一分钟,数据世界里发生了什么?
Email:2.04亿封被发出
Google:200万次搜索请求被提交
Youtube:2880分钟的视频被上传
Facebook:69.5万条状态被更新
Twitter:98000条推送被发出
12306:1840张车票被卖出
……
怎么样?是不是瞬息万变?
Value(价值密度)
最后一个特点,就是价值密度。
大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。
例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。
2. 三微一端是指什么呢
指的是微博、微信、微视频和客户端这四种新媒体工具。随着智能手机的普及和大数据时代的来临,也拥有了更加广泛的受众,传播效率更高。在日常政府的宣传工作中,占据了极其重要的位置。
微信:
(1)建立微信交流群。一般都用于社区宣传,通过建立微信群聊的方式,可以及时的将信息传送给群成员,也可以及时接收他们的反馈,比如在此次疫情期间,微信群就承载了日常防控信息及疫情通报的重要作用。
(2)借助微信公众号平台。微信公众号的平台可以发布日常的文章,这些文章还可以被转载到群众的朋友圈,进一步的扩大传播范围。同时微信公众号还可以开通留言功能,及时了解群众观点,很多政府机构在日常也会开展留言有奖的活动,激发公众阅读的热情。
(3)开发微信小程序。比如在前不久的清明节就有政府开发了网上祭祀的小程序,向大家倡导文明扫墓。
微博:
(1)创建官微。利用微博官方认证账号进行宣传,同时在发完微博之后要注意积极主动的和微博下的留言信息进行互动。
(2)邀请知名博主进行转发。比如在此次疫情期间的相关重要信息,都可以邀请知名大V帮忙转发。当然,如果是一些营销性质的宣传,也可以花上一笔广告费,请一些广告博主进行推广转发。
(3)创建微博话题。还是以此次疫情为例,就可以创建诸如#疫情防控#之类的积极话题,所有的微博用户都可以通过搜索话题进行讨论。
(4)组织微博抽奖活动。在发布相关信息之后,可以通过微博后台申请点赞或留言抽奖,就能有效地提高微博的阅读率和网友的参与度。
微视频:
时下最火热的微视频平台,非快手和抖音莫属。通过拍摄一些比较幽默风趣的情境短片,能够更加吸引群众的兴趣,同时也可以购买抖音的定向推广服务,比如可以定向推荐给同城用户。除此之外也可以发起合拍活动,比如之前的消防组织就发起过关于厨房灭火的合拍。
客户端:
随着互联网加政务的推进,不同省市不同的政务部门都创建了自己的客户端。以安徽为例,安徽的皖事通平台,就承接了诸如医疗挂号、车辆年审等各类政务服务。学生们在答题之前可以提前搜集一下所报考省份或地市的政务平台名称,平台通过增设宣传板块,或APP启动动画,后台消息推送等方式,都能起到不错的宣传效果。
三个微端改变了传统媒体“一对多”的单向信息输出模式,内容创作相对较短,以满足受众的便捷需求“浅读”与“浅读”“使用移动设备。
为了充分发挥金融媒体矩阵的优势,我们应该基于传统媒体内容的优势,依托大数据和云技术,更好地将各个层面的创新理念融入到发展潮流中,通过构建新的传播模式,实现新闻产品的多媒体展示和多媒体推送。
3. 关于大数据的,数据挖掘,数据分析的微信公共账号有哪些
回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。 ①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射
4. 数据驱动的思维方式包含哪五个方面
每日干货好文分享丨请点击+关注
欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区。
对商业智能BI、数据分析挖掘、大数据、机器学习,python,R感兴趣同学加微信:fridaybifly,邀请你进入头条数据爱好者交流群,数据爱好者们都在这儿。
本文作者:天善智能联合创始人&运营总监 吕品,微信:tianshanlvpin,原文发表于天善智能服务号,欢迎讨论交流。
开篇语
看过不少讲解大数据思维的文章,文章的一些观点能够带给我很多的启发,很有见地也很受用。在跟一些企业的负责人聊起大数据项目规划和建设的时候,发现大家对大数据并不缺少自己的认识和看法,只是这些认识和看法没有被系统性的组织起来,形成一个比较有深度的思考问题、解决问题的套路。
这篇文章结合我在和一些朋友沟通过程中看到的一些问题,将大数据思维和价值做了一些聚焦和分解。我来抛砖引玉,希望这篇文章能够让大家从另外的一个角度去了解和思考一下到底什么是大数据思维和价值。
这篇文章适合企业高层、即将或者正在规划大数据项目、思考如何对大数据进行顶层设计、大数据项目管理人员一读。作为补充,我在此也推荐几篇文章以丰富大家思考问题的维度(角度):
【概念篇】大数据思维十大核心原理
【分析篇】趋势 | 大数据应用落地分析
【案例篇】深入解读民生银行阿拉丁大数据生态圈如何养成
【案例篇】大数据如何聚焦业务价值,美的大数据建设的启发
本文作者:吕品 天善智能联合创始人
本文整理自 2017年3月3日 美云智数新品发布会数据云分论坛吕品的演讲内容
人人必谈大数据
说到大数据,大家并不陌生,从各种自媒体、线上线下沙龙,包括生活中大家经常提起。早在 2010 年之前,国内的很多互联网公司都已经在处理 “大数据”,只不过那时对大数据还没有一个清晰的定义。2013 年起,我们注意到在国内大数据这个词开始火了,火到什么程度? 举个例子:我每次回家,家里的亲人朋友都在问我是做什么的,我说我们是搞商业智能 BI 的,基本上听不懂。什么把数据变为信息、信息产生决策,什么 ETL、报表,几乎是懵圈的。后来提了一句,我们有一个技术网站,里面都是玩数据的,比如大数据、数据分析、数据挖掘...。“大数据啊!大数据我知道!”,我问什么是大数据,回答很简洁干脆:“大数据就是数据大呗!”。
其实这种理解不能说错,只能说不全面,但是从某种角度上来说大数据还是比较深入人心的,“大数据”这三个字起到了一个很好的名词普及作用,至少不会像商业智能 BI 那样很难用一句或者几句话让大家有个哪怕是很基础的概念。
大数据 4V
我们经常提到的大数据四大特征:4个V
Volume 数据容量大:数据量从 GB 到 TB 到 PB 或以上的级别。
Variety 数据类型多:企业在解决好内部数据之后,开始向外部数据扩充。同时,从以往处理结构化的数据到现在需要处理大量非结构化的数据。社交网络数据采集分析、各种日志文本、视频图片等等。
Value 价值高,密度低:数据总量很大,但真正有价值的数据可能只有那么一部分,有价值的数据所占比例很小。就需要通过从大量不相关的、各种类型的数据中去挖掘对未来趋势和模型预测分析有价值的数据,发现新的规律和新的价值。
Velocity 快速化:数据需要快速处理和分析。2010年前后做过一个美国医疗保险的数据迁移项目,有一个 ETL 需要处理该公司几十年的历史文件和历史数据,文件数据量很大,并且逻辑非常复杂,一个流程几十个包,一趟下来 35 个小时执行完毕。这种情形如果放在现在的互联网比如电商平台很显然是不允许的。比如像电商促销、或者要打促销价格战,实时处理传统的 BI 是无法完成的。对有这种实时处理实时分析要求的企业来说,数据就是金钱,时间就是生命。
我相信上面提到的大数据的四个 V、核心特征还是比较容易理解的。如果我们不是站在技术层面去聊的话,大家对大数据或多或少都会有一些比较接近和类似的看法,并且在理解和认识上基本也不会有太大的偏差。
但是当我们谈到大数据,大家真正关心的问题在哪里呢? 从技术角度大家可能关心的是大数据的架构、大数据处理用到了什么样的技术。但是站在一个企业层面,特别是在着手考察或者规划大数据项目建设的负责人、企业高层来说,更多关心的应该是下面这几个问题:
1. 大数据到底能帮我们企业做什么,或者说能够带给我们企业什么变化。上了大数据对我们有什么用,会有什么样的改变,是经营成本下降、还是帮我们把产品卖的更多?
2. 我们的企业现在能不能上大数据?如果不能上大数据,为什么,那又需要怎么做?
3. 我们企业也想跟随潮流上大数据,问题是要怎么做。需要准备什么,关于投入、人才、还缺什么、需要用到什么样的技术?
4. 我们怎么验证这个大数据项目是成功还是失败,我们判断的标准是什么?
我相信这些问题都是大家比较关心的一些点,包括我自己。我们目前还是以 BI 分析为主,但我们也会去爬一些外部的数据,后面也在规划大数据相关的一些项目和开发。
当然大数据这个话题是非常大的,我们很难从一个或者两个角度把这些问题回答的非常全面。但是我觉得有一点是我们的企业高层或者决策者可以注意的:在规划和考虑大数据的时候需要具备一定的大数据思维,或者说是面对大数据时我们所要具备的考虑问题和看问题的角度。
大数据思维方式
大数据思维方式我简单概括为两个方面:第一个是以数据为核心、数据驱动的思维方式。第二个是业务核心,业务场景化的思维方式。
以数据为核心、数据驱动的思维方式包含这几个方面:
1. 尽可能完善自己的数据资源。我们手上握有什么样的数据资源,我们数据资源的质量如何?
企业需要关注和梳理我们有什么样的数据,以前是关注企业的流程,IT的流程、业务流程再造。现在大多数企业这些 IT 基础和应用的建设都已经完成了,更加关心的应该是在我们的企业里到底握有什么样的数据资源,在不同的行业我们的数据主题是不一样的。
比如电商零售行业,我们考虑更多的可能是消费数据、涉及到用户、产品、消费记录。因为我们可以围绕这些数据比如做用户画像、精准营销、定制化的产品、产品的市场定位分析等等。
比如制造生产行业,我们涉及更多的数据可能是产品本身、我们的生产流程、供应商等。因为我们可以围绕这些数据比如做我们的生产质量检查、降低生产成本、工艺流程再造等。
只有了解我们目前自身的数据资源,才能知道我们还缺少哪些数据资源。而这些缺少的数据资源从哪里来,如何获得,就是我们在规划大数据项目的时候是需要解决的。如果缺乏这种意识,等在规划和上大数据项目的时候你的大数据资源非常有限的。
2. 增加数据触点、尽可能多的去收集数据,增加数据收集和采集渠道。大数据的建设和大数据分析它是一个迭代的过程,很多的分析场景都是在不断的探索中找出来的,它有一定的不确定性。正是因为这种不确定性所以才需要我们尽可能收集更多的数据。
现在是移动互联网时代,人人都是数据的生产者和制造者。比如每天的社交数据、互联网点击网络的数据、刷卡消费的数据、电信运营、互联网运营数据。像我们的制造和生产行业,有自动化的传感器、生产流水线、自动设施的数据等。有些数据放在以前可能不值钱,但是现在看呢?这些数据现在或者在将来的某一天就会变得很有价值。
比如像我最开始提到的那家美国医疗保险公司,我看过他们的 COBOL 代码注释都有是七几年、八几年前的。他们积累了几十年的数据,突然在 2010 年前后开始意识到数据的价值了,开始通过数据进行一些变现了。之前知道这些数据的价值吗?不知道,但是尝试到数据的甜头,比如做自己的数据分析,咨询机构购买一些脱敏的数据,或者给咨询机构提供数据做市场研究用途。
所以大数据的构建不会是一天两天的,这个过程会持续很长的时间,我们需要为将来做准备。所以如果你的公司连个最简单的业务系统,IT 应用系统都没有,数据连存放的地方都没有,怎么能够上大数据呢?不合理。
数据越多,数据种类越丰富,我们观察数据的角度维度就越丰富,我们利用大数据从中就能够发掘出以前更多没有看到的东西。
3. 数据开放和共享思维。这一点在我们国内其实说起来很容易,但是实际上很难。
去年的时候我去看了一个市公安局的大数据项目(可参看这篇文章 政府大数据面临的问题和阻力在哪里?),他们有两点意识非常好:
1)非常清楚的知道自己拥有哪些数据资源。比如市公安局以及下属分局、各个支队各个应用系统的数据:基础的人口管理、信访、犯罪信息、情报。包括数据监控所涉及到的铁路、网吧、民航购票、ETC 卡口等。
2)为了纳入更多的社会化数据资源、实现全行业的数据覆盖,他们准备接入交通、服务、科技信息化、教育、社保、民政等各个行业的数据。包括他们给下面的单位下了数据的指标,每个单位或者每个民警都有这种收集数据的指标,比如哪个单位今天上传了什么样的多少数据,每个月哪个单位上传的最多,这都是很好的数据收集的意识。
但问题在哪里?问题在于很多机构比如银行受国家政策限制很多数据是没有办法共享的、还有像教育机构,我凭什么把数据给你,在行政上大家是并级的机构。
所以这个时候就需要考虑数据开放和共享的思维,在满足数据安全性的基础之上我们可以不可以考虑数据互换共享的可能。公安局有的数据一定是教育机构没有的数据,那么同样的教育机构有的数据,公安机构也不一定有。如果两者数据在某种程度上形成共享,在保证数据安全和不冲突的情况下是可以创造出更多的社会价值的。比如公安局可以提供教育机构关于各个地区犯罪率的信息,包括交通安全事故多发地等,教育机构可以针对
5. r数据挖掘 电脑硬件配置
1. 电脑需要什么配置?
学大数据的电脑配置主要在内存方面,至少8G,上不封顶,一般16G够用。当然这只是学习层面,自己搭虚拟机玩玩。工作中,公司自然会给你分配服务器让你工作。
2. 有哪些方向?
数据开发、数据分析、数据挖掘。其中每个大方向又拆分了几个小方向。
三者的联系是,数据过来之后先进行开发,然后进行分析,最后从数据中挖掘出价值并进行应用。
3. 用Java还是Python?
数据分析和数据挖掘基本使用Python。
数据开发不局限于语言。数据开发大多数Java,少部分Python,也有Scala,具体看公司项目技术栈。因为大部分大数据框架都支持Java接口,而且大部分公司项目技术栈都用Java,所以Java居多。Python更多地使用在脚本或者前期的框架粘合。Scala大多用在Spark框架。
具体可以去招聘网站的JD看,先看自己想去的公司,最后再看自己所在城市的公司。
4. 需要学机器学习吗?
数据挖掘需要机器学习的知识,部分数据分析岗位需要机器学习知识。
数据开发大多数是不需要的,但有些公司的数据开发岗位也要涉及到推荐系统模型等,或者要使用Spark的mlib库等等。初学者不需要特意去学,可等到后期技能拓展或者工作中需要再学。
如果你对大数据开发感兴趣,想系统学习大数据的话,可以戳我加入大数据技术学习交流群,了解课程,获取学习资源
5. 哪个方向好?
都好,兴趣为王!想做算法相关的学数据挖掘,想做开发写代码的就学数据开发,想接触业务层面的可以学数据分析,更多的可以结合自己之前的专业技能、工作经历及之后想从事的工作内容进行考虑。
6. 需要数学知识吗?
数据开发和一般岗位的数据分析师都不需要什么数学知识,除了数据挖掘和部分数据分析进行建模时需要进行统计等操作才需要数学知识。
7. 需要高学历吗?
入门级别的都不用看学历。看学历指数:数据挖掘 > 数据分析 > 数据开发。数据分析和开发正常本科就够了,数据挖掘大多是本科以上。
8. 薪资高吗?
大环境下,薪资:数据挖掘 > 数据开发 > 数据分析。同一家公司同一级别的岗位,数据开发正常高于普通开发。
具体看城市、公司以及工作年限。
9. 就业前景和市场需求怎么样?
市场需求怎么样,看培训机构的动作就知道了,今年市场上涌起一大批大数据的培训机构。而且随着企业上云,数字化转型,5G时代的到来,对数据会越来越重视。
无论哪个方向的就业前景都是明朗的,大数据的三大方向后期可以进阶纯技术架构,纯业务管理,技术与业务结合的解决方案架构师,也可以三者之间相互转型。
第一批大数据专业的学生现在大三,至少得再过2,3年,学校的课程才会相对完善,并能批量生产。不过科班的学生都知道,是不是科班只有在简历上写的不一样,上课玩的游戏都一样的。
10. 数据开发和后台开发的区别?
大数据开发相当于后台开发的升级版,要处理的数据量更多,应付的场景更复杂。