1. 什么是大数据,通俗的讲
有人说大数据技术是第四次技术革命,这个说法其实不为过。
很多人只是听过大数据这个词或者是简单知道它是什么,那么它是什么呢,在这里就通俗点来说一下个人对大数据的理解。
大数据,很明显从字面上理解就是大量的数据,海量的数据。大,意思就是数据的量级很大,不上TB都不好意思说是大数据。数据,狭义上理解就是12345那么些数据,毕竟计算机底层是二进制来存的,那么在大数据领域,数据就不仅仅包括数字这些,它可以是所有格式的东西,比如日志,音频视频,文件等等。
所以,大数据从字面上理解就是海量的数据,技术上它包括这些海量数据的采集,过滤,清洗,存储,处理,查看等等部分,每一个部分包括一些大数据的相关技术框架来支持。
举个例子,淘宝双十一的总交易额的显示,后面就是大数据技术的支持,全国那么多淘宝用户的交易记录汇聚到一起,数据量很大,而且要做到实时的展现,就需要强有力的大数据技术来处理了。
数据量一大,那么得找地方来存,一个服务器硬盘可以挂多少,肯定满足不了这么大的数据量存储啊,所以,分布式的存储系统应运而生,那就是HDFS分布式文件系统。简单的说,就是把这么大的数据分开存在甚至几百甚至几千台服务器上,那么管理他们的系统就是HDFS文件系统,也是大数据技术的最基本的组件。
有地方存了,需要一些分布式的数据库来管理查询啊,那就有了Hbase等,还需要一些组件来计算分析这些数据啊,maprece是最基本的计算框架,其他的计算框架Spark和Storm可以完成实时的处理,其中HDFS和MapRece组成了Hadoop1.
总之,一切都是数据。我们的历史,是不是都是大量的数据保存下来的,现在我们也是大数据的生活,天天有没有接到骚扰电话还知道你姓什么,你查话费什么的从几亿人的数据中查到你的信息,大数据生活。未来,大数据将更深刻的渗透到生活中。
2. 《智能时代大数据与智能革命重新定义未来》epub下载在线阅读全文,求百度网盘云资源
《智能时代》([美国] 吴军)电子书网盘下载免费在线阅读
资源链接:
链接:
书名:智能时代
作者:[美国] 吴军
豆瓣评分:8.4
出版社:中信出版集团
出版年份:2016-8
页数:374
内容简介:
大数据和机器智能的出现,对我们的技术发展、商业和社会都会产生重大的影响。作者吴军在《智能时代:大数据与智能革命重新定义未来》中指出,首先,我们在过去认为非常难以解决的问题,会因为大数据和机器智能的使用而迎刃而解,比如解决癌症个性化治疗的难题。同时,大数据和机器智能还会彻底改变未来的商业模式,很多传统的行业都将采用智能技术实现升级换代,同时改变原有的商业模式。大数据和机器智能对于未来社会的影响是全方位的。
作者简介:
吴军,博士,与2002年加入谷歌公司,2010年加盟腾讯公司,出任负责搜索和搜索广告的副总裁。2012-2014年回到谷歌,领导计算机自动问答项目。2014年,他在硅谷创办了丰元资本风险投资公司。他在美国两家风险投资基金(中国世纪基金和ZPark风险基金)分别担任董事和顾问,也是约翰霍普金斯大学工商学院董事会董事,以及该校国际事务委员会的顾问。
3. 谁能用大白话给我讲一讲:什么是大数据以及大数据在日常生活中的应用
把数据比作大海,大数据就是海浪,西海岸落下了颗流星,我们在东海岸就可以根版据海浪知道流星权的大小,这是一场革命:以前我们必须把流星捞出来称一称才知道它的质量,现在只需在千里之外根据海浪的大小方向,此时的海风来对比往日的海浪,就可以计算出流星啦。
应用的话:淘宝的折扣活动,除了节日就是预测到你有钱了,或者你洗面奶用完了
4. 大白话谈大数据:数据分析方法之对比分析
对比分析是数据分析中最常用、好用、实用的分析方法,它是将两个或两个以上的数据进行比较,分析其中的差异,从而揭示这些事物代表的发展变化情况以及变化规律。
先看看思维导图:
使用分析方法(和谁比)
如何使用对比分析法,就要先考虑 和谁比 这个问题。
和自己比较
通过和自己过去的平均值相比,发现问题,围绕问题进行分析,出现的问题是自身问题导致的还是行业问题导致的,如果自己的环比出现了问题,就要从自身上找原因,提高活跃率。
和行业比较
将自己的平均值和行业平均值进行比较,和同行一比,往往会发现很多问题。
使用分析方法(如何比较)
第二个要考虑的问题就是 如何比较 ?
数据整体的大小 :用某些指标来衡量整体数据的大小,常用的数据指标为:平均值、中位数、某个业务指标
数据整体波动 :用变异系数来衡量整体数据的波动情况
趋势变化 :运用对比分析来分析趋势变化的时候,最主要的是找到合适的对比标准。找到标准,将对比对象的指标与标准进行对比,就能得出有结果了。目前常用标准是时间标准、空间标准、特定标准。
第一类时间标准 :
动作前后对比 ,可以看到动作前后的效果,如对比某次营销活动前后的对比。
时间趋势对比 ,可以评估指标在一段时间内的变化,可以通过环比,来判断短时间内趋势的变化。
与去年同期对比 ,当数据存在时间周期变化的时候,可以与去年同期对比,剔除时间周期变化因素。通过同比,来判断短时间内趋势的变化。
环比:本月和上个月比较,短时间的比较
同比:本年和上一年比较,长时间的比较
第二类空间标准 :
A/B测试 ,在同一时间维度,分别让组成成分相同的目标用户,进行不同的操作,最后分析不同组的操作效果,A/Btest我接下去也会讲。
相似空间对比 ,运用两个相似的空间进行比较,找到二者的差距,比如同类型甲APP(贝壳)乙APP(自如)的年留存率情况,明显看出哪个APP的留存率更高,日常生活中相似空间比较常用的就是城市、分公司之间的对比。
先进空间对比 ,是指与行业内领头羊对比,知晓差距多少,再细分原因,从而提高自身水平。如淘宝和京东的对比。
第三类特定标准 :
与计划值对比 ,目标驱动运营,在营销中会制定年、月、甚至日的目标,通过与目标对比,分析自己是否完成目标,若未完成目标,则深层次分析原因。目标驱动的好处,就是让运营人员一直积极向上努力的去完成目标,从而带动公司盈利。
与平均值对比 ,与平均值对比,主要是为了知晓某部分与总体差距。
与理论值对比 ,这个对比主要是因为无历史数据,所以这个时候只能与理论值对比。理论值是需要经验比较丰富的员工,利用工作经验沉淀,参考相似的数据,得出来的值。
对比分析方法原则
对比分析需要坚持可比性原则:对比对象相似,对比指标同质
对比对象相似 :进行比较的时候注意,比较规模要一致,对比对象越相似,就越具有可比性,比如说不能用你的工资和思聪的零花钱进行比较,这样不公平。如果要比,就和你出生,教育背景相似的人进行比较。当然这只是个不恰当的例子haha
对比指标同质: 同质可以表现在下面三点:
1.指标口径范围相同 ,比如甲 APP 与乙 APP 的用户年留存率比较,如果用甲 APP 18年的用户留存率,那乙 APP 也需要是18年的,不能拿乙17年的与甲18年的比较。
2.指标计算方法一样 ,也就是计算公式相同,比如一个用除法、一个用加法进行计算。
3.指标计量单位一致 ,不能拿身高和体重进行比较,二者常用单位一个是厘米,一个是千克。
分析方法应用
举一个例子吧,A/Btest
什么是A/B测试呢?为统一个目标制定两个版本,这两个版本只有某个地方不一样,其他地方保持不变,让一部分用户使用A版本,一部分用户使用B版本,A版本为实验组,B版本为对照组,两个版本运行一段时间后,分别统计两组用户的表现,然后对两组数据进行对比分析,选择效果好的版本,正式发布给全部用户。
当然现实中的A/Btest也远没有这么简单,我接下去会写一篇文章专门讲讲A/Btest的,挖坑+1 hahaha
最后打个小广告,我的公众号(顾先生的数据挖掘)
喜欢的小伙伴可以关注下,你的关注是我最大的动力。
5. 怎样用大白话解释“大数据”和“云计算”
就是都在裸奔
6. 请问大数据分析和机器学习之间的区别与联系
现如今是一个信息的时代,社会上任何行为都是以信息为前提去执行的。而信息又是对数据的处理加工得来的,所以“数据”是时代的主宰。大数据、数据挖掘和机器学习这三者是面对数据通常采用的手段。而这三者之间又是怎样的区别呢?
大数据是一个相对抽象的概念,目前国内外学术界还没有对大数据的定义形成统一的意见。美国国家科学基金会(National Science Foundation,United States)基于数据特征及数据来源角度对大数据进行了定义,认为大数据是一种复杂的、大规模的、长期的、多元化的分布式数据集,由一系列的数据源生成,包括网络点击流、音视频软件、E-mail、科学仪器、互联网交易、传感设备等。
所谓数据挖掘,又叫做数据库中的知识发现,简称为KDD。关于数据挖掘技术的定义,国际上目前比较广泛认可的是U.M.Fayyad 等人说明的,即数据挖掘技术就是在模糊的、有噪声的、不完全的、大量的、随机的数据中,提取潜在的、人们事先不知道的、隐含在其中的有价值的知识与信息的过程。
机器学习是基于对海量信息处理的需求产生的一门涉及多个学科领域交叉的学科,“机器学习是对能通过经验自动改进的计算机算法研究”。其主要目的是研究计算机如何通过学习人类的思维和行为,来自动获取新知识,自动适应环境的变化的。机器学习是人工智能的核心思想。
现代各企业都十分注重数据,面对各种各样的数据,因而也衍生了各大数据服务平台,例如,华为云机器学习平台(MLS)是EI的一项基础服务,帮助用户通过机器学习技术迅速发现数据规律,构建预测模型,并将其部署为预测分析解决方案。不管现在和将来,数据都会成为时代的标志。
7. 大数据是什么概念
世界包含的多得难以想象的数字化信息变得更多更快……从商业到科学,从政府到艺术,这种影响无处不在。科学家和计算机工程师们给这种现象创造了一个新名词:“大数据”。
所谓大数据,那到底什么是大数据,他的来源在哪里,定义究竟是什么呢?
七:最后北京开运联合给您总结一下
不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
1、从大数据的价值链条来分析,存在三种模式:
1)手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。
2)没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。
3)既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。
2、未来在大数据领域最具有价值的是两种事物:
1)拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;
2)还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。
大 数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不
断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于
数据的应用需求和应用水平进入新的阶段。
8. 白话大数据
一、什么是大数据?
1、专家学者眼里的大数据:
第一种说法:
需具备5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
第二种说法:
超过某个特定大小阀值的数据叫大数据,好像这个阀值有好几个版本。
2、政府官员眼里的大数据
能够产生巨大 社会 财富和民生福祉,提高政府治理水平。
其实吧,目前政府搞的所谓大数据还是几十年前的数据仓库。
3、工程师眼里的大数据
(1)用到数据的范围变宽了,以前只用了一小部分数据,现在用了一大部分数据。
其实市场上60%号称搞了大数据的单位,还只是用了一小部分数据。
(2)用到数据的深度变深了,以前由于技术能力所限,只能计算一定数量的数据,现在这个能力大大提升了。
二、 社会 大众对大数据作用的误区
以前微信圈里,流传着一个段子:
一家比萨店,外卖电话响了,店长拿起电话。
店长: 比萨店。您好,请问有什么需要我为您服务的?
顾客:你好,我想要一份比萨。
店长:请问您是陈先生吗?
顾客:你怎么知道我姓陈?
店长:陈先生,因为我们联机的CRM(客户关系管理)系统对接了三大通信服务商,看到您的来电号码,我就知道您贵姓了。
顾客:哦,我想要一个海鲜至尊比萨。
店长:陈先生,海鲜比萨不适合您,建议您另选一种。
顾客:为什么?
店长:根据您的医疗记录,您的血尿酸值偏高,有痛风的症状,建议您不要食用高嘌呤的食物。您可以试试我们店最经典的田园蔬菜比萨,低脂、 健康 ,符合您现阶段的饮食要求。
顾客:你怎么知道我会喜欢这种?
店长:您上周在一家网上书店买了一本《低脂 健康 食谱》,其中就有这款比萨的菜谱。
此外,好告诉顾客由于欠银行多少钱不能刷卡、不能吃哪一类食物、正在开什么车、当前离披萨店有多远等等个人详细信息。
这个场景明显是鬼扯。
首先,这些数据涉及整个 社会 方方面面的数据,试问会有这么神话的团体能整合这些全面的数据;
目前,政府自己内部很多数据都打不通,况且还有整个 社会 企业的数据。
其次,还涉及到数据隐私的问题,一个普通的披萨店就能知道 社会 大众的特征、明细数据和生活实时数据。这个披萨店是统领宇宙的吧。
9. 白话云计算、边缘计算、大数据
云计算、边缘计算、大数据这些概念总给人以高端、神秘的感觉,有些商家还以此为噱头,营销产品,忽悠消费者,把消费者弄得云里雾里。
所谓云计算,字面上理解就是在“云”上做计算,“云”给人直观的特点有:在远端,无限大。云计算中的“云”可以理解为通过网络为用户提供各种资源或能力(包括计算、存储、分析等)的一个东西,它可能包括各种各样的硬件设备或软件产品在内,更简单地理解,可以将其类比为远离用户的一个超大型机房或计算中心。
所谓边缘计算,就是在云边缘,即数据产生的源头侧设备进行的计算,我们每个人的手机、电脑,家用电视机、智能家居设备,以及各种具备计算能力的工业设备,他们所进行的计算都可以理解为边缘计算。
云计算是一种集中式服务,拥有强大的计算能力和分析处理能力,能够对海量的数据进行分析处理,更注重于从海量数据中获得用户感兴趣的数据,剔除冗余数据。边缘计算更注重实时性,及时对现场少量的数据进行运算处理。云计算和边缘计算是相辅相成的,把云计算比作人的大脑的话,边缘计算就类似于人的手、脚、耳、鼻,相互配合才能发挥最大的效益。
大数据从字面上理解就是“大”,确实是这样,我们进行的所有 社会 活动或私人活动都在每时每刻不停地产生着数据,我们网上购物会产生网购数据、旅行走路会产生轨迹数据、聊天视频会产生数据,甚至于睡觉都会产生数据。小到个人大到部门,公司, 社会 更是会产生海量的数据。
这些海量的数据初看似乎大都是无用的数据,但经过处理,正确运用后就会产生价值,海量的数据对应的正是无限的价值。例如通过对消费者地域、喜好等的一系列分析,可以达到精准营销的目的,为企业增效提质。公安系统可以利用大数据技术,在全国范围内对不法分子进行筛查、鉴别,减小 社会 危害。还有地图软件,也是利用大数据,对车流、交通的分析处理,为用户预测规划出某一时间段内的最优路线,提升出行效率。再如某某软件,通过大数据技术,分析出用户口味、使用频次、周围人群特征等,同一商品对不同的用户赋以不同的价格,做到大数据杀熟。
10. 关于大数据和机器智能的基础概念
大数据和人工智能一直是炒作和讨论的热点,但具体什么是大数据?怎么样才算机器有了智能?是不是数据量大了就是大数据?根据预定好的规则生成特定的结果就是智能了?
所谓机器智能通俗讲就是机器(更多时候指计算机)能够做只有人才能做的事。如何判断一个机器有智能呢?1950年图灵博士提出了测试的方法,即图灵测试-----让机器和人同时隐藏起来回答问题,若提问者分辨不出是机器在回答还是人在回答,那么机器就有了智能。
沿着图灵测试,计算机科学家们认为如果计算机能做下面的几件事,就算有了智能:
1.语音识别:这就好像人能够听懂语言
2.机器翻译:这就好像人能够看懂文字
3.文本的自动摘要或写作:这就好像只有人才懂得抓重点和组合出有意义的段落、文章
4.战胜人类的国际象棋冠军:但其实象棋这种封闭式规则的事情,计算机能够比人更胜任是很正常的。因为计算机可以快速计算和判断最好的走法且不受情绪等环境的影响。所以个人不认为这个能代表计算机有了智能
5.自动回答问题:这就好像人可以理解语言并根据理解给出答案
一直以来,科学家们在让机器有智能上,更多的努力放在怎么样让机器跟人一样的思考,史称机器智能1.0鸟飞派(传统机器智能方法)----让机器像人一样的思考来获得智能。但是收效并不客观,经过20几年的发展,这种方法遇到了很大瓶颈。
直到1970贾里尼克用通信的思路解决这个问题:建立数学模型,并通过机器学习不断训练模型。至此开创了数据驱动的方法来解决智能的问题。贾里尼克开创的采用统计方法的语音识别系统较传统的语音识别方法识别率从70%提高到了90%,使得语音识别从实验室的研究走向了实际的应用。
那么传统的方法和贾里尼克的方法分别是如何实现语音识别的呢?
传统的方法是:整理语法与语义形成规则,当一句话输入时,计算机就根据语法和语义去匹配来识别语音。这就好像我们学英语,要懂得读音、单词的意义、语法,才能懂得一句话。
贾里尼克的方法是:用马尔科夫模型来描述信源和信道,模型中有很多参数,然后用数据来训练最佳的参数取值,最后得到最佳的效果(具体参数是什么?是怎样训练的?训练后怎样转换等涉及的知识很多,不详述)。
可以看到,数据驱动的方法完全抛弃了传统基于像人一样的做法,完全依赖于模型和对模型的训练(训练模型的过程就是机器学习的过程)。
从上文可以看到,数据驱动实现智能的方法对机器学习的依赖,而机器学习效果的好坏依赖于可供学习的数据。
虽然贾里尼克开创了新的实现智能的方法,但是在很多领域,由于积累的数据量不足以支撑训练的需要,因此机器智能的发展并没有很大的提高。比如机器翻译,直到20世纪90年代互联网的兴起,准确性才不断提高,这是因为互联网积累了大量的可供训练的翻译数据,使得可以不断通过机器学习修正模型。
大数据促进机器智能的发展是因为大数据多维度、完备的特征。多维度、完备的数据,可以让计算机学习到所有情况,进而处理问题时,可以处理所有场景。比如机器翻译,大数据包含了所有可能的语句翻译,这让计算机可以学习到所有可能的翻译情况,当需要翻译的时候,只要将结果匹配出来就可以了。
说起大数据,大家都知道它的3v特征:vast、variety、velocity
首先理解后面两个特征:
1.variety:多样:多样性指的是数据包含了不同的方面。比如描述一个人的数据,多样性意味着,能描述这个人从长相、生活、精神等等各个方面。有了不同的方面,意味着可以将数据抽象成不同的维度,然后把不同的维度随意组合联系起来,这样就可以得到单个角度看得不到的结果。
2.velocity:完备:完备性指的是数据覆盖了全部的可能性。而不像统计学上只能通过样本来预测全部,大数据本身就是全集。
有了前两个特征就不难理解vast大量的特征了:覆盖所有维度、包含全部可能性的数据集合起来当然数据量就很大了。
这三个特点对大数据可以说是缺一不可,缺少任何一个,都无法发挥大数据的威力,也无法让大数据促进机器智能的实现。
1.数据的产生:1.全球数字化程度不断提高,使得很多数据实现了电子化(比如纸质的办公转为电脑办公);数字化使得各种信息系统不断被开发使用和复杂程度越来越高,系统的运行无时无刻不在产生数据。2.传感器技术的大量应用和普及,包括商品上的rfid芯片、交通传感器、穿戴设备等。3.将非数字化的内容数字化,如将纸质书籍转换成电子书。4.互联网2.0的发展使得每个人每天都在产生数据,发的朋友圈、文章、评论等。
2.数据的存储:数据的产生渠道越来越多,数据量也就越来越大,摩尔定律指导下的半导体产业的发展使得存储器的容量不断增长、价格不断降低,这使得将这么多的数据存储可以以低成本存储下来。
3.数据的读取:如果把大量的数据存储下来,但是计算机的处理(单说输入输出)速度跟不上,也无法使用这些数据,固态硬盘容量变大、成本降低使得使用这么多数据成为可能。
4.数据的传输:数据从各个产生端(如传感器)生成后,如何传输到存储器(如服务器)上存储起来,第四代lte和WiFi的发展使得传输不再是问题。
5.数据的处理:如何分析使用这么大量的数据,就需要处理能力很高的处理器,虽然处理器的性能遵循摩尔定律,每18个月翻一番,但数据产生的速度远远超过处理器性能的提升。因此无法用单一处理器处理大数据。并行计算技术的出现解决了这一问题(但并行技术本身又受到交换机、网络速度等条件的限制,2002年Google等公司在解决这些问题上取的了很大进展,使得云计算开始兴起)
数据产生、存储、处理技术的进步和发展,使得使用大数据成为可能,当条件成熟时,大数据自然而然就出现和发展起来了。
是不是有了大数据就能毫无问题地实现机器智能了?显然要实现机器智能,要有完备的数据、要能够处理完备的数据。虽然数据存储、处理的技术在不断发展,但是在实际应用的过程中,仍然还有很大的局限性,这些技术条件是不可逾越的条件:
1.大数据的收集:关键在于如何获得完备、多样的全集数据?尤其是一些不常见场景的数据如何获取到?
2.数据存储:关键在于数据量的增长大于存储器的增长、以及用什么样的结构存储才便于读取和使用?(那么多的维度如何抽象呢?如何检索呢?)
3.数据共享:大数据的完备性,使得单独的公司很难收集到所有的数据,这就要求将不同公司收集的数据集合起来使用(比如从事电商的公司有购买方面的数据、从事出行方面的公司有出行方面的数据,但没有一个公司能够同时收集到这两方面的数据)。不同的公司存储、使用数据的方式不一致,当要集合起来的时候如何统一数据格式来实现共享和共用呢?
4.并行计算:一些特殊的场景无法并行计算,这导致整个计算的最终结果需要等待特殊情况的处理;不同计算器的计算效率不同,整个任务处理由最慢的计算结果决定;因此并行计算并不是只是多加服务器那么简单,还需要优化数据的存储结构和整个计算的算法过程。
5.数据挖掘:杂乱超大量的数据无法直接使用,需要先进行清洗和格式化处理,当数据量达到一定量级时,这一步变得并不容易;尤其是噪声高时,清洗处理的结果直接影响了应用的有效性;数据量大、学习模型复杂,使得机器学习的过程变得很漫长,对并行计算的要求也越高。
所以,当再次听到AI、大数据的时候,是不是就能够判断是真智能还是假智能,是真大数据还是假大数据了。