『壹』 互联网大数据现关心的是什么
楼主您好:
首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
和大数据相关的理论
? 特征定义
最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。
其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。
36大数据
古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。
那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。
阿里巴巴的王坚对于大数据也有一些独特的见解,比如,
“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”
“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”
“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”
特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
? 价值探讨
大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。
如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。
Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。
不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
从大数据的价值链条来分析,存在三种模式:
1- 手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。
2- 没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。
3- 既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。
未来在大数据领域最具有价值的是两种事物:1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。
Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。
还有一个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。
这些例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。
? 现在和未来
我们先看看大数据在当下有怎样的杰出表现:
大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;
大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;
大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;
大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;
大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;
大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;
大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;
大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。
其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。
比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”
Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。
而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。
未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。
比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:
医疗机构将实时的监测用户的身体健康状况;
教育机构更有针对的制定用户喜欢的教育培训计划;
服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;
社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;
政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;
金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;
道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;
……
当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。
? 大数据隐私
你或许并不敏感,当你在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去了,当你莫名其妙的接到各种邮件,电话,短信的滋扰时,你不会想到自己的电话号码,邮箱,生日,购买记录,收入水平,家庭住址,亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。
更可怕的是,这些信息你永远无法删除,它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。
用户隐私问题一直是大数据应用难以绕开的一个问题,如被央视曝光过的分众无线、罗维邓白氏以及网易邮箱都涉及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则。
说到隐私被侵犯,爱德华?斯诺登应该占据一席之地,这位前美国中央情报局(CIA)雇员一手引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项目是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划,年耗资近2000亿美元,用于监听全美电话通话记录,据称还可以使情报人员通过“后门”进入9家主要科技公司的服务器,包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。
再看看我们身边,当微博,微信,QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,你就不要指望你还有隐私权了,就算你在某个地方删除了,但也许这些信息已经被其他人转载或保存了,更有可能已经被网络或Google存为快照,早就提供给任意用户搜索了。
因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去……
专家给予了我们一些如何有效保护大数据背景下隐私权的建议:1-减少信息的数字化;2-隐私权立法;3-数字隐私权基础设施(类似DRM数字版权管理);4-人类改变认知(接受忽略过去);5-创造良性的信息生态;6-语境化。
但是这些都很难立即见效或者有实质性的改善。
比如,现在有一种职业叫删帖人,专门负责帮人到各大网站删帖,删除评论。其实这些人就是通过黑客技术侵入各大网站,破获管理员的密码然后进行手工定向删除。只不过他们保护的不是客户的隐私,而大多是丑闻。还有一种职业叫人肉专家,他们负责从互联网上找到一个与他们根本就无关系用户的任意信息。这是很可怕的事情,也就是说,如果有人想找到你,只需要两个条件:1-你上过网,留下过痕迹;2-你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,人肉专家就可以很轻松的找到你,可能还知道你现在正在某个餐厅和谁一起共进晚餐。
当很多互联网企业意识到隐私对于用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,比如google承诺仅保留用户的搜索记录9个月,浏览器厂商提供了无痕冲浪模式,社交网站拒绝公共搜索引擎的爬虫进入,并将提供出去的数据全部采取匿名方式处理等。
在这种复杂的环境里面,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋扰,被精心设计,被利用,被监视的处境中。可是,我们能做的几乎微乎其微,因为个人隐私数据已经无法由我们自己掌控了,就像一首诗里说到的:“如果你现在继续麻木,那就别指望这麻木能抵挡得住被”扒光”那一刻的惊恐和绝望……”
和大数据相关的技术
? 云技术
大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。
如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。
业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。
那么大数据到底需要哪些云计算技术呢?
这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。
云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。
36大数据
如果将云计算与大数据进行一些比较,最明显的区分在两个方面:
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。
详情:http://ke..com/view/9424571.htm
『贰』 大数据怎样帮助我们了解气候变化
大数据怎样帮助我们了解气候变化
气候变化确实威胁着我们的星球,全球都应感受到它的毁灭性后果。美国航空航天局(NASA)气候模拟中心(NCCS)高性能计算负责人Daniel Duffy博士,介绍了大数据对气候变化研究工作的至关重要性。
NCCS为大规模的NASA科学项目提供高性能计算、存储和网络资源。其中许多项目涉及全地球性天气和气候模拟。这些模拟生成的海量数据是科学家永远读取不完的。因此,益发有必要提供分析和观察这些模拟产生的大数据集的方法,更深入了解气候变化等重大科学问题。
大数据和气候变化:它们是怎样运作的?
大数据和气候研究息息相关;没有海量数据就无法进行气候研究。
NCCS拥有名曰“探索号超级计算机”的计算机集群,主要目标是提供必要的高性能计算和存储环境,以满足NASA科学项目的需求。探索号计算机正在开展一系列不同的科学项目,其中的大部分计算和存储资源被用于天气与气候研究。
探索号计算机是一种高性能计算机,专门为极大规模紧密耦合的应用而设计,是硬软件紧密结合和相互依存的系统。虽然该计算机没有被用于从卫星等遥感平台采集数据,但该计算机运行的许多大气、陆地和海洋模拟都需要观测数据的输入。使用探索号计算机的科学家不断收集输入其模型的全球性观测数据。
然而,如果科学无法以有效手段观测和比对数据,即使向它们提供海量数据也毫无意义。NASA全球建模和模拟办公室(GMAO)增强性动画就是这方面的范例,该办公室利用多方来源的观测信息驱动天气预报。
GMAO的GEOS-5数据模拟系统(DAS)将观测信息与建模信息融合,以生成任何时间内都最为精确和质地统一的大气图像。每6小时的累计观测超过500万次,并对气温、水、风、地表压力和臭氧层的变量进行比对。模拟观测分八大类型,每类对不同来源的变量进行测量。
数据处理
气候变化模型需要具有大量存储和数据快速接入且数据不断增加的计算资源。为满足这一要求,探索号计算机由多个不同类型的处理器组成:79200个英特尔Xeon核心、28800个英特尔Phi核心和103680个NVIDIA图像处理器(GPU)CUDA核心。
探索号计算机的总计算能力为3.36万亿次,或每秒3,694,359,069,327,360次浮点运算。为使大家更好地理解这一规模的计算能力,该计算机可在一秒钟内完成活在世上的每个人以每秒将两个数字相乘的速度连续运算近140个小时的运算量。
除了计算能力外,探索号计算机还具有约33拍字节(petabyte)的磁盘存储空间。典型的家庭硬盘容量为一兆兆(terabyte)字节,因此,该计算机的存储能力相当于33000个这类磁盘。如果用它存储音乐,你可以编排一个长度超过67000年而不重复的演奏清单。
NCCS每年都对探索号计算机进行升级。随着其服务器和存储的老化,在四或五年后替换而不是继续运行部分设备实际上能够提高效率。例如2014年年底至2015年年初利用升级的计算机群取代了探索号计算机2010年升级的设备。在地面空间、功率和冷却包络相同的情况下,升级后的NCCS可将计算能力提高约7倍。退役设备通常会转变用途,用于内部支持和其他业务或大学等外部站点,包括马里兰大学巴尔的摩分校(UMBC)和乔治梅森大学(GMU)。
数据映射:气候变化与预测
NCCS生成的数据推动了不同重要研究和政策文件的起草工作。
这一数据使人们能够就我们星球的气候变化影响进行更知情的对话,并有助于决策机构针对气候预测制定出适用战略与行动。例如,该数据已被用于气候变化专门委员会(IPCC)推出的评估报告。NCCS从事和NASA科学可视化工作室观测的数据模拟,介绍了IPCC第五次评估报告提出的气候模型,对气候和降雨预计在整个21世纪的变化方式做了说明。
于2005年袭击了美国墨西哥湾沿岸的卡特里娜飓风突显了准确预报的重要性。虽然它造成了巨大损失,但要不是预警预报给人们留出了适当准备时间,损失就会严重得多。如今,NCCS的超级计算机主要负责GMAO全球环流建模,其分辨率比卡特里娜飓风时提高了10倍,因而能够更准确地观察飓风内部,并有助于对其强度和规模做出更精确的估计。这意味着气象学家能够更深入地了解飓风的走向及其内部活动,这对于就卡特里娜飓风这类极端天气做出成功规划和准备至关重要。
此外,观测系统模拟试验(OSSE)还利用全球气候模型的输出成果模拟NASA提出的下一代遥感平台,从而向科学家和工程师提供了虚拟地球,以便在制作新的感应器或卫星之前研究大气遥测的新优势。
未来的气候变化数据
数据是NASA的主要产品。卫星、仪表、计算机甚至人员都可能频繁进出NASA,但数据尤其是地球观测数据具有永驻价值。因此,NASA必须不仅让其他NASA的站点和科学家,而且要让全球都用上它生成的数据。
仅时时生成的数据量就构成了一大挑战。在研究系统的科学家都难以使用数据集的今天,NASA以外的人们获得可用数据更是难上加难。因此,我们开始研究创建一项气候分析服务(CAaaS),将高性能计算、数据和应用编程接口(API)相结合,以便为在现场与数据共同运行的分析程序提供接口。换句话说,用户可就他们关心的问题提问,并利用NASA系统的运行进行分析,随后将分析结果返回用户。由于分析结果的规模小于生成它的原始数据,这一系统将减少经不同网络传送的数据量,而更重要的是,API可以大大减少用户和数据间的摩擦。
以上是小编为大家分享的关于大数据怎样帮助我们了解气候变化的相关内容,更多信息可以关注环球青藤分享更多干货
『叁』 大数据将打开一扇怎样的门
大数据将打开一扇怎样的门
作为人类生活的重要基础,大数据打开了一扇新的大门。而更重要的在于,通过大数据打开的那扇门,人们看到的不只是数据本身,而是在大数据基础上出现的一种新的人类文明。
近20年来,大数据浪潮已经向我们扑面而来。有人形容,大数据就像一片无边无际的大海,海面一浪高过一浪,而浪潮之下深不见底。与此同时,从国际零售巨头沃尔玛“啤酒和尿布”的经典案例到精准医疗等,大数据在人们生活和工作中的重要性越来越得以凸显。面对大数据打开的一扇新的大门,我们不能不深入思考:这将是怎样的一扇大门?又会将我们带进一个怎样的世界?
大数据正在把世界变成数据?
从通常的定义看,大数据被认为是不能用传统数据库软件工具获取、贮存、管理和分析的数据集合。这是大数据的技术定义,但显然,并没有涉及大数据浪潮深处最重要的内容。
大数据技术定义最主要的一个着眼点,就是规模大。但是,大数据的关键性质不主要是规模大,而是完全不同于作为样本数据的小数据。通常,样本数据的获取总是在先设定明确甚至单一目的的。这种具有在先设定的取样,一方面可以更好地实现采样前预设的目标;另一方面就像亚里士多德所说,在选择了某种可能性的同时,也抹去了无数其他可能性的蓓蕾。
大数据的另一个更重要性质是维度全。通常,我们拍照会选取一个角度,角度一取,数据就固定了。面对一张拍好的平面照片,再要换个角度去观察已不可能。而大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。当然,事实上没有任何大数据是真正“全”的,就像世界上没有任何事物是十全十美的,但是,就人类的使用需要来说,其维度则可以看作是“全”的。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据。因此,“全数据”是理解大数据的一个富有哲学意蕴的角度。从这个角度,我们可以看到更丰富的内容:大数据是不仅在规模上大,而且在维度上全到就人类使用需要而言的全数据。
大数据特别是其全数据的性质意味着什么呢?
在大数据的基础上,物数据化和数据物化构成循环。大数据的核心口号是量化世界。而量化世界为创构世界奠定了基础。这是因为,物数据化事实上就是物信息化,而物信息化是一个含义更为广泛的概念,它与小数据基础上也能出现的物数据化完全不同。同样,数据物化实质上就是信息物化。信息物化和物信息化两个方面所构成的循环,使人类进入一个创构的时代。大数据基础上的创构与筑路修桥等工程不一样。随着数字技术的发展,创构活动及其产物与人的存在方式越来越密切地联系在一起。
这里涉及一个新的重要概念,信息。对于信息,已有一百多个定义。其中,控制论创始人维纳的定义最为耐人寻味。在维纳看来,“信息就是信息,既不是物质也不是能量”。这个定义看上去像是同义反复,但却富有深意。它表明,信息是一种不同于物能,但又具有和物能并列地位的资源。信息不仅既不是物质也不是能量,而且具有一些物能所不具有的重要性质。比如,物能复制成本呈正比增加,而信息复制的边际成本递减;物能越分享越少,而信息越共享越多。信息的这些重要性质,在作为样本数据的小数据时,显示不出其重要性,而在具有全数据性质的大数据基础上,则就非同寻常了。在大数据的基础上,信息不可能不对人类的文明发展产生极为重要的影响。
如今,作为人类生活的重要基础,大数据打开了一扇新的大门。而更重要的在于,通过大数据打开的那扇门,人们看到的不只是数据本身,而是在大数据基础上出现的一种新的人类文明。
关于大数据的特征,最多的提到了“42v”
关于大数据的特征,最早是用“3v”概括的。几年前,人们认为“3v”不足以描述大数据的特征,又提出了“4v”的描述。到现在,关于大数据特征,最多的提到了“42v”。不过,对于大数据特征,目前获得较多共识的是这“4v”,即大量“volume”、多样“verity”、高速“velocity”和价值“value”。
“volume”一般理解为大量。大数据首先意味着数据量巨大。小数据时代主要由人工创建数据,而大数据时代则是由机器、网络和人类相互作用生成。大量是大数据的基本特征,但往往被误以为大数据就是大,事实上,这个特征所表达的是大数据规模的整全性。正如前面所谈到的,大数据的“大”不是纯粹的量的概念,这个“大”的关键是全。样本数据也可以规模很大,但不具有大数据的性质。大数据的“大”事实上是一个质的概念。
“verity”一般理解为多样。这包括大数据来源的多样性和类型的多样性,也包括数据结构的多样性。但是,“verity”不能简单地理解为数据来源和类型的多样性,也不能只是进一步涉及数据的结构化、半结构化和非结构化。由于数据结构的多样性和复杂性,大数据的这一特征还意味着数据结构的开放性。数据的结构化、半结构化和非结构化所表达的,不仅仅是数据的结构状态,更意味着开放的大数据结构。比如,大数据与大自然不同。大自然可以满足我们的生存需要,但我们面对大自然,作为很有限。而大数据不一样,在以人类需要为出发点的大数据挖掘中,数据结构开放在数据和人类需要及其发展这一无限空间中,人类则正是在这一无限空间进行满足自己需要的创构。
“velocity”一般理解为高速。它不仅仅是指技术设备的数据处理速度,更重要的,是指决定于数据处理速度的实时数据流。样本数据在取样后就是冻结的,而大数据可以实时获取所需信息。对于大数据来说,信息是活的,是随着时间而流动的。正因为如此,对于实时数据流来说,速率就特别重要。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存更密切地联系在一起。不仅如此,只有高速流动的数据,才能为我们提供无限的可能性。以往由于受速率限制,我们所获得的数据和所要反映的内容往往是脱节的,而数据流的高速率使我们把握对象的手段越来越完善。事实上,大数据的整全性就包括数据流速这个至关重要的维度。
“value”用以描述大数据的价值。这个“v”所涉及的是大数据最重要的特征。人们普遍认为,大数据的价值密度低,数据挖掘是“沙里淘金”。其实,大数据价值特征的重要性不言自明,但大数据也十分复杂。大数据是否有价值的关键,在于能否把握数据背后所揭示的相关关系组合与人的需要及其发展的关系。由于与人的需要及其发展相联系,由于数据结构是开放的,大数据的价值不再只是简单地反映大数据与人的自在需要的关系,而更与人的理解能力密切相关。对于同一个结构开放的大数据,在有的人看来是一座宝库,价值连城;而另一些人则可能视其为一堆垃圾,毫无意义。大数据的价值和意义,很大程度上取决于人们关于大数据相关关系和人的需要及其发展之间关联的理解,取决于人们的眼光,而归根结底,取决于对人的需要及其发展的理解和把握。而这显然是个典型的哲学课题。随着大数据的发展,不仅哲学等各学科将越来越相互融合,而且将迎来哲学与科学、社会和生活一体化发展的时代。
大数据应用:毫无意义的垃圾,还是价值连城的宝库?
上述所谈到的,大数据究竟是垃圾,还是宝库,涉及的是大数据的应用。换句话说,既然大家都认为大数据是个好东西,是个有用的东西,那么,怎么应用呢?
就目前而言,大数据应用仍然是国际上一个重要而前沿的话题。而大数据中的相关关系和因果关系,是当前大数据应用和分析研究中的重要问题。大数据凸显了相关关系的巨大魅力,但同时构成了对传统因果观念的严峻挑战。
跨国零售企业沃尔玛“啤酒和尿布”的故事,就是人们津津乐道的大数据应用的一个经典案例。沃尔玛在大数据基础上,用“购物篮方法”分析消费者购物行为时发现,一些男性顾客在购买婴儿尿布时,常常会同时买几瓶啤酒。原来,美国家庭有了小孩,一般是母亲在家照顾孩子,父亲外出采购。而为家里添丁忙碌的年轻父亲们在购买尿布时,常常会稍带给自己买上几瓶啤酒,既解乏又喜庆。由此,沃尔玛推出啤酒和尿布摆在一起的促销方式,吸引了更多有这种需要的顾客到沃尔玛购物,使尿布和啤酒的销量都大幅增加。
大数据相关关系在类似行业的成功应用,使人们理所当然地提出还要不要深究因果关系的问题。一些极端的观点甚至认为:大数据是关于“是什么”而不是“为什么”的;大数据会自己说话,因而,只要相关关系,不要因果关系。只要相关关系不要因果关系的观点,显然是兴奋于大数据相关关系令人惊叹的实用性。但其实,大数据不仅把握相关关系,而且把握作为其根基的因果关系。
“蛋挞和手电筒”,就是一个典型的例子。与“啤酒和尿布”的案例一样,沃尔玛的大数据表明,很多人在买手电筒的同时购买了蛋挞。因而,根据顾客同时购买蛋挞和手电筒的相关性,在货架上把它们摆放在一起,以提高销售量。但是,如果知道其背后的因果关系,相关销售效果显然会更好。究其原因,有人发现,人们同时购买手电筒和蛋挞的因果关系涉及北美飓风。这是因为,飓风来临前人们既需要准备手电筒,又需要准备食物。可是,北美飓风是季节性风暴,如果只知道相关关系不知道因果关系,就可能一直把手电筒和蛋挞这两类不同商品放在同一货架上。而知道了背后的因果关系,就可以在飓风来临前把蛋挞和手电筒放在一起,而且还可专设飓风用品位置。
可见,只要相关关系、不要因果关系的观点,很容易被驳倒。其实,更关键的问题,不在于是相关关系还是因果关系更加重要,而在于怎么理解相关性和因果性之间的关系。
关于这一问题的研究,涉及传统因果概念的重新刻画。传统因果观只是反映了日常生活和经典物理学中因果关系的表观现象,“原因的原因的原因……”。一方面,追溯通常会导致最终原因的难题,另一方面,作为原因的现象引起作为结果的现象的简单模型,具有明显的内在逻辑矛盾。这样的因果模型,不仅不能理解大数据的相关关系,更不能建立起大数据相关关系和因果关系的关联。只有把原因看作是因素相互作用的过程,把结果看作是因素相互作用过程的效应,才能扩展对因果关系的理解,从而适用于大数据相关关系和因果关系问题的认识。由此建立起来的新因果模型具有内容丰富的结构,不仅存在因素相互作用已经完成和因素相互作用进行中的环节,还存在因素尚未进入相互作用的环节。这就呈现出了因果模型的过去时态、进行时态和未来时态。这不仅更有利于人们理解凝固的因果关系,而且在人们面前敞开了创构未来的广阔空间。
由此,不仅可以看到,相关关系其实有它的因果根据,而且可以对相关关系和因果关系作一个统一的理解。在新的因果模型中,相关关系可以被理解为是因果派生关系,包括因素和结果之间的关系、结果和结果之间的关系以及特别重要的因素和因素之间关系。由于这些因素和结果还包括潜在的,我们还可以看到大数据相关关系的因果根基以及很多耐人寻味的重要内容,包括一些奇特相关关系案例的理解。由于相对于潜在结果,因素关系构成了无限广阔的可能性空间,由此构成的相关关系内容非常丰富。在潜在因素的无限空间中,根据特定需要,让特定因素以特定方式进入特定相互作用过程,就能创构出我们所需要的东西。显然,这种新的因果关系与现实社会更加接近。
大数据将带来新的信息文明并影响世界权力重构
如果把以往的文明形态都看作是物能文明的话,那么,人类社会发展到大数据时代所迎来的,则是一种不同于物能文明的信息文明。信息文明的形成和发展,必须有大数据作为基础。作为一种与物能文明相平行的文明形态,信息文明是一种基于信息本性的共享文明。只有在大数据的基础上,信息的共享本性才可能充分展开。而且,信息文明的发展,是一个在大数据基础上的公共信息对称化过程。
这就要求,一方面,为推动信息文明的发展,必须在公共领域尽可能消除信息不对称;另一方面,为保持信息文明发展的动力,必须尽可能保护创新专利,而这也只有基于大数据才有可能。作为一种人类文明,信息文明是一种基于信息机制的役物文明。在信息文明时代,人类越来越通过信息控制物能,使物质通过结构的调整,由一种对人类不那么有价值的材料变成价值更大的材料,从一种不太能满足人的需要的形态变成一种更能满足人的需要的形态,使能量从难以利用的形态变成更容易获得和利用的形态,从而,人类活动更多地是直接与信息打交道而不是传统的主要与物能打交道。而这些都必须在大数据基础上进行。如果没有大数据,信息即使重要,但也只能居于依附的地位。
作为人类文明发展的更高阶段,信息文明还是一种基于信息创构的人性文明。正是大数据,也只有大数据,才能为这种创构的文明提供必不可少的信息空间。某种程度上说,信息创构活动是最符合人性的活动,只有到了以大数据为基础的信息时代,人类历史才真正步入人性文明的轨道,不仅对物能的控制达到全社会甚至全人类实现“物为人役”的水平,使人类活动从以描述认识为主进入到以创构认识为主;而且,创构时代所需要的全面解放创造力,也意味着社会发展到了这样的程度,即人性在社会维度获得程度越来越高的解放的文明水平。由此可见,信息文明与物能文明的区分,本质上不是一种基于社会生产方式的区分,而是一种基于人的存在状态的人类文明划分。这意味着,大数据将越来越成为人类生存的重要基础,也意味着人将越来越以信息方式存在。
人越来越以信息的方式存在,预示着大数据所打开的信息文明大门,也将释放出一系列新的重要问题。这些重大的问题,既涉及个人生活,也涉及社会发展。
一是信息生态问题。由于人越来越以信息方式存在,信息生态理所当然成了一个越来越重要的基础性问题。对于人类来说,自然生态或更根本地说物能生态具有切身性,而信息生态则不仅具有切身性,而且更具“切心性”,信息生态更切近人的心灵。因此,在自然生态的基础上,信息生态将日益为人们所密切关注,成为信息文明时代关乎人类发展的问题。就像在物能文明时代,自然生态是关乎人类生存的问题一样。
二是人的存在意义问题。没有物能就没有信息的存在,物能存在是基础。但是,在信息文明时代,如果一个人仍然主要以物能方式存在,仍然以基于物能的感官享受作为生活意义的主要来源,一句话,仍然主要滞留于物能存在方式,那么,很可能将迟早将进入无意义的人群。在信息文明时代,人类的活动主要是信息活动,只有主要以信息方式存在,并且以创构活动作为自己主要活动方式的人,才能进入意义生产的领域。在这个意义上,信息文明的确意味着这样一种分化:相对无意义的人群和生产意义的人群。这很可能将是信息文明时代发展的必然趋势。当然,对此人类社会也应当提前思考,如何避免新的社会不公平的出现。
三是国家的发展问题。从人类社会发展史中可以看到一个重要事实:一个大国的真正崛起,通常必须要引领一种新的文明。信息文明时代的到来,必定伴随着大国的新的崛起,不管是现实的还是潜在的大国。在21世纪,中国要和平发展、成为世界上的大国,就需要引领信息文明。也许,信息文明不可能再像传统文明时代的世界那样,由某个国家引领,但不进入引领信息文明国家的行列,任何国家都不可能真正作为大国崛起。而国家的兴衰与个人的生存和发展不仅联系在一起,而且构成一个相互依存和协同发展的循环。
21世纪的竞争,将是信息的竞争。大数据时代的竞争将是信息文明引领的竞争,这意味着,大数据时代,中国要么在引领信息文明中作为真正的大国,要么只是作为大国崛起在物能文明层次。这也是从大数据所打开的信息文明大门,我们能越来越清晰看到的最为关切的一个重要内容。
『肆』 大数据观念 决策当摒弃经验与直觉
大数据观念:决策当摒弃经验与直觉
据统计,人类历史上90%的数据,都在过去的两年中产生;今天,数据世界已经增至4.4亿万亿字节,如果将这些庞大的信息量存储在苹果iPad平板电脑中,叠加起来的iPad平板电脑,其厚度相当于地球到月球距离的2/3,这或可意味着人类已进入大数据时代。
蒸汽机的发明,使煤、石油成为推动工业革命的重要原材料;现在,计算机的发明和联网,将使大数据成为推动信息革命的重要原材料。美国作者史蒂夫·洛尔在《大数据主义》一书中,解释了大数据技术将如何引发一场新的革命,并告诉我们:大数据将在哪些领域大放异彩,又在哪些领域需要保持警惕,以及大数据将把我们带向何方?
让大数据大放异彩的领域
大数据应用于很多领域、行业,同时,它还会改变人类的决策方式。大数据主义者认为,所有决策,都应当逐渐摒弃经验与直觉,并且加大对数据分析的倚重。
让我们来看一下美国的药品销售企业麦克森公司的案例:在经营活动中,麦克森公司产生了庞大的数据,IBM公司利用这些数据,为麦克森公司建立了决策模拟模型。借助这个模型,麦克森公司可以完成更精准的预测和更高明的决策。麦克森公司经营的一些药品如抗癌药品和专用抗生素等,价格极高,需求极不稳定,麦克森公司以前的做法是:靠“猜测法”在几个分销中心都储备这类药品,再根据需要调货。通过IBM建立的决策模拟模型得知,尽管空运成本是卡车运送成本的10倍,但如果把这些药品全部储存在孟菲斯郊区的中心仓库,再空运给客户,这些昂贵药品的库存会降低1/2,节省的成本,用于支付高昂的空运费还有结余,并且这些药品的按时送达率,会由以前的80%上升到99%。最终,麦克森公司通过对大数据的应用,将库存成本降低了10亿美元,效率提高了约13%。
大数据在商品零售业也有光明的前景。世界零售业巨头沃尔玛,通过大数据统计与分析,发现男性顾客在购买婴儿尿片时,常常会顺便买上几瓶啤酒,于是,他们推出将啤酒和尿片捆绑销售的促销活动,非常有效地提高了啤酒销量。另外,沃尔玛在挖掘历史采购数据时发现,在预报有飓风通过的地区,消费者购买草莓果酱馅饼的数量是平时的7倍,而飓风到来之前,最畅销的商品是啤酒。于是,他们在飓风警报到来时,已经储备下足够的草莓果酱馅饼和啤酒,这样既充分满足了顾客需要,又获得了较好的销售业绩。
《大数据主义》一书中诸多案例告诉我们,现在及将来,那些价格越来越低廉的电脑与软件,再加上越来越开放、高效的网络,将意味着更多的企业参与到应用大数据的方法中来,提高效益或制定战略。
大数据的“黑洞”
当然,大数据在带给人们便利的同时,也隐藏着一个巨大的“黑洞”——安全问题。例如,美国最大的数据代理商,是总部位于阿肯色州小石城的安客诚公司,该公司已搜集了数亿名消费者的数据。该公司宣称,他们通过官方档案、购物数据、网上浏览习惯等渠道,归纳了消费者的大量信息,从而得出大多数美国成年人的相关数据,比如人们的年龄、种族、性别、党派、对度假的期望等,其深入细致程度是美国政府和其他互联网企业所无法比拟的。安客诚是向企业提供消费者信息的杰出供应商,也同时成为隐私权倡导者们最讨厌的对象之一。通过技术获取最大利益的同时,如何保护好人们的隐私权?怎样找到合适的平衡点?这是需要人类认真思考的重大问题。
到目前为止,“怎样才能将隐私方面的风险降至最低?”还没有明确的答案,但已形成了两个泾渭分明的阵营。一个自称“开明商业群体”的阵营认为:数据是一种资产,是信息经济的流通货币,因此数据像钱一样,只有自由流通才能创造最大的价值;他们主张,在制定保护隐私的规则时,关注点应该是“数据的使用”,而不是“数据的收集”。但是,“消费者与隐私权倡导者”阵营对仅通过限制数据使用来保护隐私权,表示怀疑和反对。
阿莱克斯·彭特兰,是麻省理工学院媒体实验室的一个团队负责人,目前,他的团队正在开展隐私权项目的研究和实验。他竭力主张“新型数据交易”,其中包含三个基本原则:“你有权拥有你自己的数据,有权管控这些数据的使用,有权选择你认为合适的方式销毁或发布这些数据。”2014年,奥巴马政府的大数据报告也再次呼吁,应当按照彭特兰提议的原则,加强对消费者数据的管控。与此同时,开发应用于数据管理的隐私保护工具,也成为一个重大的商机。
该书作者还从更宏大的视角,来观察大数据。他深刻地指出:如同宇宙大爆炸般飞速扩张的“数据世界”,不仅日益成为外在客观物质的“镜像”,而且正越来越多地包含人类自身行为的追踪和记录,成为人类观察和认识自我的一面“大镜子”。在大数据的帮助下,我们将会越来越清晰地看到这个世界的本来面目,也会越来越清晰地认识人类自身
『伍』 大数据是指什么是指现在网络上存储的数据量很大还是怎样的
不看网络,大数据用通俗的话讲就是无论你所编程的算法好或不好,当处理的数据很大的时候,两个算法得出的精度是相当的。
『陆』 大数据信息促进营销模式转型
大数据信息促进营销模式转型
大数据之父”维克托·迈尔舍恩伯格认为,世界的本质就是大数据。
仔细想来,确实如此。随着大数据时代悄然来临,数据不再是一个抽象的专业名词,它已经无孔不入地渗透到我们生活的方方面面。
每当飓风来临之前,美国沃尔玛都会将手电筒和蛋挞摆在一起出售,这是因为通过对沃尔玛的多维数据分析发现,季节性飓风到来之前,手电筒和蛋挞的销量都会大幅增加,飓风、手电筒、蛋挞之间有着一种神奇的联系;利用价格调整软件,零售商可以在一小时内自动修改200万件商品的价格,这是基于竞争对手价格和销售额等因素的一种动态定价机制;澳大利亚数字户外广告公司通过安装在数字户外媒体上的受众测量设备来实时采集受众的信息,当测出此时的观看人为女性,后台中针对女性用户且给出最高广告费的广告将自动播放。
本书中提到的上述案例都是基于大数据的渠道、定价和广告创新。作为一本关于大数据营销的教科书,不同于以往教材中只有枯燥晦涩的理论,本书每一章节都配有生动的经典案例,范围涉及众多不同领域的领先公司,展示了诸如腾讯、IBM、沃尔玛等巨头公司在大数据营销中最具价值的应用案例。通过对这些案例的详尽分析,帮助读者更好地理解大数据营销的运作理念和方法。
那么,我们为什么要了解大数据?大数据究竟能给营销带来哪些变革?
信息技术的创新推动着思维模式的变革,大数据带来的信息风暴开启了营销模式的转型。麦肯锡全球研究院在五年前发布的一份研究报告《大数据:创新、竞争和生产力的下一个新领域》指出,数据已经渗透到当今每一个行业和业务职能领域,成为日益重要的生产因素;而人们对于海量数据的运用预示着新一波生产率增长和消费者盈余浪潮的到来。
对于市场营销来说,大数据可以帮助品牌发现机遇(新客户、新市场、新规律和新策略),回避风险和潜在威胁,同时也有助于品牌营销决策的调整与优化。因此,如何利用大数据技术实现更大的营销价值和效果,是值得不断思考和探索的领域。
本书作者阳翼十余年来潜心于营销领域,做了大量前瞻性的研究工作,有着丰富的理论功底和实践经验。不仅在传统营销领域颇有建树,对于大数据时代的新营销也有着独到的见解,在广告、市场、数字营销等方面提出了诸多有价值的观点。相信本书能为高校广告、营销专业的学生及相关研究人员、从业人士打开一扇洞察大数据营销的窗口,同时在变革思维方式、培养大数据思维等方面带来启迪。