❶ 站在“大数据”的台风口,石油行业能起飞吗三分钟带你全面了解
加大油气勘探开发力度、保障国家能源安全是当前面临的迫切任务。但随着优质资源的不断开发,剩余资源开采难度越来越大,成本越来越高,迫切需要创新技术提升油气勘探开发效率和效益。在大数据、人工智能( artificial intelligence,AI)、5G、云计算、物联网等技术推动下,油气田的智能化水平将会越来越高,这既是油田降本提质增效的有效途径,也是油气技术发展规律的必然趋势。
1、大数据技术定义
2012年兴起的“大数据”潮流,让“Big Data”这个IT圈子里的名词一下风靡了各个行业。虽然大数据的重要性得到了大家的一致认同,但是对大数据的理解却众说纷纭。大数据是一个抽象的概念,除去数据量庞大这一特征,大数据还有一些其他的特征,这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。
高德纳分析员Doug Laney曾于2001年在一次演讲中指出,数据增长有3个方向的挑战:数量(volume),即数据多少;速度(velocity),即资料输入、输出的速度;种类(variety),即多样性,这3方面的特征即大数据最先提出的3V模型。2011年,在国际数据公司(IDC)发布的报告中,大数据被定义为:“大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。”大数据的特点可以总结为4个V,即volume(体量浩大)、variety(模态繁多)、velocity(生成快速)和value(价值巨大但密度很低)。这种4V定义得到了更广泛的认同,指出了大数据最为核心的问题,就是如何从规模巨大、种类繁多、生成快速的数据集中挖掘价值。
2、大数据技术的发展
大数据是人工智能的血液,当前大数据、云计算、人工智能以及区块链技术之间的关系密不可分,也被称作数据智能。比如,先进的工业互联网,其中既有区块链技术也有大数据技术,还有云计算技术,三者合成一体,又衍生出了人工智能和物联网的概念。
在大数据基础上的人工智能,目前已进入数据智能的深度学习时代,其快速发展引起了 社会 和产业的颠覆性变化。从大数据和人工智能技术全行业的发展来看,目前美国仍处于领先地位,中国紧随其后,且具有赶超趋势。中国在人工智能相关的论文发表总数和高引论文数量实现对美国的超越,但在人工智能理论发展和技术方向的引领方面美国还占据支配地位。
3、大数据技术流程
大数据处理的关键技术流程主要包括:数据采集、数据预处理(数据清理、数据集成、数据变换等)、海量数据存储、数据分析及挖掘、数据的呈现与应用(数据可视化、数据安全与隐私等)。
4、大数据的核心算法
大数据的核心算法可以分为监督学习(有标签)和无监督学习(无标签)两大类,其中:
监督学习分为回归和分类:即给定一个样本特征,希望预测其对应的属性值,如果是离散的,那么这就是一个分类问题,反之,如果是连续的实数,这就是一个回归问题。无论是分类还是回归,都是想建立一个预测模型,给定一个输入,可以得到一个输出。不同的只是在分类问题中,是离散的;而在回归问题中是连续的。
无监督学习分为聚类和降维:即如果给定一组样本特征,我们没有对应的属性值,而是想发掘这组样本在维空间的分布,比如分析哪些样本靠的更近,哪些样本之间离得很远,这就是属于聚类问题。如果我们想用维数更低的子空间来表示原来高维的特征空间,那么这就是降维问题。聚类也是分析样本的属性,事先不知道样本的属性范围,只能凭借样本在特征空间的分布来分析样本的属性。这种问题一般更复杂。而常用的算法包括 k-means (K-均值),GMM(高斯混合模型)等。
5、大数据在油气勘探开发领域的应用
目前大数据技术在地质分析、测井解释、地震解释、甜点预测、地质建模、油藏模拟、钻井、压裂、采油、产能预测等方面均开展了大量 探索 性研究,收到了良好的效果。但是目前,大数据与油气行业相关领域的融合还处于起步阶段,面临来自数据、算法和地下未知因素的诸多挑战。未来在大数据、人工智能、5G、云计算、物联网等技术推动下,油气田的智能化水平将会快速发展,这既是油气技术发展规律的必然趋势,也是油田降本提质增效的有效途径。在发展的过程中,智能油气田建设需要油气勘探开发与大数据、人工智能、云计算以及区块链等技术的深度融合,进而催生一批油气田领域的颠覆性技术,解决油气勘探开发的技术需求,提升油气田勘探开发的经济和 社会 效益。
( 下期将向您详细解读大数据在油气行业的具体应用 )。
注:本文部分参考资料来源如下:
李阳,廉培庆,薛兆杰,等.大数据及人工智能在油气田开发中的应用现状及展望[J].中国石油大学学报(自然科学版),2020,44(4):1-11
Gantz J,Reinsel D.Extracting Value from Chaos. IDC iView Report,2011
Team O R. Big Data Now:Current Perspectives from O’Reilly Radar.Sebastopol:O’Reilly Media,2014
Grobelnik M. Big data tutorial. http://videolectures.net/eswc2015grobelnik big data/,2012
Walters, R. J., Zoback, M. D., Baker, J. W. 2015. Characterizing and Responding to Seismic Risk Associated With Earthquakes Potentially Triggered by Fluid Disposal and Hydraulic Fracturing. Seismol. Res. Lett. 86 (4): 1–9. https:// doi.org/10.1785/0220150048.
周松兰.中美欧日韩人工智能技术差距测度与比较研究[J].华南理工大学学报 ( 社会 科学版),2020,22(2):10-22.
HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2016,18: 1527-1554.
LECUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of IEEE,1988,86( 11) : 2278-2324.
BENGIO Y, SIMARD P,FRASCONI P.Learning longterm dependencies with gradient descent is difficult[J].IEEE Transactions on Neural Networks,1994,5(2) :157-166
❷ 工业制造大数据分析
工业制造大数据分析
大数据不仅仅是大量的数据的堆积。大数据的重要属性之一,是人们设法收集并弄清楚不断变化的数据类型。如果只是大量采集同一类型的数据,再大的数据量都不能称之为大数据。
如何实现智能制造是大家都关心的问题。从哈佛商学院的迈克尔·波特到宾夕法尼亚大学沃顿商学院,有一个普遍的共识,即数字化转型是智能制造实现的途径。重要的是,这个共识也来自于众多的世界级制造业企业与企业家们。
这一共识是基于无数技术趋势的融合,例如,物联网、赛博系统(CPS)、工业物联网、移动技术、人工智能、云计算、虚拟/虚拟增强现实(VR/AR),以及大数据分析等。我们一定要保持清醒,不要简单地认为有了这些技术,未来五年就是制造业的黄金时期。道理很简单,这个新制造业文化的变革进程是相当复杂和艰难的,没有行业、企业与用户的融合推进,无法实现这次变革。数字化转型不仅仅意味着企业简单的数字化,而是把数字作为智能制造的核心驱动力,利用数据去整合产业链和价值链。
自工业革命以来,为了改进运营,制造商一直以来都在有意地采集并存储数据。随着时间的推移,数据在制造业分析的需求将越来越大。然而在过去的许多年间,利用数据的根本动因并没有改变,数据的复杂性增强,数据转化为情报的能力越来越大。
2012年高德纳给出大数据定义,其中特别强调大数据是多样化信息资产,不仅关注实际数据,更关注大数据处理方法。数据量大小本身并不是判断大数据价值的核心指标,而数据的实时性和多元性对大数据的定义和价值更具直接的影响。
在讨论工业大数据分析的时候,我注意到两种不同的观点:
第一种观点认为,制造业向来都有大数据。几十年来我们的企业一直在通过历史记录、MES、ERP、EAM等各种应用系统采集数据。在部分产业链环节,特别在市场营销方面,大数据算是一个新的热词。
第二种观点认为,从工业大数据角度看,制造业是一个尚未打开的市场或刚刚开启的市场。存在大量不同类型的数据,但如今它们还未被应用到分析之中。
考虑到这些观点,面对任何新的市场提法,包括名词解释、定义或分析框架,我们始终都应该保持适当的怀疑精神。这里我更多倾向于第二个观点。我们的制造业的确有“大量数据”,但这并不是我们大多数人从市场上所理解的“大数据”涵义。在搞清楚工业大数据分析之前,我们应该如何定义制造业的大数据?这里可以通过大数据的三个特性,进一步了解大数据的特性。
数据来源
工业大数据的主要来源有两个,第一是智能设备。普适计算有很大的空间,现代工人可以带一个普适感应器等设备来参加生产和管理。所以工业数据源是280亿左右大量设备之间的关联,这个是我们未来需要去采集的数据源之一。
第二个数据来源于人类轨迹产生的数据,包括在现代工业制造链中,从采购、生产、物流与销售内部流程以及外部互联网信息等。通过行为轨迹数据与设备数据的结合,大数据可以帮助我们实现对客户的分析和挖掘,它的应用场景包括了实时核心交易、服务、后台服务等。
数据关系
数据必须要放到相应的环境中分析,才能了解数据之间的关系。譬如,每一款新机型在交付给航空公司之前都会接受一系列残酷的飞行测试。极端天气测试就是测试之一。该测试的目的是为了确保飞机的发动机、材料和控制系统能在极端天气条件下正常运行。
问题的处理关键在于找到可能产生问题的根源,消除已知错误,并确保解决方案的可靠有效。一旦找到并确定了根本原因,同时具备了可接受的应急措施,就可把问题当成一个已知错误来处理。问题调查的过程一定需要收集所有可用、与事件相关的信息,以确定并消除引起事件和问题的根本原因。数据采集与分析必须要事件/问题发生的环境数据结合。
数据价值
对于数字化转型,大数据不仅要关注实际数据量的多少,最重要的是关注大数据的处理方法在特定场合的应用,让数据产生巨大的创新价值。如果离开了收益考虑或投资回报(ROI)的设计,一味寻求大数据,则大数据分析既无法落地也无法为企业创造价值。
工业大数据分析的定义
发动机是飞机的心脏,也是关乎航空安全,生命安全的重中之重。为了实时监控发动机的状况,现代民航大多安装了飞机发动机健康管理系统。通过传感器、发射系统、信号接收系统、信号分析系统等方式采集到的数据,会经由飞机通信寻址与报告系统,通过甚高频或者卫星通信传输出来,这就是为何GE的发动机监控系统每天会获取超过1PB数据的原因。
生产执行系统(MES)与飞机发动机健康管理系统如出一辙。我们可以从工厂的生产中,实时采集到海量的流程变量、测量结果等数据。基于大量数据集而生成的报表,或是基础统计的分析并不足以称为制造业的大数据分析。
数据类型的多样性是工业大数据分析的重要属性
大数据不仅仅是大量的数据的堆积。大数据的重要属性之一,是人们设法收集并弄清楚不断变化的数据类型。如果只是大量采集同一类型的数据,再大的数据量都不能称之为大数据。
例如,生产环境中收集的时间序列模拟流程变量,数据的类型是单一的,很容易建立索引,即使存在千千万万,也不足以成为大数据。
数据必须包括高度可变性和种类多样性。制造工厂中存在无数的大数据应用,但并不包括简单地分类和展示一连串的流程测量结果,对这些工作,基本的统计展现就可以完成。一些大数据的数据库或数据湖的构成部分也是文本信息、图像数据、地理或地质信息和非结构信息,例如,通过社交媒体或其他协作平台获得的数据类型。
制造业信息结构概括起来分为两层,一个是管理层,一个是自动化层。从经营管理、生产执行与控制三个纬度来实现决策支持、管理、生产执行、过程控制以及设备的连接与传感。制造业中大数据分析是指利用通用的数据模型,将管理层与自动化层的结构性系统数据与非结构性数据结合,进而通过先进的分析工具发现新的洞见。
大数据分析对企业生产智能的意义
制造业创新的核心就是要依托大量的前沿科技。先进的技术是创新的手段。在新技术的支持下,可以通过一体化的制造运作管理系统MOM将企业管理应用系统,例如ERP、EAM等系统与工业自动化的相关系统整合为一体。在一体化制造运作管理的基础上,我们可以实现集IT+MOM+MES+BI的一体化制造企业信息系统解决方案。
从两化融合的角度来看,信息系统供应商要从企业的主信息系统提供商(MIV,MainInformation systems Vendor )定位来做好规划、标准、功能设计、实施策略的统一性工作。协助企业做好风险控制,降低投资,降低操作维护成本,实现企业信息系统全集成。
特别需要注意的是,企业管理信息平台被普遍认为是制造企业管理的集成和仪表板工具。许多供应商既大量投资其与ERP和自动化系统专有的集成,也投资开放式集成,还投资仪表板和移动技术,希望随时随地为需要正确信息的决策者提供衡量标准。
制造业大数据分析的三种途径
途径一,利用开放技术与平台,将任何系统的数据移动到任何其他地方。
制造运作管理系统建设项目是系统工程,不仅仅是一套我们理解的传统软件系统,更多的是项目执行和服务的平台。这需要在项目管理与制造企业的策略“客户服务”上,体现出制造企业的综合管理能力与软实力。
整个平台要从前期、工程实施以及售后服务这三个大的阶段来架构。在前期规划中,要重视标准、设计与实施,特别是与管理一体化的信息系统形成统一的对接。有了前期统一规划的制定,工程实施的环节可把行业的经验、集成能力、实施能力、软件开发能力等融合。特别需要在组织上建立和形成超级团队的制度。而持续服务、长期经营,将物联网应用融入与“软件+云服务”的互联网+战略是后续服务的考虑重点。
在制造业大数据分析工作中,必须要加强通过物联网科技的应用对后续持续服务的支撑作业。通过工业物联网,实现的及时响应客户、物联网软硬件系统定期巡检、提供应急备件、提供易耗品、完善应用等功能来加强和锁定与企业的供应链企业之间的长期合作。通过管理平台与物联网数据,可以持续为客户提供有价值的服务。
途径二,投资工厂内外系统架构堆栈中能够处理结构性和非结构性数据的数据模型。
新技术是创新革命的核心,其中很重要一个特点就是集成,即制造运作管理系统MOM与ERP、EAM、OA、商业分析的集成,包括一键登录、界面集成、消息推送、工作流集成、主数据、应用集成总线与平台。
由于这些系统之间主数据全部统一,所有系统之间的数据交互依靠应用系统总线进行数据交互,整合了跨系统的业务流程、工作流、服务流程等之后即实现无缝集成和分析。对于企业管理者来说,一键登录后,可以根据不同的岗位,个性化制定并且显示与管理最相关的必要信息。这就是互联网所带给我们的分享思路。
途径三,通过时间序列、图像、视频、机器学习、地理空间、预测模型、优化、模拟和统计过程控制等先进的分析工具与制造业企业内的大数据平台结合分析,从而洞见尚未显现的情况。通过传感器、感应器、传输网络和应用软件等物联网数据,与管理应用软件结合起来,将是今后制造业大数据分析的一大方向。
培养企业内部大数据分析专家
作为一个行业,我们需要有机地发展行业特定的大数据分析工具集,这样才能让现在的行业专家,从足够的数据科学中实现数字化转型。为了推动转型,我们需要一大批优秀的企业利用这种方法,并向其他人或同行证明其价值。
❸ 大数据重要的意义
什么是大数据,大数据的意义是什么?
大数据的意思就是数据要在线,这样你的数据才能有价值,用于分析或者处理。大量的数据在线后的分析才有意义。可能得到你想要的数据,电影里好多这种素材,比如人脸的搜索,人员的定位,人流的分析,运行的状态等等都有使用。现在做这些应用的也很多,只是落地的还稍微少一点。还是为了创造价值。
什么是大数据,大数据为什么重要,如何应用大数据
空谈数据没有太大意义,要看数据的主要方向是什么。1、从技术应用方向来说,我们的数据主要做传播指导;2、数据研究过程中我们的数据主要来自互联网的公共数据(媒体数据、自媒体数据、企业自营的媒体数据),通过数据解决用户洞察问题、传播效果问题、竞争情报获取的问题,3、我们主要是在大数据的维度上的研究上,我们的维度更多更宽广,维度的多少决定了效果。
大数据的意义
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。 阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。 大数据的价值体现在以下几个方面:1)对大量消费者提 *** 品或服务的企业可以利用大数据进行精准营销2) 做小而美模式的中长尾企业可以利用大数据做服务转型3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。3)分析所有SKU,以利润最大化为目标来定价和清理库存。4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。5)从大量客户中快速识别出金牌客户。6)使用点击流分析和数据挖掘来规避欺诈行为。
什么是大数据,大数据为什么重要,如何应用大数据
读读这本书吧。。
驾驭大数据 驾驭未来
大数据的流行,也引发了图书业大数据出版题材的升温。去年出版的《大数据》(涂子沛著)是从数据治国的角度,深入浅出的叙述了美国 *** 的管理之道,细密入微的阐释了黄仁宇先生”资本主义数目式管理“的精髓。最近人民邮电出版社又组织翻译出版了美国Bill Franks的《驾驭大数据》一书。
该书的整体思路,简单来说,就是叙述了一个”数据收集-知识形成-智慧行动“的过程,不仅回答了”what“,也指明了”how“,提供了具体的技术、流程、方法,甚至团队建设,文化创新。作者首先在第一章分析了大数据的兴起,介绍了大数据的概念、内容,价值,并分析了大数据的来源,也探讨了在汽车保险、电力、零售行业的应用场景;在第二章介绍了驾驭大数据的技术、流程、方法,第三部分则介绍了驾驭大数据的能力框架,包括了如何进行优质分析,如何成为优秀的分析师,如何打造高绩效团队,最后则提出了企业创新文化的重要意义。整本书高屋建瓴、内容恣意汪洋、酣畅淋漓,结构上百川归海,一气呵成,总的来说,体系完备、内容繁丰、见识独具、实用性强,非常值得推荐,是不可多得的好书!
大数据重要以及不重要的一面
与大多数人的想当然的看法不同,作者认为“大数据”中的”大”和“数据”都不重要,重要的是数据能带来的价值以及如何驾驭这些大数据,甚至与传统的结构化数据和教科书上的认知不同,“大数据可能是凌乱而丑陋的”并且大数据也会带来“被大数据压得不看重负,从而停止不前”和大数据处理“成本增长速度会让企业措手不及”的风险,所以,作者才认为驾驭大数据,做到游刃有余、从容自若、实现“被管理的创新”最为重要。在处理数据时,作者指出“很多大数据其实并不重要”,企业要做好大数据工作,关键是能做到如何沙里淘金,并与各种数据进行结合或混搭,进而发现其中的价值。这也是作者一再强调的“新数据每一次都会胜过新的工具和方法”的原因所在。
网络数据与电子商务
对顾客行为的挖掘早已不是什么热门概念,然而作者认为从更深层次的角度看,下一步客户意图和决策过程的分析才是具有价值的金矿,即“关于购买商品的想法以及影响他们购买决策的关键因素是什么”。针对电子商务这一顾客行为的数据挖掘,作者不是泛泛而谈,而是独具慧眼的从购买路径、偏好、行为、反馈、流失模型、响应模型、顾客分类、评估广告效果等方面提供了非常有吸引力的建议。我认为,《驾驭大数据》的作者提出的网络数据作为大数据的“原始数据”其实也蕴含着另外一重意蕴,即只有电子商务才具备与顾客进行深入的互动,也才具有了收集这些数据的条件,从这点看,直接面向终端的企业如果不电子商务化,谈论大数据不是一件很可笑的事?当然这种用户购买路径的行为分析,也不是新鲜的事,在昂德希尔《顾客为什么购买:新时代的零售业圣经》一书中披露了商场雇佣大量顾问,暗中尾随顾客,用摄影机或充满密语的卡片,完整真实的记录顾客从进入到离开商场的每一个动作,并进行深入的总结和分析,进而改进货物的陈列位置、广告的用词和放置场所等,都与电子商务时代的客户行为挖掘具有异曲同工之妙,当然电子商务时代,数据分析的成本更加低廉,也更加容易获取那些非直接观察可以收集的数据(如信用记录)。
一些有价值的应用场景
大数据的价值需要借助于一些具体的应用模式和场景才能得到集中体现,电子商务是一个案例,同时,作者也提到了车载信息“最初作为一种工具出现的,它可以帮助车主和公司获得更好的、更有效的车辆保险”,然而它所能够提供的时速、路段、开始和结束时间等信息,对改善城市交通拥堵具有意料之外的价值。基于GPS技术和手......
大数据的到来对我国经济发展有什么意义
大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据 *** 。
有人把数据比喻为蕴 藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。
大数据的价值体现在以下几个方面:
1)对大量消费者提 *** 品或服务的企业可以利用大数据进行精准营销;
2) 做小而美模式的中长尾企业可以利用大数据做服务转型;
3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
互联网大数据有哪些好处多
大数据是什么?为什么要使用大数据?大数据有哪些流行的工具?本文将为您解答。
现在,大数据是一个被滥用的流行词,但是它真正的价值甚至是一个小企业都可以实现。
通过整合不同来源的数据,比如:网站分析、社交数据、用户、本地数据,大数据可以帮助你了解的全面的情况。大数据分析正在变的越来越容易,成本越来越低,而且相比以前能更容易的加速对业务的理解。
大数据通常与企业商业智能(BI)和数据仓库有共同的特点:高成本、高难度、高风险。
以前的商业智能和数据仓库的举措是失败的,因为他们需要花费数月甚至是数年的时间才能让股东得到可以量化的收益。然而事实并非如此,实际上你可以在当天就获得真实的意图,至少是在数周内。
为什么使用大数据?
数据在呈爆炸式的速度增长。其中一个显著的例子来自于我们的客户,他们大多使用谷歌分析。当他们分析一个长时间段数据或者使用高级细分时,谷歌分析的数据开始进行抽样,这会使得数据的真正价值被隐藏。
现在我们的工具Clickstreamr可以收集点击级的巨量的数据,因此你可以追踪用户在他们访问路径(或者访问流)中的每一个点击行为。另外,如果你加入一些其他的数据源,他就真正的变成了大数据。
更完整的解析
大数据大数据并不仅仅是大量的数据。他的真正意义在于根据相关的数据背景,来完成一个更加完整的报告。举个例子,如果你把你的CRM数据加入到你网站的数据分析当中,你可能就会找到你早就知道的高价值用户群。她们是女性,住在西海岸,年龄30至45,花费了大量的时间在Pinterest和Facebook。
现在你已经被这些知识武装起来了,那就是如何有效的设定和获取更多高价值的用户。
类似Tableau和谷歌这样的公司给用户带来了更加强大的数据分析工具(比如:大数据分析)。Tableau提供了一个可视化分析软件的解决方案,每年的价格是2000美金。谷歌提供了BigQuery工具,他可以允许你在数分钟内分析你的数据,并且可以满足任何的预算要求。
大数据是什么?
由于大数据往往是一个混合结构、半结构化和非结构化的数据,因此大数据变得难以关联、处理和管理,特别是和传统的关系型数据库。当谈到大数据的时候,高德纳公司(Gartner Group,成立于1979年,它是第一家信息技术研究和分析的公司)的分析师把它分成个3个V加以区分:
量级(Volume):大量的数据
速率(Velocity):高速的数据产出
多样性(Variety):多种类型和来源的数据。
正如我们所说,大部分的企业每一天在不同的领域都在产出大量的数据。这里给出一组样本数据的来源及类型,他们都是企业在做大数据分析时潜在的收集和聚合数据的方式:
网站分析
移动分析
设备/传感器数据
用户数据(CRM)
统一的企业数据(ERP)
社交数据
会计系统
销售点系统
销售体系
消费者数据(例如益佰利的数据、邓氏商联的数据或者普查数据)
公司内部电子表格
公司内部数据库
位置数据(空间位置、GPS定位的位置)
天气数据
但是针对无限的数据来源,不要去做太多事情。把焦点放在相关的数据上,并且从小的数据开始。通常以2-3种数据源开始是一个好的建议,比如网站数据、消费者数据和CRM,这些会让你得到一些有价值的见解。在你最初进入大数据分析之后,你可以开始添加数据源来促进你的分析,并且公布更多的分析结果。
想要获得更多关于大数据细节的知识,可以去查阅 *** 的大数据词条。
大数据的好处
大数据提供了一种识别和利用高价值机会的前瞻性方法。如果你想,那么大数据可以提供如......
什么是“大数据”的真正含义
大讲台大数据 在线培训为你解答:大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据 *** ,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大数据给人们带来的好处
对一般用户来说意义不大,对于药店、药厂有必要了解用户的需求,但是如果真的利用起来能给用户带来选药的便利还是很有用的。比如当你生病不知道选哪种药好的时候,根据循证医学原理能帮你找到合适的药这样也算是带来了好处。
工业大数据对中国有什么意义
工业大数据可以推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,分析感知用户需求,提升产品附加价值,打造智能工厂,推动制造模式变革和工业转型升级。
国家下一步将利用大数据推动信息化和工业化深度融合,研究推动大数据在研发设计、生产制造、经营管理、市场营销、售后服务等产业链各环节的应用,研发面向不同行业、不同环节的大数据分析应用平台,选择典型企业、重点行业、重点地区开展工业企业大数据应用项目试点,积极推动制造业网络化和智能化。在应用项目试点过程中,需要开展应用示范安全可靠性方面的测评,利用大数据测试技术、工业电子系统测试技术和工业云测试技术,保障工业企业大数据应用项目试点的稳步推进,中国软件评测中心在相关方面有较深厚的技术积累和案例积累,可以为我国工业大数据发展保驾护航。
大数据的特点主要有什么?
大数据(big data),是指在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据 *** 。
大数据的特点:
1、容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息;
2、种类(Variety):数据类型的多样性;
3、速度(Velocity):指获得数据的速度;
4、可变性(Variability):妨碍了处理和有效地管理数据的过程。
5、真实性(Veracity):数据的质量
6、复杂性(plexity):数据量巨大,来源多渠道
大数据的意义:
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。
大数据的缺陷:
不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。” 这确实是需要警惕的。
❹ 大数据离不开 “厚数据”
大数据离不开 “厚数据”
当前,全世界各种规模的公司都在被告知需要大数据——大数据是驱动下一轮创新的源动力。风投公司专门确立针对大数据的投资组合,初创公司对外宣称自己是 “大数据” 公司,成熟的巨头企业会成立专门做大数据项目的数字创新团队。面对先进的计算数据收集和分析能力,许多初创公司和大型企业不惜以牺牲人的洞察为代价,过度地专注于收集定量数据。这种把定量数字凌驾于定性洞察之上的做法着实令人担忧。我就曾亲眼见证了一家公司为此遭受到的重大影响,没有任何一家公司会希望遵循这种做法。
2009年 的时候,我在诺基亚做调研工作。诺基亚是当时新兴市场最大的手机公司。我在研究中发现,这家公司在整体商业模式上正面临挑战。经过多年在中国的人类学研究工作,不论是与外来打工者一起生活,体验街头小贩的辛酸苦辣,还是沉浸在网吧世界,这些都让我看到了大量的市场信号,我有理由相信,低收入消费者已经准备好为更昂贵的智能手机买单。
当时我的结论是,诺基亚必须转变他们当前的产品开发策略,从制造价格昂贵、面向精英用户的智能手机,转而开发价格适中、面向低收入用户的智能手机。我把我的研究报告和相关建议汇报给了诺基亚总部。但诺基亚在看过我的研究发现后却不知道该怎么做。他们说,我的样本量只有 100 个,和他们成百上千万的样本量相比,简直就是微不足道。另外他们还说,根据他们现有的数据资料,我的洞察发现根本就没有任何根据可言。
当然现在,我们所有人都知道诺基亚后来发生了什么。微软在 2013年 收购了诺基亚手机业务,目前它的全球智能手机市场份额仅占 3%。诺基亚的衰落是由很多原因导致的,但其中最严重的原因之一,也是我亲历的一个原因就是,诺基亚过度依赖数字。他们过于注重定量数据,以至于在面对难以衡量或现有报告里没有的数据时,就变得不知所措。原本可以成为诺基亚的竞争筹码,最后却帮了一个倒忙,导致它走向衰亡。
自从诺基亚的那次工作经历以来,企业组织这种过度重视定量数据而忽略定性数据的做法就一直让我感到非常不解。随着大数据时代的崛起,我发现这种情况开始愈演愈烈,一些公司不惜扣减花在以人为本调研上的预算,而宁愿花重金投资在大数据技术上。人类学定性研究工作在大数据时代下的生存现状让我深感忧心。
在当前这个以数据为驱动的世界,人类学研究工作(经常以市场调研、设计调研和定性调研的形式在行业里出现)正面临一个非常严重的认识误区。经常会听到人们谈论说,人类学研究的数据样本量太小,人类学研究数据是 “小数据”,就像当时诺基亚高层说的一样。
由于缺少概念性文字来快速界定人类学研究在大数据时代的价值,自去年开始我一直在用 “厚数据”(在此向 Clifford Geertz 致意!)这个词来表示我对综合性研究法的提倡和支持。厚数据是指利用人类学定性研究法来阐释的数据,旨在揭示情感、故事和意义。厚数据难以量化,但能从少量样本中就解读出深刻的意义和故事。厚数据与大数据截然不同,定量数据需要依赖大量的样本,同时借助新技术来捕捉、存储和分析数据。要让大数据变得可分析,它就必须经过一个正常化、标准化的定义和归类过程,这个过程会在无形之中剔除数据中所包含的背景、意义和故事。而厚数据恰恰能防止大数据在被解读的过程中丢失这些背景元素。
“厚数据是指利用人类学定性研究法来阐释的数据,旨在揭示情感、故事和意义。”
整合大数据和厚数据能让企业站在全局的高度,更全面、更彻底地把握任何情形。企业要纵观全局,就必须同时运用大数据和厚数据,从中获得不同类型的洞察,获得丰富的广度和深度。大数据需要借助大量样本来揭示特定模式,而厚数据只要借助少量样本就能从深层次解读出各种以人为本的模式。厚数据依赖人的学习活动,而大数据依赖机器的学习活动。厚数据体现着各种数据关系背后的社会背景,而大数据体现的是从一系列特定定量数据中提炼出的洞察。厚数据技术能包容不可化约的复杂性,大数据技术则是通过分离变量来明确模式。厚数据缺少广度,大数据缺少深度。
运用大数据存在风险
企业组织在运用大数据时,如果没有一套整合框架或权衡尺度,那么大数据就会变成一个危险因子。Steven Maxwell 指出:“人们过度沉迷于数据信息的量,却忽略了 ‘质’ 的部分,也就是分析法所能揭示的商业洞察。” 量越大并不意味着生成的洞察就一定越多。
另一个问题是,大数据往往过于注重定量结果,而贬低了定性结果的重要性。这就会导向一种比较危险的看法,即认为经统计分析得出的标准化数据要比定性数据更有用、更客观,从而进一步肯定了定性数据就是小数据这一观点。
以上两个问题导致企业组织几十年来仅仅凭借定量数据来做管理决策。一直以来,企业管理咨询顾问都是利用定量数据来让提升企业的运作效率和赢利。
利用大数据的风险在于,企业和个人会开始依赖运算法则,把它作为衡量标准来做决策和优化表现。
如果没有一种平衡力量,大数据很可能会导致企业和个人总是依据从运算法则得来的标准来做决策和优化。在这个优化过程中,包括人、故事、真实的体验在内的一切都会被忽视。正如 Clive Thompson 写道的:“把人的决策因素从这个等式中抹去,就意味着我们会与深思熟虑的做法渐行渐远,而这些深思熟虑的时刻恰恰是我们从道德层面反思自己行为的机会。”
释放大数据与厚数据的整合效应
大数据产生的信息量实在太过庞大,以至于不得不借助其他方式才能填补和 / 或揭示知识缺口。而这恰恰是人类学研究工作在大数据时代的价值所在。下面,我会分享一些有关企业如何整合使用厚数据的方式。
厚数据是勾勒未知世界的最佳方式。当企业组织想了解他们并不了解的领域时,就需要厚数据的帮助,因为它能带来大数据所没有的东西——灵感。收集和分析故事有助于生成洞察。
当企业组织想要了解并不熟悉的领域时,就需要 “厚数据” 的帮助,因为它能带来大数据所无法带来的东西——灵感。收集和分析故事有助于生成洞察。
故事能激发企业组织探索通往目的地的不同途径,这个最终目的地就是洞察。打个比方,假设你在开车,厚数据能让你瞬间移动到想去的地方。厚数据常常会带来一些意料之外的发现,既让人困惑又让人惊喜。但不论怎样,它都能带来灵感启发。只有在富于想象力的企业,创新才能赖以生存。
当企业想要与利益相关方建立更稳健的关系时,他们就会需要用到 “故事”。“故事” 包含着情感,而这是经分析过滤的标准化数据所不能提供的。数字无法折射出日常生活中的各种情感:信任、脆弱、害怕、贪婪、欲望、安全、爱和亲密。很难用算术法则来表示一个人对服务 / 产品的好感程度,以及这种好感会随着时间变化而发生怎样的转变。相对地,“厚数据” 分析法能深入人们的内心。毕竟,利益相关方与企业 / 品牌的关系是感性的,而不是理性的。
厚数据和大数据的未来整合机会点
大数据概念的提出者 Roger Magoulas 强调了故事的必要性:“故事能很快传播开来,把数据分析法的经验教训扩散到企业组织的各个角落。”
仅仅使用大数据会带来问题,关键是要懂得如何同时利用起大数据和厚数据,让两者相辅相成。对于定性研究者来说,这是他们在以定量结果为主导的大数据时代定位自己工作性质的绝佳机会。像 Claro Partners 这样一些公司甚至已经开始重新界定我们如何问有关大数据的问题。在他们的个人数据经济(Personal Data Economy)研究中,他们并没有问大数据对人类行为的启示这类问题,而是反过来问了人类行为对大数据在日常生活中的作用的启示。他们还为客户开发了一套工具,帮助他们转变思维视角,“从以数据为核心转变为以人为核心。”
有关大数据和厚数据如何在企业组织中发挥协同效应,我梳理了以下机会点(当然并不仅限于这些):
健康医疗
随着个人能越来越方便地追踪自己的健康状态,自我量化值正在成为一种主流。医疗服务提供者会有越来越多的机会收集到各种匿名数据。像 Asthma Files 这列项目可以让你迅速展望厚数据和大数据将如何共同解决全球健康问题。
重新定位来自移动运营商的匿名数据
全球各地的移动公司已经开始重新包装和出售他们的顾客数据。市场营销者不是唯一的买家。城市规划者正在用 Air Sage 的蜂窝式网络数据来了解当地的交通状况。为了保护用户隐私,这些数据会采取匿名或抹去个人通信记录。当然,没有了关键的个人详情,数据也就丢失了关键的背景信息。在这种情况下,若没有厚数据,企业就很难破译这些因个人信息被抹去而丢失的个人情况和社会背景,也就无法真正解读数据。
社交网络分析
社交媒体能产生大量数据,这些数据能让社交网络分析法变得更为丰富。目前,包括 Hilary Mason、Gilad Lotan、Duncan Watts 和 Ethan Zuckerman (以及他在 MIT Media Lab 的实验室) 在内的研究科学家都在研究信息在社交网络上的传播方式,以及同时会产生哪些问题,而这些问题只能借助 “厚数据” 才能回答。现在越来越多的公司把社交媒体作为衡量尺度,对此企业必须谨慎对待,不要误认为仅仅透过数据就能看到 “影响因素”。媒体对 Cesar Hildalgo 工作的误读就是大数据网络分析结果被曲解的一个实例,意指维基网络可以成为文化代理。(点击此处查看 Heather Ford 对此做出的纠正。)
品牌战略和生成洞察
一直以来,企业都习惯于依赖市场分析来制定企业战略和生成洞察。如今,企业正在转向用一种更为以人为本的方式,也就是立足于 “厚数据”。《快公司》杂志(Fast Company)在最近一期 Jcrew 的报道中明确指出,在以大数据为驱动的管理咨询法宣告失败后,带领品牌走出困境的恰恰是那些真正懂得消费者想要什么的员工。其中,一位叫 Jenna Lyons 的员工有机会与消费者一起反复尝试、修改和实时测试产品。她的这套方法在消费者中引起了反响,最终成功地把 Jcrew 转变为一个让人顶礼膜拜的品牌,营收翻了三番。
产品 / 服务设计
单单借助运算法则并不能解决问题,但仍然有很多公司依赖运算法来指导产品和服务开发。施乐公司(Xerox)就是利用大数据来为政府解决问题,但它同时还借助了人类学研究法作为数据分析法的补充。施乐帕罗奥多研究中心(Xerox PARC)的人类学家 Ellen Issacs 在提及厚数据对设计工作的重要性时这样说道:“即使你对某项技术有着清晰的概念,你仍然需要把它设计出来,确保这套概念符合人们对自己行为活动的看法……你必须看他们怎么做。”
落实企业组织战略
厚数据可以作为大数据的补充,与大数据相辅相成,以减少经过规划的企业转变所造成的颠覆性影响。定量数据可能会显示必须做出某种转变,但企业组织内部的颠覆代价是巨大的。重新布局企业组织架构图,重新撰写职位描述,转换工作职能,重新设定成功标准——所有这些颠覆式转变都要付出昂贵代价,而这一后果可能并不会体现在大数据计划中。企业需要厚数据专家与业务领导一起协作,共同了解转变会带来的影响和发生背景,从文化的角度决定哪些转变是可行的,以及如何设计整个流程。Grant McCracken 把厚数据专家叫做首席文化官(Chief Cultural Officer),他们就好比是 “企业的眼睛和耳朵,会敏锐地嗅出即将发生的转变,即使这些潜在转变只是发出非常微弱的信号。” 首席文化官就是厚数据专家,负责收集、讲述和传播故事,保持企业组织的灵气和灵活性。大数据概念的提出者 Roger Magoulas 强调了故事的必要性:“故事很快就能传播开来,把分析总结带来的习得散播到整个企业组织。”
综合运用同理心和数据资源进行创新
除了所有这些有待挖掘的机会点,还有一点很重要的就是,大数据仍有很大的改进空间。高德纳咨询公司(Gartner)的研究显示,在投资大数据能力的公司当中,只有 8%的公司在利用大数据做一些具有深远意义的事情。其余公司仅仅只是用大数据来拉动渐进式增长。这意味着很多公司虽然都在谈论和投资大数据,但他们并没有真正利用起大数据来推动真正的变革。
我认为,企业和机构要想充分发挥大数据的潜力,就必须结合运用厚数据,这也是为什么我们现在比以往任何时候更需要从事以人为灵感来源的研究工作者,不论是人类学家、市场调研者、设计调研者、设计师、产品经理、纪录片导演、制片人、作家还是社交媒体经理,因为这类研究工作者是始终带着同理心在收集和分析数据。最有创新力的公司往往就是那些懂得如何综合运用大数据与同理心的公司。这也是为什么阿里巴巴、网络和腾讯这些公司得以如此成功的原因之一,他们总能闪电般地迅速掌握实际用户所处的情境,以此来驱动他们的技术革新。未来,中国的创新将同时有赖于情境和数据。
以上是小编为大家分享的关于大数据离不开 “厚数据”的相关内容,更多信息可以关注环球青藤分享更多干货
❺ 互联网大数据有哪些好处
大数据是大量、高速、多变的信息,它需要新型的处理方式去促成更强的决策能力回、洞察力与最佳化处答理。大数据为企业获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
借助大数据及相关技术,我们可针对不同行为特征的客户进行针对性营销,甚至能从“将一个产品推荐给一些合适的客户”到“将一些合适的产品推荐给一个客户”,得以更聚焦客户,进行个性化精准营销。
大数据时代下的精准营销是指通过大数据获取对象的喜好,行为偏好,对不同对象进行不同营销。大数据精准营销的核心可以概括为几大关键词:用户、需求、识别、体验。
亿美软通推出数据云服务,延续亿美的客户服务、客户营销、客户管理的公司经营理念,通过庞大的消费数据资源,为客户提供数据验证,精准营销等数据级服务。简单说就是为企业提供数据验证和数据筛选业务。
❻ 大数据的是与不是
大数据的是与不是
在时下的流行语中,很难找出一个比“大数据”更吸引眼球的术语了。1980年,阿尔文 托夫勒在《第三次浪潮》中预言了信息时代的到来会带来数据爆发,约翰 梅西在1998年的美国高等计算机系统协会大会上首次提出“大数据(big data)”一词。什么是大数据?这一概念目前尚未形成统一的定义。几种代表性的观点如下:麦肯锡认为“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合”;维基网络认为“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集”;全球最具权威的 IT研究与顾问咨询公司——高德纳公司认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。
大数据时代已经来临,它将在众多领域掀起变革的巨浪,这是勿庸置疑的事实,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值,而对于电网企业来说,大数据的应用同样会促进企业的跨越发展。
大数据的本质是事物的时域、空域记录,并非事物的描述数据
对于大数据的特点,IT界通常用Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)这4个 V来概括。Volume,指数据体量巨大,从TB级别跃升到PB乃至EB级别;Variety,指数据类型繁多。除了传统的结构化数据,大量非结构化、半结构化数据如网络日志、音频、视频、图片等;Value,指价值密度低,但大数据分析的价值高。价值密度的高低与数据总量的大小成反比,以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒;Velocity,指变化速度快。大数据不仅量大,而且变化快,大数据的应用依赖于对数据的快速处理。但在笔者看来,对大数据作4V特点的概括是现象而非本质总结。
其实人类文明就是大数据的记录与应用积累,当今社会进入了信息时代,信息化的本质是用 IT技术和方法描述世界,描述事物的内在本质、过程规律和业务规则,信息化的应用过程就是在描述好事物的软件系统中实现人工和 /或机器记录,大数据的本质是事物的时域、空域记录,并非事物的描述数据,大数据成为热门是因为信息化、互联网、终端的普及和应用让我们进入了一个机器自动记录的时代,爆炸性增长的记录数据使传统的人工、单机 /单节点的机器处理能力无法完成记录的分析、挖掘,由此催生了云计算和大数据概念并推动人工智能的工程应用,机器学习等人工智能技术就是机器处理大数据及大数据应用高级模式。
大数据应用的本质是推导规律、预知未来,并非简单的统计分析
在信息化时代以前,人类就有典型的大数据应用,如视觉美学总结的黄金分割(0.618),社会学中的在特定时空范围内存在的“二八”理论。大数据应用的本质是推导规律、预知未来,并非简单的统计分析。在信息化时代,大数据极大依赖信息化及其应用,开展大数据分析也必须应用信息化方法与手段,符合信息化业务驱动、目标导向等原则,没有目标的大数据平台建设或挂大数据“羊头”不利于信息化建设和大数据应用。
而互联网大数据与企业大数据是有区别的,互联网本质是跨区域的信息化网络基础设施,其大量的内容服务和居于互联网社交软件并不存在描述事物的过程即没有对象模型,人们应用互联网留下了应用记录(大量的非结构化数据),分析这些大数据记录的前提是重新构建记录的对象,对记录标识特征。企业信息化一般经过业务标准化和业务流程梳理过程,所以企业的大数据是存在对象描述,但企业应用的困难是我们建设的系统在对象描述上不统一、对象上的记录不完整。所以互联网大数据与企业大数据应用尽管原理与方法一致,但分析工作的重点是有区别的。互联网公司在开展大数据分析的工具、技术方法不完全适用于企业,更不能把互联网大数据的平台建设当做企业大数据应用工作的全部。
区别好对象模型数据与记录数据是大数据分析的基础,尽管描述事物对象的数据也可以达到 PB级,如人类的基因图谱、地球大气层流动模型、电网的网络结构模型等,这些数据不是大数据,在这些对象模型上构建软件并记录的业务变化是大数据。所以在大数据应用方面存在两类数据的预处理,一类是模型数据预处理,另一类是记录数据预处理。模型层面的预处理本质是信息化建设方案的科学性、合理性。记录的完整性很大程度上也是取决于信息化方案,同时也取决于信息系统的应用过程。一旦软件上线,再作数据治理来解决模型之间的不一致性或对记录的二次“模型化”加工是一种方法论上的误导,正确的方法应该是依据企业架构和行业解决方案完善信息化架构,实现企业信息化架构规范和引导下的信息系统建设和应用,在企业层面统筹企业模型、统筹系统结构和功能界面、统一业务系统应用规范。企业的数据治理必须在建设方案中完成,系统建成系统后的数据治理是无效的,当然在系统运行过程中数据库的技术数据治理是必须的。
大数据应用在电网领域大有可为
在电网企业中,电量数据是一组典型的大数据。客户和客户的电表台账是电量数据的宿主对象,采集系统中对客户和电表台账进行建模,各用户电表的时序记录就是电量大数据。下面结合国网江苏电力开展的负荷预测大数据应用简述大数据应用方法。
首先是数据预处理。对象模型的预处理,依托营配调一体化,建立客户和电表台账与电网供电逻辑关系,构建电网各电压层级直至各台区到用户的关联模型;记录数据的预处理,对电量记录电度值进行年度节假日除权回原,去除电量的节假日因素,去除记录奇点和内插补全个别记录缺点等。
其次是分行业回归建立日电量与气温、湿度等因素用电模型,依据实时运行方式累计各台区日电量、日负荷,完成各区域、各电压等级的电量和负荷预测模型的构建,并构建模型机器学习,保持模型的时效性。
最后,由大数据平台给预测模型导入实时气温与前一时段的电量和负荷,实现短期、超短期的全网负荷预测。同样原理,关联宏观GDP与电量指数,结合业扩包装量变化,实现中长期负荷预测。
2015年 ,江苏电网以全样本的用户每日实时采集用电数据,结合十多年用电、业扩、气象等历史数据,建立起涵盖全省各地区、分行业以及25万专变用户和40万台公用变压器的包括温度、湿度、节假日、周末等要素的多维度用电影响模型,模型包含的数据关联关系超过110亿项,开展负荷中长期、短期、超短期预测工作,有效指导了生产工作。
此外,电量大数据的应用在行业内外还有大量的可应用价值,如从用电设备节能潜力分析全社会节能潜力、大用户用电特征分析行业产能利用情况、居民用户家庭活动特征等,大数据应用在电网领域大有可为。
❼ 用明喻或者暗喻的方法描述大数据
大数据的定义:
大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。
在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点[20]。
大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。
数据挖掘(data mining)则是在探讨用以解析大数据的方法。
❽ 说文解字第1课:大数据Big Data
大家好,又到了说文解字的时间,不对,这是瘾科技的新专栏,所以说文解字这个专栏是第一次跟大家见面喔。在往后的每个星期,我们都会推出1篇文章,向读者解释各种电脑、3C领域的关键字,希望大家多多支持。
在几年前,BOT是个相当热门的辞汇,山也BOT、海也BOT。到了这几年,大数据成了最火红的关键字之一,无论企业界还是政治人物,都把大数据挂在嘴边,但是大数据到底是什么呢?
大数据不只大,全面更重要
大数据一词直译自英文的Big Data,也有人将其翻译为海量资料,字面上的意思就已经把它的涵义说明一半了。大数据既然有个「大」字,就代表它的资料量一定很多,于是这就引发了另一个问题,要有多少资料,才能叫作大数据呢?根据麦塔集团(META Group)2001年的研究报告指出,资料增长的挑战有资料量(Volume)、处理速度(Velocity)、资料多样性(Variety)等3个方向。
然而麦塔集团在2005年时被高德纳顾问公司收购,高德纳于2012年对大数据提出新的定义,指出大数据是大量资料、高速处理,并可能具有多样性,需要使用新的方式进行处理,以用于增进决策能力、洞察力,并协助将处理程序最佳化。从这个定义中,我们可以看到资料的量并没有被给予明确的界限,因此我们不防转向参考麦尔荀伯格与库基耶所著的大数据一书,从资料的特性进行思考。
▲大数据一书由天下文化出版,相当值得一看。(图片来源:天下文化)
大数据之所以与传统资料有所不同,其中很大的原因就是资料采样方式的差异。在传统分析资料的过程中,因为收集资料的方式与工具需要相当的成本与时间,而在有限的经费与时间下,我们需要先对母体进行抽样,然后再收集这些样本的资料。举例来说,如果要在选举之前进行民调,民调公司只对一部份的人进行抽样,并调查他们的投票意向。这时候分析的结果很可能就会受到抽样方式影响,若是采用室内电话调查,可能会因为年轻族群在家时间较少,且部分租屋族并未安装室内电话,而让样本的年龄偏高,进而影响分析的准确度。
借助电脑自动处理大量资料
然而大数据的概念之一,就是可以透过不同的方式收集资料,以达到直接对母体进行全面性调察的目的,如此一来就能避免抽样失真而让分析结果失去参考价值。
再举个例子,传统电视节目的收视率,是透过在特定收视户家中安装调整设备,来记录观看电视的频道与时间,或是透过电话访问,访查收视户正在收看的节目。然而这种方式会因为样本的家庭成员组成、喜欢节目的不同,而影响调察结果,虽然可以透过增加抽样数量的方式,提高结果的准确度,但是无论再怎么改善调查结果,都还是无法还原所有收视户真实的情况。
但是在电视数位化之后,系统业者便能透过机上盒的程式统计收视情况,并自动将资料回传至伺服器进行统计,如此一来便能确实掌握所有人的真实收视情况,而不会被不准确的抽样影响,这对资料分析有着相当大的助益。
▲在抽样统计中,若样本的数量越大,误差就会越小,而大数据则是直接将母体做为样本,因此不会有统计误差。
比较前后两者的差别,可以看到新的方式能够透过自动化的方式,全面性地收集资料,并透过电脑进行高速统计与处理,由于节省了许多成本与时间,因此就不再需要为了现实考量而采用抽样统计,这就是大数据与传统资料处理方式的差异,也让资料更具参考价值,能提供决策者更强而有力的判断依据。
总结来说,大数据的精神除了资料本身量很庞大之外,以至于分析的对向从样本题升至母体之外,另一个重点就是透过非传统的方式,挖掘出资料中尚未被发现的价值。至于该如何收集、挖掘并运用资料,这就是另一门学问了,这个主题就留到下周再一起讨论吧。
说文解字使用范例:大数据
O:企业经营者可以透过大数据预估消费趋势。
X:办公室已经没有空间摆放大数据的卷宗了。