Ⅰ 大数据怎么发挥大价值
大数据兴起预示逗信息时代地进入新阶段
1.1 看待大数据要有历史性的眼光
信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网(万维网)。尽管媒体上大量出现逗大数据时代地的说法,但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破,难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段,大数据等新技术的应用标志着信息社会将进入一个新阶段。
考察分析100年以上的历史长河可以发现,信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高,分界线分别是1915年和1995年。笔者猜想,信息技术经过几十年的扩散储备后,21世纪的前30年可能是信息技术提高生产率的黄金时期。
1.2 从逗信息时代新阶段地的高度认识逗大数据地
中国已开始进入信息时代,但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题,其根源是对时代的认识不到位。18-19世纪中国落后挨打,根源是满清政府没有认识到时代变了,我们不能重犯历史性的错误。
中央提出中国进入经济逗新常态地以后,媒体上有很多讨论,但多数是为经济增速降低做解释,很少有从时代改变的角度论述逗新常态地的文章。笔者认为,经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段,是经济和社会管理的跃迁,不是权宜之计,更不是倒退。
大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构逗第三平台地是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。媒体上经常出现的互联网、创客、逗第二次机器革命地、逗工业4.0地等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆,所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。
1.3 大数据可能是中国信息产业从跟踪走向引领的突破口
中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、网络和京东),其他6个Top10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。
但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。
2 理解大数据需要上升到文化和认识论的高度
2.1 数据文化是一种先进文化
数据文化的本质是尊重客观世界的实事求是精神,数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作,但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道,首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业,而是指全民的数据意识。全社会应认识到:信息化的核心是数据,只有政府和大众都关注数据时,才能真正理解信息化的实质;数据是一种新的生产要素,大数据的利用可以改变资本和土地等传统要素在经济中的权重。
有人将逗上帝与数据共舞地归纳为美国文化的特点之一,说的是美国人既有对神的诚意,又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变,南北战争之后人口普查的方法被应用到很多领域,形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系,我国要实现现代化也必须强调数据文化。
提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。
2.2 理解大数据需要有正确的认识论
历史上科学研究是从逻辑演绎开始的,欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始,科学研究更加重视自然观察和实验观察,在观察基础上通过归纳方法提炼出科学理论,逗科学始于观察地成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献,但也暴露出明显的问题,甚至走入极端。理性主义走向极端就成为康德所批判的独断主义,经验主义走入极端就变成怀疑论和不可知论。
20世纪30年代,德国哲学家波普尔提出了被后人称为逗证伪主义地的认识论观点,他认为科学理论不能用归纳法证实,只能被试验发现的反例逗证伪地,因而他否定科学始于观察,提出逗科学始于问题地的著名观点[3]。证伪主义有其局限性,如果严格遵守证伪法则,万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但逗科学始于问题地的观点对当前大数据技术的发展有指导意义。
大数据的兴起引发了新的科学研究模式:逗科学始于数据地。从认识论的角度看,大数据分析方法与逗科学始于观察地的经验论较为接近,但我们要牢记历史的教训,避免滑入否定理论作用的经验主义泥坑。在强调逗相关性地的时候不要怀疑逗因果性地的存在;在宣称大数据的客观性、中立性的时候,不要忘了不管数据的规模如何,大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言:逗采用大数据挖掘,你不需要对数据提出任何问题,数据就会自动产生知识地。面对像大海一样的巨量数据,从事数据挖掘的科技人员最大的困惑是,我们想捞的逗针地是什么看这海里究竟有没有逗针地看也就是说,我们需要知道要解决的问题是什么。从这个意义上讲,逗科学始于数据地与逗科学始于问题地应有机地结合起来。
对逗原因地的追求是科学发展的永恒动力。但是,原因是追求不完的,人类在有限的时间内不可能找到逗终极真理地。在科学的探索途中,人们往往用逗这是客观规律地解释世界,并不立即追问为什么有这样的客观规律。也就是说,传统科学并非只追寻因果性,也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型,这些知识和模型也可以用来预测未来,可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少,比如开普勒归纳的天体运动规律等;而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性,但大数据模型不一定具有必然性,也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会,在知识阶梯上位于较高层,其自然边界是模糊的,但有更多的实践特征。大数据研究者更重视知行合一,相信实践论。大数据认识论有许多与传统认识论不同的特点,我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱,用数据规律补充了单一的因果规律,实现了唯理论和经验论的数据化统一,一种全新的大数据认识论正在形成。
3 正确认识大数据的价值和效益
3.1 大数据的价值主要体现为它的驱动效应
人们总是期望从大数据中挖掘出意想不到的逗大价值地。实际上大数据的价值主要体现在它的驱动效应,即带动有关的科研和产业发展,提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用逗蜜蜂模型地:蜜蜂的效益主要不是自己酿的蜂蜜,而是蜜蜂传粉对农业的贡献。
电子计算机的创始人之一冯·诺依曼曾指出:逗在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。地我们不必天天期盼奇迹出现,多做一些逗颇为朴实地的事情,实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例,对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露,所谓逗啤酒加尿布地的数据挖掘经典案例,其实是Teradata公司一位经理编出来的逗故事地,历史上并没有发生过[4]。即使有这个案例,也不说明大数据分析本身有什么神奇,大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是,关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值。
有一个家喻户晓的寓言可以从一个角度说明大数据的价值:一位老农民临终前告诉他的3个儿子,他在他家的地中埋藏了一罐金子,但没有讲埋在哪里。
他的儿子们把他家所有的地都深挖了一遍,没有挖到金子,但由于深挖了土地,从此庄稼收成特别好。数据收集、分析的能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,大数据的价值也已逐步体现。
3.2 大数据的力量来自逗大成智慧地
每一种数据来源都有一定的局限性和片面性,只有融合、集成各方面的原始数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体,但角度不同。对同一个问题,不同的数据能提供互补信息,可对问题有更深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。
数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的科学,类似钱学森先生提出的逗大成智慧学地[5]。钱老指出:逗必集大成,才能得智慧地。大数据能不能出智慧,关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调逗无缝智慧(seamless intelligence)地。发展大数据的目标就是要获得协同融合的逗无缝智慧地。单靠一种数据源,即使数据规模很大,也可能出现逗瞎子摸象地一样的片面性。数据的开放共享不是锦上添花的工作,而是决定大数据成败的必要前提。
大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路,重点不是支持单项技术和单个方法的发展,而是强调不同部门、不同学科的协作。数据科学不是垂直的逗烟囱地,而是像环境、能源科学一样的横向集成科学。
3.3 大数据远景灿烂,但近期不能期望太高
交流电问世时主要用作照明,根本想象不到今天无处不在的应用。大数据技术也一样,将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来,但近期要非常务实地工作。人们往往对近期的发展估计过高,而对长期的发展估计不足。Gartner公司预测,大数据技术要在5~10年后才会成为较普遍采用的主流技术,对发展大数据技术要有足够的耐心。
大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数发展的特点是,从一段历史时期衡量(至少30年),前期发展比较慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持逗指数性地增长,一般而言,高技术发展遵循Gartner公司描述的技术成熟度曲线(hype cycle),最后可能进入良性发展的稳定状态或者走向消亡。
需要采用大数据技术来解决的问题往往都是十分复杂的问题,比如社会计算、生命科学、脑科学等,这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化,才出现生物和人类,其复杂和巧妙堪称绝伦,不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来,大数据技术只是科学技术发展长河中的一朵浪花,对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。
4 从复杂性的角度看大数据研究和应用面临的挑战
大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代,新三论(耗散结构论、协同论、突变论)的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所,提出超越还原论的口号,在科技界掀起了一场复杂性科学运动。虽然雷声很大,但30年来并未取得预期的效果,其原因之一可能是当时还没有出现解决复杂性的技术。
集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养,从事数据科学研究的学者不但要了解20世纪的逗新三论地,可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识,扩大自己的视野,加深对大数据机理的理解。
大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。
4.1 数据复杂性引起的挑战
图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难,其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性。目前,人们对大数据背后的物理意义缺乏理解,对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解,领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标,需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观逗涌现地规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,从而简化大数据的表征,获取更好的知识抽象。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和计算复杂度之间的内在联系,奠定大数据计算的理论基础。
4.2 计算复杂性引起的挑战
大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂,价值密度分布极不均衡,这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂性的计算也难以实现,而且,由于数据分布的稀疏性,可能做了许多无效计算。
传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系,所谓具有多项式复杂性的算法是指当问题的规模增大时,计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是,针对给定规模的问题,如何逗算得快地。而在大数据应用中,尤其是流式计算中,往往对数据处理和分析的时间、空间有明确限制,比如网络服务如果回应时间超过几秒甚至几毫秒,就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下,如何逗算得多地。从逗算得快地到逗算得多地,考虑计算复杂性的思维逻辑有很大的转变。所谓逗算得多地并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。
基于大数据求解困难问题的一条思路是放弃通用解,针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题,但只要数据充分多,在限制条件下可以找到十分满意的解,近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量,需要研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论,研究适应大数据的非确定性算法等理论。
4.3 系统复杂性引起的挑战
大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率、能耗间的关系,还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点,需要研究大数据的分布式存储和处理架构。
大数据应用涉及几乎所有的领域,大数据的优势是能在长尾应用中发现稀疏而珍贵的价值,但一种优化的计算机系统结构很难适应各种不同的需求,碎片化的应用大大增加了信息系统的复杂性,像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场,这就是所谓逗昆虫纲悖论地[6]。为了化解计算机系统的复杂性,需要研究异构计算系统和可塑计算技术。
大数据应用中,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由逗大象搬木头地转变为逗蚂蚁搬大米地。
5 发展大数据应避免的误区
5.1 不要一味追求逗数据规模大地
大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。
一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。
发展大数据不能无止境地追求逗更大、更多、更快地,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的逗污染地和侵犯隐私等各种弊端。
5.2 不要逗技术驱动地,要逗应用为先地
新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继逗大数据地以后,逗认知计算地、逗可穿戴设备地、逗机器人地等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上逗技术驱动地的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持逗应用为先地的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。
5.3 不能抛弃逗小数据地方法
流行的逗大数据地定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是逗小数据地问题。我们应重视实际碰到的问题,不管是大数据还是小数据。
统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。
大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。
5.4 要高度关注构建大数据平台的成本
目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2 PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1 000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。
我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。
Ⅱ 大数据定义、思维方式及架构模式
大数据定义、思维方式及架构模式
一、大数据何以为大
数据现在是个热点词汇,关于有了大数据,如何发挥大数据的价值,议论纷纷,而笔者以为,似乎这有点搞错了原因与结果,就象关联关系,有A的时候,B与之关联,而有B的时候,A却未必关联,笔者还是从通常的4个V来描述一下我所认为的大数据思维。
1、大数据的量,数据量足够大,达到了统计性意义,才有价值。笔者看过的一个典型的案例就是,例如传统的,收集几千条数据,很难发现血缘关系对遗传病的影响,而一旦达到2万条以上,那么发现这种影响就会非常明显。那么对于我们在收集问题时,是为了发现隐藏的知识去收集数据,还是不管有没有价值地收集,这还是值得商榷的。其实收集数据,对于数据本身,还是可以划分出一些标准,确立出层级,结合需求、目标来收集,当然有人会说,这样的话,将会导致巨大的偏差,例如说丧失了数据的完整性,有一定的主观偏向,但是笔者以为,这样至少可以让收集到的数据的价值相对较高。
2、大数据的种类,也可以说成数据的维度,对于一个对象,采取标签化的方式,进行标记,针对需求进行种类的扩充,和数据的量一样,笔者认为同样是建议根据需求来确立,但是对于标签,有一个通常采取的策略,那就是推荐标签和自定义标签的问题,分类法其实是人类文明的一大创举,采取推荐标签的方式,可以大幅度降低标签的总量,而减少后期的规约工作,数据收集时扩充量、扩充维度,但是在数据进入应用状态时,我们是希望处理的是小数据、少维度,而通过这种推荐、可选择的方式,可以在标准化基础上的自定义,而不是毫无规则的扩展,甚至用户的自定义标签给予一定的限制,这样可以使维度的价值更为显现。
3、关于时效性,现在进入了读秒时代,那么在很短的时间进行问题分析、关联推荐、决策等等,需要的数据量和数据种类相比以前,往往更多,换个说法,因为现在时效性要求高了,所以处理数据的方式变了,以前可能多人处理,多次处理,现在必须变得单人处理、单次处理,那么相应的信息系统、工作方式、甚至企业的组织模式,管理绩效都需要改变,例如笔者曾经工作的企业,上了ERP系统,设计师意见很大,说一个典型案例,以往发一张变更单,发出去工作结束,而上了ERP系统以后,就必须为这张变更单设定物料代码,设置需要查询物料的存储,而这些是以前设计师不管的,又没有为设计师为这些增加的工作支付奖励,甚至因为物料的缺少而导致变更单不能发出,以至于设计师工作没有完成,导致被处罚。但是我们从把工作一次就做完,提升企业的工作效率角度,这样的设计变更与物料集成的方式显然是必须的。那么作为一个工作人员,如何让自己的工作更全面,更完整,避免王府,让整个企业工作更具有时间的竞争力,提高数据的数量、种类、处理能力是必须的。
4、关于大数据价值,一种说法是大数据有大价值,还有一种是相对于以往的结构化数据、少量数据,现在是大数据了,所以大数据的单位价值下降。笔者以为这两种说法都正确,这是一个从总体价值来看,一个从单元数据价值来看的问题。而笔者提出一个新的关于大数据价值的观点,那就是真正发挥大数据的价值的另外一个思路。这个思路就是针对企业的问题,首先要说什么是问题,笔者说的问题不是一般意义上的问题,因为一说问题,大家都以为不好、错误等等,而笔者的问题的定义是指状态与其期望状态的差异,包括三种模式,
1)通常意义的问题,例如失火了,必须立即扑救,其实这是三种模式中最少的一种;
2)希望保持状态,
3)期望的状态,这是比原来的状态高一个层级的。
我们针对问题,提出一系列解决方案,这些解决方案往往有多种,例如员工的培训,例如设备的改进,例如组织的方式的变化,当然解决方案包括信息化手段、大数据手段,我们一样需要权衡大数据的方法是不是一种相对较优的方法,如果是,那么用这种手段去解决,那么也就是有价值了。例如笔者知道的一个案例,一个企业某产品部件偶尔会出现问题,企业经历数次后决定针对设备上了一套工控系统,记录材料的温度,结果又一次出现问题时,进行分析认为,如果工人正常上班操作,不应该有这样的数据记录,而经过与值班工人的质询,值班工人承认其上晚班时睡觉,没有及时处理。再往后,同样的问题再没有再次发生。
总结起来,笔者以为大数据思维的核心还是要落实到价值上,面向问题,收集足够量的数据,足够维度的数据,达到具有统计学意义,也可以满足企业生产、客户需求、甚至竞争的时效要求,而不是一味为了大数据而大数据,这样才是一种务实、有效的正确思维方式,是一线大数据的有效的项目推进方式,在这样的思维模式基础上,采取滚雪球方式,把大数据逐步展开,才真正赢来大数据百花齐放的春天。
二、大数据思维方式
大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:
1)人们处理的数据从样本数据变成全部数据;
2)由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;
3)人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。
事实上,大数据时代带给人们的思维方式的深刻转变远不止上述三个方面。笔者认为,大数据思维最关键的转变在于从自然思维转向智能思维,使得大数据像具有生命力一样,获得类似于“人脑”的智能,甚至智慧。
1、总体思维
社会科学研究社会现象的总体特征,以往采样一直是主要数据获取手段,这是人类在无法获得总体数据信息条件下的无奈选择。在大数据时代,人们可以获得与分析更多的数据,甚至是与之相关的所有数据,而不再依赖于采样,从而可以带来更全面的认识,可以更清楚地发现样本无法揭示的细节信息。
正如舍恩伯格总结道:“我们总是习惯把统计抽样看作文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是,统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。
在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。”也就是说,在大数据时代,随着数据收集、存储、分析技术的突破性发展,我们可以更加方便、快捷、动态地获得研究对象有关的所有数据,而不再因诸多限制不得不采用样本研究方法,相应地,思维方式也应该从样本思维转向总体思维,从而能够更加全面、立体、系统地认识总体状况。
2、容错思维
在小数据时代,由于收集的样本信息量比较少,所以必须确保记录下来的数据尽量结构化、精确化,否则,分析得出的结论在推及总体上就会“南辕北辙”,因此,就必须十分注重精确思维。然而,在大数据时代,得益于大数据技术的突破,大量的非结构化、异构化的数据能够得到储存和分析,这一方面提升了我们从数据中获取知识和洞见的能力,另一方面也对传统的精确思维造成了挑战。
舍恩伯格指出,“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户”。也就是说,在大数据时代,思维方式要从精确思维转向容错思维,当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知识和洞察力。
3、相关思维
在小数据世界中,人们往往执着于现象背后的因果关系,试图通过有限样本数据来剖析其中的内在机理。小数据的另一个缺陷就是有限的样本数据无法反映出事物之间的普遍性的相关关系。而在大数据时代,人们可以通过大数据技术挖掘出事物之间隐蔽的相关关系,获得更多的认知与洞见,运用这些认知与洞见就可以帮助我们捕捉现在和预测未来,而建立在相关关系分析基础上的预测正是大数据的核心议题。
通过关注线性的相关关系,以及复杂的非线性相关关系,可以帮助人们看到很多以前不曾注意的联系,还可以掌握以前无法理解的复杂技术和社会动态,相关关系甚至可以超越因果关系,成为我们了解这个世界的更好视角。舍恩伯格指出,大数据的出现让人们放弃了对因果关系的渴求,转而关注相关关系,人们只需知道“是什么”,而不用知道“为什么”。我们不必非得知道事物或现象背后的复杂深层原因,而只需要通过大数据分析获知“是什么”就意义非凡,这会给我们提供非常新颖且有价值的观点、信息和知识。也就是说,在大数据时代,思维方式要从因果思维转向相关思维,努力颠覆千百年来人类形成的传统思维模式和固有偏见,才能更好地分享大数据带来的深刻洞见。
4、智能思维
不断提高机器的自动化、智能化水平始终是人类社会长期不懈努力的方向。计算机的出现极大地推动了自动控制、人工智能和机器学习等新技术的发展,“机器人”研发也取得了突飞猛进的成果并开始一定应用。应该说,自进入到信息社会以来,人类社会的自动化、智能化水平已得到明显提升,但始终面临瓶颈而无法取得突破性进展,机器的思维方式仍属于线性、简单、物理的自然思维,智能水平仍不尽如人意。
但是,大数据时代的到来,可以为提升机器智能带来契机,因为大数据将有效推进机器思维方式由自然思维转向智能思维,这才是大数据思维转变的关键所在、核心内容。众所周知,人脑之所以具有智能、智慧,就在于它能够对周遭的数据信息进行全面收集、逻辑判断和归纳总结,获得有关事物或现象的认识与见解。同样,在大数据时代,随着物联网、云计算、社会计算、可视技术等的突破发展,大数据系统也能够自动地搜索所有相关的数据信息,并进而类似“人脑”一样主动、立体、逻辑地分析数据、做出判断、提供洞见,那么,无疑也就具有了类似人类的智能思维能力和预测未来的能力。
“智能、智慧”是大数据时代的显著特征,大数据时代的思维方式也要求从自然思维转向智能思维,不断提升机器或系统的社会计算能力和智能化水平,从而获得具有洞察力和新价值的东西,甚至类似于人类的“智慧”。
舍恩伯格指出,“大数据开启了一个重大的时代转型。就像望远镜让我们感受宇宙,显微镜让我们能够观测到微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发”。
大数据时代将带来深刻的思维转变,大数据不仅将改变每个人的日常生活和工作方式,改变商业组织和社会组织的运行方式,而且将从根本上奠定国家和社会治理的基础数据,彻底改变长期以来国家与社会诸多领域存在的“不可治理”状况,使得国家和社会治理更加透明、有效和智慧。
Ⅲ 大数据的理想与现实之间
大数据的理想与现实之间
我与数据打了25年的交道,经历了从电信、网通到联通的多次重组,亲身参与了数据专业线从弱势群体逐渐发展壮大的全过程。一直想找个机会,谈谈我的体会,但是没有下这个决心动笔。最近,受范总原创《“一篇文看懂Hadoop”读后感》的鼓舞,想从数据工作实务的角度分享一下我的想法,就当抛砖引玉吧。
1. 关于数据中心的定位我们就按照论文里通常的套路开始吧。首先“什么是数据?”通俗的理解就是:如果把企业比作一个“生产线”,数据就是在这个“生产线”上各项活动所产生的,以各种形式存放在各个系统中或者其他载体上的信息,把这些信息按照一定的属性和规则进行分类加工就形成了数据,它反映着企业经营发展的状况,记录着企业用户的使用情况,还有产业链上各个参与者的状况。 受现代企业的部门设置、专业线管理架构的影响,企业完整的“生产线”被各部门分割,数据散落在由各部门管理的系统中,这就是大型企业通常的业务和数据管理的现状~~“职责分割、数据分散”。那么,如何反映企业整体的发展现状呢?通常是公司月度经营分析会上,财务部门的分析报告中,汇报公司的总体情况,而市场、集团客户等部门的报告分别汇报本专业条线的经营情况。曾经出现的情况就是财务部门汇报公司总体利润下降,而各业务部门纷纷完成任务形势一片大好的反差。老板心里纳闷~~“你们都完成了任务,敢情就我没完成任务?”联通重组以来,顶着来自省里还有其他专业的压力,一直在推行数据的集中。信息化部把各省、各系统中的数以亿计的用户明细数据在集团层面进行了集中存储,并经过统一的规则加工数据,再加上后来的分析应用,不仅使每个月统计的用户发展数据更加真实了,还发现地市层面违规经营、业绩造假的行为。集团董事长召开全国地市级工作会议,点名批评、撤换了几个地市老总。当时,地市老总还在云里雾里~~“我都没有这么详细的数据,董事长怎么知道的?”这就是数据在打破部门和省分之间的壁垒,使领导层能纵观企业真实情况,“知其然,知其所以然”方面发挥的至关重要的作用。近两年来,联通通过与外部公司的合作,使用脱敏的用户标签数据为企业创造了真金白银的实际价值,“数据”的应用价值日益突出,真正成为企业的又一宝贵资源。而之前,企业内部并没有这么一个专门的部门是站在全局的角度,承担起“数据资源”管理者的角色的,这就是成立“数据中心”的初衷,也是其定位和义不容辞的责任。联通数据中心的成立,是“数据线”这个弱势专业有史以来摆脱依附关系成为独立二级部门的第一次,也是对于联通信息化部门实践数据集中整合、应用,支撑公司管理方面取得成果的高度肯定。说起这个,数据线工作的人都会有深深的共鸣,这里面有多少苦衷啊。2. 主动还是被动?都是“支撑”惹的祸“数据中心”脱身于信息化部门,而信息化部门的基本定位就是“支撑”,就是要“有求必应”。我们熟悉的场景是每个月的那么几天,业务部门的人员为了写分析报告,需要些报表以外的数据进行分析,给数据部门打电话,然后心急火燎地等待他们提供的数据结果。另一场景,数据部门的人员被各部门各种的数据需求折腾得团团转,为了提供数据,加班到天亮。曾经有负责数据服务的处室,在总结年度工作时用到的数据是“提供报表上万张”。经分系统在用户的坚持下,开发了大量内容相近、格式不同的报表。一方面是用户层出不穷的需求无法满足,另一面却是系统里大量的报表没有人访问。因为用户无法自己获取数据,日常数据服务工作显得相当被动。其实从内容上看,一个企业的数据是唯一的,只是各部门因为关注的角度不同,提出了不同的展现要求,实际上在数据层面有较高的重叠性。如果想要在减少需求量的同时,提高用户满意度,就需要数据管理部门的人员具备高度的综合能力,这个人不仅要熟悉公司的业务、流程、部门的职责分工,还要有很好的沟通能力,能够正确理解、综合、引导用户的需求,然后在总体框架下将整合后的、被验证过的需求在系统中固化。如果能力强,从个人层面,还是可以主动地做一些事情的。但是,要想改变数据工作的被动局面,就需要数据管理部门不再局限于“支撑”的角色,而是应该站在”数据资源管理者”的角度,主动地从数据、应用、管控、系统四个方面,形成一个体系化的数据管理架构,并指导日常工作和系统建设。 上图是2009年联通开展的数据管理体系研究工作的成果,是对数据工作的一次很好的总结和提升。它是数据管理体系L0架构,揭示了数据管理工作的组成部分以及各个部分之间的关系。与其他专业线不同,数据专业的管理核心是”数据”,数据质量、生命周期和安全管理都是核心的管控内容,而组织(人员、制度)和系统是数据产生价值的基本保障。数据、应用、管控、系统四个方面的内容缺一不可,同时又存在相互关联、不断优化的过程(流程),绝对不是建几个系统那么简单,这也是数据专业管理的难度所在。 上面这张图就是对数据工作的流程很好的诠释,数据部门要想扭转被动的局面,首先必须有自己完整的架构(数据、应用、系统、流程、管理制度)。而这一架构的形成,是需要通过以下4个步骤:正确评估自身能力现状;找到公司业务战略、目标对数据专业的期望和差距;有选择性地确定数据工作的战略目标和阶段性计划后组织实施的;在完成阶段性计划之后,还需要评估能力提升的结果,以便对现状形成新的评价,循序渐进,有效积累。信息化的同事对于数据、应用、系统这三项内容都容易理解,但是,对于制度和流程就不太容易理解了。制度就是游戏规则,规定了该谁做,做什么,怎么做,做到什么程度。流程则是为了明确一件工作的步骤和涉及的部门之间的关系。目前流程的缺失带来太多的问题,常见的场景就是一项业务已经下线了,我们的系统中还在展示;新的业务已经为公司创造价值了,其收入还没有在财务报表中单独体现,不能及时反映这项业务的发展状况;系统中数据和报表功能已经具备了,业务部门还在要求数据部门人工提供数据,用户的需求无法及时传递到建设环节。
解决这些问题的根本就是必须形成闭环的数据工作流程,在数据生产、服务、建设、维护内部各个环节的有效沟通的同时,加入到公司运营、网络、管理的前端环节,第一时间参与产品策划、基建计划、科目调整等前期工作,才能确保数据工作的有效积累和正常运转。
3、谁在用数据?他的核心需求是什么?在清楚了定位和工作内容之后,首先要明确的就是工作目标,而目标的确定就需要了解数据的使用者是谁,他们的核心需求是什么。那么,谁是数据的需求方呢?站在企业经营的角度看,通常把数据需求分为:内部需求和外部需求。具体包括:(1)内部需求是数据服务于企业管理的职责所在。从管理层级上看,包括集团及分子公司、省级分公司;从管理职责上分就是公司管理层、职能部门、基层操作人员。管理层的诉求就是通过数据掌握公司运营的整体情况,知道“发生了什么?什么是主要原因?我应该去找谁?”你给我10个指标都多,因为这10个指标也许是反方向变化的,我要自己判断哪个是核心指标。管理层需要的是“简洁但不简单”,这个要求也是最高的。“如何让领导的桌面变得简洁?”如果这样的问题你没有想过,领导层对你的工作就很难满意。满足领导层需求的最好办法就是提供综合指数,就像是温度计,或者上证指数,一个指标就能纵览全局。而这一个指数背后是高度综合的评价体系,需要专门的研究与大量的实践检验。 (上图为DW1.0设计的领导首页UI规范,这是一个工作台,包括:问题发现、任务指派和问题反馈三个功能。中间是对目前公司当月总体情况的评价结果,雷达图中显示综合评价指标池中业务发展、财务状况、企业运营、创新能力四类指标值与目标值的差距,并支持预警提示和问题的下钻探索。页面下方,是热点信息和信息反馈的连接,支持领导任务指派和问题反馈。)职能部门是我们打交道最多的,他们的诉求就是获取本专业的数据支持日常管理。应用最多的就是每月的经营分析,有的部门使用的是自己的报表体系,有的部门基本靠数据部门支撑,有的部门基本没有什么可用的数据,有的部门干脆重新建立了自己的系统进行模型沉淀。从数据的应用层次看,我们能够提供给职能部门使用的还停留在数据的粗加工层面。“哪个是我们最赚钱的产品?哪些是我们含金量最高的用户?我们应该采用什么样的策略?我们采取的措施收效如何?”太多的问题需要用数据来回答。现在是离开数据部门的后台提数,职能部门的人自己基本拿不到数据,做不了事情。什么时候他们能自己取数自己分析,什么时候职能部门的用户满意度就能提升了。基层操作人员是与用户最接近的环节,他们能够用到的数据确实非常少。近年来的激发基层单元活力的工作,对数据服务于基层提出了更多的要求。但是,一个基于产品线的用户级粒度的收入数据,与一个基于管理主体的成本数据,怎么能够支撑一线人员的资源配置和绩效管理?数据层面为基层人员做的还非常少。最后为我们的用户说几句吧,如果我是一个世界500强的用户,第一次走进联通的营业厅办业务,联通能不能第一时间给我提供大客户级的服务而不要等我给联通创造了多少收入之后才发现我的价值?如果我使用了联通10年以上的宽带业务,联通能不能辨识出我的价值,给我提供VIP级的一体化服务?联通能不能通过我喜欢的方式、在我方便的时间、通过更加便捷的手段,推荐给我贴心的服务,而不是关注于挖掘我的隐私?以上用户的诉求,背后都是大量的数据作为支撑的。公司经营策略中说了多少年的“以客户为中心”,但是从数据指标体系上看,仍然是“以产品为中心”。数据层面确实应该为我们的用户做点什么了。 上面这张图,帮助我们换个角度去思考我们的工作目标,我们应该站在数据的使用者的角度,考虑应该做什么,能做什么,做了些什么,形成我们的工作目标。不能再固守传统的工作模式,数据工作需要总结和创新。(2)外部需求是数据服务于社会,为企业创造价值的体现。近年来,由于联通数据集中的优势,与招商、蚂蚁金服多家企业进行合作,开拓了手机终端、用户信用指数等多项应用,为企业创造了新的收入来源。(我不了解的工作,没有发言权)“去年9月国务院印发《促进大数据发展行动纲要》称,国家政府数据统一开放平台将在2018年底前建成,率先在气象、环境、信用、交通、医疗、卫生等20余项重要领域,实现公共数据资源合理适度向社会开放。”“在政府和市场的双重催动下,那些原本封存在服务器里的陈年数据,成为一座座蕴藏丰富的“金矿”,兴奋的企业和研究人员一边着手搜寻数据,一边将有价值数据按需筛选出来重构。然而,能真正做深度挖掘的企业并不多,这一领域正在等待着“杀手级”应用的出现,助推金融、医疗健康、零售业、制造业等各行业产生根本性的变革。”~《大数据的痛点》联通正经历着和社会上其他领域一样的探索过程,首先是完成了自身数据的集中整合,接下来就是考虑外部数据整合和应用的事情。对于联通而言,外部用户包括:政府主管部门、资本市场监管和审计机构,有意向的合作伙伴。对外服务合作,特别是收费服务,产品化的要求也就更高。另外,作为一个国企有它必须承担的社会责任,联通的大数据应用也许能够在治理交通拥堵、解决看病难等社会问题、提升居民幸福指数方面发挥点儿自己的作用。各行业的大数据都有同样的感觉,目前缺少“杀手级”的应用。个人认为,“杀手级”应用首先应该是基于大数据的分析预测能力与个性化需求相结合的结果,比如:高德导航提供每条路的拥堵峰值的预测,用户输入出行计划时,就可以预测到一天甚至一周分时段的拥堵情况,选择出行时间,而不是已经在路上了,再纠结于选择哪条路。再比如,最近微信发布的电子发票功能,在为用户解决实际问题,提高效率的同时,撬动企业级的应用,从个人应用深入到企业内部,让银行进一步感觉无力。另外,最近很高兴地收到了高德地图推出的早高峰的预警信息。我想无论怎样的应用,都要站在亲身体验的角度,问问自己需要的是什么,再用负责任和踏实的态度,沉下心来把问题解决到最好,就不会被评价成“简单粗暴”了。4、什么东西需要系统来实现?~~复制、流程、积累,归根到底还是积累最近接连几次有其他部门的朋友跟我抱怨,现在提一张报表的需求需要很长的时间,跟新的同事沟通多次根本不知道我们想要什么,真是无语。这样的事情已经是人员变动之后的常态了。小的事情看,无论是市场部的分析人员、信息化部的需求管理人员、厂商的开发人员,换了人,就会出现一段时间“归零”的状况。大的事情看,人换了,之前的工作没有积累,后来的人根本不明白之前工作做到什么程度了,这项工作似乎也“归零”了。另一个场景,每个月市场部分析人员获取数据编写分析报告,经营分析会开过之后,就“尘埃落定”了。数据部门加班为市场部人员提供的数据及材料,每年都花费了大量的费用。而这些支出到底创造了什么价值?是不是就是为了领导听起汇报来赏心悦目?我们真的需要坐下来好好想想了。曾经见过一个市场部的同事,使用Excel做了一个很复杂的模板,就为了把每月的数据汇总成逐月的数据,然后计算同比、环比、构成、绘制趋势图,而这些东西,用技术手段很容易实现的。为什么他们不把这个模板变成系统能力,让系统帮他?之前曾经有技术弟跟我说,现在懂业务的人才是最有价值的,没有技术实现不了的事儿,主要是要知道用技术做什么。再好的技术也要想好了要做什么,能做什么。个人认为,系统要做的事情就是复制、流程和积累,人都没有解决的问题,系统也不可能替你解决。如果你已经拥有成熟的模板,系统就可以把它复制用于各月、全国,在提高效率的同时,避免了人为操作的错误。如果你制定了完善的闭环流程,系统就能帮助你严格地执行。但是,最最有价值的还是积累,不仅数据应用、流程的积累,还有固化在系统中的“知识”的积累。它帮助后来的人熟悉数据,也不会因为人员的变动让工作归零。“积累”,是需要时时刻刻想到的事儿。 上面这张图,从大数据应用价值、系统能力层次的角度显示了能力积累的层级,也帮助我们很快地定位到我们目前能够达到的层级,清楚自己努力的目标。我们是在满足于提供数据粗加工的原材料,还是已经嵌入到企业的生产环节中,形成了商业合作模式?5、数据专业发展的关键是什么?~~人,还是人。从2008年联通公司重组到2012年数据中心成立,经过了4年的时间,期间多少艰辛不用多说。(此处略去301个字。)做什么事儿也离不开人,特别是数据专业,需要一批懂数据、用数据、踏实肯干、耐得住寂寞的人,团队才是最宝贵的资源。而人才队伍的建设必须具备的条件包括:(1)支持优胜劣汰的干部任免制度;(2)支持留住最优质的员工薪酬体系;(3)帮助员工快速成长的有效的培训交流、知识积累机制;(4)支持我们拥有竞争力的自主开发团队的薪酬体系;(5)支持我们选择最优质的合作伙伴的招标流程;(6)合作伙伴意识到自身的不足,专心积累,认真做事,和我们一起成长。6、总结最后,按照“自己的事儿、别人的事儿、老天爷的事儿”的分类方法,说说我们能做点儿什么“自己的事儿”吧:(1)首先要有稳定的数据管理架构,包括了数据、应用、系统、制度。这样的架构与公司战略目标相结合,形成演进路线和年度工作目标,通过年度目标的达成,循序渐进地逐步实现。数据管理架构需要在数据中心内部(集团、省级分公司),以及公司管理层、信息化部内部、其他业务部门之间达成共识,并坚定地、不打折扣地一起去推进实施。(2)明确岗位职责和分工界面(集团、省级分公司),并保持相对稳定,避免“临时的因事儿设岗”。定期组织员工培训、沟通,做好知识传递、信息共享,年度工作目标在员工层面达成共识,使新来的员工尽快进入新角色。通过专题研究组的形式邀请省公司参与数据的能力建设,调动省公司层面的积极性,养成数据中心人人“看数据、用数据”、“发现问题、解决问题”的良好习惯,做好自我完善、形成有效积累,形成“成长型”数据专业团队。(3)建立定期的用户(数据服务对象)沟通制度,主动介绍我们的数据架构和系统能力的提升情况,职责分工及年度工作目标,在用户层面达成共识。引导用户更多地使用系统能力并从中获益,让用户真实地感受到效率的提升,并愿意和我们一起来积累。(4)多方位整合身边资源,在完善自身能力、提高方法论、产品化水平等方面与合作伙伴达成共识,共同进步。引进咨询机构及高校专业人士参与开展综合指数、客户指标体系等多项专题研究,提升数据产品化和创新能力。(5)建立一个闭环的工作流程,使相对后端的数据流程参与到企业运营的前端流程中,以便及时反映企业的经营的变化,定期更新指标体系、报表架构及相关应用,避免前后脱节的问题,有效实施数据及应用的生命周期管理。说了这么多,一方面是因为这些年积攒的心里话不吐不快,另一方面想着这个专业能抓住机会,取得更好的发展成果。想起某位领导多少年前说的那句话~~“有为才有位”。乘着大数据的东风,我们的队伍已经再次壮大,但是,“理想很丰满,现实很骨感”,我们更应该意识到差距和肩上的责任,切忌浮躁,要脚踏实地。希望新来的同事们尽快适应,进入角色吧。
Ⅳ 大数据发展方向在于用户的需求和期望
大数据发展方向在于用户的需求和期望
大数据技术的主要任务是从内部和外部数据源中找出所需的数据,并对这些数据进行高效快捷的评估,最终提供决策支撑。全球对大数据技术和服务的投资在增长,目前,大数据在美国最为发达,包括德国在内的欧洲地区在这一领域稍显落后。不过,现在业内人士已经注意到了这一趋势,各个企业中的IT部门正在感受到发展的压力。
期望和前提
数据评估和报告在大多数企业中早已不是新鲜事物,只是如今旧的数据评估和报告工具已经无法满足新的需求:现在的专业人士要求尽量实现数据实时分析,目前的基础设施、数据结构、解决工具以及商业模式根本无法保质保量地完成这个要求。企业现在面临两个选择:对现有技术进行扩展,或者实现技术升级。大数据技术就是比较理想的新技术。
讨论热点
过去几年,大数据讨论中比较热的话题是技术问题和数据组织问题。经过几年的发展,人们对这些问题的理解有了深入发展,又开启了新的讨论话题。现在,专业人士讨论的焦点问题是工作量优化,未来关于工作量和新的商业模式的讨论还会更多。2011年和2012年大数据的项目比较少,主要以测试安装为主。预测,今年和明年这一领域会出现大幅增长。对于企业来说,大数据技术既是挑战,也是机遇。
战略和解决方案
所以,大数据势必成为ICT(,信息通信技术)战略的一部分。数据访问和融合也变得越来越重要。2013年和2014年人们关注的热点将从技术转移到信息查找和知识获取。“软件定义”(Softwaredefined)、融合技术、开源软件及平台是大数据基础设施建设中最核心的问题。其中,开源软件与平台还需要经过一个商业适应的过程。许多企业把投资重点放在机器生成数据的实时分析上,因为这可以加快企业的发展。终端用户希望解决方案可以简单易操作。要实现应用程序和移动解决方案的可视化和直观互动,就要实现大数据的“消费化”.因此,由于缺乏大数据分析的方法和技术,许多企业将使用“现成的”解决方案。
市场透明度还不够
企业还有许多待解答的问题。对于许多IT负责人来说,可衡量的商业收益、数据安全、数据法律以及可使用数据的准确定义这些问题都不够透明。对于企业来说,数据正在加速成为运作资源和生产要素。要实现从技术到信息和知识获取的转变、使用开放源、进行实时分析,企业就要对技能、解决方案和服务投资。许多企业对这一领域了解不多,需要有人为他们解释技术、组织、法律以及文化方面的问题。
总的来说,企业在获取大数据技术和分析方面的信息以及咨询需求都非常大。对于这一领域的ICT供应商和服务商来说,这是一个绝好的发展壮大的机会。要制定正确的市场营销策略,获得漂亮的销售成绩,关键就在于了解用户环境中IT和商业决策者的要求和期望。
Ⅳ 现在大数据的发展趋势
主要有几点发展趋势:
一是流式架构的更替,最早大数据生态没有办法统一批处理和流计算,只能采用Lambda架构,批的任务用批计算引擎,流式任务采用流计算引擎,比如批处理采用MapRece,流计算采用Storm。后来Spark试图从批的角度统一流处理和批处理,近年来纯流架构的Flink异军突起,由于其架构设计合理,生态健康,近年来发展特别快。
二是大数据技术的云化,一方面是公有云业务的成熟,众多大数据技术都被搬到了云上,其运维方式和运行环境都发生了较大变化,带来计算和存储资源更加的弹性变化,另一方面,私有部署的大数据技术也逐渐采用容器、虚拟化等技术,期望更加精细化地利用计算资源。
三是异构计算的需求,近年来在通用CPU之外,GPU、FPGA、ASIC等芯片发展迅猛,不同芯片擅长不同的计算任务,大数据技术开始尝试根据不同任务来调用不同的芯片,提升数据处理的效率。
四是兼容智能类的应用,随着深度学习的崛起,AI类的应用越来越广泛,大数据的技术栈在努力兼容AI的能力,通过一站式的能力来做数据分析和AI应用,这样开发者就能在一个工具站中编写SQL任务,调用机器学习和深度学习的算法来训练模型,完成各类数据分析的任务。
Ⅵ 当下大数据发展的 8 个要点
作者 | 章剑锋
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapRece Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做数据可视化,用 R 做数据分析)。今天我想借此机会和大家聊聊我所理解的大数据现状和未来。
首先让我们来聊聊什么是大数据。大数据这个概念已经出来很多年了(超过10年),但一直没有一个准确的定义(也许也并不需要)。数据工程师(DataEngineer)对大数据的理解会更多从技术和系统的角度去理解,而数据分析人员(Data Analyst)对大数据理解会从产品的角度去理解,所以数据工程师(Data Engineer) 和数据分析人员(Data Analyst)所理解的大数据肯定是有差异的。我所理解的大数据是这样的,大数据不是单一的一种技术或者产品,它是所有与数据相关的综合学科。看大数据我会从 2 个维度来看,一个是数据流的维度(下图的水平轴),另外一个是技术栈的维度(下图的纵轴)。
其实我一直不太喜欢张口闭口讲“大数据”,我更喜欢说“数据”。因为大数据的本质在于“数据”,而不是“大”。由于媒体一直重点宣扬大数据的“大”,所以有时候我们往往会忽然大数据的本质在“数据”,而不是“大”,“大”只是你看到的表相,本质还是数据自身。
在我们讲清楚大数据的含义之后,我们来聊聊大数据目前到底处在一个什么样的位置。从历史发展的角度来看,每一项新技术都会经历下面这样一个技术成熟度曲线。
当一项新技术刚出来的时候人们会非常乐观,常常以为这项技术会给人类带来巨大的变革,对此持有过高的期望,所以这项技术一开始会以非常快的速度受到大家追捧,然后到达一个顶峰,之后人们开始认识到这项新技术并没有当初预想的那么具有革命性,然后会过于悲观,之后就会经历泡沫阶段。等沉寂一定阶段之后,人们开始回归理性,正视这项技术的价值,然后开始正确的应用这项技术,从此这项技术开始走向稳步向前发展的道路。(题外话,笔者在看这幅图的时候也联想到了一个男人对婚姻看法的曲线图,大家自己脑补)。
1、从大数据的历史来看,大数据已经经历了 2 个重要阶段
两个重要阶段是指过高期望的峰值和泡沫化的底谷期 。现在正处于稳步向前发展的阶段。我们可以从 googletrend 上 big data 的曲线就能印证。大数据大约从 2009 年开始走向人们的视野,在 2015 年左右走向了顶峰,然后慢慢走向下降通道(当然这张曲线并不会和上面这张技术成熟度曲线完全拟合,比如技术曲线处在下降通道有可能会使讨论这项技术的搜索量增加)。
接下来我想讲一下我对大数据领域未来趋势的几个判断。
2、数据规模会继续扩大,大数据将继续发扬光
前面已经提到过,大数据已经度过了过高期望的峰值和泡沫化的底谷期,现在正在稳步向前发展。做这样判断主要有以下 2 个原因:
上游数据规模会继续增长,特别是由于 IOT 技术的发展和成熟,以及未来 5G 技术的铺开。在可预测的未来,数据规模仍将继续快速增长,这是能够带动大数据持续稳定向前发展的基本动力。 下游数据产业还有很多发展的空间,还有很多数据的价值我们没有挖掘出来。虽然现在人工智能,区块链抢去了大数据的风口位置,也许大数据成不了未来的主角,但大数据也绝对不是跑龙套的,大数据仍将扮演一个重要而基础的角色。可以这么说,只要有数据在,大数据就永远不会过时。我想在大部分人的有生之年,我们都会见证大数据的持续向上发展。
3、数据的实时性需求将更加突出
之前大数据遇到的最大挑战在于数据规模大(所以大家会称之为“大数据”),经过工业界多年的努力和实践,规模大这个问题基本已经解决了。接下来几年,更大的挑战在于速度,也就是实时性。而大数据的实时性并不是指简单的传输数据或者处理数据的实时性,而是从端到端的实时,任何一个步骤速度慢了,就影响整个大数据系统的实时性。所以大数据的实时性,包括以下几个方面:
快速获取和传输数据 快速计算处理数据 实时可视化数据 在线机器学习,实时更新机器学习模型目前以 Kafka,Flink 为代表的流处理计算引擎已经为实时计算提供了坚实的底层技术支持,相信未来在实时可视化数据以及在线机器学习方面会有更多优秀的产品涌现出来。当大数据的实时性增强之后,在数据消费端会产生更多有价值的数据,从而形成一个更高效的数据闭环,促进整个数据流的良性发展。
4、大数据基础设施往云上迁移势不可挡
目前IT基础设施往云上迁移不再是一个大家还需要争论的问题,这是大势所趋。当然我这边说的云并不单单指公有云,也包括私有云,混合云。因为由于每个企业的业务属性不同,对数据安全性的要求不同,不可能把所有的大数据设施都部署在公有云上,但向云上迁移这是一个未来注定的选择。目前各大云厂商都提供了各种各样的大数据产品以满足各种用户需求,包括平台型(PAAS) 的 EMR ,服务型 (SAAS) 的数据可视化产品等等。大数据基础设施的云化对大数据技术和产品产生也有相应的影响。大数据领域的框架和产品将更加 Cloud Native 。
计算和存储的分离。我们知道每个公有云都有自己对应的分布式存储,比如 AWS 的 S3 。 S3 在一些场合可以替换我们所熟知的 HDFS ,而且成本更低。而 S3 的物理存储并不是在 EC2 上面,对 EC2 来说, S3 是 remote storage 。所以如果你要是 AWS 上面做大数据开发和应用,而且你的数据是在 S3 上,那么你就自然而然用到了计算和存储的分离。 拥抱容器,与 Kubernate 的整合大势所趋,我们知道在云环境中 Kuberneate 基本上已经是容器资源调度的标准。 更具有弹性(Elastic)。 与云上其他产品和服务整合更加紧密。5、大数据产品全链路化
全链路化是指提供端到端的全链路解决方案,而不是简单的堆积一些大数据产品组件。以 Hadoop 为代表的大数据产品一直被人诟病的主要问题就是用户使用门槛过高,二次开发成本太高。全链路化就是为了解决这一问题,用户需要的并不是 Hadoop,Spark,Flink 等这些技术,而是要以这些技术为基础的能解决业务问题的产品。 Cloudera 的从 Edge 到 AI 是我比较认同的方案。大数据的价值并不是数据本身,而是数据背后所隐藏的对业务有影响的信息和知识。下面是一张摘自 wikipedia 的经典数据金字塔的图。
大数据技术就是对最原始的数据进行不断处理加工提炼,金字塔每上去一层,对应的数据量会越小,同时对业务的影响价值会更大更快。而要从数据(Data) 最终提炼出智慧(Wisdom),数据要经过一条很长的数据流链路,没有一套完整的系统保证整条链路的高效运转是很难保证最终从数据中提炼出来有价值的东西的,所以大数据未来产品全链路化是另外一个大的趋势。
6、大数据技术往下游数据消费和应用端转移
上面讲到了大数据的全链路发展趋势,那么这条长长的数据链路目前的状况是如何,未来又会有什么样的趋势呢?
我的判断是未来大数据技术的创新和发力会更多的转移到下游数据消费和应用端。之前十多年大数据的发展主要集中在底层的框架,比如最开始引领大数据风潮的 Hadoop ,后来的计算引擎佼佼者 Spark,Flink 以及消息中间件 Kafka ,资源调度器 Kubernetes 等等,每个细分领域都涌现出了一系列优秀的产品。总的来说,在底层技术框架这块,大数据领域已经基本打好了基础,接下来要做的是如何利用这些技术为企业提供最佳用户体验的产品,以解决用户的实际业务问题,或者说未来大数据的侧重点将从底层走向上层。之前的大数据创新更偏向于 IAAS 和 PAAS ,未来你将看到更多 SAAS 类型的大数据产品和创新。从近期一些国外厂商的收购案例,我们可以略微看出一些端倪。1、2019 年 6 月 7 日,谷歌宣布以 26 亿美元收购了数据分析公司 Looker,并将该公司并入 Google Cloud。2、2019 年 6 月 10 日,Salesforce 宣布以 157 亿美元的全股票交易收购 Tableau ,旨在夯实在数据可视化以及帮助企业解读所使用和所积累的海量数据的其他工具方面的工作。3、2019 年 9 月初,Cloudera 宣布收购 Arcadia Data 。 Arcadia Data 是一家云原生 AI 驱动的商业智能实时分析厂商。面对最终用户的大数据产品将是未来大数据竞争的重点,我相信会未来大数据领域的创新也将来源于此,未来 5 年内大概率至少还会再出一个类似 Looker 这样的公司,但是很难再出一个类似 Spark 的计算引擎。
7、底层技术的集中化和上层应用的全面开花
学习过大数据的人都会感叹大数据领域的东西真是多,特别是底层技术,感觉学都学不来。经过多年的厮杀和竞争,很多优秀的产品已经脱颖而出,也有很多产品慢慢走向消亡。比如批处理领域的 Spark 引擎基本上已经成为批处理领域的佼佼者,传统的 MapRece 除了一些旧有的系统,基本不太可能会开发新的 MapRece 应用。 Flink 也基本上成为低延迟流处理领域的不二选择,原有的 Storm 系统也开始慢慢退出历史舞台。同样 Kafka 也在消息中间件领域基本上占据了垄断地位。未来的底层大数据生态圈中将不再有那么多的新的技术和框架,每个细分领域都将优胜劣汰,走向成熟,更加集中化。未来更大的创新将更多来来自上层应用或者全链路的整合方面。在大数据的上层应用方面未来将会迎来有更多的创新和发展,比如基于大数据上的BI产品, AI 产品等等,某个垂直领域的大数据应用等等,我相信未来我们会看到更多这方面的创新和发展。
8、开源闭源并驾齐驱
大数据领域并不是只有 Hadoop,Spark,Flink 等这类大家耳熟能详的开源产品,还有很多优秀的闭源产品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。这些产品虽然没有开源产品那么受开发者欢迎,但是他们对于很多非互联网企业来说是非常受欢迎的。因为对于一个企业来说,采用哪种大数据产品有很多因素需要考虑,否开源并不是唯一标准。产品是否稳定,是否有商业公司支持,是否足够安全,是否能和现有系统整合等等往往是某些企业更需要考虑的东西,而闭源产品往往在这类企业级产品特性上具有优势。
最近几年开源产品受公有云的影响非常大,公有云可以无偿享受开源的成果,抢走了开源产品背后的商业公司很多市场份额,所以最近很多开源产品背后的商业公司开始改变策略,有些甚至修改了 Licence 。不过我觉得公有云厂商不会杀死那些开源产品背后的商业公司,否则就是杀鸡取卵,杀死开源产品背后的商业公司,其实就是杀死开源产品的最大技术创新者,也就是杀死开源产品本身。我相信开源界和公有云厂商最终会取得一个平衡,开源仍然会是一个主流,仍然会是创新的主力,一些优秀的闭源产品同样也会占据一定的市场空间。
最后我想再次总结下本文的几个要点:
1、目前大数据已经度过了最火的峰值期和泡沫化的底谷期,现在正处于稳步向前发展的阶段。2、数据规模会继续扩大,大数据将继续发扬光大3、 数据的实时性需求将更加突出4、大数据基础设施往云上迁移势不可挡5、大数据产品全链路化6、大数据技术往下游数据消费和应用端转移7、底层技术的集中化和上层应用的全面开花8、开源闭源并驾齐驱
Ⅶ 大数据的生命周期的九个阶段
大数据的生命周期的九个阶段
企业建立大数据的生命周期应该包括这些部分:大数据组织、评估现状、制定大数据战略、数据定义、数据收集、数据分析、数据治理、持续改进。
一、大数据的组织
没有人,一切都是妄谈。大数据生命周期的第一步应该是建立一个专门预算和独立KPI的“大数据规划、建设和运营组织”。包括高层的首席数据官,作为sponsor,然后是公司数据管理委员会或大数据执行筹划指导委员会,再往下就是大数据的项目组或大数据项目组的前身:大数据项目预研究团队或大数据项目筹备组。这个团队是今后大数据战略的制定和实施者的中坚力量。由于人数众多,建议引入RACI模型来明确所有人的角色和职责。
二、大数据的现状评估和差距分析
定战略之前,先要做现状评估,评估前的调研包括三个方面:一是对外调研:了解业界大数据有哪些最新的发展,行业顶尖企业的大数据应用水平如何?行业的平均尤其是主要竞争对手的大数据应用水准如何?二是对内客户调研。管理层、业务部门、IT部门自身、我们的最终用户,对我们的大数据业务有何期望?三是自身状况摸底,了解自己的技术、人员储备情况。最后对标,作差距分析,找出gap。
找出gap后,要给出成熟度现状评估。一般而言,一个公司的大数据应用成熟度可以划分为四个阶段:初始期(仅有概念,没有实践);探索期(已经了解基本概念,也有专人进行了探索和探讨,有了基本的大数据技术储备);发展期(已经拥有或正在建设明确的战略、团队、工具、流程,交付了初步的成果);成熟期(有了稳定且不断成熟的战略、团队、工具、流程,不断交付高质量成果)。
三、大数据的战略
有了大数据组织、知道了本公司大数据现状、差距和需求,我们就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和核心,它将成为整个组织大数据发展的指引。
大数据战略的内容,没有统一的模板,但有一些基本的要求:
1. 要简洁,又要能涵盖公司内外干系人的需求。
2. 要明确,以便清晰地告诉所有人我们的目标和愿景是什么。
3. 要现实,这个目标经过努力是能达成的。
四、大数据的定义
我认为:“数据不去定义它,你就无法采集它;无法采集它,你就无法分析它;无法分析它,你就无法衡量它;无法衡量它,你就无法控制它;无法控制它,你就无法管理它;无法管理它,你就无法利用它”。所以“在需求和战略明确之后,数据定义就是一切数据管理的前提”。
五、 数据采集
1. 大数据时代的数据源很广泛,它们可能来自于三个主要方面:现有公司内部网各应用系统产生的数据(比如办公、经营生产数据),也有来自公司外互联网的数据(比如社交网络数据)和物联网等。
2.大数据种类很多,总的来讲可以分为:传统的结构化数据,大量的非结构化数据(比如音视频等)。
3. 数据采集、挖掘工具很多。可以基于或集成hadoop的ETL平台、以交互式探索及数据挖掘为代表的数据价值发掘类工具渐成趋势。
4. 数据采集的原则:在数据源广泛、数据量巨大、采集挖掘工具众多的背景下,大数据决策者必须清楚地确定数据采集的原则:“能够采集到的数据,并不意味着值得或需要去采集它。需要采集的数据和能够采集到的数据的"交集",才是我们确定要去采集的数据。”
六、数据处理和分析
业界有很多工具能帮助企业构建一个集成的“数据处理和分析平台”。对企业大数据管理者、规划者来讲,关键是“工具要满足平台要求,平台要满足业务需求,而不是业务要去适应平台要求,平台要去适应厂商的工具要求”。那么这个集成的平台应该有怎样的能力构成呢?它应该能检索、分类、关联、推送和方便地实施元数据管理等。见下图:
七、 数据呈现
大数据管理的价值,最终要通过多种形式的数据呈现,来帮助管理层和业务部门进行商业决策。大数据的决策者需要将大数据的系统与BI(商业智能)系统和KM(知识管理)系统集成。下图就是大数据的各种呈现形式。
八、 审计、治理与控制
1.大数据的审计、治理和控制指的是大数据管理层,组建专门的治理控制团队,制定一系列策略、流程、制度和考核指标体系,来监督、检查、协调多个相关职能部门的目标,从而优化、保护和利用大数据,保障其作为一项企业战略资产真正发挥价值。
2.大数据的治理是IT治理的组成部分,大数据的审计是IT审计的组成部分,这个体系要统筹规划和实施,而不是割裂的规划和实施。
3.大数据的审计、治理与控制的核心是数据安全、数据质量和数据效率。
九、 持续改进
基于不断变化的业务需求和审计与治理中发现的大数据整个生命周期中暴露的问题,引入PDCA等方法论,去不断优化策略、方法、流程、工具,不断提升相关人员的技能,从而确保大数据战略的持续成功!
Ⅷ 大数据生命周期的多个阶段分析
大数据生命周期的多个阶段分析
如今,各个企业对于大数据的应用都甚为积极,但企业在建立大数据的生命周期时应注意,其中包括了这些部分:大数据组织、评估现状、制定大数据战略、数据定义、数据收集、数据分析、数据治理、持续改进这几方面,下面就来详细了解下。
大数据的现状评估和差距分析
在定战略之前,先要做必要的现状评估,评估前的调研包括三个方面:一是对外调研:了解业界大数据有哪些最新的发展,行业顶尖企业的大数据应用水平如何?行业的平均尤其是主要竞争对手的大数据应用水准如何?二是对内客户调研。管理层、业务部门、IT部门自身、我们的最终用户,对我们的大数据业务有何期望?三是自身状况摸底,了解自己的技术、人员储备情况。最后对标,作差距分析,找出gap。找出gap后,要给出成熟度现状评估。一个公司的大数据应用成熟度可以划分为四个阶段:初始期;探索期;发展期;成熟期。
大数据的发展战略
有了大数据组织、知道了本公司大数据现状、差距和需求,企业就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和核心,它将成为整个组织大数据发展的指引。大数据战略的内容,没有统一的模板,但有一些基本的要求:
要现实,这个目标经过努力是能达成的。
要简洁,又要能涵盖公司内外干系人的需求。
要明确,以便清晰地告诉所有人我们的目标和愿景是什么。
对于大数据的定义
如果不对大数据进行定义,你将无法采集到它,你没法采集它就不能分析它;而不能分析它,你就不能衡量它的价值,既然不能衡量它的价值,你也就无法真正的控制它;如果你不能很好的控制它,那么你就无法管理并且利用它。在需求和战略明确之后,数据定义就是一切数据管理的前提。
Ⅸ 大数据的优势
毫无疑问,各行各业因为大幅爆发的数据而正变得蒸蒸日上。在这10年中,几乎所有行业都或多或少的受到这 巨变的影响。科技渗透到各个领域,并且已经成为每个处理单元的必要元素。谈到IT行业,具体来说,软件和自动化是较基本的术语,并且用于处理循环的每个阶段。
大数据时代”带来对人们的关键性的考验是如何在爆炸的信息中处理数据,新的数据产生是个很自然的过程,但“处理”是很关键的。目前大数据解决信息量爆炸的情况下很多一是数据量大,二是非结构性比较多,像微博、微信是非结构性的。
相较于稳定性而言,企业更关心的是敏捷性和创新性,通过大数据技术,可以帮助公司及时实现这 愿望。大数据分析不仅使企业能够跟随瞬息万变的潮流而不断更新,而且还具有预测未来发展趋势的能力,使企业占据有竞争力的优势。
大数据席卷了 ,并带来了惊人的利益,这 力量无需多说。大数据使IBM、亚马逊等 公司受益,这些公司通过利用大数据开发 些前沿的技术,为客户提供高端服务。
“采用大数据,云计算和移动战略的企业发展状况超过没有采用这些技术的同行53%。”——《福布斯》
在戴尔开展的 项调查中显示,采用大数据、云计算以及移动战略的企业中,优势更加明显,也就是,这些企业中有53%采用大数据起步较晚或者尚未采用,在这 结果令人惊讶不已。
虽然大数据尚处于初 阶段,但通过在处理过程中,融合这 理念,将为企业赢得50%的利润。显然,在如今的商业中,大数据显现的惊人优势并不亚于石油或煤炭带来的利益。
掌握数据能力,开采“暗数据”
著名的咨询公司Gartner公司对暗数据的定义是“组织在正常业务活动过程中收集、处理和存储的信息资产,通常不能用于其他目的”。
然而,大数据系统的出现使得这些公司能够将尚未开拓的数据投入使用,并从中提取有意义的信息。过去没有被认可或认为毫无用处的数据突然成为公司的财富,这 点令人惊讶不已。通过大数据分析,这些公司可以加快流程,从而降低运营成本。
软件正在吞噬整个 数据争夺战正在打响
我们目前处于数据驱动型经济中,如果无法分析当前或未来的趋势,任何组织都无法生存下去。抢夺数据已经成为决定下 步行动方案的关键。
客户逐渐成为所有组织的焦点,对于及时满足客户的需求这 任务非常迫切。只有在强大的软件支持下,业务战略才有可能会支撑和加速业务运营。这较终促成了强大的大数据技术的需求,可以以许多方式使组织受益。
决策指导 更智能更快速更精准
在这个激烈的竞争时代,人人都想脱颖而出。但问题是如何实现这 期望 虽然公司与竞争对手持有相同的运营模式,但公司应当如何展现其独 无二 答案在于公司采用的策略。为了表现优于竞争对手,做出良好和智慧决策的能力在每 步中发挥关键作用。这些决定不仅应该是好的决定,而且应该尽可能做出又快又明智的决定,使公司能够在积好的主动出击。
将大数据分析纳入流程的做法揭示了非结构化数据,从而有助于管理者以系统的方式分析其决策,并在需要时采取替代方法。
以用户为 用户行为数据是营销关键
现在客户有机会随时随地购物,在相关信息帮助下,对于公司需要做出比之前更敏捷的反应这 要求而言具有更大的挑战。但是公司将如何不断地实现这 点呢 答案是借助“大数据”。客户动向是不断变化的,因此营销人员的策略也应该做出相应调整。通过整合过去和实时数据来评估客户的品味和喜好,这样可以使公司采取更快捷的应对措施。
例如,亚马逊通过利用强大的大数据引擎的能力,从 个以产品为基础的公司发展成为囊括1.52亿客户在内的大型市场参与者。亚马逊旨在通过跟踪客户的购买趋势,并为营销人员提供他们即时需要的所有相关信息,从而来为客户服务。此外,亚马逊通过实时监控 15亿种产品,成功满足了客户的需求。
通过数据仓库使数据资产变现
这些公司越来越大,因此不同的流程产生不同的数据。资料仓储中的许多重要信息仍然无法访问。然而,公司已经能够使用大数据分析这 武器来挖掘这座大山,让分析师和工程师深入研究,并提供新颖而又有意义的见解。
经过这番分析,有 件事值得肯定的是,这是 个高度数字化和技术驱动时代的开端,并伴随着强大的实时大数据分析能力。
更多营销方式