① 说文解字第1课:大数据Big Data
大家好,又到了说文解字的时间,不对,这是瘾科技的新专栏,所以说文解字这个专栏是第一次跟大家见面喔。在往后的每个星期,我们都会推出1篇文章,向读者解释各种电脑、3C领域的关键字,希望大家多多支持。
在几年前,BOT是个相当热门的辞汇,山也BOT、海也BOT。到了这几年,大数据成了最火红的关键字之一,无论企业界还是政治人物,都把大数据挂在嘴边,但是大数据到底是什么呢?
大数据不只大,全面更重要
大数据一词直译自英文的Big Data,也有人将其翻译为海量资料,字面上的意思就已经把它的涵义说明一半了。大数据既然有个「大」字,就代表它的资料量一定很多,于是这就引发了另一个问题,要有多少资料,才能叫作大数据呢?根据麦塔集团(META Group)2001年的研究报告指出,资料增长的挑战有资料量(Volume)、处理速度(Velocity)、资料多样性(Variety)等3个方向。
然而麦塔集团在2005年时被高德纳顾问公司收购,高德纳于2012年对大数据提出新的定义,指出大数据是大量资料、高速处理,并可能具有多样性,需要使用新的方式进行处理,以用于增进决策能力、洞察力,并协助将处理程序最佳化。从这个定义中,我们可以看到资料的量并没有被给予明确的界限,因此我们不防转向参考麦尔荀伯格与库基耶所著的大数据一书,从资料的特性进行思考。
▲大数据一书由天下文化出版,相当值得一看。(图片来源:天下文化)
大数据之所以与传统资料有所不同,其中很大的原因就是资料采样方式的差异。在传统分析资料的过程中,因为收集资料的方式与工具需要相当的成本与时间,而在有限的经费与时间下,我们需要先对母体进行抽样,然后再收集这些样本的资料。举例来说,如果要在选举之前进行民调,民调公司只对一部份的人进行抽样,并调查他们的投票意向。这时候分析的结果很可能就会受到抽样方式影响,若是采用室内电话调查,可能会因为年轻族群在家时间较少,且部分租屋族并未安装室内电话,而让样本的年龄偏高,进而影响分析的准确度。
借助电脑自动处理大量资料
然而大数据的概念之一,就是可以透过不同的方式收集资料,以达到直接对母体进行全面性调察的目的,如此一来就能避免抽样失真而让分析结果失去参考价值。
再举个例子,传统电视节目的收视率,是透过在特定收视户家中安装调整设备,来记录观看电视的频道与时间,或是透过电话访问,访查收视户正在收看的节目。然而这种方式会因为样本的家庭成员组成、喜欢节目的不同,而影响调察结果,虽然可以透过增加抽样数量的方式,提高结果的准确度,但是无论再怎么改善调查结果,都还是无法还原所有收视户真实的情况。
但是在电视数位化之后,系统业者便能透过机上盒的程式统计收视情况,并自动将资料回传至伺服器进行统计,如此一来便能确实掌握所有人的真实收视情况,而不会被不准确的抽样影响,这对资料分析有着相当大的助益。
▲在抽样统计中,若样本的数量越大,误差就会越小,而大数据则是直接将母体做为样本,因此不会有统计误差。
比较前后两者的差别,可以看到新的方式能够透过自动化的方式,全面性地收集资料,并透过电脑进行高速统计与处理,由于节省了许多成本与时间,因此就不再需要为了现实考量而采用抽样统计,这就是大数据与传统资料处理方式的差异,也让资料更具参考价值,能提供决策者更强而有力的判断依据。
总结来说,大数据的精神除了资料本身量很庞大之外,以至于分析的对向从样本题升至母体之外,另一个重点就是透过非传统的方式,挖掘出资料中尚未被发现的价值。至于该如何收集、挖掘并运用资料,这就是另一门学问了,这个主题就留到下周再一起讨论吧。
说文解字使用范例:大数据
O:企业经营者可以透过大数据预估消费趋势。
X:办公室已经没有空间摆放大数据的卷宗了。
② 大数据时代下,得数据者是如何得天下的
现在很多企业都渐渐意识到数据的开发和利用在企业发展过程中的重要性。而实现数据资产变现,是需要企业自身进行合理有效的数据资源规划,梳理清楚企业自身的“数据家底“,从而掌握企业当前数据资源的详实状况,明确企业的数据种类、未来可能获取的数据种类,以及这些数据的数据量、数据质量、数据用途等等。
数据资源梳理:即企业需要梳理清楚:数据来自谁,用在何处,如何存储?一般而言,业内会从三个维度,来对数据资源进行分类管理,数据产生主体、数据来源、存储形式等。
数据资源规划实施:企业在数据资源规划与获取的过程中,除了需要企业内部提供有效的组织保障,包括数据管理人员、数据分析人员和业务使用人员之间的紧密协作,而且还需要全面的对整个企业或政府部门组织需求分析调研,这样才可有效帮助企业理清数据资源家底,明确数据资源获取与使用的方式方法。
数据资源可视化:在数据中台理念下,我们所指的数据资源规划和获取一定是企业全局性的考量和行为。“牵一发而动全身”这必然会牵扯到各部门和各层级组织架构的利益。
如果能将现有数据资源梳理结果进行可视化呈现,让各子公司、各部门、各业务需求方都可以清晰了解自身数据资源现状,以及要满足自身数据应用需求,还需要获取哪些数据资源,还需要增加多少量的数据存储空间,还需要补充哪些外部数据,现有数据质量又如何,则可以大规模提高企业数据资源利用的效率。
数据资源分析报告:企业以前对自身数据资源的认识是模糊的,企业需要一份完整详备的数据资源分析报告,指导后续数据治理和数据资产管理平台的建设,最终服务于企业数据应用场景。为了满足客户的这一需求痛点,袋鼠云便将数据资源分析报告作为“数据资源规划与获取服务”的交付产出物之一。
③ 如何理解“大数据”相关概念
大数据所包含特征,具体如下:
第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知谈盯无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
大数据的作用及其用途
大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。
“大数据”的影响,增加了对信息管理专家的需求。事实上,大数据的影响并不仅仅限于信息通信产含州和业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。
1、变革价值的力量
2、变革经济的力量,生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。
3、变革组织的力量,随着具有语义迹搭网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。
④ 得数据者得天下——浅谈大数据思维
“三分技术,七分数据”,今后得数据者得天下。
维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。
书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。
什么是大数据思维?维克托·迈尔-舍恩伯格认为:
需要全部数据样本而不是抽样;
关注效率而不是精确度;
关注相关性而不是因果关系。
阿里巴巴的王坚对于大数据也有一些独特的见解,比如:
“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”
“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”
“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”
特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
大数据在投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。
如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
⑤ 大数据是什么有什么价值作用
大数据是什么?官方解答是巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产
大数据最早提出者,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理
拥有4V特点,即大量、高速、多样、价值
上面是官方给出的解释,大概可以知道什么意尺并思了举个例子,在一个空间里一共有10个人,对于其他人9个人都有自己的看法,我们假设每个人都对另一个人有10个看法,那么一个人对其余九个人就有九十条看法
对于评估一个人来讲,在没有大数据的时代,我们会随机抽取一个人问他对另一个人的看法,这样总体一共有90个意见,其中一条,概率是90分之1,然后随机抽取几个,最后产生对一个人的大致评价
那大数据是怎样计算的呢?他把其他九个人每个人10条的想法全部收集起来,整合计算后得到对一个人全面的评估这个过程计算,我们最后得到的结果就更精准,这就是大数据的价值
只要存在的数据全部收纳其中再进行计算
大量、高速、纯迟多样、价值
而怎样计算呢?这就需要把云计算拿出来了,和大数据息息相关的另一技术(一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式) cdn bcebos com/"esrc="p> cdn bcebos com/">大数据应用广泛,与人工智能和云计算处境频率较高 在金融领域、营销领域、甚至医疗领域等各行各业中发挥着它的作用 当你拥有了大量数据后,这些结果会对每个行业发展方向解决问题有指向性作用,得数据者得人心,陵裤迹得人心者的天下