㈠ 理解大数据时代的数字鸿沟
理解大数据时代的数字鸿沟
大数据是近几年来炙手可热的话题,大数据的优势以及大数据所带来的新思潮形成研究热潮。从随机抽样到全体样本,从要求精确到应对混杂,从追求因果到发现关联,大数据时代改变着我们的信息环境与信息处理思维模式。但是,并非所有的人都能同时走入大数据时代,如同媒介技术的每一次创新与扩散一样,敏感的企业和组织是大数据的先行者和实践者,也是最早的大数据受益者;而普通的个体则在面对大数据时呈现差异,有的在时间上跟进迟缓,有的在数据分析能力上存在欠缺,有的不知道如何寻找开放数据,有的在数据噪音前不知所措。传统互联网时代的数字鸿沟尚未完全填平,而在大数据时代新的数字鸿沟又在形成并不断影响与改变着人们的政治经济地位。
讨论大数据时代的数字鸿沟,需要明确区分“数字差异”与“数字鸿沟”.从词源上看,两者意义接近,都是由“Digital Divide”翻译而来。但从传播效果或情感色彩上看,数字鸿沟比数字差异更能引起人们的警示。在大数据时代,人们创造数据并被数据所包围,囿于人的视野及精力,人们在面向数据并做出选择时必然会出现差异。比如,互联网提供的个性化的搜索引擎,个性化藏夹等都会导致信息浏览的个人化,大数据时代的数字差异不可避免。数字鸿沟比数字差异更能引起人们的警惕,数字鸿沟更强调在认识和机会上的差异。数字差异是知道有机会而不为,数字鸿沟则是想为而没有能力或机会。同在大数据背景之下,数字鸿沟可能会在拥有数据、分析数据和数据思维三个层面存在数字鸿沟。
三个不同的分析维度
(一)拥有数据的数字鸿沟
大数据时代,“全新”“、革命”“、颠覆性”等术语频繁出现,但“大数据”这一标签下所指涉的问题却由来已久。伴随着互联网的勃兴,数据的指数增长、信息超载和数据处理问题等一直是人们不得不面对的问题。在大数据时代,数据的掘取、存储、处理与应用方面的技术有了快速的发展,但是在谁拥有数据这个造成数字鸿沟最基本的问题上,当下关于大数据的讨论并未给出让人满意的答案。
1.数据开放
对于企业和政府来讲,大数据是一笔宝贵的财富,“对大数据的掌握可以转化为经济价值的来源”也可以从更为准确的角度了解社会,并进行管理。因此,企业和政府需要从普通公众那里搜集数据,数据的传播是一种自下而上的过程,最先拥有和掌控大数据的也是来自企业和政府的“数字先锋”.但是,消弭数字鸿沟恰恰需要另一种形式的数据流动,即开放数据---让数据从企业和政府所有而变成被公众所共享,这是一个自上而下的过程。在现实生活中,这种自上而下的信息流动处处面临着阻力:一方面企业把数据当做核心竞争力或者核心机密,并且花费了大量的人力、物力、财力去做数据分析,因此很难实现数据的共享;另一方面政府的数据公开步伐还比较缓慢,公众获得有价值的信息依然有难度。
数据开放所形成的数字差异需要开放数据来解决。哪些数据能够开放,以何种形式向公众开放,具体的实施者是谁,谁又能为数据开放过程中的“搭便车”行为买单都是需要思考的问题。大数据既可以产生商业价值,同时又兼具公共性的特质,在此过程中,和公众利益密切相关的数据需要开放,我国早在 2007 年 1 月 17 日就通过了《中华人民共和国信息公开条例》,明确规定原则、范围、方式、程序和监督保障制度。在大数据时代,政府开放数据的力度应该进一步加大,同时对公众进行获取数据的素养教育,实现数据的民有和民享。作为一种公共资源,数据分配的公平性和财富分配的公平性一样,都会对社会结构产生非常大的影响,政府和企业可以依靠数据存储与分析技术的发展做“数据银行”业务,让每个公民都有机会在“数据银行”存储和提取自己想要的数据。国内学者涂子沛在《大数据》一书中,把开放数据放在数据民主的角度去思考,指出开放数据运动会推动“开放政治、开放政府、开放媒体、开放城市等等一系列的运动和口号”.这对消除数据所有权所形成的数字鸿沟,建设一个数据公平的美丽新世界提供了一条可行之路。
2.数据搜集
大数据时代的基础在于海量数据,究竟多大才是大数据呢?“麦肯锡全球研究所”的最新报告对大数据下了一个定义:“大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群”而且,大数据的标准随着数据的指数增长也在不断发生变化。今天,我们在谈论大数据时往往以 pb 为单位,海量数据提供了更为详细的信息,但是也存在一些隐忧,即数据的价值密度太小,因而搜集数据以及在海量数据中寻找有价值信息的成本太高。舍恩伯格在接受《中国经济周刊》记者谢玮专访时说:“在许多方面,我们仍然生活在一个‘小数据’时代,在这个时代收集数据非常耗时、昂贵和困难。”大数据时代的数据搜集是一项庞大的工程,而且,大数据还远远未达到普通人能够支付得起的阶段。
搜集数据的数字鸿沟在大数据时代似乎没有减少,反而随着大数据处理技术的发展而在逐步扩大。对于媒体和企业来讲,搜集数据和处理数据都并非易事,着名的《哈佛商业评论》杂志对全球财富1000强的企业应用大数据的情况做了一项科学调研,发现“大多数企业还处于大数据的入门阶段,还小具备真正挖掘大数据的能力”,而且,“只有巧%的受访者认为所在企业的数据可访问性够好或者达到世界级水平,只有21%的受访者认为所在企业的分析能力够好或者达到世界水平”.显然,对于普通公众来说,搜集数据、挖掘数据的难度更大,差异也更大。在搜索引擎主宰信息流向的时代,公众就因为使用不同的搜索引擎而产生数字鸿沟,使用普通的搜索引擎与使用较为专业的搜索引擎和数据库之间存在着差异。在大数据时代,公众不仅要知道如何利用专业的搜索引擎,还需要在海量的信息中迅速寻找最有价值的信息,囿于公众能力的差异,在搜集阶段产生的数字鸿沟将难以避免。而且,互联网下的数据处于不断更新的状态,时效性是非常重要和关键的。在对“知识鸿沟”的研究中,西方学者 J.S.艾蒂玛和 F.G.克莱因曾经提到“上限效果”,指的是随着时间的推移,知识鸿沟会逐渐减少。但是在互联网时代,信息的价值和及时性有密切的关系,即使随着时间的推移公众在搜集数据上的“鸿沟”逐渐缩小,但是后来者所拥有的数据价值也会大打折扣。媒介环境学派的代表性人物莱文森对信息超载的论述可能会对缓解大数据时代数据搜集所产生的差异提供帮助,他认为建立信息分类法则可以解决信息超载的困扰,比如在图书上建立图书分类法则并依据这一法则运作,就能够解决图书馆的信息超载问题,这一思想对解决长期困扰人类的信息超载具有普遍的启示意义。
(二)分析数据的数字鸿沟
谁拥有数据会产生差异,而在同等拥有数据的情况下,公众利用数据的能力不同,也会产生差异。大数据既包含以数量关系为基础的结构化数据,也包含以定性描述为主的非结构化数据,而且,非结构化数据往往占有很大的比例。因此,在大数据时代,同样拥有数据并不代表着同样能够利用数据,分析数据和掘取价值上的数字鸿沟依然需要引起我们的警惕。
1.数据删除
大数据时代是一个信息高度碎片化的时代,信息中的重复、噪音、冗余和信息中的人为因素(网络水军)等,都影响到人们对数据的分析与利用,此时,删除数据与收集数据同样重要。除《大数据时代:生活工作与思维的大变革》之外,舍恩伯格还有一部影响深刻的着作-《删除:大数据取舍之道》。在这部着作中,舍恩伯格提醒人们在大数据时代“记忆成为常态,而遗忘成为例外”,因此要注意信息取舍之道;在这个“没有遗忘的世界里”,遗忘恰恰成为一种宝贵的信息处理方式与权利数据删除是一个人性化的问题,随着“电脑原生代”的成
长,每个人都有着青涩的、尴尬的、甚至小堪回首的过去,互联网之前人们会尝试遗忘这些小愉快的过去,但是互联网的记忆让每个人小得小而对这样一个现实:人们可能会为若十年前犯过的错误买单。
删除同样是一个技术性的问题,在互联网时代,历史悠久的数据会逐渐成为“数据垃圾”,不但占用大量的存储资源,而且也会影响对当下数据的分析,评估数据与删除数据成为大数据时代必不可少的数据处理方式。但是具体到个人就会产生一个问题,人不可能像机器一样去评估和处理,只能按照过往的经验来处理信息。另一位国外学者蒂奇诺在分析“知识鸿沟”所形成的原因时提到,个人的信息储备也会产生“知识鸿沟”,即“正规教育和从大众媒体中获得的信息会帮助受教育程度较高的人提供理解知识的背景”.大数据时代并未改变人们接受信息的习惯,因此,在大数据时代依然是受教育程度较高的人先学会接受和删除信息。删除还有一个颇具哲学意味的意义,在大数据时代,选择即删除。人对数据的接受具有零和效果“,朝向一组数据的同时意味着放弃另外的数据,这也是另外一种意义上的删除,处理掉低质量的过时数据是发现大数据意义的前提。知名学者马修·E·梅所着的《精简:大数据时代的商业致胜法则》,同样也提到大数据时代的信息删除与精简问题。在大数据时代,能够快速在第一时间获得最有价值数据的企业会逐渐发展起来,而不懂大数据或沉迷于大数据的企业会逐渐落伍。
2.数据可用
大数据时代提供了一个多元、详细且复杂的数据环境,在大数据时代,一切现实都可以量化为数据。但是如果用大数据来创造价值就需要从海量数据中找出有价值的数据,并把数据还原为现实。因为”,拥有一个数据集,无论它们多大或者多小,其自身都不会带来任何价值。“大数据的最终价值还是体现在数据的”可用“之上。与此同时,关于数字鸿沟的问题也出现在数据的”可用“上,大数据如同提供了一个美味的坚果,不借助工具很难打开它,而大数据所使用的”云存储、云计算“又不是任何公众都能轻易掌握的。少部分人掌握了分析数据与应用数据的能力,还有相当多的大众面对浩如烟海的大数据不知所措,最终陷入信息超载的焦虑之中。
弥补数据可用的”数字鸿沟“需要让数据变得直观而可视,这仍然是一个涉及公共性的话题。把数据还原为现实既需要数据分析的人工智能技术,也需要人的敏锐的分析与判断能力,更为关键的是,需要把对数据所提示的环境真实地传达给公众。政府和媒体要做的依然很多,首先需要数据处理技术的普及,把解读关于公共事务的大数据当做一个公共事业,如在 20世纪 60 年代,被称为”人工智能之父“的约翰·麦卡锡曾预言”有朝一日,计算可能变成公共设施“.其次,媒体要做好数据与现实之间”摆渡人“的角色,不仅要用大数据来分析受众获得收益,更要体现媒体的公共性,让受众能够读懂大数据并受用于大数据。比如,美国记者在报道龙卷风时”将龙卷风破坏房屋的损毁数据,与地图相重叠,制成大数据地图。“这样,受众既能够比较精确地了解龙卷风带来灾害的大体区域,又能够精确理解某个区域龙卷风造成损失的具体情况。
(三)数据思维的数字鸿沟
大数据热所带来的重要变化是关于数据思维的变化,关于大数据的讨论有很多,但并非有了”大数据“这样一个概念我们的信息环境就自然而然发生了质的变化,而是在互联网逐渐走向海量数据的今天,从”数字化生存“转向”数据化生存“的大数据思维让人们多了一个认识世界的视角。在大数据技术之外的数字鸿沟来自于人们的思维层面,即人们对待数据的思维存在差异。
1.超越大数据
大数据时代的思维之一是要超越”数据迷思“,把数据当成一种工具而不是一种数据霸权。舍恩伯格在《大数据时代》一书中指出大数据带来的三种变化:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。这些变化对于传统的定量研究方法有极大的影响,可是定量方法的改进并不能取代定性的研究,必须超越数据才能发现数据背后的意义与价值。于是,大数据思维包含了三个层次。第一个层次是发现海量数据,了解海量数据的潜在价值,但并不能很好的利用数据;第二个层次是能够较好的利用数据,但是往往陷入数据崇拜,解决不了关于意义的问题;第三个层次是能够利用数据,但是也能够同时超越数据,发现价值。这三个层次在大数据的发展过程中既是一个历时的过程,也是一个共识的过程。大数据概念的兴起与扩散还需时日,因此在数据思维上三个层次的”数字鸿沟“仍将长期存在。
2.大数据素养
数字鸿沟的减小也需要在硬件与软件两个方向上作出努力,在大数据时代仍然如此。从最近几年的中国互联网络统计报告来看,硬件的数字鸿沟在逐渐缩小,而软件的数字鸿沟仍在扩大。消弭数字鸿沟需要政府、企业等开放公共数据并提供利用公共数据的方法,还需要提升全体公民的大数据素养,实现大数据的民有与民享。数据素养也被称为数据信息素养,主要指人们在科学数据的采集、组织和管理、处理和分析、共享与协同创新利用等方面的能力,以及在数据的生产、管理和发布过程中的道德与行为规范。全面提高全民的数据素养,我们才能自信地迎接大数据时代的到来,并利用大数据为人类创造新的福祉。
㈡ 为什么说当今时代是大数据时代,那什么样的东西可以称为大数据
大数据,又称海量数据,是指所涉及的海量数据,无法通过人脑甚至主流软件工具捕捉、管理、处理和整理成更积极的信息,帮助企业在合理的时间内做出商业决策。大数据已经渗透到我们生活的方方面面。就像空气和水一样。虽然我们看不见它,但我们不能没有它!数据很重要,但孤立的数据很难工作。大数据意味着将许多数据放在一起,并以科学的方式筛选和分析相关数据。然后将其应用到生产过程和生活体验中。
㈢ 如何更好地利用海量物联网大数据,挖掘数据背后的商业价值
1、浅谈大数据的来源
大数据的来源这个问题其实很简单,大数据的来源无非就是我们通过各种数据采集器、数据库、开源的数据发布、GPS信息、网络痕迹(购物,搜索历史等)、传感器收集的、用户保存的、上传的等等结构化或者非结构化的数据。
2、浅谈大数据能够带给我们什么
大数据能给我们带来什么?很多公司现在都在炒大数据的概念,但是真正能做好的有几个呢 ?大数据重在积累、强在分析、利于运用。没有经过多年的有意的数据收集、没有经过严谨细心的数据分析。那么,如何来谈论大数据能给企业或者个人来带来便捷呢?
大数据能带给企业的项目立项的数据支撑、精准化营销、电商的仓位储备等等。但是针对个人用户有时候就是麻烦了,因为你随时都可以接收到很多的营销短信、隐私暴露太多。另外对于个人用户大数据的好处是可以快速找到自己想要东西、为用户提供信息服务、获取消费指导等等。换个角度看问题的话,小编认为应该是利大于弊。
3、大数据是怎么带给我们想要的支撑?
庞大的数据需要我们进行剥离、整理、归类、建模、分析等操作,通过这些动作后,我们开始建立数据分析的维度,通过对不同的维度数据进行分析,最终我们才能得到我们想到的数据和信息。
项目立项前的市场数据分析为决策提供支撑;
目标用户群体趋势分析为产品提供支撑和商务支撑;
通过对运营数据的挖掘和分析为企业提供运营数据支撑;
通过对用户行为数据进行分析,为用户提供生活信息服务数据支撑和消费指导数据支撑。
4. 如何通过大数据挖掘潜在的价值?
模型对于大数据的含义何在?模型有直观模型,物理模型,思维模型,复合模型等。我们在进行数据挖掘前需要考虑我们需要用这些数据来干什么?需要建立怎么样的模型?然后根据模型与数据的关系来不断优化模型。
只有建立了正确的模型才能让数据的挖掘和分析更有便捷。
㈣ 对大数据的全方位解读
对大数据的全方位解读
大数据是当下非常火爆的一个词,人人都在谈论大数据。但大数据的定义是什么?它到底是如何出现的?它有什么特别之处?它最大的应用领域在哪里?它的发展方向是什么?对于以上问题,其实大多数人是弄不清楚的。
1)大数据时代出现的必然性
大数据和云计算这两个词经常被同时提到,很多人误以为大数据和云计算是同时诞生的、具有强绑定关系。其实这两者之间既有关联性,也有区别。云计算指的是一种以互联网方式来提供服务的计算模式,而大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。大数据处理会利用到云计算领域的很多技术,但大数据并非完全依赖于云计算;反过来,云计算之上也并非只有大数据这一种应用。
云计算的起源可以追溯到 2003 年末 Amazon 公司工程师 Chris Pinkham 提交给 CEO Jeff Bezos 的一篇论文中的一个设想:将 Amazon 内部使用的计算基础设施开放给全世界的开发者。次年 11 月,Amazon 发布了第一版云计算服务:Simple Queue Service。Simple Queue Service 再往后发展至 2006 年,演变成立今天着名的 AWS(Amazon Web Sercice)。同在 2006 年,Google 公司 CEO Eric Schmidt 首次公开提出了“云计算”(Cloud Computing)的这一概念,云计算也在这一年开始变得广为人知。
大数据这个词的流行却晚了好几年——直到 2009 年,大数据这个说法才逐渐开始在互联网圈内传播。但仅仅在互联网领域流行,仍然不足以引起普遍关注,因为纯互联网经济毕竟只占全球经济总量的很小一部分。而大数据概念真正变得火爆,却是因为美国奥巴马政府在 2012 年高调宣布了其“大数据研究和开发计划”——美国政府希望利用大数据解决一些政府部门面临的非常重要的问题,该计划由横跨 6 个政府部门的 84 个子课题组成。这标志着大数据真正开始进入主流的传统线下经济。
大数据出现的时间点自有它深刻的原因。2009 年至 2012 年这段时间正是电子商务在包括中国在内的全球全面开花的几年。众所周知,互联网领域有 3 大类商业模式:广告、游戏和电子商务。而电子商务又是第 1个真正将纯互联网经济与传统经济嫁接在一起诞生的混合模式。准确地说,正是互联网与传统经济的碰撞,才真正催生出了今天几乎全民关注的“大数据”。大数据横跨了互联网产业与传统产业,而且大数据真正广阔的应用领域其实也正是比纯互联网经济大得多的传统产业。
从数据量的角度来看,在电子商务模式出现以前,传统企业的数量增长缓慢。传统企业的数据仓库中的数据大多数来自于交易型数据,而交易这种行为处于用户消费决策漏斗的最底部,这就决定了交易前的各种浏览、搜索、比较等用户行为数据的都量远远超过交易数据。电子商务模式使得企业可以采集到用户的浏览、搜索、比较等行为,这就导致企业的数据规至少提升了一个数量级。现在日益流行的移动互联网以及将来会流行的物联网又必将使数据量提高两三个数量级。从这个角度来讲,大数据时代是必然会出现的。
从IT产业的发展来看,第一代IT巨头大多是 2B 的,比如 IBM、Microsoft、Oracle、SAP 这类传统IT企业;第二代IT巨头大多是 2C 的,比如 Yahoo、Google、Amazon、Facebook 这类互联网企业。一个有意思的现象是:大数据时代前,这两类公司彼此之间基本是井水不犯河水,我们很少看见这两类公司的老板们在一起坐而论道;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务,直接抢占 IBM、Oracle 的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统IT巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统IT巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。所以第三代IT巨头可能会是 2B 与 2C 融合的IT公司。
2)大数据的核心内涵
大数据概念虽然非常火爆,但少有人真正理解大数据的核心内容。一个普遍而且严重的误解就是:大数据= 数据大,即大数据就是量大的数据。事实上,除了数据量大这个字面意义,大数据还有两个更重要的特征:
1) 跨领域数据的交叉融合。相同领域数据量的增加是加法效应,不同领域数据的融合是乘法效应
2) 数据的流动。数据必须流动,流动产生价值
对于第 1) 点,百分点推荐系统研究中心实验结果显示:百分点公司有 3 家客户,分别是从事服装、化妆品和箱包销售的电商,百分点向这 3 家客户提供个性化商品推荐服务,即:百分点挖掘用户的偏好,不同的用户上同一家电商网站时,向他们展现不同的服装、化妆品或箱包,从而提高电商的转化率和客单价。我们做过两种测试:
a) 将每家网站的数据隔离。当每家网站自身的数据量增加到以前的 4 倍时,推荐效果大约能提高 5%;
b) 将三家网站的数据在去除敏感信息之后进行某种融合。融合后的数据大致是与单家网站的数据的 3 倍,比第一种情况数据量还少。但利用融合后的数据进行数据挖掘时,推荐效果能提升 30%,而且推荐商品并未发生变化,仍然是:用户上服饰类网站时只看见服装、上化妆品网站时只看见化妆品、上箱包网站时只看见箱包。
解释得详细一点,上述实验说明:对同一个消费者,如果我们要向其推荐服装。第一种方法是我们根据他过去的 4 次购买服装的行为来预测其下一次可能会购买的服饰;第二种方法是我们根据他过去分别购买服装、化妆品和箱包的各 1 次行为来预测其下一次可能会购买的服饰。两种方法的基于的用户行数分别是 4 次和 3 次,但第二种方法的效果明显更好。
对于第 2) 点,其实 10 多年前传统企业开始做数据仓库时,数据仓库从业者经常强调一个观点:企业级数据仓库的目标是让不同部门的数据流动起来,各个部门数据割裂,数据的价值就得不到发挥。到了今天的互联网时代,我们发现即使企业已经打通了内部各个部门之间的数据,但与整个互联网比起来,数据量仍然微乎其微,数据应该以互联网为媒介在企业之间某种形式的流动。参照“企业级数据仓库”的概念,现在已经开始出现了“互联网数据仓库”的概念:就是企业通过互联网渠道将与自己相关的外部数据与内部数据进行整合,从而形成“互联网数据仓库”。百分点已经在零售与媒体领域比较成功地打造了“开放数据联盟”,该联盟的成员可以在公允、安全的情况下基于该联盟建立起自己的“互联网数据仓库”,从而享用海量数据的价值。
3)大数据的应用领域
大数据的起源要归功于互联网与电子商务,但大数据最大的应用前景却在传统产业。一是因为几乎所有传统产业都在互联网化,二是因为传统产业仍然占据了国家 GDP 的绝大部分份额。
哪些传统企业最需要大数据服务呢?至少有 3 类企业:
1) 对大量消费者提供产品或服务的企业
2) 做小而美模式的中长尾企业
3) 面临互联网压力之下必须转型的传统企业
第 1) 类企业都需要利用大数据精准分析不同消费者的偏好,提高营销和服务的质量;第 1) 类企业都需要利用大数据分析精准定位自己的客户群;第 3) 类企业主要指哪些正在遭受来自互联网的新玩家冲击的传统企业,此类企业自然都需要利用互联网和大数据作为自我进化的工具。当然,第 3) 类企业与前 2 类企业有重叠。
具体来讲,中国最需要大数据服务的行业就是受互联网冲击最大的产业,首先是线下零售业,其次是金融业。
受电商的冲击,国内很多零售巨头都增长严重放缓,甚至遭遇负增长,线下零售已经到了不得不变革的危机关头。我们也看到了银泰百货、王府井百货、万达集团这些具有创新意识的传统巨头开始利用互联网和大数据来改造线下商业。其中银泰百货以手机为载体、利用 O2O 方式进行双线数据挖掘的创新非常值得借鉴。
而金融行业就更加特殊:金融业并不销售任何实体商品,它自诞生起就是基于数据的产业。由于国家管制,金融业在前几年享受了非常好的政策红利,内部变革动力不足。而目前金融业已经逐渐开始放松管制,新兴的金融机构必将利用互联网以及大数据工具向传统金融巨头发起猛烈攻击。而传统金融机构在互联网方面的技术积累和数据积累都不足,要快速应对新进入者的挑战,必然需要大数据服务。我们也看到了中信银行信用卡中心、招商银行信用卡中心已经在开始利用互联网大数据进行创新。
那么传统产业需要什么样的大数据服务呢?这主要包括 3 层:
1) 基于大数据的行业垂直应用。每个行业都有自己的特点,所以自然会存在行业应用的需求;
2) 顾客标签与商品标签的整理。不管什么行业,都需要精细化整理自己顾客的属性标签以及商品属性标签,而且这些标签必须能够细化到单个顾客和单个商品。标签是行业应用的基础;
3) 企业内部和外部数据的整合与管理。要给顾客和商品打标签,首先必须整合企业内部和外部数据,尤其是日益重要和庞大的外部数据。
图:传统企业需要的大数据服务
第 3 层和第 2 层的方法相对比较通用,行业特殊性相对较少。百分点已经在第 3 层和第 2 层做出了比较成熟的产品,并且也开始在第 1 层做出了一些具体的行业应用产品,比如针对服饰行业的时尚服饰搭配系统。
4)大数据的发展方向
大数据产业未来会向什么方向发展?随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。拿钢铁产业来讲,铁矿石公司从矿场中挖出矿石,经过粗加工,卖给钢铁企业;钢铁企业再进行精细一点的加工,将板材、钢条卖给下游制造业公司;这些制造业公司做出汽车、飞机、门窗、电脑等产品卖给下游公司。这个产业链中存在找矿、运输、加工等诸多环节,每个环节都有对应的企业。
图:传统企业的供应链
在“数据供应链”中,存在数据、数据整合与挖掘工具以及数据应用这 3 大环节。数据就好比矿场的矿石;数据整合与挖掘工具就好比钢厂的冶炼炉;而精准营销、服饰搭配等数据应用就好比汽车、电脑等可以出售给消费者的产品。企业在数据供应、数据整合与挖掘、数据应用等所有环节都需要专业的服务。这里尤其有两个明显的现象:
1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;
2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。
5) 什么样的大数据企业会胜出
常有大数据从业者以及投资人和我们探讨一个问题:大数据产业中,什么样的企业会最终胜出?这是一个很难回答的问题,而且即使回答了,三五年内可能都无法判断其正确性。但从“数据供应链”中的各个环节来分析,还是可以得出一些具有参考价值的结论。
1) 数据供应。在互联网没有流行的时代,企业做数据仓库、商业智能、数据挖掘等系统时采用的数据基本都来自于企业内部,企业几乎无法获取外部数据,所以很少有专业的数据供应商。互联网改变了这一局面,将来会有专业的数据供应商。但既然是因为互联网的出现导致了数据供应商的出现,那么反过来数据供应商就必须具有很强的互联网基因;
2) 数据整合与挖掘。数据挖掘工具供应商在非互联网时代就早已存在。但互联网时代使得企业的数据量激增、数据类型发生极大变化(不同于传统的来自于单一领域的结构化数据,互联网数据以跨域的非结构化数据为主),传统的数据挖掘工具供应商的技术和方法已经很难适应。要跟上时代的变化,数据挖掘技术与工具应用商必须具备互联网公司的海量数据处理和挖掘的能力;
3) 数据应用。具体的行业应用与传统行业的业务关系密切,要做好行业应用,最好需要有服务传统行业的经验,了解传统行业的内部运作模式。这时候仅仅具有 2C 经验的互联网基因的公司又稍显不足。
综合起来看,如果一家大数据从业公司同时兼备互联网数据获取能力、互联网技术、互联网执行力,又有做 2B 服务的经验,那么这家公司将比较容易取得领先优势。这个结论其实一点也不奇怪:如本文开篇所述,大数据本来就是互联网与传统产业碰撞时的产物。
用“方兴未艾”这个词来形容大数据产业的发展阶段都还为时过早,目前的大数据产业只能说是小荷才露尖尖角。国内企业在第 1 代IT产业(硬件和软件产业)中是明显落后国外企业的;在第 2 代IT产业(互联网产业)中,国内企业已经与国外企业差距不大甚至在很多方面超过了国外企业;希望在第 3 代IT产业(云计算和大数据)浪潮中,国内企业能够完全赶上并且超过国外企业,我们也认为这是很有可能的。
㈤ 你对大数据有哪些认识
"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。 亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。 研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。 大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。