❶ 怎样理解互联网行业“数据分析”的意义
互联网企业拥有大量的线上数据,而且数据量还在快速增长,除了利用大数据提升自己的业务之外,互联网企业已经开始实现数据业务化,利用大数据发现新的商业价值。
以阿里巴巴为例,它不仅在不断加强个性化推荐、“千人千面”这种面向消费者的大数据应用,并且还在尝试利用大数据进行智能客户服务,这种应用场景会逐渐从内部应用延展到外部很多企业的呼叫中心之中。
在面向商家的大数据应用中,以“生意参谋”为例,超过 600 万商家在利用“生意参谋”提升自己的电商店面运营水平。除了面向自己的生态之外,阿里巴巴数据业务化也在不断加速,“芝麻信用”这种基于收集的个人数据进行个人信用评估的应用获得了长足发展,应用场景从阿里巴巴的内部延展到越来越多的外部场景,如租车、酒店、签证等。
因为客户的所有行为都会在互联网平台上留下痕迹,所以互联网企业可以方便地获取大量的客户行为信息。由互联网商务平台产生的信息一般具有真实性和确定性,通过运用大数据技术对这些数据进行分析,可以帮助企业制定出具有针对性的服务策略,从而获取更大的效益。近年来的实践证明,合理地运用大数据技术能够将电子商务的营业效率提高 60% 以上。
大数据在过去几年中已经改变了电子商务的面貌,具体来讲,电子商务行业的大数据应用有以下几个方面:精准营销、个性化服务、商品个性化推荐。
1. 精准营销
互联网企业使用大数据技术采集有关客户的各类数据,并通过大数据分析建立“用户画像”来抽象地描述一个用户的信息全貌,从而可以对用户进行个性化推荐、精准营销和广告投放等。
当用户登录网站的瞬间,系统就能预测出该用户今天为何而来,然后从商品库中把合适的商品找出来,并推荐给他。图 1 显示了用户画像会包括哪些用户基本信息和特性。
图 4 Netflix 电影推荐
YouTube 作为美国最大的视频网站,拥有大量用户上传的视频内容。为了解决视频库的信息过载问题,YouTube 在个性化推荐领域也进行了深入研究,现在使用的也是基于物品的推荐算法。实验证明,YouTube 个性化推荐的点击率是热门视频点击率的两倍。
3)网络电台
个性化网络电台也很适合进行个性化推荐。首先,音乐很多,用户不可能听完所有的音乐再决定自己喜欢听什么,而且每年新的歌曲在以很快的速度增加,因此用户无疑面临着信息过载的问题。其次,人们听音乐时,一般都是把音乐作为一种背景乐来听,很少有人必须听某首特定的歌。对于普通用户来说,听什么歌都可以,只要能够符合他们当时的心情就可以了。因此,个性化音乐网络电台是非常符合个性化推荐技术的产品。
目前有很多知名的个性化音乐网络电台。国际上著名的有 Pandora 和Last.fm | Play music, find songs, and discover artists,国内的代表则是豆瓣电台。这 3 个个性化网络电台都不允许用户点歌,而是给用户几种反馈方式:喜欢、不喜欢和跳过。经过用户一定时间的反馈,电台就可以从用户的历史行为中获得用户的兴趣模型,从而使用户的播放列表越来越符合用户对歌曲的兴趣。
Pandora 的算法主要是基于内容的,其音乐家和研究人员亲自听了上万首来自不同歌手的歌,然后对歌曲的不同特性(如旋律、节奏、编曲和歌词等)进行标注,这些标注被称为音乐的基因。然后,Pandora 会根据专家标注的基因计算歌曲的相似度,并给用户推荐和他之前喜欢的音乐在基因上相似的其他音乐。
Last.fm | Play music, find songs, and discover artists记录了所有用户的听歌记录及用户对歌曲的反馈,在这一基础上计算出不同用户在歌曲上的喜好相似度,从而给用户推荐和他有相似听歌爱好的其他用户喜欢的歌曲。同时,Last.fm | Play music, find songs, and discover artists也建立了一个社交网络,来让用户能够和其他用户建立联系,以及让用户给好友推荐自己喜欢的歌曲。Last.fm | Play music, find songs, and discover artists没有使用专家标注,而是主要利用用户行为计算歌曲的相似度。
4)社交网络
社交网络中的个性化推荐技术主要应用在 3 个方面:利用用户的社交网络信息对用户进行个性化的物品推荐,信息流的会话推荐和给用户推荐好友。
Facebook 保存着两类最宝贵的数据:一类是用户之间的社交网络关系,另一类是用户的偏好信息。
Facebook 推出了一个称为 Instant Personalization 的推荐 API,它能根据用户好友喜欢的信息,给用户推荐他们的好友最喜欢的物品。很多网站都使用了 Facebook 的推荐 API 来实现网站的个性化。
著名的电视剧推荐网站 Clicker 使用 Instant Personalization 给用户进行个性化视频推荐。Clicker 现在可以利用 Facebook 的用户行为数据来提供个性化的、用户可能感兴趣的内容“’流”了,而更重要的是,用户无须在 Clicker 网站上输入太多数据(通过评分、评论或观看Clicker.com上的视频等方式),Clicker 就能提供这样的服务。
除了利用用户在社交网站的社交网络信息给用户推荐本站的各种物品外,社交网站本身也会利用社交网络给用户推荐其他用户在社交网站的会话。每个用户在 Facebook 的个人首页都能看到好友的各种分享,并且能对这些分享进行评论。每个分享和它的所有评论被称为一个会话,Facebook 开发了 EdgeRank 算法对这些会话排序,使用户能够尽量看到熟悉的好友的最新会话。
除了根据用户的社交网络及用户行为给用户推荐内容,社交网站还通过个性化推荐服务给用户推荐好友。
5)其他应用
因为电子商务企业基本上实现了业务流程的各个环节的数据化,所以可以充分利用大数据技术对这些数据进行挖掘分析来优化其业务流程,提高业务利润。除了前面介绍的几个应用之外,大数据在电子商务行业还可以应用在其他许多方面。
① 动态定价和特价优惠
电子商务企业可以通过使用数据构建客户资料,并发现用户喜欢花费多少费用和喜欢购买什么产品,从而通过跟踪客户的消费行为,使用大数据分析来开发灵活的定价和折扣政策。例如,如果分析显示用户对特定类别商品的兴趣飙升,则电子商务企业可以提供打折或买一送一优惠。
② 定制优惠
电子商务企业可以通过使用数据来确定客户的购买习惯,并根据以前的购买方式向他们发送有针对性的特价优惠和折扣代码。数据也可以用于在客户中止购买或只看不买时重新吸引客户,例如,通过发送电子邮件提醒客户他们查看过的产品或邀请他们完成购买。
③ 供应链管理
电子商务企业可以使用大数据更有效地管理供应链。数据分析可以揭示供应链中的任何延迟或潜在的库存问题。如果某个项目存在问题,则可以立即将其从销售中删除,以免破坏客户服务问题。
④ 预测分析
预测分析是指利用大数据技术分析电子商务业务的各种渠道,帮助企业制定未来运营的业务计划。数据分析可能会显示电商企业在线商店部门的新购买趋势或销售减缓的商品。
使用这些信息就可以帮助规划下一阶段的库存,并制定新的市场目标。随时了解电子商务的最新趋势具有一定的挑战性,但是利用大数据技术可以大大提高企业的利润,并帮助企业建立一个成功的前瞻性思维业务。如果不利用挖掘大数据的力量,就可能会错过市场成功的机遇。
❷ 大数据可视化工具哪个做出来最漂亮_大数据可视化软件和工具有哪些
如今大数据盛行,许多人都在寻求一款既好用又容易上手的工具,尤其是可视化工具。今天,就为各位数据人甄选10个最容易上手又好用的大数据可视化工具。
1.ChartBlocks
无需编码的ChartBlocks是一个易于使用的在线工具。它可以轻松地从电子表格、数据库中构建可视化图表,整个过程可以在图表向导的指导下完成,只要跟随步骤执行便可。
2.Chart.js
Chart.js支持饼图、线性图和雷达图等多种图表类型,只有11KB大小的它快速且易于使用。这使它成为做小项目图表的很好选择。
3.Chartist.js
chartist.js使用了Sass的个性化风格,它的开发社区一直致力于打败其他所有JavaScript图表库,志向十分伟大。
4.D3.js
D3.js是一款开源的工具,在JavaScript上不仅开源实时交互,同时使用了HTML、CSS和SVG,在许多数据人的心中其都有着不可动摇的位置。
5.Datawrapper
不需要任何编程基础的Datawrapper非常容易使用,只需要上传数据,便能轻松地创建和发布图表。作为一款脊扰迹专注于新闻和出版的可视化工具,包括卫报、华尔街日报、华盛顿邮报、Twitter等知名媒体都使用了Datawrapper,它的地位由此李困可见。
6.EmberCharts
它是一款基于Ember.js框架和使用D3.js的可视化工具。有着易于扩展且有着极强的错误处理能力,即使遇到坏数据,系统也不会崩溃。要是任务以绘制时间序列图、柱状图、饼图和散点图为主,可将它列为首选。
7.FusionCharts
FusionCharts提供许多常用的如PNG、JPEG、SVG、PDF等格式的图表,而且还支持JSON和XML数据,它可以轻松集成Angularjs、jQuery库、React框架,以及ASP.NET、PHP语言。
8.GoogleCharts
GoogleCharts非常人性化,樱并不仅网站拥有一个非常好且全面的模板库,而且创建的图表是交互式甚至可缩放的,让用户可以从中找到所需的模板。
9.HighCharts
提供Highstock和Highmaps两个专门的图表类型的HighCharts,是一个JavaScriptAPI与jQuery的集成工具,它的图表使用的是SVG格式,VML也让它支持旧版浏览器,很人性化。另外,HighCharts提供的一系列插件是可以免费使用的。
10.Infogram
Infogram最大的优势在于,它可以链接可视化信息图表与实时大数据。即使要在浩如星海的图表、地图、视频等可视化模板中选择想要的一款,也只须三个简单步骤便可实现。
选择适合自己使用的大数据可视化工具,让你轻松遨游大数据海洋!
❸ 志翔科技参展数博会 大数据技术驱动工业和安全领域数智化升级
北京志翔 科技 股份有限公司(以下简称“志翔 科技 ”)利用大数据技术 探索 出一套数智化转型解决方案:结合智能电能表的回传 历史 数据,以及电表设备计量相关的信息数据,进行监测和分析。在此基础上先进行小规模的抽样和建模研判,而后再进行大规模抽检,进而有效判断出相应区域的失准器具,精准更换失准设备。
5月26日至28日,志翔 科技 的工业大数据和大数据安全技术产品将亮相中国国际大数据产业博览会(以下简称“数博会”),围绕“数智变 物致新”主题展示最新技术应用成果。
大数据技术为企业节省数十亿元
志翔 科技 的智能电能表状态评价与更换产品,通过对智能电能表的在线监测、精准研判,对电力大数据检测实现从“定期检定”到“全程监控”的转变。大数据技术应用成果反映到财务数据中,志翔 科技 仅这一款产品,通过精准定位和更换失准智能电表,每年就能为电力企业节约数十亿元费用。
随着智能电表覆盖率的提升,大数据分析在电力行业的重要作用日益凸显。根据国家电网数据显示,目前国网系统接入的终端设备超过5亿只,国家电网规划预计到2025年接入终端设备将超过10亿只,2030年接入的终端设备数量将达到20亿只。
海量的电力大数据具有多重属性。国家电网有限公司大数据中心副主任程志华表示,电力大数据具有覆盖面广、实时性强、真实性高、经济属性强、行业分类规范、数据基础相对理想等特点。电力大数据的复杂性,以及智能化需求不断升级,为管理工作带来挑战。
早在2016年,志翔 科技 就洞察到电力大数据领域的商机,并根据市场需求逐步孵化拓展出大数据运维平台、服务平台和终端产品三大业务。
开篇所述的失准智能电表分析,定位即为其大数据平台和运维产品线中的一个产品。除此之外,市场新趋势如新能源 汽车 的发展,也推动电力行业的新支撑性应用出现,志翔 科技 也根据电力企业的需求,将大数据分析异常发现、定位和报警等功能应用于关口表、充电桩和户变等方面。
如果说大数据平台和运维产品是利用新方法解决新问题,那么志翔 科技 的电力大数据服务平台则是应用新技术解决老问题发展到新规模的挑战,促进电力行业的精细化运营管理。典型的应用场景便是构建异常用电分析模型,实现智能化窃电诊断,以及利用线损分析模型自动诊断结合专家人工诊断,进行智能线损治理。
电力大数据终端产品则是更具未来感的业务,主要是通过端点部署,解决电力IoT的智能优化需求,数据可用于辅助居民、电力公司、机构政府等做出科学决策。
志翔 科技 高级副总裁伍海桑解释道,通过终端产品对用电数据的分析处理,能了解用户用电负荷类别及使用状态;分析功能可集成为模块与下一代电能表搭售,可用于环保监测、用电安全监测、碳计量等事关 社会 发展大方向的场景。目前志翔 科技 的一系列电力大数据分析产品和服务以及应用已经覆盖全国20多个省市,在电力行业积累了丰富的经验,随着电力产品的演进而不断优化,其大数据分析模型在实践验证中已经迭代到第四代。
清华系创始团队瞄准安全业务
2020年,志翔 科技 来自工业领域的大数据技术应用的收入已占据公司营收的重要部分。而最早,志翔 科技 将其这块业务定义为大安全,作为公司创业起步的方向——大数据安全中的一部分。
清华系的创始团队背景,让志翔 科技 甫一诞生便将技术根植于公司的基因中。公司创始人之一蒋天仪本科毕业于清华大学电子工程系,在美国完成博士学位后,曾服务过芯片企业Marvell;创始团队的许多成员包括伍海桑等也都毕业于清华电子系。目前,志翔 科技 团队中研发、产品相关人员占比达到60%,其中半数以上学历都在研究生以上。
数字经济时代,网络安全服务需求激增,催生了巨大的市场空间。赛迪顾问报告显示,2020年中国网络安全市场规模达到734.6亿元,同比增长20.8%。志翔 科技 自2014年开始聚焦大数据、云计算等一系列技术发展带来的安全问题,为集成电路设计、政府、金融等行业客户提供解决方案,开拓了紫光展锐、寒武纪、中兴、国家开发银行、中国农业银行等行业标杆客户。
公司的大数据安全产品基于“零信任”和“无边界”的理念,面向政法、金融、高 科技 行业数字化转型所面临的“上云”和“云上”的提供数据与业务安全等问题。2019-2020年,志翔 科技 的至明产品连续两年入选Gartner《云工作负载保护平台市场指南》。
高 科技 定位的公司和清华系创始团队,令志翔 科技 备受资本青睐。2014年8月成立的志翔 科技 ,在成立一年内即获得近千万元的天使轮投资和数千万元的A轮融资,2017年6月获得国家基金领投的B轮融资,并在2019年10月完成B+轮融资。
谈及未来发展方向,在伍海桑看来,公司所具有的服务能力不仅在纵深上可以向更多的电力行业企业拓展,进入电力系统中“发输变配用”各个环节,从广度上也能将服务延伸至太阳能发电、智能制造等其他能源领域和工业门类。在“2030年前碳达峰、2060年前碳中和”的目标下,大数据技术还将释放新红利。
❹ 大数据分析需要哪些工具
说到大数据,肯定少不了分析软件,这应该是大数据工作的根基,但市面上很多各种分析软件,如果不是过来人,真的很难找到适合自己或符合企业要求的。小编通过各大企业对大数据相关行业的岗位要求,总结了以下几点:
(1)SQL数据库的基本操作,会基本的数据管理
(2)会用Excel/SQL做基本的数据分析和展示
(3)会用脚本语言进行数据分析,Python or R
(4)有获取外部数据的能力,如爬虫
(5)会基本的数据可视化技能,能撰写数据报告
(6)熟悉常用的数据挖掘算法:回归分析、决策树、随机森林、支持向量机等
对于学习大数据,总体来说,先学基础,再学理论,最后是工具。基本上,每一门语言的学习都是要按照这个顺序来的。
1、学习数据分析基础知识,包括概率论、数理统计。基础这种东西还是要掌握好的啊,基础都还没扎实,知识大厦是很容易倒的哈。
2、你的目标行业的相关理论知识。比如金融类的,要学习证券、银行、财务等各种知识,不然到了公司就一脸懵逼啦。
3、学习数据分析工具,软件结合案列的实际应用,关于数据分析主流软件有(从上手度从易到难):Excel,SPSS,stata,R,Python,SAS等。
4、学会怎样操作这些软件,然后是利用软件从数据的清洗开始一步步进行处理,分析,最后输出结果,检验及解读数据。
❺ 什么是大数据,通俗的讲
有人说大数据技术是第四次技术革命,这个说法其实不为过。
很多人只是听过大数据这个词或者是简单知道它是什么,那么它是什么呢,在这里就通俗点来说一下个人对大数据的理解。
大数据,很明显从字面上理解就是大量的数据,海量的数据。大,意思就是数据的量级很大,不上TB都不好意思说是大数据。数据,狭义上理解就是12345那么些数据,毕竟计算机底层是二进制来存的,那么在大数据领域,数据就不仅仅包括数字这些,它可以是所有格式的东西,比如日志,音频视频,文件等等。
所以,大数据从字面上理解就是海量的数据,技术上它包括这些海量数据的采集,过滤,清洗,存储,处理,查看等等部分,每一个部分包括一些大数据的相关技术框架来支持。
举个例子,淘宝双十一的总交易额的显示,后面就是大数据技术的支持,全国那么多淘宝用户的交易记录汇聚到一起,数据量很大,而且要做到实时的展现,就需要强有力的大数据技术来处理了。
数据量一大,那么得找地方来存,一个服务器硬盘可以挂多少,肯定满足不了这么大的数据量存储啊,所以,分布式的存储系统应运而生,那就是HDFS分布式文件系统。简单的说,就是把这么大的数据分开存在甚至几百甚至几千台服务器上,那么管理他们的系统就是HDFS文件系统,也是大数据技术的最基本的组件。
有地方存了,需要一些分布式的数据库来管理查询啊,那就有了Hbase等,还需要一些组件来计算分析这些数据啊,maprece是最基本的计算框架,其他的计算框架Spark和Storm可以完成实时的处理,其中HDFS和MapRece组成了Hadoop1.
总之,一切都是数据。我们的历史,是不是都是大量的数据保存下来的,现在我们也是大数据的生活,天天有没有接到骚扰电话还知道你姓什么,你查话费什么的从几亿人的数据中查到你的信息,大数据生活。未来,大数据将更深刻的渗透到生活中。
❻ 数据会说谎|什么是大数据
在企业中,随着管理精细化的提高,我们被越来越多地要求用数据这种特殊的语言来兄腊说话,企业的经营业绩有无增长,竞争力有无提升,发展前景是否光明,甚至连管理干部的评价任免也必须用数据(各种KPI指标)来体现。
在用数据说话时,人人都关注到了数据本身的重要性,但却忽略了另外一点——数据会说谎,即数据自身的真实性。爱美之心,人皆有之,对数据也是如此,人人都希望数据漂亮,但总有不那么靓丽的时候,如何办呢?是否如实反映?在审计的工作实践中,我们发现数据提供者往往是利益相关方,也经常存在略施粉黛,把“东施”变成“西施”的情况。
方式一、通过对比标杆的选择
在某部生产管理审计过程中,其运营数据中显示产品线B在2011年度生产效率提升了70%。看到这个数据时,着实吓了一跳,短短一年内,生产效率提升70%,那只能说明,要么以前做的太差了,要么有革命性的工艺变动。但是上述两点都没有发生。通过调查访谈得知,原来该部门是用2011年11月单月的效率来对比2010年全年的数据。而2010年度基础数据并不完整,除了产量真实可信的之外,工时数据都是模拟推算得来,这样看来,70%的可信度就大打折扣了。基础数据是从2011年4月份开始健全的,且当时工作模式、状态与2010年全年基本无差别,那么我们改用2011年4月份做标杆,结果显示,11月份的效率仅仅比4月份提升10%。通过上述案例,可得知对比标杆的选择,将直接决定数据的靓丽与否。
方式二、通过转移压力的方式
在某部仓储管理审计过程中,发现其库存周转率提升很快,但仓储面积的利用率却没有相应的变化,进一步调查得知该仓库为了提升周转率指标,采用了以下办法:供应商到货后,实物予以接收,但账务不予入库,待生产需要时,再做账务入库动作,于是整体库存就被人为拉低。他们将之称为“VMI”,但为了管理不在账的实物,他们还必须单独做手工账来管理,“库存周转率”是提升了,但仓库的仓容没有减少,管理成本还有增加,这样的“库存周转率提升”有意义吗?
方式三、采用错误的计算方式
举个例子,市场部门在做销售预测,产品A预测了100,产品B预测了100。但一个月后,实际销售情况是产品A为200,产品B为0,那么预测准确率是多少?计算结果如下:预测准确率=∑实际销售/∑销售预测*100%=(200+0)/(100+100)*100%=100%。
预测准确率是100%,但是两个型号一个也没预测准,结果与我们的理解并不一致。另外一种计算方式相对就合理许多:
1-∑销售预测-实际销售∣/∑销售预测*100%=1-(200-100+100-0)/(100+100)=0.
在某次仓储管理审计时,某仓库2010年度不良资产率考核指标为2%,其实际达成为0.05%,这样漂亮的数据明显超过我们的认知范围,通过其KPI核算过程,我们发现了问题的所在,原来其不良资产核算创造性采用了以下公式:
不良资产率=配件不良资产金额/出库总金额*100%。羡唤滑
如果采用正确的核算方式:不良资产率=月均不良资产金额/月均库存总金额*100%。其不良资产率为5.73%,非但没有超出公司目标,而且远远没有达到。
方式四、操纵原始数据
在进行某部生产管理审计时,其生产效率的核算方式为:产量/有效工时。我们都知道,要提高生产效率,就必须在同样的时间内生产出更多的产品,但该部门还做了另外一项工作,就是在有效工时上做了文章,在班组提报总工时的过程中,被要求削减部分工时,因为有效工时就是总工时刨除异常工时,这样分母变小,效率自然而然就“提升”了。
方式五、改变数据核算口径
在某部管理审计过程中,发现其销售收入中除正常构成外,还包括了维修费、维修配件销售收入及品牌费项目,这些项目与销售人员的贡献并无任何关联,但却纳入销售人员考核。由于这些项目的加入,销售额被人为拔高了,事后通过数据汇总,发现这些项目共占到了销售收入的14.6%。
以上仅仅是工作中的几个例子,其他数据美化的方式还有很多,这里把有代表性的几种方式与大家共享,希望我们认认真真地采集数据,不折不扣的提报数据,严谨客观的分析数据,让我们的数据说真话,不说谎话!
(责链卜编石少菊)
❼ 《大数据时代》的读后感
认真品味一部名著后,你有什么领悟呢?现在就让我们写一篇走心的读后感吧。那么如何写读后感才能更有感染力呢?以下是我帮大家整理的《大数据时代》优秀读后感范文,希望能够帮助到大家。
这书读起来不费劲,没有太多晦涩的理论,所以也比较快速的用了几天的中午休息时间读完了。
网上到处都是推荐此书的文章,赞为大数据的经典之作。可是,我读了一遍下来,却没有这种经典之感,只是必须叹服作者思维严密、涉猎广泛,书中有关大数据的例子真是不少,会给我们的阅读带来一定的舒适感和现实感。
已经看过太多网上的关于大数据的文章、案例分析,但是我认为大数据仅仅是一种手段,是我们分析认识世界的诸多手段中的一种。我们既不要拒绝排斥大数据的应用,但也没必要神话大数据。
在读此书过程中,稍带也看了几部关乎大数据分析的影片,有本书中提到的《少数派报告》,还有《永无止境》、《源代码》。少数派报告中,人类借助先知的超能力获取对犯罪的预测和提前打击,但是书中和影片中都提到的有一个悖论的问题:如果你预测某犯罪要发生,所以去提前抓捕,阻止了案件的发生,但案件没有发生,又以什么为依据来抓捕嫌疑人呢?!所以,我认为大数据的应用在预测方面的作用,不应该涉及任何行政司法等严肃方向。因为,人是善变的,也许在预测之后的时间里,由于其它因素影响,t她的决定就突然改变,预测就彻底无效了。大数据,更应该在提供思路、途径方向,在我们还没有发现其原理之前,先依照大数据的分析去做些突破常规、有创造性的事情。
从古至今,对数据的统计应用一直没有中断过,我们人类在发挥聪明才智的过程中,创造了文字记录历史,通过积累和总结为人类的文明发展做出了极大的贡献。只不过,现在我们利用计算机系统对日益暴涨的数据信息能够处理的数据量更大、想法更多了。在这个角度上,大数据其实不过是人类信息化发展历史中的一个必然过程。
大数据爆发的背景,是计算机普及应用、工作和生活信息化、网络尤其是互联网的发达等因素,为之提供了能够使用的超大规模数据化信息。就如计算机与人下棋的程序一样,掌握了足够的棋局数据、能够推算每一步之后的可能,快速的运算能力是实现这些的基础。
大数据本身是无意识的,或者叫无目的,是因为使用的人的发现或主观意识,才从中抓取到符合所想或支持所想的一些数据和比例。人才是核心。别以为有个所谓的大数据中心就能够挥斥方遒、指点江山了。这也是我说要对大数据去神化的一点。书中所举例子,成功的案例其实都基本是一个打破常规、奇思异想的人或一个具备创新思维的团队,而这个人或团队一旦陷入对现有模式的僵化应用或崇拜,失败的结果也是必然。我想说的是,无论是大数据还是快数据什么的玩意,都仅仅是我们了解世界了解社会的一个角度一种手段,都始终无法摆脱依赖于人的思考这个根本。别一叶障目不见泰山的意味有了大数据就拥有了整个世界,你的心有多大,舞台才有多大。只有当你的思考抵达,那些个曾经没有价值的数据垃圾,才会焕发出价值!不要荒废了你的思考这个核心!
作者说大数据只讲结果不讲原因。这个状态我认为仅仅是一个过渡时期的表现,如果要实现对大数据分析应用的更加精准、甚至可以作为某种依据,必然要获得对大数据分析的果的可靠解释,也从而能对我们现有的行为、制度等获得新的认识,来进行可行的改变、升级或者重造,大数据的指导意义才发挥更深。
人们都说,中外著述的差距有时是很大的,中国的作家习惯铺垫和描绘,将简单的事情复杂化;国外的就相反,喜欢直捣要害,将复杂的事情抽象简单化。不知道是不是我不很适应国外这类书籍的缘故,对大数据时代一书,我没有感受到很多的震撼和脑洞大开感,也许和现在各类大数据的文章太多有关,已经把此书的观点各自领用发挥了一番,也许是我还没有领会到精华所在。既然人们都奉为经典,那我想或许我应该隔一段时间、换个姿势,再重读此书,看看是不是会有新的感受吧。
对于畅销书刊、热点话题、时尚科技,始终不太感兴趣。书刊,喜欢有一定年份的。话题,钟情于务虚的观点。新奇的产品于我无缘,习惯使用成熟的科技产品。既不清高,也非冷漠,就是要与现实保持一定的距离,给自己留一点思考的空间。这一习惯最近破了例。由于工作的原因,耳濡目染,“大数据”这个新兴概念开始频繁步入我的视野。按捺不住内心的好奇,网购《大数据时代》,手不释卷,三天读完,颇有收获。此书有如下特点。
首先,作者站在理论的制高点上,条理清楚地阐述了大数据对人类的工作、生活、思维带来的革新,大数据时代的三种典型的商业模式,以及大数据时代对于个人隐私保护、公共安全提出的挑战。其次,文中的事例贴近现实生活,贴近时代,令读者既印象深刻,又感同身受。此外,作者没有使用大量的专业术语,没有假装一副专业的面孔。纵观全书,遣词造句,均通俗易懂。
作者认为大数据时代具有三个显著特点。
一、人们研究与分析某个现象时,将使用全部数据而非抽样数据。
二、在大数据时代,不能一味地追求数据的精确性,而要适应数据的多样性、丰富性、甚至要接受错误的数据。
三、了解数据之间的相关性,胜于对因果关系的探索。“是什么”比“为什么”重要。
作者指出,随着技术的发展,数据的存储与处理成本显著降低,人们现在有能力从支离破碎的、看似毫不相干的数据矿渣中抽炼出真知烁见。在大数据时代,三类公司将成为时代的宠儿。一是拥有大数据的公司与组织。如政府、银行、电信公司、全球性互联网公司(阿里巴巴、淘宝网)。二是拥有数据分析与处理技术的专业公司,如亚马逊、谷歌。
三是拥有创新思维的公司,他们可能既不掌握大数据,也没有专业技术,但却擅长使用大数据,从大数据中找到自己的理想天地。面对即将来临的大数据时代,个人将如何应对自如?这是个严肃的问题。
如今说起新媒体和互联网,必提大数据,似乎不这样说就OUT了。而且人云亦云的居多,不少谈论者甚至还没有认真读过这方面的经典着作——舍恩佰格的《大数据时代》。维克托·迈尔舍恩伯格何许人也?他现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人。他的咨询客户包括微软、惠普和IBM等全球企业,他是欧盟互联网官方政策背后真正的制定者和参与者,他还先后担任多国政府高层的智囊。这位被誉为:大数据时代的预言家“的牛津教授真牛!那么,这位大师说的都是金科玉律吗?并不一定,读大师的作品一定要做些功课才好读懂,才能能与之进行一场思想上的对话。
舍恩伯格分三部分来讨论大数据,即思维变革、商业变革和管理变革。在第一部分”大数据时代的思维变革“中,舍恩伯格旗帜鲜明的亮出他的三个观点:
一、更多:不是随机样本,而是全体数据。
二、更杂:不是精确性,而是混杂性。
三、更好:不是因果关系,而是相关关系。对于第一个观点,我不敢苟同。一方面是对全体数据进行处理,在技术和设备上有相当高的难度。另一方面是不是都有此必要,对于简单事实进行判断的数据分析难道也要采集全体数据吗?
我曾与香港城市大学的祝建华教授讨论过。祝教授是传播学研究方法和数据分析的专家,他认为一定可以找到一种数理统计方法来进行分析,并不一定需要全部数据。联系到舍恩伯格第二个观点中所说的相关关系,我理解他说的全体数据不是指数量而是指范围,即大数据的随机样本不限于目标数据,还包括目标以外的所有数据。我认为大数据分析不能排除随机抽样,只是抽样的方法和范围要加以拓展。
我同意舍恩伯格的第二观点,我认为这是对他第一个观点很好的补充,这也是对精准传播和精准营销的一种反思。”大数据的简单算法比小数据的复杂算法更有效。“更具有宏观视野和东方哲学思维。对于舍恩伯格的第三个观点,我也不能完全赞同。”不是因果关系,而是相关关系。“不需要知道”为什么“,只需要知道”是什么“。传播即数据,数据即关系。在小数据时代人们只关心因果关系,对相关关系认识不足,大数据时代相关关系举足轻重,如何强调都不为过,但不应该完全排斥它。大数据从何而来?为何而用?如果我们完全忽略因果关系,不知道大数据产生的前因后果,也就消解了大数据的人文价值。如今不少学者为了阐述和传播其观点往往语出惊人,对旧有观念进行彻底的否定。
世间万物的复杂性多样化并非非此即彼那么简单,舍恩伯格也是这种二元对立的幼稚思维吗?其实不然,读者在阅读时一定要看清楚他是在什么语境下说的,不要因囫囵吞枣的浅读而陷入断章取义的误读。比如说舍恩伯格在提出”不是因果关系,而是相关关系。“这一论断时,他在书中还说道:”在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续向更深层次研究的因果关系,找出背后的‘为什么’。“[i]由此可见,他说的全体数据和相关关系都在特定语境下的,是在数据挖掘中的选项。
大数据研究的一大驱动力就是商用,舍恩伯格在第二部分里讨论了大数据时代的商业变革。舍恩伯格认为数据化就是一切皆可”量化“,大数据的定量分析有力地回答”是什么“这一问题,但仍然无法完全回答”为什么“。因此,我认为并不能排除定性分析和质化研究。数据创新可以创造价值,这是毫无疑问的。舍恩伯格在讨论大数据的角色定位时仍把它置于数据应用的商业系统中,而没有把它置于整个社会系统里,但他在第二部分大数据时代的管理变革中讨论了这个问题。
在风险社会中信息安全问题日趋凸显。如何摆脱大数据的困境?舍恩伯格在最后一节”掌控“中试图回答,但基本上属于老生常谈。我想,或许凯文·凯利的《失控》可以帮助我们解答这个问题?至少可以提供更多的思考维度。正如舍恩伯格在结语中所道:”大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考的答案,帮助是暂时的,而更好的方法和答案还在不久的未来。“谢谢舍恩伯格!让大数据讨论从自然科学回到人文社科。由此推断,《大数据时代》不是最终答案,也不是标准答案,只是参考的答案。此外,在阅读此书之前还必须具备一些数据科学的基本知识和基本概念,比如说什么叫数据?什么叫大数据?数据分析与数据挖掘的区别,数字化与数据化有什么不同?读前做些功课读起来就比较好懂了。
读完《大数据时代》这本书后,我意识到:我们即将或正在迎接由书面到电子的跳跃之后的又一重大变革。
这本书介绍了大数据时代来临后,接踵而至的三项变革——商业变革、管理变革和思维变革。
其实,这场变革已经打响。商业领域由于大数据时代的到来而推陈出新。前几年,一家名为Farecast的公司,让预订到更优惠的机票价格不再是梦想。公司利用航班售票的数据来预测未来机票价格的走势。现在,使用这种工具的乘客,平均每张机票可以省大约50美元,这就是大数据给人们带来的便利。
大家应该都知道2009年出现的H1N1型流感,就拿美国为例,疾控中心每周只进行一次数据统计,而病人一般都是难以忍受病痛的折磨才会去医院就诊,因此也导致了信息的滞后。然而,对于飞速传播的疾病,Google公司却能及时地作出判断,确定流感爆发的地点,这便是基于庞大的.数据资源,可见大数据时代对公共卫生也产生了重大的影响!在我看来,如果想在在大数据时代里畅游,不仅要学会分析,而且还要能够大胆地决断。
在美国,每到七、八月份时,正是台风肆虐之时,防涝用品也摆上了商品货架。沃尔玛公司注意到,每到这时,一种蛋挞的销售量较其他月份明显增加。于是,商家作了大胆的推测,出现这样的结果源于两种物品的相关性,便将这种蛋挞摆在了防涝用品的旁边。这样的举措大大增加了利润,这就是属于世界头号零售商的大数据头脑!大数据时代的到来,可以让我们的生活更加便利。但是,如果让大数据主宰一切,也存在一定的风险。
大家应该都知道电子地图,它可以为人们指引方向。但大家应该还不知道,它会默默地积累人们的行程数据,通过智能分析可以推断出哪里是自己的家,哪里是工作单位。我们的隐私就这样被不为人知地收集着。大数据时代的到来,让我们的生活更安全,更方便,但与此同时,我们的隐私不再是隐私,数据的收集变得无所不包、无孔不入。世界已经向大数据时代迈进了一小步,一个崭新的时代正向我们走来。让我们用知识武装大脑,做好准备,迎接新时代的到来!
现在已经进入到了二十一世纪了,当今社会已经摆脱了上个世纪的那种消息滞后的时代了,我们最应该感谢的就是科学的进步为我们带来了这么多便利。与此同时,科学的进步还为我们带来了“大数据”这个让人类减少了很多工作量的东西。
在这个学期的名著导读课上我们就被要求读:《大数据时代》这本书。《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据时代的预言家”,他是一个特别厉害的人,他作为一个教师,他曾经在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多所世界前列名校任教的经历。他作为一个科学家,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。他是十余年潜心研究数据科学的技术权威。他是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。
他作为一个研究学者,他的学术成果斐然,有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上,他同时也是哈佛大学出版社、麻省理工出版社、通信政策期刊、美国社会学期刊等多家出版机构的特约评论员。他是备受众多世界知名企业信赖的信息权威与顾问。他的咨询客户包括微软、惠普和IBM等全球顶级企业;"大数据"在网络上搜索到的解释是:称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。特点:数量、速度、品种、真实性。而舍恩伯格认为,大数据并不能定义一个确切的概念。他提到"大数据是人们获得新的认知,创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府和公民关系的方法。"这是一种更具有人文色彩和社会意义的诠释。
大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购买飞机票就是一个很好的例子。就像书中写到2003年,奥伦·埃齐奥尼准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。
飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。
埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降。这个想法是可行的,但操作起来并不是那么简单。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。
在信息时代,信息安全问题的日趋凸显,数据独裁与隐私保护之间的矛盾更是立于风口浪尖,成为众矢之的,舍恩伯格在本书的最后章节曾试图寻找一种解决方式来摆脱这一种困境,但最终没能做到,但是他提出"大数据并不是一个充斥着算法的和机器的冰冷世界,人类的作用仍无法被完全代替。"这里表明人在数据时代同样的重要,数据是为人类服务的,也就该人类驱使下完成相应的目的。在这样的大环境下,常引起我更多的思考和担忧。
大数据时代对于我们同是机遇与挑战,一些国家已开始步入大数据时代的行列,并在各个领域开始研究和使用。而对于我国庞大的人口,以及较大的领土面积,都可以在大数据时代为我们提供数据的保障,而能否面临挑战,在大国之间的新一轮角色角逐间崭露头角,我们更需要解决技术等方面的问题,更应在政策上逐步开放各领域的数据,保证数据来源、权限等问题得到解决,不断学习先进的计算机技术,缩小与其他国家的差距。
❽ 大数据的应用领域有哪些
1.了解和定位客户
这是大数据目前最广为人知的应用领域。很多企业热衷于社交媒体数据、浏览器日志、文本挖掘等各类数据集,通过大数据技术创建预测模型,从而更全面地了解客户以及他们的行为、喜好。
利用大数据,美国零售商Target公司甚至能推测出客户何时会有Baby;电信公司可以更好地预测客户流失;沃尔玛可以更准确的预测产品销售情况;汽车保险公司能更真实的了解客户实际驾驶情况。
滑雪场利用大数据来追踪和锁定客户。如果你是一名狂热的滑雪者,想象一下,你会收到最喜欢的度假胜地的邀请;或者收到定制化服务的短信提醒;或者告知你最合适的滑行线路。。。。。。同时提供互动平台(网站、手机APP)记录每天的数据——多少次滑坡,多少次翻越等等,在社交媒体上分享这些信息,与家人和朋友相互评比和竞争。
除此之外,政府竞选活动也引入了大数据分析技术。一些人认为,奥巴马在2012年总统大选中获胜,归功于他们团队的大数据分析能力更加出众。
2.
改善医疗保健和公共卫生
大数据分析的能力可以在几分钟内解码整个DNA序列,有助于我们找到新的治疗方法,更好地理解和预测疾病模式。试想一下,当来自所有智能手表等可穿戴设备的数据,都可以应用于数百万人及其各种疾病时,未来的临床试验将不再局限于小样本,而是包括所有人!
苹果公司的一款健康APP ResearchKit有效将手机变成医学研究设备。通过收集用户的相关数据,可以追踪你一天走了多少步,或者提示你化疗后感觉如何,帕金森病进展如何等问题。研究人员希望这一过程变得更容易、更自动化,吸引更多的参与者,并提高数据的准确度。
大数据技术也开始用于监测早产儿和患病婴儿的身体状况。通过记录和分析每个婴儿的每一次心跳和呼吸模式,提前24小时预测出身体感染的症状,从而及早干预,拯救那些脆弱的随时可能生命危险的婴儿。
更重要的是,大数据分析有助于我们监测和预测流行性或传染性疾病的暴发时期,可以将医疗记录的数据与有些社交媒体的数据结合起来分析。比如,谷歌基于搜索流量预测流感爆发,尽管该预测模型在2014年并未奏效——因为你搜索“流感症状”并不意味着真正生病了,但是这种大数据分析的影响力越来越为人所知。
3.提供个性化服务
大数据不仅适用于公司和政府,也适用于我们每个人,比如从智能手表或智能手环等可穿戴设备采集的数据中获益。Jawbone的智能手环可以分析人们的卡路里消耗、活动量和睡眠质量等。Jawbone公司已经能够收集长达60年的睡眠数据,从中分析出一些独到的见解反馈给每个用户。从中受益的还有网络平台“寻找真爱”,大多数婚恋网站都使用大数据分析工具和算法为用户匹配最合适的对象。
4.
了解和优化业务流程
大数据也越来越多地应用于优化业务流程,比如供应链或配送路径优化。通过定位和识别系统来跟踪货物或运输车辆,并根据实时交通路况数据优化运输路线。
人力资源业务流程也在使用大数据进行优化。Sociometric Solutions公司通过在员工工牌里植入传感器,检测其工作场所及社交活动——员工在哪些工作场所走动,与谁交谈,甚至交流时的语气如何。美国银行在使用中发现呼叫中心表现最好的员工——他们制定了小组轮流休息制度,平均业绩提高了23%。
如果在手机、钥匙、眼镜等随身物品上粘贴RFID标签,万一不小心丢失就能迅速定位它们。假想一下未来可能创造出贴在任何东西上的智能标签。它们能告诉你的不仅是物体在哪里,还可以反馈温度,湿度,运动状态等等。这将打开一个全新的大数据时代,“大数据”领域寻求共性的信息和模式,那么孕育其中的“小数据”着重关注单个产品。
5.
改善城市和国家建设
大数据被用于改善我们城市和国家的方方面面。目前很多大城市致力于构建智慧交通。车辆、行人、道路基础设施、公共服务场所都被整合在智慧交通网络中,以提升资源运用的效率,优化城市管理和服务。
加州长滩市正在使用智能水表实时检测非法用水,帮助一些房主减少80%的用水量。洛杉矶利用磁性道路传感器和交通摄像头的数据来控制交通灯信号,从而优化城市的交通流量。据统计目前已经控制了全市4500个交通灯,将交通拥堵状况减少了约16%。
6.提升科学研究
大数据带来的无限可能性正在改变科学研究。欧洲核子研究中心(CERN)在全球遍布了150个数据中心,有65,000个处理器,能同时分析30pb的数据量,这样的计算能力影响着很多领域的科学研究。比如政府需要的人口普查数据、自然灾害数据等,变的更容易获取和分析,从而为我们的健康和社会发展创造更多的价值。
7.提升机械设备性能
大数据使机械设备更加智能化、自动化。例如,丰田普锐斯配备了摄像头、全球定位系统以及强大的计算机和传感器,在无人干预的条件下实现自动驾驶。Xcel Energy在科罗拉多州启动了“智能电网”的首批测试,在用户家中安装智能电表,然后登录网站就可实时查看用电情况。“智能电网”还能够预测使用情况,以便电力公司为未来的基础设施需求进行规划,并防止出现电力耗尽的情况。在爱尔兰,杂货连锁店Tescos的仓库员工佩戴专用臂带,追踪货架上的商品分配,甚至预测一项任务的完成时间。
8.强化安全和执法能力
大数据在改善安全和执法方面得到了广泛应用。美国国家安全局(NSA)利用大数据技术,检测和防止网络攻击(挫败恐怖分子的阴谋)。警察运用大数据来抓捕罪犯,预测犯罪活动。信用卡公司使用大数据来检测欺诈交易等等。
2014年2月,芝加哥警察局对大数据生成的“名单”——有可能犯罪的人员,进行通告和探访,目的是提前预防犯罪。
9.
提高体育运动技能
如今大多数顶尖的体育赛事都采用了大数据分析技术。用于网球比赛的IBM SlamTracker工具,通过视频分析跟踪足球落点或者棒球比赛中每个球员的表现。许多优秀的运动队也在训练之外跟踪运动员的营养和睡眠情况。NFL开发了专门的应用平台,帮助所有球队根据球场上的草地状况、天气状况、以及学习期间球员的个人表现做出最佳决策,以减少球员不必要的受伤。
还有一件非常酷的事情是智能瑜伽垫:嵌入在瑜伽垫中的传感器能对你的姿势进行反馈,为你的练习打分,甚至指导你在家如何练习。
10.金融交易
大数据在金融交易领域应用也比较广泛。大多数股票交易都是通过一定的算法模型进行决策的,如今这些算法的输入会考虑来自社交媒体、新闻网络的数据,以便更全面的做出买卖决策。同时根据客户的需求和愿望,这些算法模型也会随着市场的变化而变化。
更多精彩:14_spark体系之分布式计算课程Spark 集群搭建+S