导航:首页 > 网络数据 > 大数据伪命题

大数据伪命题

发布时间:2023-05-01 04:45:20

大数据产业过热是伪命题吗

现在国内很多人都是对大数据的误导,甚至连国家需要什么样的大数据都不知道,还谈什么过热不过热?很多包括所谓的砖家和业内人士所讲的大数据都是指“数据抓取”和“数据分析统计”,最后为“决策”作依据,其实这是对大数据错含宏碰误的认识和思维。大数据绝让的难点不在于技术,而在于应用。这帮人完全把未来信息化社会想象的过于简单,完全没有想象力的人出来讨论和定义大数据概念。真正的大数据其实是国家层面的战略,大数据结构是扁平式(也称分布式),这就决定了大数据主要的运用是国家化,社会化的特点。所以,大谈谈数据不仅仅是在生活、工作中简单孤立的抓取、分析、统计或者决策依据,更是对接未来信息化社会物联网,行政司法监管,军事经济等资源优化和集中管理、调配,这将有助于进一步解放生产力,节省地球有限的人类生命资源。建议你可以看一下陈龙剑的《互联网+和大数据这样实现伟大复兴的中国梦》一文去看看。
所以,现在的中国国家性质的大数据谈不上什么过不过热,而是热的那头全是瞎说。真正的大数据到现在还没有开始,也就是在克强总理的推动下,政务大数据也是刚刚实施。怎么能说过热呢?

② 完整 大数据时代,传统企业该如何转型

先在本身行业中的供应链收集和分析,再设立目标来安排大数据应用,当进入大数据内涵时再订立营运目标来达成,最后成熟了才能考虑转型;

③ 再谈大数据行业里的两大误区

再谈大数据行业里的两大误区

大数据这个词,恐怕是近两年IT界炒的最热的词汇之一了,各种论坛、会议,言必谈大数据,“大数据”这个词,在IT界已经成了某果一样的“街机”或者叫“街词”,不跟风说两句“大数据长,大数据短”都不好意思跟人说自己是搞IT的。从某种程度来讲,大数据这个“圈”太乱了,一点不比“贵圈”好。
先从概念上来说,大数据是什么?其实数据处理从人类诞生时期就有了,古人结绳记事就是基本的统计,统计自己吃了几顿饭打了几次猎等等;再往近说,皇帝每晚翻嫔妃的牌子也是数据处理,在翻牌子之前,要从一大堆牌子里分析“方便”、“热度高”、“新鲜度”等指标;更近的说,数据仓库早在大数据这个词出现前就已经成熟发展了好几十年了。所以说,大数据并不新鲜,只是某些技术如Hadoop、MR、Storm、Spark发展到一定阶段,顺应这些技术炒出来的概念,但是这些概念都基于一个基本的理念“开源”,这个理念是之前任何阶段都没有过,可以节省费用提高效率,所以大家才都往这个行业里扔火柴(话说现在很多人跟风乱吵,个人认为也不是坏事)。误区一:只有搞大数据技术开发的,才是真正“圈内人”。笔者曾经参加过若干会议,70%是偏技术的,在场的都是国内各个数据相关项目经理和技术带头人,大家讨论的话题都是在升级CDH版本的时候有什么问题,在处理Hive作业的时候哪种方式更好,在Storm、Kafka匹配时如何效率更高,在Spark应用时内存如何释放这些问题。参会者都一个态度:不懂大数据技术的人没资格评论大数据,您要不懂Hadoop 2.0中的资源配置,不懂Spark在内存的驻留时间调优,不懂Kafka采集就别参加这个会!对了,最近Google完全抛弃MR只用Dataflow了,您懂吗?不懂滚粗!在这里我想说,技术的进步都是由业务驱动的,某宝去了IOE才能叫大数据吗,我作为一个聋哑人按摩师用结绳记事完成了对于不同体型的人,用什么按摩手法进行全流程治疗,就不叫大数据分析了吗?技术发展到什么程度,只有一小部分是由科学家追求极致的精神驱动,大部分原因是因为业务发展到一定程度,要求技术必须做出进步才能达成目标的。所以,真正的大数据“圈内人”至少要包含以下几种人:一、业务运营人员。比如互联网的产品经理要求技术人员,必须在用户到达网站的时候就算出他今天的心情指数,而且要实现动态监测,这时候只能用Storm或者Spark来处理了;比如电信运营商要求做到实时营销,用户进入营业厅的时候,必须马上推送短信给用户,提示他本营业厅有一个特别适合他的相亲对象(呈现身高、三围、体重等指标),但是见面前要先购买4G手机;再比如病人来到银行开户,银行了解到用户最近1周曾经去医院门诊过两次,出国旅游过3次,带孩子游泳两次,马上客户经理就给客户推荐相关的银行保险+理财产品。这些业务人员,往往是驱动技术进步的核心原因。二、架构师。架构师有多么重要,当一个业务人员和一个工程师,一个说着业务语言,一个说着技术术语在那里讨论问题的时候,工程师往往想着用什么样的代码能马上让他闭嘴,而架构师往往会跳出来说“不,不能那样,你这样写只能解决一个问题并且会制造后续的若干问题,按照我这个方案来,可以解决后续的若干问题!”一个非技术企业的IT系统水平,往往有70%以上的标准掌握在架构设计人员手里,尽快很多优秀的架构师都是从工程师慢慢发展学习而来的,IT架构的重要性,很多企业都意识到了,这就是很多企业有CTO和CIO两个职位,同样重要!架构之美,当IT系统平稳运行的时候没人能感受到,但是在一个烟囱林立、架构混乱的环境中走过的人眼中,IT开发一定要架构现行,开发在后!三、投资人。老板,不用说了,老板给你吃穿,你给老板卖命,天生的基础资料提供者,老板说要有山便有了山,老板说要做实时数据处理分析,便有了Storm,老板说要做开源,便有了Hadoop,老板还说要做迭代挖掘,便有了Spark……四、科学家。他们是别人眼中的Geek,他们是别人眼中的高大上,他们是类似于霍金一样的神秘的早出晚归昼伏夜出的眼睛男女,他们是驱动世界技术进步的核心力量。除了世界顶级的IT公司(往往世界技术方向掌握在他们手中),其他公司一般需要1-2个科学家足以,他们是真正投身于科学的人,不要让他们去考虑业务场景,不要让他们去考虑业务流程,不要让他们去计算成本,不要让他们去考虑项目进度,他们唯一需要考虑的就是如何在某个指标上击败对手,在某个指标上提高0.1%已经让他们可以连续奋战,不眠不休,让我们都为这些科学家喝彩和欢呼吧。在中国,我认为真正的大数据科学家不超过百人……五、工程师。工程师是这样一群可爱的人,他们年轻,冲动,有理想,又被人尊称为“屌丝”“键盘党”,他们孜孜不倦的为自己的理想而拼搏,每次自己取得一点点进步的时候,都在考虑是不是地铁口的鸡蛋灌饼又涨了五毛钱。他们敏感,自负,从来不屑于和业务人员去争论。工程师和科学家的不同点在于,工程师需要频繁改动代码,频繁测试程序,频繁上线,但是最后的系统是由若干工程师的代码组合起来的。每个自负的工程师看到系统的历史代码都会鄙视的发出一声“哼,这垃圾代码”,之后便投入到被后人继续鄙视的代码编写工作中去。六、跟风者。他们中有些是培训师,有些是杀马特洗剪吹,有些是煤老板有些是失足少女。他们的特点就是炒,和炒房者唯一不同的就是,他们不用付出金钱,他们认为只要和数据沾边就叫大数据,他们有些人甚至从来没碰过IT系统,他们是浑水摸鱼、滥竽充数的高手,他们是被前几种人鄙视的隐形人。不过我想说,欢迎来炒,一个行业炒的越凶,真正有价值的人就更能发挥自己的作用。误区二:只有大数据才能拯救世界大数据目前的技术和应用都是在数据分析、数据仓库等方面,主要针对OLAP(Online Analytical System),从技术角度来说,包含我总结的两条腿:一条腿是批量数据处理(包括MR、MPP等),另一条腿实时数据流处理(Storm、内存数据库等)。在此基础上,部分场景又发现MR框架或实时框架不能很好的满足近线、迭代的挖掘需要,故又产生了目前非常火的基于内存数据处理Spark框架。很多企业目前的大数据框架是,一方面以Hadoop 2.0之上的Hive、Pig框架处理底层的数据加工和处理,把按照业务逻辑处理完的数据直接送入到应用数据库中;另一方面以Storm流处理引擎处理实时的数据,根据业务营销的规则触发相应的营销场景。同时,用基于Spark处理技术集群满足对于实时数据加工、挖掘的需求。以上描述可以看出,大数据说白了就是还没有进入真正的交易系统,没有在OLTP(Online Transaction system)方面做出太大的贡献。至于很多文章把大数据和物联网、泛在网、智慧城市都联系在一起,我认为大数据不过是条件之一,其余的OLTP系统是否具备,物理网络甚至组织架构都是重要因素。最后还想说,大数据处理技术,再炫如Google的Dataflow或成熟如Hadoop 2.0、数据仓库、Storm等,本质上都是数据加工工具,对于很多工程师来说,只需要把数据处理流程搞清楚就可以了,在这个平台上可以用固定的模版和脚本进行数据加工已经足够。毕竟数据的价值70%以上是对业务应用而言的,一个炫词对于业务如果没有帮助,终将只是屠龙之术。任何技术、IT架构都要符合业务规划、符合业务发展的要求,否则技术只会妨碍业务和生产力的发展。
随着时代变迁,大浪淘沙,作为数据行业的一员,我们每个人都在不同的角色之间转换,今天你可能是科学家,明天就会变成架构师,今天的工程师也会变成几年后的科学家,部分人还终将步入跟风者的行列。误区三:数据量特别大才叫大数据在“数据界”存在这样有一波人,他们认为“只有Peta级以上的才叫大数据,甚至到了Zeta以上才叫大数据,目前还没有到真正的大数据时代!”,每次听到这样的话,我就知道这些人受IOE某巨头的4V理论中的“容量”影响太巨大了。对此,我想说的第一句话是“尽信书不如无书,尽信巨头不如去IOE”,去IOE不只是要从硬件做起,还要从思想上敢于挑战巨头做起,尽管很多IT界的经典理论都是传统巨头提出的,但是随着挑战者的出现,萌发了新的思想和技术后,传统巨头会被慢慢颠覆,这也是我们人类前进向前的一个重要因素。如果我们还停留在迷信巨头的时代,如此刻板教条的去追求一个概念,那么就不会有现在的Hadoop,不会有现在的Spark,不会有现在的特斯拉,不会有机器学习人工智能,更不会有未来的第N次工业革命。首先我想强调,大数据技术真的不是一个新鲜词,在之前的文章中我已经说过,大数据的本质还是数据,数据这个行业已经发展了若干年,而数据量的规模永远是超出该时代的想象的,比如十几年前,一张软盘的数据量也就1.44M,当时的数据如果达到1T都让旁人咂舌。那么按数据量的标准,当时如果有人收集了1T数据就已经进入大数据时代了吗?显然不是!所以我想说,数据量的大小并不是衡量大数据的标准,如果按数据量去判断是否大数据的话,那么“大数据”这个词真的是一个伪命题,就如同“老虎比如是老的,小伙必须是小的,巨头必须是脑袋大的,飞人必须是长翅膀的”这种纯粹字面意思去定义的话题一样。那么再回过来说,大数据的概念是什么?首先,大数据是一个完整的生态体系,从数据的产生、采集、加工、汇总、展现、挖掘、推送等方面形成了一个闭环的价值链,并且通过每个环节的多种技术处理后,为所在业务场景提供有价值的应用和服务。其次,大数据的核心是什么?一方面是开源,一方面是节流,目前大数据技术的核心目标都是通过低成本的技术更好的满足对数据的需求(尤其是处理近年来更多的非结构化数据),并在在满足需求的基础上尽可能多的为企业节省投资。说一千道一万,大数据的核心理念还是满足应用需求,有明确目标的技术叫生产力,没有业务目标的技术叫“浪费生命力”。误区四:为了大数据而大数据这个误区我认为是目前最严重的。在部分企业中,追求技术一定要最新、最好、最炫,一定要拿到国际先进、世界一流才行。所有的企业,不分行业不分性质不分地域不分年代,一律高喊“赶超BAT,大数据助力**企业达到**目标”,接下来就是先去IOE,然后投资买集群,把之前的各种高性能小型机大型机都不用了,之前买的O记授权全部停了,之前的几十年投资一夜之间作废,又投入了更多的资源去追赶“大数据”。同学们,这种劳民伤财的事情相信大家每天都会听到或者亲眼看到,很多企业不计成本就是为了博领导一笑,这得是多么大的误区啊。对此我想说:第一,从技术上来说,比如BAT或者很多互联网企业去追求大数据,是因为业务发展的需要。任何一个互联网企业一出生就是为了流量和点击而活着,这就意味这大量的非结构化数据需要进行快速处理,这时候就决定了互联网企业只能通过一些并发手段去分解底层的数据,然后进行快速加工,并满足其服务用户和市场的需要。互联网企业的业务流程和业务模型就决定了必须得采用大数据技术。反之,很多企业根本用不着这些技术,有些企业简单的一两个Excel文件里面做几个公式就可以满足它的发展,而且数据的周期还是按月处理的,根本不需要运用这些技术。第二,从投资上来说,互联网企业出生都是平民,根本买不起大型设备,就算一夜暴富后,也没有一个传统的小型机大型机可以更好的满足它们的发展,故只能另辟蹊径创造价值链和标准了,在之前的低投资、轻量级架构上,不断进行小量的线性硬件投资满足业务的发展。反倒是一些传统企业,甚至是巨无霸,其投资计划已经在一年前明确,而且在原来的基础上投资会更有ROI(投资回报率),现在反倒为了追求大数据的口号,牺牲了之前的大量投资,除了“得不偿失”,剩下的只能是满地的节操了。大数据技术甚至任何一种技术都是为了满足特定的业务目标而生的,在具备了明确的业务目的后,顺势设计符合自身业务架构的技术架构,才是一种科学的健康的发展观。如果您是一位老板、CEO或者投资人,千万要明白,大数据技术对于企业来说,有时候像水,而企业的业务目标就是那艘船,“水能载舟,亦能覆舟”。随着生产关系的不断调整,又会出现若干轮生产力的不断进步,大数据之后的技术也会日新月异的进步着,比如现在开始潮流涌现的“机器学习、深度学习”等诸多的人工智能方面的技术,也出现了比如“小数据”、“微数据”等更细方向技术的细分,在技术的洪流到来时,只要保持清晰的以满足业务为导向的头脑,根据自身的业务需要设计自身的技术架构,就不会被各种流派,各种概念淹没。

④ 大数据时代读后感 [说说大数据的三个“不是”]

有人说,大数据是个谎言;有人说,大数据是个伪命题。大数据市场确实存在。Gartner预测,到2015年,70%的信息基础架构扩展与投资的主要驱动因素是业务分析需求。以前,人们把精力主要放在如何存储好海量的数据上,而没有想到深入挖掘数据的内在价值。随着数据与业务之间的关系越来越紧密,以及一些大数据分析工具不断涌现,数据分析成了企业决策的前提。
大数据不一定是复杂的分析
许多人一提到大数据,首先想到的是复杂的数据分析。这让有些希望采用大数据分析工具的用户产生了畏难情绪,也让有手念丛些用户产生了误解,认为大数据分析只是那些拥有复杂业务流程和海量数据的大企业的事。市场研究机构麦肯锡的研究人员表示:“要创造新的重大价值,并不一定要采用复杂的大数据分析方法,有时只要能保证数据的可用性或对数据应用进行基本的分析,就能获得所需的重要价值。”
不同的企业或一个企业内部不同的部门对数据分析和数据价值的理解都不相同。企业处于不同的信息化发展阶段,也会设定不同的数据分析目标,采用不同的数据分析工具。正是基于此,戴尔率先提出了大数据成熟度模型。戴尔公司全球企业级解决方案副总裁Cheryl Cook表示:“这一模型已经得到了业内许多分析机构的认可。所有行业以及所有数据应用都适用于此模型。”
如下图所示,大数据成熟度模型分成五个阶段。第一个阶段,数据处于混乱状态,数据存储无章可循,数据难以访问,企业的信息系统处于高风险状态。第二个阶段,实现数据的保留。在这个阶段,企业被动地对数据进行存储。数据虽然经过一定的处理,但还不具有高质量,数据的访问也会受到一定限制。第三个阶段,实现存储的优化。在这个阶段,通过对存储系统的进一步优化以及基于策略的控制与管理,用户可以逐步发现数据的价值。第四个阶段,实现简单的分析。在存储优化的基础上,用户可以进行数据建模和简单的数据分析,对归档数据进行搜索等。第五个阶段,实现复杂的分析。在这个阶段,大数据分析工具将得到充分应用,用户可以进行比较复杂的建模、分析和决策。经过上述五个阶段,曾经杂乱无章的数据也将经历从数据毕樱到信息再到知识的转变过程,最终成为企业决策的重要依据。
这个大数据成熟度模型可以解答人们对于大数据应用的几个疑惑。第一,用户使用大数据分析工具,并不意味着一定要进行复杂的分析。举例来说,处于存储优化阶段的用户就可以实现无障碍的数据访问,并能获得所需的数据价值。第二,大数据的应用要经历一个逐步完善的过程,必须循序渐进,先做好数据存储和优化,然后再进行数据分析。第三,大数据解决方案通常包括两个部分:一是大数据保留解决方案,二是大数据分析解决方案。将两类解决方案有机地结合在一起,才能有效降低大数据分析应用的成本,更好地挖掘数据的价值。Cheryl Cook表示,戴尔可以提供上述两种解决方案。一方面,戴尔可以提供针对结构化和非结构化数据的大数据保留解决方案,主要包括存储虚拟化与整合、应用程序优化、数据保护、灾难恢复以及数据保留与管理解决方案;另一方面,戴尔还能提供支持Hadoop、Cloudera等开源软件的大数据分析解决方案。
记者曾与包括大庆油田、太平洋保险公司等在内的一些用户进行过交流。它们目前都没有计划部署大数据应用。“从全球范围来看,大数据应用还处于起步阶段。”戴尔亚太及日本地区商用事业部企业解决方案副总裁Philip A. Davis表示,“与云计算兴起时一样,可能要经过两三年的市场培育,用户才能逐渐接受大数据应用。”
中国东方航空股份有限公司信息部总经理严振红介绍说:“在大数据的概念出现以前,我们就在做客户数据、经营数据的分析工作。但是客户数据库、经营数据库等都是相互独立的,数据不能共享。现在,我们要做的是将这些系统的数据整合起来,统一进行分析。”
Hadoop不是万能的
简单来说,Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop最独特的优势在于为用户提供了一个分布式的、高容错的文件系统和加速数据处理高毁的办法。随着Web 2.0、社交网站的大规模兴起,人们需要一个高效的处理非结构化数据的平台。Hadoop正好可以满足人们的需求。有些人甚至在Hadoop和大数据之间划上了等号。Hadoop能够解决大数据应用的所有难题吗?
“Hadoop是一个复杂的工具套件。如果没有厂商或专业技术人员的帮助,用户自己部署Hadoop是一件十分困难的事。目前,Hadoop的应用并不普及。互联网用户是最早采用Hadoop平台的。”Philip A.Davis表示,“如果想让大数据解决方案充分发挥其作用,就必须搭建一个高效的信息基础架构,实现信息基础架构的自动化、智能化,同时提高其可管理性。”
Hadoop的应用是有一定技术门槛的。如今,许多IT厂商都推出了基于Hadoop的解决方案包,其目的是帮助用户简化Hadoop的部署与应用。Philip A.Davis表示:“戴尔提供的基于Hadoop的大数据分析方案可以将Hadoop的部署周期从原来的两个月缩短至两天。”
VMware全球高级副总裁范承工也认为,由于缺少精通Hadoop技术的专业人才,Hadoop的部署对于用户来说是一件费时费力的事。如今,VMware可以将Hadoop部署在虚拟化架构之上,将部署工作从半自动化变为全自动化,从而减少了人工干预,使得Hadoop的部署变得更加简单,也不容易出错。
“很多中国企业的CIO认为,大数据解决方案是有价值的,但实施起来确实有许多困难。”戴尔全球副总裁、中国区大型企业及公共事业部总经理容永康举例说,“国内懂得在Hadoop上进行开发的专业技术人员非常少。一些金融行业的用户很想现在就部署大数据解决方案,但是苦于找不到既懂Hadoop技术,又懂得金融业务的专业人才。”
Informatica首席技术官James Markarian表示:“在IT环境中,Hadoop不可能作为一个孤岛存在。为了让Hadoop跨越不同平台,用户需要将Hadoop作为其IT大环境中的一部分来管理,并通过Hadoop重复使用他们的开发技巧、资产及数据,同时还要统筹管理全部数据。”
在美国市场上,70%的大数据应用处理的还是结构化的数据。从技术的角度看,虽然Hadoop也能处理结构化的数据,但是目前基于Hadoop的大数据分析解决方案主要还是用于处理非结构化的数据。因此,用户处理结构化数据和非结构化数据通常是用两套不同的分析工具。这种混合的大数据处理模式是一种普遍现象。
从未来的发展看,非结构化数据的快速增长是大数据分析的主要驱动因素。从这个角度讲,Hadoop的应用前景还是十分广阔的。
大数据不仅仅是一个解决方案
Cheryl Cook强调说:“用户千万不能认为,只要购买了一个大数据的解决方案,就能解决所有的问题。许多中国用户还没有充分意识到数据能够带来多大的价值。戴尔收购佩罗系统公司,增强了自身的顾问咨询能力,可以帮助客户分析数据能够带来什么样的价值。这为用户日后正确部署大数据解决方案奠定了基础。”
有些厂商通过收购或其他方式,很快就推出了大数据解决方案,并将这些解决方案推销给客户。Cheryl Cook表示:“戴尔先从客户的需求入手,帮助客户分析当前遇到的实际问题是什么,然后进一步明确客户能从数据中获取什么样的价值,最后才是提供量身定制的解决方案。”戴尔大数据解决方案的特色在于开放化和多样化。戴尔既可以提供基于开源软件的大数据解决方案,也可以提供支持微软、SAP等软件的大数据解决方案。针对Hadoop平台,戴尔还能提供一些附加的服务,目的是为了让Hadoop平台能够满足客户的个性化需求。在部署大数据解决方案之前,用户首先要搞清楚,能从大数据解决方案中获得什么样的价值,然后再制定具体的实施规划,接下来就是构建高效的信息基础架构,最后才是部署大数据分析工具。

⑤ 看互联网大数据时代的喜与忧

看互联网大数据时代的喜与忧

近来,“大数据”这个词非常的火热。随着科技与互联网的进步,数据似乎已经成为改变一家企业所必不可少的利器。尤其是随着大数据时代的到来,一些曾经非常棘手的问题都能够迎刃而解。比如Google能够先于美国的公共卫生机构发现流感的发生以及传播,甚至能够精确到某个地域,准确率曾高达97%,而这在小数据时代是完全无法想象的。

大数据时代无论是为企业还是为政府亦或是个人都带来了极大的便利。企业能够通过数据分析准确判断出客户的兴趣爱好、购买意向并以此来向客户推荐相关性最高的产品。而这其中做得最为成功的尤属亚马逊。亚马逊在最开始的时候采用的是图书评论形式来向用户推荐图书,但是当拥有大量的用户数据之后转而使用数据分析的形式来向用户推荐图书。成交率比之前有大大的提高,而且再也不需要评论编辑这样也可节约一定的人力成本。

在大数据时代,人们无需在苦苦寻找事物的因果关系。仅通过分析数据来得出相关关系即可,也就是说人们只要知其然而无需知其所以然。比如说,埃齐奥尼开发的Farecast系统能够从现有的航空公司大量的机票销售数据当中分析预测出什么时候购买机票最为便宜。但是却并不知道是什么让机票变得便宜了,而且这也并不是重点,人们只需要知道结果即可。

此外,大数据时代另一个进步在于“样本=全体”。与小数据时代的抽样统计相比,显然这样的方式更具有精确性。因为,大数据时代是将所有的数据作为样本区分析的,能够更加准确并且及时的发现人们曾经所发现不了的细节,而这些细节很可能会关乎成败。而且对于这些数据人们不再盲目追求精确,而是要包含一定的混杂数据。因为这也是属于大数据当中的一部分,只有数据越全面结果才能够越准确。

最为关键的是大数据在商业上面的价值,要比以往任何时候都显得尤为重要。数据的收集、分析也比以往要变得更为廉价、方便。企业只要通过大量的客户数据分析就能够准确制定下一步的经营策略,以及产品改进。比如,一家汽车企业能够通过对客户的坐姿数据的分析来制作汽车的防盗系统、银行能够根据你的社交数据来分析你是否能够偿还贷款。虽然这些看起来并无多少关联,但是大数据让这一切变为可能。

尽管大数据时代的到来有着诸多的好处,但是任何事物总有两面性。大数据时代在给我们带来惊喜的同时也给我们带来许多困扰。比如,我们个人的隐私问题,在大数据时代我们身边每时每刻都会有“第三只眼”在时刻盯着我们的一举一动。你的任何行为都有可能成为某个商家或是机构的分析数据并且随时有可能将之公诸于众。在大数据时代个人隐私或将成为一个“伪命题”。一旦被人非法利用,后果将不堪设想!

而且在大数据时代,人们的思维或许一时还很难转变。所以,如何正确分析并利用大数据就成为一个亟待解决的问题。尽管大数据能够帮人预测某种趋势,诸如根据某人过去的行为预测其可能犯罪之类的,但是我们并不能够依据这些预测就将其定罪。毕竟,事情还没有发生,尽管可以预防但是却不能够惩罚。

最后一点,在大数据时代人们会过于依赖对数据的分析。一旦数据出错,那么人们根据数据所做出的决策与判断都将是错误的。如果在企业运作当中,一次错误的数据分析很容易将企业毁于一旦。而且,数据分析让一切都变得标准化。但是,这并不是完全正确的。诸如一些产品设计,需要设计人员的灵感、需要一些艺术上的创造而不仅仅是一些冰冷的数据。Google在数据的运用上可谓是炉火纯青,但是Google也难免会犯一些常识性的错误。因为Google在招募人才的时候选择了统一的成绩数据标准作为招聘的主要依据。但是,这些并不足以表明一个人究竟是否是人才,但是Google却固执的坚守着这一错误行为。这就是对于大数据的过度依赖,所造成的。

我说过,一件事情总有两面性。大数据在帮人类解决问题的同时也在为人类创造新的问题,对于大数据的使用也同样如此。尽管大数据有着足够强大的力量,但是我们最需要改善的不是数据库的大小、精准与否,而是我们的思维,因为思维才是驾驭科技最根本的力量!

以上是小编为大家分享的关于看互联网大数据时代的喜与忧的相关内容,更多信息可以关注环球青藤分享更多干货

⑥ 《大数据》读后感字

《大数据》读后感2000字

如今,我们正处于一个大数据时代,有时候数据给了我们有力的证明。以下是、《大数据》读后感2000字,欢迎阅览!

《大数据》读后感2000字【1】

这两年,大数据,云计算的思想就像小苹果的音乐一样,传的到处都是,每一个公司不管是互联网公司还是传统企业,都标榜自己的大数据。

1、实体物联网与虚拟物联网

曾几何时,物联网的概念闹得风生水起,庞大的物联网能够让世间大量的物体,都能够被检测 并联网,包括了人、车、房等一切能够被联网的物体,这些物体都能够以种方式被感知他的存在,并对其信息记录在案,以供使用。在若干年前,这还是一种看似遥不可及的事物,要对每个物体都贴上一个所谓的RFID的标签,显得不切实际。如今,随着手机的大量使用,人类本身也被加入了物联网中。为什么要物联网?是为了获取什么?要知道物联网获取了什么,只需要看看在一个物体在没有加入物联网与加入物联网之后,我们多出了哪些东西便能够知晓。那么,很明显,我们需要通过某种方式来获取该物体的信息,这种存储下来的信息,就叫做——数据。

物联网产生的数据是实体的物品之间的信息,而现在的互联网上,占最大数据量的,是虚拟物品,或者叫做网络虚拟物品。由于网络物体是直接寄生于网络,具有能够方便的接入网络的特征,因此,在获取实体物体信息还有一定难度的时期,占有很大优势。但今后实体的物联网产生的数据量一定会不断增加,或许,能够超越网络上的物物相连数据量。

网络的广泛使用,使得信息的产生于传遍变得容易,每个接入网络的人都以一定的角色存在,都是网络的信息的创造者。对于所产生的信息而言,每个接入网络的人又身兼多角,对于网络服务商,他是网络使用者的角色;对于门户网站而言,他是使用的用户;对于社交网站而言,我们则扮演一个虚拟或者真实的网络角色;对于浏览器而言,他是一系列的浏览网页、一些列鼠标动作的角色… 不同的角色取决于对方需要从我们的行为中获取哪些信息。将网络上各种角色看成是虚拟的物体,那么,这种虚拟物体构成的虚拟物联网便产生了巨大的数据量。经历过一直以来缺乏信息获取渠道的日子,现在,既然信息获取变得如此容易,那么,必然迎来信息量暴增的时代——大数据时代。

2、思维的转变

技术的改变,使得我们思维方式也要随之发生变化。在过去的小数据时代,由于获取信息、存储信息、整理信息都是费时费力的活,我们只能精打细算,捉摸着如何以最小的代价、最快的方式来收集尽可能准确的信息。之所以会有抽样统计的方式,是受技术所限,无法获得全体的样本,或者就算获取了也无法在合理的时间内进行处理。由于信息获取代价大,使得我们不得不在获取信息前,就把一切都想清楚,才能够着手处理。这就像在计算机出现的初期,使用纸袋来编码的时期,一次出错的代价太大,所以人们不得不在输入前将代码验证过无数遍之后才敢输入到机器中。而现代计算机让编码的效率大大提升,这才使得人们能够创造出更加强大的软件。人们不需要在着手编码前就对代码过分深思熟虑,因为机器会帮助你解决一些问题。因此,那些担心由于获取数据太方便,进行数据处理、分析代价太小而使人们变得懒惰或者做事欠考虑的家伙,真是杞人忧天。历史上,技术的进步都会提升人类的生产力,但却没有让人们变得懒惰,因为与此同时,欲望也随之增长。人类只会变得更伟大。

因此,大数据时代,这个数据更加全面的时代,我们可以涉足一些之前由于缺乏数据而无法涉及的领域,例如——预测。这是一个令人兴奋的领域,但其实这个领域早有苗头,而且大家都是受益者。我们平时使用的输入法中的智能联想功能,能够根据我们之前输入的文字,来预测我们接下来有可能输入的文字,以节省我们的输入时间。这种算法里,没有人工智能,而只有人们大量的输入习惯的统计,通过大量数据的统计来预测,是一个统计学的方式而非加入了特有的规则或者逻辑。这便引出了在大数据时代,对于信息处理的一种重要方式,基于统计,得出不同个体的相关关系,却无需了解其因果关系,而我们则受益于相关关系。这种方式,看似有些投机取巧,却能够在关键时刻令我们处于优势地位。我们已经习惯了先知道某些事物的因果逻辑,继而推断出相应的结果。但世间总会有一些令人无法用合理的逻辑进行解释的现象,若通过大数据分析,我们能够跳过逻辑阶段直接享用某些一些结果(沃尔玛的啤酒加尿布案例),岂不乐哉。当然,严密的逻辑永远是值得尊敬的。

3、互联网的黏性

在经历过了从广度上通过新花样来吸引用户的时代,由于技术的提高,一个创业者在一个新的领域开辟的东西很容易被其他人所复制。在这个时候,深度很重要。特别是购物网站、微薄、门户网站这类信息量大的网站,越是了解一个用户,优势就越大。所以,在技术已经不是最重要的因素的时代,如何增加用户的黏性、忠诚度便是首要的。通过用户之前的信息,来推测用户的喜好,给用户推荐相应的信息或物品。当你越了解一个用户,而别人却不了解时,这个用户就越离不开你。微薄中有他的`智能排序功能、新闻门户中有“今日头条”应用,各类购物网站有他的推荐算法(但这个纯粹为了增加消费而非增加用户黏性),都能够根据用户之前的浏览、偏好来给出相应的推荐。这些的基础,都是拥有用户的行为记录,否则,都无从谈起。

各行各业,都在疯狂的抓紧时机,获取数据,拥有足量的数据,那一切就变得皆有可能。

《大数据》读后感2000字【2】

凡是过去,皆为序曲是大数据业者最喜欢引用的语句。大数据是现在的潮流,大数据时代被认为是了解大数据的初级读物。近期连续读了两遍,第二遍是为了写这篇读后感,总体而言,值得一看,但细节方面却需要讨论了。

维基网络对大数据的解释:Big data,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

有人说现在是读图时代,除去小说、心灵鸡汤以外,现在的畅销书基本都有图片,这本书是一个特例

首先尝试解析一下作者的三大观点,这三大观点是大数据业者很喜欢引用的三句话:

1 不是随机样本,而是全体数据

我想所有人都能意识到对全体数据的分析优于对随机样本的分析,但在现实中我们经常拿不到全体数据:一是数据的收集方法,每一种方法都有适用的范围,不太可能包罗万象;二是数据分析的角度,战斗机只能统计到飞回来的飞机上的弹孔,而坠毁的则无法统计,沃德通过分析飞回来的战斗机得出来最易导致坠毁的薄弱点;三是处理能力跟不上,就像以前的天气预报太离谱是因为来不及算那些数据。“采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物”,作者显然只关注了一部分原因。

从语言的理解上看,什么是全体数据,究竟是“我们需要的所有数据”,还是“我们能收集到的所有数据”,书中的很多商业案例中,处理的只是“我们能收集到的所有数据”,或者说是“我们认为的全体数据”。人对自然的认识总是有限的,存在主义认为世界没有终极的目标。书中举例“Farecast使用了每一条航线整整一年的价格数据来进行预测”,而“整整一年”就是一个采样,或者是“我们需要的所有数据”。

从历史的角度看,国外的托勒密建亚历山大图书馆唯一的目的是“收集全世界的书”,实现“世界知识总汇”的梦想,国内的乾隆汇编四库全书,每个收集的过程都有主观因素在里面,而他们当时都认为可以收集全部的书籍,到最后,我们也没有得到那个梦中的全体。

2 不是精确性,而是混杂性

既然我们过去总是在抽样,那本身就是在一个置信水平下,有明确的容错度或者是偏差值。人类永远知道我们是在精确性受限的条件下工作。同时,作者本身也承认 “错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在”。那大数据的特征究竟是精确性还是混杂性?

由此衍生出一个问题,大数据的品质如何控制:一、本身就不要求精确,但是不精确到何种程度是需要定义的,否则就乱套了,换个角度,如果定义了容错度,那符合条件的都是精确的(或者说我这句话还是停留在小数据时代?这里的逻辑我没有理顺)。就像品质管理大师克劳斯比提出过零缺陷理论,我一直觉得是一个伪命题,缺陷是一定存在的,就看如何界定了;二、大量非结构化数据的处理,譬如说对新闻的量化、情感的分析,目前对非SQL的应用还有巨大的进步空间。

“一个东西要出故障,不会是瞬间的,而是慢慢地出问题的”。“通过找出一个关联物并监控它,我们就能预测未来”。这句话当然是很认同,但不意味着我们可以放弃精确性,只是说我们需要重新定义精确度。之于项目管理行业,如果一个项目出了严重的问题,我们相信,肯定是很多因素和过程环节中出了问题,我们也失去了很多次挽救的机会。而我们一味的容忍混杂性的话,结果显然是不能接受的。

3 不是因果关系,而是相关关系

这是本书对大数据理论的最大的贡献,也是最受争议的地方。连译者都有点看不下去了。

相关关系我实在是太熟了,打小就学的算命就是典型的“不是因果关系,而是相关关系”。算命其实是对趋向性的总结,在给定条件下,告诉你需要远离什么,接近什么,但不会告诉你为什么那样做。

我们很多时候都在说科学,然而,什么是科学,没有人能讲清楚。我对科学的认识是:一、有一个明确的范围;二、在这个范围内树立一个强制正确的公理;三、有明确的推演过程;四 可以复制。科学的霸道体现在把一切不符合这四个条件的事物都斥为伪科学、封建迷信,而把自己的错误都用不符合前两条来否决。从这个定义来看,大数据不符合科学。

混沌学理论中的蝴蝶效应主要关注相关关系。它是指对初始条件敏感性的一种依赖现象,输入端微小的差别会迅速放大到输出端,但能输出什么,谁也不知道。

人类一旦放弃了对因果关系的追求,也就放弃了自身最优秀的品质:意志力。很多人不愿意相信算命是担心一旦知道了命运,就无法再去奋斗。即使我相信算命,也在探求相关关系中的因果要素。我放弃第一份工作的原因之一是厌倦了如此确定的明天:一个任务发出去,大概能预测到哪些环节会出问题,只要不去 follow,这些环节十有八九会出问题。

解析完这三大观点,下面是我对大数据理论的一些疑惑。大数据是目前风行的反馈经济中的重要一环,在金融、互联网行业的应用最为广泛,而这些行业都是大家所认为的高薪领域。很多时候我就在想,所谓无形的手所产生的趋势究竟是不是无形的。比如几家公司强推一个概念,说这是趋势,不久就真的变成趋势了。我们身边活生生的例子就是天猫的双十一和京东的618,一个巨头开路,无数人跟风,自然就生造出购物节,至于合理不合理,追究的意义也不大,因为很多事情是没有可比性的。这和没有强制控制中心的蜂群思维又不一样。

看完这本书,总是觉得作者说的过于绝对,也许是我的认识太浅了吧,所以最后用法演四戒做总结:

势不可以使尽,使尽则祸必至

福不可以受尽,受尽则缘必孤

话不可以说尽,说尽则人必易

规矩不可行尽,行尽则事必繁


;

⑦ 大数据里的真命题和伪命题

大数据里的真命题和伪命题

大数据必会深刻的改变这个世界,这点是毋庸置疑的,但从很多当下的讨论来看,大家似乎在大数据的使用边界上走入了误区,这篇文章想具体探讨下大数据能干什么以及不能干什么上的原则问题。
大数据与预测
人们总是想预测未来,因为这样经济收益会非常大,于是我们经常看到大数据与票房预测的故事,有时准,有时不准。
大数据确实可以用来做预测,但是有能力边界的,影响这个能力边界的关键因素就是索罗斯经常说的反身性。反身性说的是:参入者的思维与参入的情景之间相互联系与影响,彼此无法独立,认知与参入处于永远的变化过程之中(网络)。反身性之所以对预测有影响,是因为它会导致出现不连续的变化。
这在逻辑上很好理解,当一件事物是连续变化的,你比较容易计算出它未来的状态,比如汽车,我们只要知道它的速度,那就比较容易预测它下一刻的位置。但如果是充满突变的混沌系统,这种预测就很难实现,汽车本来走得好好的,突然天上掉下一架飞机来,那它当然不会出现在本来预测的那个位置。所以做预测,第一关键是这系统是不是一个混沌系统,在充满偶然的混沌系统里,基于数据的预测是无效的。而反身性正是导致混沌蝴蝶会出现的一个关键因素。
当我们去观察某个系统并采取行动时,系统本身会因为我们的观察和行动发生改变,这就是反身性。而当每个人都这么做时,那被观察和操作的系统就会变成混沌系统。金融市场已经充分说明了这点,如果大数据在预测上是没边界的,那只要掌握了大数据应用技巧,在金融市场上就没人不会赔钱,但显然这是不可能的,最多是不同人输赢的概率不同。
容易预测的与不容易预测的
如果一种现实更多地依赖于某些不易改变的因素,比如一种文化传统、一种生物特性,那这种现实是容易被预测的;如果一种现实更多地依赖于可被瞬间改变的因素,比如:人们的心情,那这种现实是不容易预测的,甚至是不可预测的。
具体来讲,人们生病后会检索自己的相关症状,而传染病会扩散,因此Google那种监测传染病暴发区域,以及预测其可能扩散路径的大数据使用方式是极为有效的。在这里反身性并不起太大作用。
但股票就不行,因为你在预测,别人也在预测,买家和卖家的行动又不一致,这就会使股票市场成为混沌系统。究竟怎么样才能用大数据预测到国内这波股票的上涨呢?
同传染病和股票市场相比,电影票房的可预测性则在两者之间。有必然性在支撑,比如基本上很垃圾的电影很难有好的票房,但偶然性影响也很大,你不好预测哪个点戳到了人们的哪个神经,它突然就变火了。谁能预测泰囧的10亿票房呢?所以我的判断是在票房预测上,不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题。
总结来看,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。
监测与预测
在预测上大数据必须面对自己的边界问题,但在监测上大数据的威力是无远弗届的。
我们这个世界的数据化程度一定是越来越高的,当我们在社交网络中活动时,其实就是我们个人在不停数据化的过程,我们的偏好、关系、每日活动等正在源源不断的数据化过程中,如果可穿戴设备、智能家居发展起来,那数据化的东西就会更多。
我在互联网时代的方法论那系列文章里一直坚持这样一种观点,互联网正在生成一个与现实世界并行的很像黑客帝国的意识空间,而这个意识空间是数据化的。理论上讲,在这个空间里不存在信息不透明这回事,空间和时间不再成为阻隔信息流动的障碍。所以不管你喜欢不喜欢,在数字化面前每个人正在变成透明人,也就是说100%可监测。
监测与预测间的桥梁是必然逻辑和直觉,直觉依赖于个人才情天分,这放在一边不提,主要谈下必然逻辑。有必然逻辑在,事情就有了发生的可能性,但不一定发生。这点比较不好理解,我们来看个例子。
我们谈微信的时候更容易聚焦到张小龙打造产品的功力,往往容易忽视马化腾张小龙才是打造微信的组合。从公开报道来看,当时腾讯内部是有很多团队同时在开发移动IM的,而这种投入很可能是基于“移动互联网才是真的互联网,腾讯必须在移动互联网的IM上占有统治地位”的假设,在这种假设下马化腾又有所谓的灰度理论,所以才有多支团队同时并进。如果没有这类顶层设计,我想更多公司更可能是在移动版QQ上做微创新,进一步掉入创新者的窘境。
如果抽象点来分解这个例子,那我们可以这么讲,移动互联网的发展是可以从大数据上感知的,因为只要做足够的监测,那么就可以从数据上在较早阶段感知到这个趋势。但判断移动互联网是真的互联网,则依赖于当事人的眼光格局,再进一步决定去同时做微信和手机QQ,那则是上述逻辑的一个后果。在决定做微信那个时间点,马化腾乃至其他大佬也不知道它一定能成,否则大家一定是别的事情都不干,都专心做微信。但微信确实是移动互联网是真的互联网这一条必然逻辑的一个衍生品,相当于是预测未来的一个后果。这就是大数据、监测、必然逻辑与预测的关系。
结束语
大数据方兴未艾,但在用大数据时最好也考虑下它的能力边界,否则就可能因为它在某个点上失灵而怀疑大数据本身,这是会得不偿失了。随着数据化程度的提高,反身性的作用可能会越来越大,作为结果,世界会变得越来越像混沌系统。在这样的趋势下,相信上文提到的监测与必然逻辑的结合应该会对如何使用大数据有所帮助。

以上是小编为大家分享的关于大数据里的真命题和伪命题的相关内容,更多信息可以关注环球青藤分享更多干货

⑧ 平安健康CTO王齐:大数据其实是一个伪命题

平安健康CTO王齐:大数据其实是一个伪命题

近日,中国平安宣布旗下首款互联网健康管理产品,“平安好医生”正式上线。该创新产品定位于用户随身的“移动医生”,以医生资源为核心,提供实时咨询和健康管理服务。

为此,新浪科技专访了其CTO王齐,在他看来,对于健康智能硬件来说,“大数据”其实是一个“伪命题”,除了夺人眼球,并没有实际的功用。

王齐称,在开发 “平安好医生”时,公司放弃了开发自有品牌可穿戴设备的想法,在硬件策略上选择开放性地与硬件厂商合作,集中精力做好在线健康咨询-----解决谁来分析和解读数据这一核心问题。

“大数据”其实是一个“伪命题”

在王齐看来,可穿戴设备很少有达到医用级别的,它们提供的信息往往是噪音信息,所谓采集数据,经常是建立在“噪音”而不是“信号”上。另外,每个人的情况都是个性化的,从生活习惯到成长经历,从基因到体质,这种差异化使得数据之上的价值分析变得尤为重要。比如判断温度对哪些病症有帮助,单看温度基本没有什么用。

他指出,对于健康类智能硬件来说,最重要的一环正是大部分硬件商缺失的,就是这些数据由谁来分析,谁来解读,谁来告诉用户数据背后的含义。做出这样的判断必须有专业的医学工作者来进行智力支持。

所以,与其他互联网医疗轻问诊平台最不同的玩法是,“平安好医生”全职聘请了近500名全科及专科医生,这些医生均为三甲医院的主治医师,在平安好医生医学咨询平台上,他们全天候不间断地实时接受用户咨询,咨询内容包括急病导医预诊、慢病康复管理、体检报告解读以及营养运动建议。通过日均2万次以上的咨询,大量个性化的健康信息及数据得以沉淀。

由于用户的健康咨询全部通过在线完成,不论语音、图片还是文字,都是电子化的,只要通过技术手段打上标签,什么时间什么病,基本健康档案就可以形成了。下一步就会尝试通过保险理赔的途径从各家医院获取用户线下就诊数据,并用同样的技术手段,电子化线下病历。

这样一来, “平安好医生”是底层源数据的入口,通过数据清理、机器学习将对话、影像信息标签化、模块化,搭建出“信息网”——健康云,从而实现EHR(电子健康档案)、EMR(电子病历)以及PHR(个人健康记录平台)的全景图。

重要的是解决“然后”问题

正是因为数据之上的价值分析变得尤为重要,所以单纯采集数据的智能硬件就变得没有那么大的`用处,对医生也没有太大的帮助。“最终信息的数据解读,因为包含大量信息,还是要靠人,短时间内不太可能是机器,而且机器处理也需要长时间的积累,才能拿到临床实践。”王齐说道。

而在垂直的智能硬件领域,他坦承,垂直领域水很深,投入很大,但目前力量有限,所以就做自己最擅长的事,那就是整个资源,当然也可以不断接触到智能硬件的其他企业,不断探寻是否有帮助,是否可以做相应程度的修改。

对于医生来说,他们有3个诉求,科普,一些自己也能处理的情况就可以介绍下,自己确定然后买药;诊疗,医生更喜欢专科的病例,骨科一定更喜欢看骨折等;科研,跟自己对口的病例,可以有时间去专注做分析科研。所以,做一个分诊导流含册袭的平台,让病人都到合适的地方去,过滤掉需要普及性常识性的问题,才是关键。

因此,平安健康要从后往前,把智能硬件收集的数据给专家看,让专家来判断是否有价值,因为每个行业专注的点不一样,可能专注硬件的发现成本控制不错,但没准儿用户体验不是太好,这些都需要进一步磨合。

以糖尿病来举例说明,每个病人的糖尿病情况是不同的,首先他需姿滚要跟医生聊一次,把自己的情况和数据给医生,让医生帮忙设定一个目标值,此后再用设备进行数据采集,传输数据,发送通知,然后明确什么原因,什么药对症,打通整体的闭环才会有更大的价值。

王齐认为,“健康云”的建立也会拓宽平安在医疗领域的疆域,譬如深入到病理研谈兄究、医药研发,也能够带来一轮健康保险产品的“再设计”:通过掌握客户的健康数据,对疾病进行事先的管控和预防,从而降低理赔风险,控制费率,完整地打通“医疗”与“保险”的利益关联,降低产品定价,做大整个健康保险市场的“蛋糕”。

怎样看待互联网+

对于互联网+来说,大家认为是量变还是质变,到底怎样推进,可能还是需要再探索。而现在,可能思路更清晰一点。

在王齐看来,对于移动医疗来说,很可能互联网行业对这个认知,远比传统行业要早,行动快,但相对的,传统行业更有先发优势。比如,房地产行业,已经做了很多年,他的积累使得新型互联网公司很难进去。

但事实证明,互联网已经干掉了很多行业,比如音乐唱片行业。但医疗相对比较重,总不能实现虚拟诊疗,不能通过网络拔牙。

如果传统公司按照传统方式来做,感觉自身业务还不错,收入也不错,就没太深的感受和太迫切的需求。在他们看来,传统公司比互联网公司还赚钱,而互联网+只是一个概念。所以传统公司的理念上还存在差异和冲突,只有有危机的时候,才会觉醒,才会去尝试。

不过,引入新的行业,还需要一段时间的观察。比如无人驾驶汽车,技术已经成熟,但整个法律法规、社会保障,因为思想非常有前 瞻 性,还是有一定接受阶段的。所以还是要有一个思路转变的过程。

;

⑨ 大数据和个人隐私的“战争”打响了

大数据和个人隐私的“战争”打响了

最近,谷歌执行董事长埃里克·施密特成了网络“红”人,用户们纷纷将自己的头像照更换成了埃里克·施密特的照片。

并非偶像崇拜,这其实是对谷歌新广告的抗议。谷歌最近推出所谓“共同代言”的广告政策,将允许广告商使用谷歌用户在Google+社交网站以及Google其他服务上的姓名、照片、评论等信息,以便为自己的广告产品背书。这一举措被指侵犯个人隐私,引发了诸多用户的极为不满。

谷歌只是一时处在了“风口浪尖”。这背后,实则是一场无法避免的大数据和个人隐私之间的“战争”。

谷歌新广告遭遇尴尬

谷歌新广告政策所谓的 “共同代言”,究竟是怎么一回事?

举个例子,你用谷歌搜索某一个餐厅,网页上可能会出现你的朋友“张某某”、“李某某”等在这一餐厅用过餐后点了“赞”或是作出其他评价,而且 “张某某”、“李某某”都是实名制的,他们的头像也赫然在目。然后,你就会对这个餐厅倍儿有感觉,你可能也会依照朋友们的评价来作出一些消费选择。这样一来,“张某某”、“李某某”无形中就为这家餐厅做了广告,成为其形象代言人,甚至有一天,他们还可能得到一些广告费的分成。

如果你是“张某某”或“李某某”,你是否真的愿意做这样的广告,把自己的行迹暴露给其他人?即使广告的对象是自己的朋友,你可能也不是每一次都愿意无条件分享的。更何况,对你来说,你可能根本记不得以往在哪些地方留下过“到此一游”的墨宝,天知道这种广告会出现在哪里,又会被哪些人看到。

不过,谷歌也作出解释:是否参与“共同代言”,其实是用户自主选择的。只不过,用户如果不修改自己共享的批准设置,就是默许谷歌在广告中使用用户的各类信息。

即使如此,谷歌的这一新广告政策还是遭到了 “侵犯用户隐私”的质疑。美国电子隐私信息中心(EPIC)主管马克·罗特伯格也指责,谷歌新广告将网络用户照片等信息商品化,有失公允。他同时呼吁美国联邦贸易委员会(FTC)介入调查评估。谷歌用户们更是纷纷表示抗议,据外媒报道,短短时间里,许多Google+用户已经把自己的个人简介照片替换成了施密特的照片,一旦谷歌决定在广告中使用用户的照片,这些照片显示都将是施密特本人。

质疑也好,抗议也好,至少目前,谷歌并没有改变主意,也不会改变其新的广告政策。因为在谷歌看来,其竞争对手Facebook,早就采用了类似的社交广告策略。谷歌此举,意在迎战。

确实如此,对国内的网络用户,其实这种广告方式,也不陌生。新浪微博也会在用户主页信息流中插入“好友在听”、“好友关注”、“地点推荐”等近似广告的条目,条目下方也会显示用户好友的ID,将用户当作广告形象代言人使用。

这些信息的传递,有意无意中威胁到了用户的个人隐私。一些大的互联网公司如谷歌等,还能对用户作出一些条款解释,用户是否参与了“共同代言”还能有迹可查,更或许,这些大公司还会豪气地向参与用户发放一些基于广告费分成的福利。但是,只要大公司开了先例,难免会有一些不正规的,甚至是无良网站跟上,不经本人同意就擅自用你的头像或其他信息做广告,那么你的隐私就完全地暴露了,而且还是你一些全然不知的渠道,会对你产生什么样的影响,更是无从得知。

大数据时代隐私之困

如果说谷歌新广告政策,是将用户信息直接拿来为己所用,侵犯了用户的个人隐私;那么,在当下这一个大数据时代,几乎所有线上的商业行为,本质上都是通过对用户个人隐私的洞察或利用,来获取商业收益的。

我们每一个人在网络上的一切行为,都可以被服务方知晓。当我们浏览了某一个网页、发了条微博、逛了逛某个社交网站、更或是进行了一次网络购物,等等,所有的举动实际上都被网络系以数据的形式记录下来。而基于对这些数据的综合分析,谷歌可以清晰地掌握你的网页浏览习惯,而亚马逊、淘宝等电商可以十分了解你的购物习惯,Face-book、微博、微信等,则似乎什么都知道,包括你的社交关系网络。除此之外,还有网络地图和定位,更是能够实时监控你的行踪。

这些所有的“你”的信息,原本都是个人隐私,如今却成为互联网商家们的“库存”数据。商家们可以随时拿来识别“你”,并对你进行商业价值的挖掘。谷歌新广告的做法,只是其中之一,商家们基于大数据的所谓精准营销,则是更普遍存在的隐私利用形式。

比如,你在某个社交网站上偶然提及某种产品或服务,这类型的产品或服务就能主动找到你;又如,你想要网购一双雪地靴,在某个电商网站上浏览过该类产品,那么相关的雪地靴介绍或者购买的链接,就会在未来一段时间内不断推荐给你;再比如,你仅仅是通过网络地图搜索过某一个餐厅的地址,你可能都没有想过去消费,但关于餐厅的介绍更或是其各个时段的促销优惠信息,就会定期推送给你,这其中自然还包括谷歌新广告所涉及的好朋友代言。

这些商家的做法,看似更懂消费者,能够直达消费者,但这何尝不是对消费者隐私的一种侵犯呢?“大数据时代,几乎没什么隐私可言”,说得一点都不为过。你是谁,你在哪,你的喜好,你的消费习惯,你此刻想要做什么……大数据都能给出准确的或接近准确的答案。对于互联网企业来说,基于大数据资源去掌握更多的用户隐私,才能在迅速占领更多的市场份额。甚至已有业内人士将互联网的下一轮竞争,直白地定义为“隐私之战”,用户的隐私就是核心竞争力。

举个例子,全球知名IT及数据服务公司——安客诚(Acxiom)之所以在业界具备号召力,就因为其拥有大量的关于个人隐私的数据,据称,它拥有500多万名分布在世界各地的消费者的个人信息。安客诚可以利用这些信息来推测你的生活方式、兴趣爱好和日常活动,比如你的汽车品牌和使用时间、你的收入和投资状况、你的年龄以及受教育程度。除此之外,你最近是否离过婚,或者你刚刚变成了一名空巢老人?这些“人生大事”可以将一个人从一个消费阶层转移到另一个阶层,而这也是安客诚及其广告客户的关键兴趣所在。安客诚称其可以通过分析数据来预测 3000种不同的行为及心理倾向,比如说一个人会在某两个品牌间做出怎样的选择。

安客诚走得比较早。但相比安客诚的原始数据,源自某些调查表或者用户注册服务,花费了大量的时间来积累。如今Facebook等一些互联网企业,在数据积累上则是迅速膨胀,Facebook就表示其能实现对个人信息搜集的自动化与实时化。公司首次公开募股时的财务档案显示,Facebook上每位用户的图片和视频资料数据量约为111MB,而如今Facebook的用户数已经超过了 10亿,这可是整整 100PB(1PB=10242GB)的个人信息数据。

更值得一提的是,如今线上、线下商家融合成为趋势,一旦商家们开始合作,整合并共享大数据,用户们的隐私真的就无处遁形了。早在今年2月,Facebook就已宣布与包括安客诚在内的多家数据代理商展开合作,通过整合各自的数据资源来构造现实世界与虚拟网络之间的联系。一个月后,安客诚的首席科学官对外宣称,他们的数据已经与全美90%的社会档案建立了链接。

拒绝恶意使用个人隐私

大数据是把“双刃剑”,快捷的网络、精准的营销,虽能带给人们一个更加便捷的生活方式,同时,却也让个人隐私的保护几乎成了一道伪命题。

如今的大数据营销,对于消费者而言,就好似被一双眼睛盯着,每时每刻窥探着你的一举一动。在PC终端时代,这双眼睛或许还只能偷窥你上网踪迹,在你订阅了某项网上服务时,顺便发些促销邮件。在当下的这一个移动互联网的大数据时代,这双眼睛窥探你,已能做到实时追踪,吃了什么饭,见了什么人,在哪里消费了什么……随后就会有据称是适合你的各种服务或商品广告铺天盖地。

且不说,时刻被监控的感觉,有时会让人没有安全感。很多时候,即使是商家们打着“更懂消费者”旗号的所谓精准营销,也不是每一次都能带给消费者惊喜。有网友就抱怨道:自己有一次只是出于好奇,手痒痒就在淘宝上搜索了“棺材”两个字,接下来的日子里,自己就被各种殡葬相关产品的推介信息包围着。还不只在淘宝网上,自从阿里巴巴与新浪微博合作后,该网友几次打开新浪微博,侧边的商品推介也全都是殡葬产品的推销,“有时突然‘跳’出来,还真让人毛骨悚然”。

这似乎已是消费者面临的一种常态。但这种种情形,还只是基于大数据的过度营销,让消费者反感,或许还没有达到“恶意”的程度。那么,酒店泄露消费者开房资料,数十万保单信息被泄露,快递单送达当天被卖掉,这一则则触目惊心的新闻,无一不是指向挖掘消费数据下的疯狂商业逐利行为。这些商家不但恶意使用了个人隐私数据,更是对消费者个人隐私权的严重侵犯。

大数据和个人隐私之间的 “战争”打响了。

但作为个体消费者,我们早就无法避免自己的个人隐私被网络系统记取,被商家掌握并挖掘利用。即使在PC时代,一些用户会采取措施,在上网时不停地清除cookie,以避免自己的隐私泄露,但实际上很多后台的软件还是可以获取你上网记录。尤其是一些防病毒的软件,它本质上既可以在某种意义上保护你的隐私,却也能拿到你更全面的隐私数据。更何况在一个基于移动互联网的大数据时代,通过移动设备的定位、追踪,如说你带着手机,网络后台系统通过传感器就能知道你在哪里,同时各类数据的交叉、关联,以及基于全局数据的综合分析,无论在什么时候,后台都能够清晰地“认识”每一个人。

业内人士坦言,大数据时代,要保护个人隐私,让用户个体的隐私不泄露,在技术上很难做到。

我们唯一能够而且必须要采取的措施,就是让这些用户的个人隐私不被无良商家、非法机构恶意地使用。一方面,这需要政府和行业监管机构加强监管,但凡发现有恶意使用用户隐私,并且给用户造成伤害的商家,就要给予严厉的惩罚。另一方面,中国社会科学院信息化研究中心秘书长姜奇平曾坦言,就国内现状而言,除了技术带来的监管难题,立法滞后也使监管处于无法可依的状态,“虽然有相关的法律,但都很粗略,互联网企业知道即使它侵犯了用户隐私,法律也拿它没办法。 ”因此,必须要建立健全个人隐私保护的法律法规和基本规则。

事实上,不仅是中国,各国都面临同样的难题。针对大数据时代隐私保护的法律法规,各国也都在采取积极的措施。 2012年,奥巴马政府就公布了隐私人权法案,号召公司在使用私人信息时将更多的控制权交给用户。欧盟也提出了一项关于“被遗忘的权力”的法案,消费者有权要求公司清除他们的个人数据,等等。

除此之外,对于保护个人隐私,技术仍是一个不容忽视的条件。虽然,现有的技术手段对于保护个人隐私而言远远不足,但我们还是要积极鼓励隐私保护技术的研发、创新和使用。希望将来有一天,能够实现从技术层面来保障大数据时代的隐私安全,完善用户保障体系。

以上是小编为大家分享的关于大数据和个人隐私的“战争”打响了的相关内容,更多信息可以关注环球青藤分享更多干货

阅读全文

与大数据伪命题相关的资料

热点内容
编程什么水平才能在猿急送上接单 浏览:356
电信卡免费流量的app有哪些 浏览:176
桂林市地形cad文件 浏览:536
为什么网络突然全部消失 浏览:373
iphone怎样安装软件 浏览:189
租婚车去哪个网站 浏览:519
linux批量修改文件权限 浏览:911
初学者学习编程语言从什么开始学 浏览:662
招商银行信用卡买苹果 浏览:200
streamsh头文件在那边找 浏览:395
苹果7p怎么看激活日期 浏览:600
汽车编程是什么工作 浏览:152
电脑显示找不到文件无法删除 浏览:164
叉叉模拟器下载的文件在哪 浏览:764
网络摄像头中up是什么意思 浏览:152
除了晋江还有什么网站有好文 浏览:771
苹果ipaimini系统更新密码 浏览:123
linux下如何debug 浏览:65
excel2003教程视频 浏览:792
联通幸福卡升级版资费 浏览:712

友情链接