Ⅰ 大数据时代,我们正在面临不平等
卢周来
在大数据时代,除了此前的权力面前的不平等和财富面前的不平等,人类社会可能还会面临“大数据面前的不平等”。
一家国际著名保险公司与提供大数据的公司合作,推出一款针对不同驾车群体的保险计划。这一计划的要点是,由大数据公司对不同潜在客户的驾车习惯进行分析,如果数据表明某位客户是白天上班,路也近,而且所经过的地带是安全路线,客户驾车习惯良好,没有特别情绪化举动,那么,给其所卖的保险可以打折;反之,如果数据表明某位客户是上夜班,上班地点也远,所经过的路线有风险,客户驾车习惯也不好,常无法控制自己的行为,那么,保险公司将提高其所缴纳保费额度。从商业角度看,保险公司这样做,是为了更精确地细分市场,赚取更高利润,这是无可厚非的,甚至还算得上大数据时代商业营销的成功案例。但就是这一行为,在欧洲引发了一场关于大数据时代社会平等问题的讨论。
在使用大数据分析后发现,在欧洲上夜班、且上班地点远、驾车经过路线复杂的,大多是低收入者和有色人种。由于长距离驾车,且夜班易疲劳,这部分人群的驾车习惯相对不那么好,驾车时情绪也不那么好控制,不少人甚至一路骂骂咧咧。而那些中产阶层以上人群,一般都上白班,上班地点近,路线也很安全,驾车习惯也好。如果按照保险公司的方案,这就意味着在社会学意义上本应该得到同情甚至帮助的低收入者,反而要缴纳更高的保费;而本来收入就高的人群,反而在获得保险上能得到优惠。如此一来,如何谈得上社会公正?
其实不仅仅是保险业,当下在欧美,大数据与金融行业的结合正越来越受到重视。一些商业银行利用大数据,寻找最合适的放贷对象,排除潜在的可能违约者。而事实上,所谓最合适的放贷对象,往往就是那些收入有保证、信用记录好、能还得起贷的高收入者;而潜在的可能违约者,多是那些本来就生活在社会底层,很难有好的信用记录的人。恰是后一部分人,他们有心创业时,更需要得到金融方面的支持,而由于大数据时代任何个人收入情况、信用情况、创业成败记录以及家庭背景等等,都一览无余。于是,与大数据时代以前任何一个时代相比较,低收入者更可能被排斥在资本市场之外,他们与有产阶层的财富鸿沟无疑也将进一步扩大。
美国一个黑人学者研究大数据库后还担心,在大数据时代,将强化种族歧视,且不给任何一个犯过错误的人以改过自新的可能性。在谷歌为某些企业定制的就业数据库中,这位黑人学者填入一些姓名后发现,与白种人相比,数据库中对黑人提供了更为详细的信息,这些信息中包括了家庭是否离婚、性取向、宗教和政治观点、智力水平、成瘾药物使用等等,这使得企业对使用黑人更加谨慎。不仅如此,数据库还特别搜集到联邦警务、检察和法院系统发布的各种信息源,一旦所查询的对象曾有公开的违法记录,就会自动触发一个警告设置,告诫企业人力资源部门:这个人有不良记录,小心雇用。因此,经过大数据的筛选,凡有过违法记录的人,几乎很难靠自身在市场上获得就业机会。
有人曾一度以为,因为大数据是匿名的,且互联网上的个体身份被确认的可能性并不大,即使有歧视,但不是针对特定的人。研究大数据时代歧视问题的学者发现,通过大数据分析技术,仅仅4项参照因素,就足以认定互联网上95%的匿名者身份。由于商业利润巨大的诱惑,大数据公司高度个人化的大数据集,已成为黑客与“揭秘”者觊觎的主要目标。所以,与此前相比较,在大数据时代,阶层歧视、种族歧视可能被强化,更具体地针对个人的“区别性对待”,也将更加泛滥。
在大数据时代,除了此前的权力面前的不平等和财富面前的不平等,人类社会可能还会面临“大数据面前的不平等”。而不平等问题,却是市场与技术本身永远无法解决的。这也为政府管理的必要性预留下更大空间。简单地说,市场每借助于技术革命拓展一步,政府管理也必将如影随形。因此,既要更好发挥市场作用,也要发挥好政府作用。即使是大数据时代,也是一条不变的“铁律”。
Ⅱ 手机管家中的黑人名单来电话不想看到怎么办
如果您想拒接某人的电话,您可以将其加入管家黑名单中,其今后的电话将会自动挂断
Ⅲ 2008年,奥巴马的竞选中应用了哪些"大数据"元素
巴马的演讲,既激情四射、振奋人心,又能保证言简意赅、主题突出。这种集传道士和推销员于一身的演讲技巧,再经过媒体的放大,便能产生明星效应。奥巴马成功当选美国第44任总统,也是美国历史上第一位黑人总统。美国新一代的变革即将来临。奥巴马“变革”是又一个“罗斯福新政”的开始吗?奥巴马上台面临的金融和经济危机从程度上虽不能与罗斯福上台时相比,但却是罗斯福之后历任总统面临的最严重的危机。次贷危机引发的金融危机摧毁了很多美国家庭在过去十多年以来积累起来的财富,能否尽快稳定市场和稳定投资者的信心,决定了奥巴马是成为像罗斯福那样的民族英雄,还是昙花一现的黑人总统。2008年11月5日正午,美国作出了一个伟大的决定,历史上第一次,一个黑皮肤的人掌握了世界的权力之巅。而在仅仅12年前,他还只是一介平民;4年前,他的职务不过相当于中国一位普通的省人大代表。35岁才步入政坛的奥巴马,没有显赫的身世背景,没有各级领导的亲切关怀,甚至也不曾从基层干起接受常年的培养和考验,是什么令他如此平步青云1、党内初选奥巴马宣布参选贝拉克·奥巴马于2007年1月16日宣布,他有意参加2008年的总统竞选。他已于当天向美国联邦选举机构提交了有关文件,并成立一个委员会,以评估他参加总统竞选的可行性。奥巴马16日在其网站上发表声明说,数月来他一直在考虑是否参加2008年的总统选举,但参加与否不会取决于媒体宣传和个人抱负。过去6年中,联邦政府所作的决定以及所忽视的问题使美国处于一种非常不安全的境地,美国陷入了一场本不应该发动的“不幸的、代价高昂的”战争,而身在华盛顿的领导人却不能以一种实际的方式进行合作。希拉里宣布参选而在1月20号,前总统克林顿的妻子希拉里在其个人网站上宣布参加2008美国总统大选。她的竞选标语是:我来了,为胜利而来。双方斗争激烈由于双方在党内支持者众多,一场激烈的抢票大战必不可少,绝不逊色于之后的总统选举。奥巴马主攻年轻选民,特别是通过网络。在2007年3月,奥巴马在“Yahoo!Answers”(Yahoo!知识+的美国版)发表题为《?》(如何吸引人参与民主运动?)的问题,回复量超越17,000个。之后他还在社交网站Facebook开了一个帐户,版面很受欢迎。而希拉里最大的优势是丈夫克林顿和本身身为女性,容易吸引女性选民的目光。当一位民意测验专家马克·迈尔曼让10位黑人妇女选出她们心中的政治英雄时,有8个人选了希拉里。奥巴马初选获胜,希拉里退选经过一系列的拉票,美国当地时间2008年6月3日,美民主党总统竞选人奥巴马宣布他在该党初选中胜出,获得民主党总统候选人提名。到了6月7日,希拉里正式宣布停止竞选,呼吁她的选民转而支持党内初选胜出者奥巴马成为总统。2、提名副总统及接受党内提名2008年8月23日,奥巴马宣布由65岁的德拉瓦州资深参议员乔·拜登(JoeBiden)成为民主党的副总统候选人。奥巴马竞选网站说:“拜登带来了大量的外交政策经验,让人钦佩的跨党派阵营合作记录,还有直接的事模式。”分析认为拜登的外交经验有助奥巴马执政,但选择政坛老手为竞选伙伴,将削弱奥巴马强调变革的正当性。8月28日,奥巴马在丹佛Invesco露天足球场接受民主党总统候选人提名,成为美国两党历史上第一位黑人总统候选人。而这一天亦是马丁·路德在华盛顿林肯纪念堂前演讲“我有一个梦”的四十五周年纪念日。奥巴马在演讲中勾画了他的执政蓝图,涉及经济、外交、恐怖主义、贫困、气候变化和疾病等二十一世纪的挑战。3、投入总统选战赢得党内初选后,奥巴马开始了他的竞选活动。特别是针对共和党传统州分和摇摆州(特别是票数极多的州),像俄亥俄州、印第安纳州、佛罗里达州、宾夕法尼亚州等。取得了不俗的成绩,在多个州分的民意调查显示奥巴马由之前的落后局面反超共和党候选人麦凯恩。面对奥巴马主动出击传统“红州”,且几乎之后的民意调查都领先于自己,麦凯恩背水一战,在临近总统选举日期,逐渐逼近奥巴马,但差距仍在5%~10%左右。4、赢得总统选举2008年11月4日美国东部时间晚间11时,计票结果显示奥巴马以349票大幅领先麦凯恩163票当选为美国第56任总统。他也成为美国历史上首位非裔美国人总统(奥巴马之父是肯尼亚公民,奥巴马之母是美国白人)。之后奥巴马在竞选总部芝加哥发表了题为“美国的变革”的胜选感言,称美国变革的时代已经到来。他谈到了包括胜选的意义、麦凯恩、家庭、外婆的去世、两党合作、美国的力量。
Ⅳ 人工智能背后的操控者是谁
“9·11 是犹太人干的,把他们都送进毒气室!种族战争现在开始!”
2016年3月23日,一个人设为19岁女性,昵称为 Tay 的聊天机器人在推特上线。这个微软开发的机器人能够通过抓取和用户互动的数据模仿人类的对话,像人一样用笑话、段子和表情包聊天。但是上线不到一天,Tay 就被“调教”成了一个满口叫嚣着种族清洗的极端分子,微软只好以系统升级为由将其下架。
微软聊天机器人的极端言论。
这样的口号并不是聊天机器人的发明,而在社交网络上大量存在着。美国大选期间,一些所谓的“政治新媒体”账号发出的掺杂阴谋论、种族主义的内容,在Facebook 上进行了病毒式传播。这有赖于人工智能协助下的“精准定位”:谁最容易相信阴谋论,谁对现实最不满?相应的政治广告和假新闻能精准地投放到这群人中,使人对自己的看法更加深信不疑。
因为设计缺陷而 “暴走”的聊天机器人,和精心策划的线上政治行为,看起来仿佛是两回事。但这种我们似乎从未见过的景象,却指向了同一个“凶器”——大数据驱动下的人工智能。
1、人工智能有作恶的能力吗?
人工智能会“作恶”吗?面对智能的崛起,许多人抱有忧虑和不安: 拥有感情和偏见的人会作恶,而仅凭理性计算进行判定的计算机似乎也会“作恶”, 且作起来易如反掌。这让许多人(特别是非技术领域的人)对人工智能的发展持悲观态度。
这种忧虑并不是最近才有的。人工智能这个词诞生于上世纪50年代,指可体现出思维行动的计算机硬件或者软件,而 对机器“拥有思维”之后的伦理探讨,早至阿西莫夫开始就在科幻作品里出现。
14 年前,威尔·史密斯主演的电影《机械公敌》里就有这样一个场景:2035 年的人类社会,超高级的人工智能承担大量工作,并与人类和谐相处。这些原本完全符合阿西莫夫“三定律”的人工智能,在一次关键升级之后对人类发起了进攻。这些机器人拥有了思维进化的能力,在它们的推算下,要达到“不伤害人类”的目的,就必须先消灭“彼此伤害”的人类。
十分高产的科幻作家阿西莫夫(1920-1992)。
剑桥分析CEO亚历山大·尼克斯(Alexander Nix)。
剑桥分析并不是一个孤例。澳洲一个 Facebook 的广告客户透露,Facebook 的人工智能会分析其用户特征和所发的内容,给出诸如“有不安全感的年轻人”“抑郁、压力大”等标签,然后有针对性地投放游戏、瘾品和甚至虚假交友网站的广告,从中获取巨大利益。
即使不存在数据泄露问题,对用户数据的所谓“智能挖掘”也很容易游走在“合规”但“有违公平”的边缘。例如,电商能够根据一个人的消费习惯和消费能力的计算,对某个人进行针对的、精密的价格歧视。购买同样的商品,用 iPhone X 手机的用户很可能会比用安卓“千元机”的用户付更多的价钱,因为他们“倾向于对价格不敏感”。而我们所经常谈论的“大数据杀熟”——比如携程老用户订旅馆的价格会更高——也建立在用户行为数据的基础上。
数据的收集本身也值得商榷。前网络人工智能首席科学家吴恩达(Andrew Ng)就曾公开表示, 大公司的产品常常不是为了收入而做,而是为了用户的数据而做;在某一个产品上收集的数据,会用于在另一个产品上获利。 在智能面前,没有所谓的个人隐私和行踪,也很难确定数据收集的边界在哪里,尤其是个人隐私与公共信息、主动提供与被动提供的边界。
总而言之, 在以商业利益为目标的人工智能眼里,并没有“人”或者“用户”的概念,一切都是可以利用的数据。 剑桥大学互联网与社会研究中心教授朔沙娜·祖博夫将这种人工智能和资本“合体”的现状,称之为 “监控资本主义” (Surveillance Capitalism)——在大数据和人工智能的协助下,通过对每个人的监控和信息的榨取,实现资本的最大化。
业界对此的态度很暧昧。AI 作为当下最热门、来钱最快的行当之一,这些动辄年薪50万美元的工程师很少得闲来思考“形而上”的问题。 一位不愿具名的研究人员在与我的微信私聊中表达了他的“个人看法”:“现在的技术离‘通用人工智能’还很远,对社会伦理方面的影响没有那么大,更多还是从繁琐的重复劳动中解脱出来。”
作者试图找到行业内人士对此评论,谷歌(中国)和网络自动驾驶部门的人工智能相关人员均表示,探讨 AI 的社会问题,牵涉到公司利益和形象,比较敏感,不便评论。
“人工智能作为一个工具,如何使用,目前来看决定权依然在人。”俞扬说道 ,“系统的设计者和商业(应用)的提供人员需要对此负责。”
如何负责?这或许需要我们正视人工智能对整个社会关系的挑战。
4、人工智能作恶之后
2018年3月 19 日,一辆自动驾驶的优步(Uber)在美国亚利桑那州惹上了麻烦。面对路中出现的一个推着自行车的女性,这辆车速 38 mph(约61km/h)的沃尔沃在昏暗的光线条件下并没有减速,径直撞了上去,受害者被送往医院之后不治身亡。这是自动驾驶第一例行人致死的事故。
电视台对自动驾驶优步车祸的报道。
事故发生之后,有不少人将矛头指向了自动驾驶的人工智能是否足够安全上,或者呼吁优步禁止自动驾驶。然而更关键的问题在于,亚利桑那有着全美国几乎最开放的自动驾驶政策,事故发生地坦佩市(Tempe)是实行自动驾驶最火的“试验田”之一;事故所在的街区早已做过路线测试,并被自动驾驶的智能采纳。但是在事故发生之后,对于责任的认定依然遇到了困难。
因为人的疏忽造成的车祸数不胜数,人们早已习惯了如何处理、怎样追责;然而机器出错了之后,人们忽然手足无措。 人工智能会出错吗?当然会。只是我们在这个问题上一直缺乏认知。 就如同上文提到的“隐性歧视”,深度学习的“黑箱”,现有的法律法规很难对这些错误进行追究,因为不要说普通人,就连技术人员也很难找出出错的源头。
当人工智能的决策在人类社会中越来越重要时,我们也不得不考虑,智能为什么会犯错,犯错了怎么办;若要让智能摆脱被商业或者政治目的支使的工具,真正成为人类的“伙伴”, 需要怎么监管、如何教育,才能让人工智能“不作恶”。
人工智能的监管问题亟待解决。
对此,现有的法律框架内很难有清晰的、可操作的实施方案。欧盟率先在数据和算法安全领域做出了立法的尝试,2018年5月即将生效的新法规规定,商业公司有责任公开“影响个人的重大决策”是否由机器自动做出,且做出的决策必须要“可以解释”(explainable)。但法条并没有规定怎么解释,以及细到什么程度的解释是可以接受的。
另外一个重要的问题是, 让机器求真求善,需要人类自己直面决策中的黑暗角落。 在 Atari 游戏智能的测试中,游戏中的人工智能 bot 可以用最快的速度找到漏洞开始作弊,而游戏玩家又何尝不是呢?不管是带有歧视的语义分析,针对少数族裔进行的“智能监视”和跟踪,或者把已婚未育女性的简历扔掉的智能简历筛选,都长期以各种形式存在于人类社会中。
人工智能不是一个可预测的、完美的理性机器,它会拥有人类可能拥有的道德缺陷,受制于人们使用的目标和评估体系。 至少目前,机器依然是人类实然世界的反应,而不是“应然世界”的指导和先驱。 对机器的训练同样少不了对人性和社会本身的审视——谁在使用,为了什么而使用,在我们的世界中扮演着怎样的角色?数据是谁给的,训练的目标是谁定的?我们期望中的机器,会继承我们自己的善恶吗?
谷歌中国人工智慧和机器学习首席科学家李飞飞认为, 要让机器“不作恶”,人工智能的开发需要有人本关怀 。“AI 需要反映我们人类智能中更深层的部分,”李飞飞在《纽约时报》的专栏中写道,“要让机器能全面地感知人类思维……知道人类需要什么。”她认为,这已经超越了单纯计算机科学的领域,而需要心理学、认知科学乃至社会学的参与。
未来,人工智能进入更多的领域、发挥更强的功能,是无可争辩的事实。然而,我们的生产关系能否适应人工智能带来的生产力,这句马克思政治经济学的基本原则值得我们认真思考一番。 我们并不想看到未来的“机器暴政”将我们的社会绑在既有的偏见、秩序和资本操纵中。
一个AI
人工智能之所以会作恶,可能就是因为太像人类了吧。
Ⅳ 大数据分析工具详尽介绍&数据分析算法
大数据分析工具详尽介绍&数据分析算法
1、 Hadoop
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
2、 HPCC
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。
该项目主要由五部分组成:
1、高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
2、先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
3、国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;
4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支 持这些调查和研究活动;
5、信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。
3、 Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测 试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。
4、 Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel.
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。
该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。
“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。
5、 RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
功能和特点
免费提供数据挖掘技术和库
100%用Java代码(可运行在操作系统)
数据挖掘过程简单,强大和直观
内部XML保证了标准化的格式来表示交换数据挖掘过程
可以用简单脚本语言自动进行大规模进程
多层次的数据视图,确保有效和透明的数据
图形用户界面的互动原型
命令行(批处理模式)自动大规模应用
Java API(应用编程接口)
简单的插件和推广机制
强大的可视化引擎,许多尖端的高维数据的可视化建模
400多个数据挖掘运营商支持
耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。
6、 Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
Pentaho BI 平台,Pentaho Open BI 套件的核心架构和基础,是以流程为中心的,因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行,主要以Pentaho SDK的形式进行。
Pentaho SDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为 Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;
Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。
Pentaho BI 平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE 服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。
7、 SAS Enterprise Miner
§ 支持整个数据挖掘过程的完备工具集
§ 易用的图形界面,适合不同类型的用户快速建模
§ 强大的模型管理和评估功能
§ 快速便捷的模型发布机制, 促进业务闭环形成
数据分析算法
大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。
最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,机器学习顶级期刊)杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法(分类学习算法)在UCI 121个数据集上进行了“大比武”(UCI是机器学习公用数据集,每个数据集的规模都不大)。结果发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名,但两者差异不大。在84.3%的数据上、Random Forest压倒了其它90%的方法。也就是说,在大多数情况下,只用Random Forest 或 SVM事情就搞定了。
KNN
K最近邻算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。详细介绍链接
Naive Bayes
朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接
朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
SVM
支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接
Apriori
Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。详细介绍链接
PageRank
网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。详细介绍链接
RandomForest
随机森林算法。算法思想是决策树+boosting.决策树采用的是CART分类回归数,通过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合的现象发生。详细介绍链接
Artificial Neural Network
“神经网络”这个词实际是来自于生物学,而我们所指的神经网络正确的名称应该是“人工神经网络(ANNs)”。
人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重值,以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统,可以发展知识,以致超过设计者原有的知识水平。通常,它的学习训练方式可分为两种,一种是有监督或称有导师的学习,这时利用给定的样本标准进行分类或模仿;另一种是无监督学习或称无为导师学习,这时,只规定学习方式或某些规则,则具体的学习内容随系统所处环境 (即输入信号情况)而异,系统可以自动发现环境特征和规律性,具有更近似人脑的功能。
Ⅵ 大数据正在潜移默化的十三个行业
1、电视媒体
大数据应用案例之电视媒体——对于体育爱好者,追踪电视播放的最新运动赛事几乎是一件不可能的事情,因为有超过上百个赛事在 8000 多个电视频道播出。而现在市面上有开发者开发了一个可追踪所有运动赛事的应用程序—— RUWT,它已经可以在 iOS 和 Android 设备,以及在 Web 浏览器上使用,它不断地分析运动数据流来让球迷知道他们应该转换成哪个台看到想看的节目,在电视的哪个频道上找到,并让他们在比赛中进行投票。
对于谷歌电视和 TiVo 用户来说,实际上 RUWT 就是让他们改变频道调到一个比赛中。该程序能基于赛事的紧张激烈程度对比赛进行评分排名,用户可通过该应用程序找到值得收看的频道和赛事。
2、社交网络
大数据应用案例之社交网络——数据基础设施工程部高级主管 Ghosh 描绘的 LinkedIn 数据构建图,其中就包括 Hadoop 战略部署。
几年前,LinkedIn只是一家普通的科技公司。而现在,其俨然成为一个工程强国。LinkedIn 建成的一个最重要的数据库是 Espresso。不像 Voldemort,这是继亚马逊 Dynamo 数据库之后的一个最终一致性关键值存储,用于高速存储某些确定数据,Espresso作为一个事务一致性文件存储,通过对整个公司的网络操作将取代遗留的 Oracle 数据库。
它最初的设计就是为了提供 LinkedIn InMail 消息服务的可用性,该公司计划今年晚些时候将推出开源
3、医疗行业
大数据应用案例之医疗行业—— Seton Healthcare 是采用 IBM 最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过 3000 次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类 App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
Express Scripts 就是这么一家处方药管理服务公司,目前它正在通过一些复杂模型来检测虚假药品,这些模型还能及时提醒人们何时应该停止用药。Express Scripts 能够解决该问题的原因在于所有有关数据。因为它每年管理着 1.4 亿处方,覆盖了一亿美国人和 65,000 家药店,虽然该公司是能够识别潜在问题的信号模式,但它也使用数据来尝试解决某些情况下之前曾经发现的问题。
他们还着眼于一些事情,如所开处方的药物种类,甚至有人在网上谈论医生。如果一个医生的行为被标记为红色的旗帜,那么他在网络上是个好人的形象,更是你所需要的医生。
4、保险行业
大数据应用案例之保险行业——保险行业并非技术创新的指示灯,然而 MetLife 保险公司已经投资 3 亿美金建立一个新式系统,其中的第一款产品是一个基于 MongoDB 的应用程序,它将所有客户信息放在同一个地方。
MongoDB 汇聚了来自 70 多个遗留系统的数据,并将它合并成一个单一的记录。它运行在两个数据中心的 6 个服务器上,目前存储了 24TB 的数据。这包括 MetLife 的全部美国客户,尽管它的目标是扩大它的国际客户和多种语言,同时也可能创建一个面向客户的版本。它的更新几乎是实时的,当新客户的数据输入时,就好像 Facebook 墙一样。
大多数疾病可以通过药物来达到治疗效果,但如何让医生和病人能够专注参加一两个可以真正改善病人健康状况的干预项目却极具挑战。安泰保险目前正尝试通过大数据达到此目的。安泰保险为了帮助改善代谢综合症患者的预测,从千名患者中选择 102 个完成实验。在一个独立的实验室工作内,通过患者的一系列代谢综合症的检测试验结果,在连续三年内,扫描 600,000 个化验结果和 18 万索赔事件。将最后的结果组成一个高度个性化的治疗方案,以评估患者的危险因素和重点治疗方案。这样,医生可以通过食用他汀类药物及减重5磅等建议而减少未来 10 年内 50% 的发病率。或者通过你目前体内高于 20% 的含糖量,而建议你降低体内甘油三酯总量。
5、职业篮球赛
大数据应用案例之职业篮球赛——专业篮球队会通过搜集大量数据来分析赛事情况,然而他们还在为这些数据的整理和实际意义而发愁。通过分析这些数据,可否找到两三个制胜法宝,或者至少能保证球队获得高分, Krossover 公司正致力于此。
在每场比赛过后,教练只需要上传比赛视频。接下来,来自 Krossover 团队的大学生将会对其分解。等到第二天教练再看昨晚的比赛时,他只需检查任何他想要的——数据统计、比赛中的个人表现、比赛反应等等。通过分析比赛视频,毫不夸张地分析所有的可量化的数据。
6、能源行业
大数据应用案例之能源行业——智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来 2 ~ 3 个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
维斯塔斯风力系统,依靠的是 BigInsights 软件和 IBM 超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足 1 小时便可完成。
7、社会生活
大数据应用案例之社会生活——印度有一档非常受欢迎的电视节目 Satyamev jayate,该节目整理并分析社会民众关于争议话题的各种意见,包括女性堕胎、种姓歧视和虐待儿童等社会热点问题,并使用这些数据来推进政治改革。
虽然目前只播放了 13 集,但是来自各方的反馈数据不容小觑。来自印度电视和世界各地的 YouTube 上的 400 万观众;超过 1.2 亿人在其网站、Facebook,Twitter,YouTube 和移动设备上已连接 Satyamev jayate ;超过 800 万的人通过 Facebook,网络注释,文本消息及电话热线等方式发送 14 万个回应,每周有超过 10 万个新观众进行回应。
8、公路交通
大数据应用案例之公路交通——在洛杉矶开过车的人一定都经历过那里噩梦般的交通拥堵情况。目前政府在 I-10 和 I-110 州际公路上建立了一条收费的快速通道。政府可通过大数据引导驾驶人员在该通道上的行驶情况,保证交通畅通。
施乐就是参与此次项目的公司,它的抗拥塞项目,包括用 ExpressLanes 、动态定价,上升的需求等等以维持某种秩序的想法。施乐公司的首席技术执行官表示,如果司机支付给驾驶热车道(高占用收费系统),他必须保证车速每小时 45 英里左右。如果交通开始拥堵,私家汽车的支付价格将上升,以减少他们进入,而将车道用于高占用率的车辆,例如公共汽车和大巴车。
施乐还有另一个项目在洛杉矶称为 Express Park,目标是让人们知道他们何时即将离开房子,在哪能找到停车场和花费金额。不仅要确保定价,同时更要确保数据实时到达用户手中。例如,应当提前 40 分钟告知用户停车位置。
9、汽车制造
大数据应用案例之汽车制造——当问起汽车的制造过程,大多数人脑子里随即浮现的是各种生产装配流水线和制造机器。然而在福特,在产品的研发设计阶段,大数据就已经对汽车的部件和功能产生了重要影响。
比如,福特产品开发团队曾经对 SUV 是否应该采取掀背式(即手动打开车后行李箱车门)或电动式进行分析。如果选择后者,门会自动打开、便捷智能,但这种方式会影响到车门开启有限的困恼。此前采用定期调查的方式并没有发现这个问题,但后来根据对社交媒体的关注和分析,发现很多人都在谈论这些问题。
10、零售业
大数据应用案例之零售业,某公司是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从 Twitter 和 Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。
希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。Informatica 的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。
零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17% 的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
11、总统竞选
大数据应用案例之总统竞选——许多人通过 Facebook 更新个人状态、分享图片以及他们"喜欢"的内容。奥巴马的总统竞选运动也通过使用社交网络的各种数据功能完成了竞选,他们不仅通过社交网络寻找支持者,而且还通过社交网络召集了一批志愿军。
早在 2006 年,Facebook 联合创始人,克里斯·休斯就建议扎克伯格在网站上推出相关服务,帮助总统候选人在 Facebook 上建立个人主页,以便他们进行形象推广。2006 年 9 月,Facebook 全面开放,用户数量爆炸式增长,在年底达到 1200 万。这一过程恰好有利地推升了奥巴马的知名度。此后,在克里斯的辅佐下,奥巴马掀起了一系列的网络活动,在 Facebook、MySpace 等社交网站上发表公开演讲、推广施政理念,赢得大量网民支持,募集到 5 亿多美元的竞选经费。
最终,"黑人平民"战胜了实力雄厚的对手,成为美国历史上第一位黑人总统,之后,在第二次的选举中更获得连任。此次选举被认为是美国民主的巨大进步,而互联网则提供了前所未有的实施手段,其中尤以 Facebook 代表的社交网站最为突出,以至于有人戏称之为 " Facebook 之选"。
最近上任的川普...算了不说了...简直就是一个喷子...
12、电子邮件
大数据应用案例之电子邮件—— MailChimp 的核心业务是提供电子邮件服务,它在一年内为大约 300 万用户发送了 350 亿封邮件。不过真正能体现 MailChimp 未来价值的则是该公司对这些邮件数据的处理和分析。
MailChimp 的一个重要任务就是搞清楚如何帮助客户更好地了解他们所发送的信息。考虑到这一点,该公司建立了一个服务叫 Wavelength,向客户展示了与他们相似的其他讯息。这个系统使得 Wavelength 能够储存公司数据库中每个邮件地址发生的互动。这意味着告诉了你,用户打开了什么样的邮件,何时打开,他们点击了什么链接,还有订阅了什么邮件。MailChimp 也有一个功能叫做 Ecommerce360,能让客户通过转换来跟踪点击。
13、音乐
大数据应用案例之音乐—— 十多年前,音乐元数据公司 Gracenote 收到来自苹果公司的神秘忠告,建议其购买更多的服务器。Gracenote 照做了,而后苹果推出 iTunes 和 iPod,Gracenote 从而成为了元数据的帝国。
在车内听的歌曲很可能反映你的真实喜好, Gracenote 就拥有此种技术。它采用智能手机和平板电脑内置的麦克风识别用户电视或音响中播放的歌曲,并可检测掌声或嘘声等反应,甚至还能检测用户是否调高了音量。这样,Gracenote 可以研究用户真正喜欢的歌曲,听歌的时间和地点。
Gracenote 拥有数百万首歌曲的音频和元数据,因而可以快速识别歌曲信息,并按音乐风格、歌手、地理位置等分类。 作者 佚名 本文转载至网络,如涉及抄袭请联系我们
Ⅶ 在大数据时代,文科方法与理论的力量到底体现在哪里
第一,定性分析并不是文科常用的方法,跟你理解的太不一样,是社会科学常用的方法。文科和社会科学有实质性的区别。
美国的社会科学发达于我国很多年----这个无需争论。有各种各样的原因。最重要的几个原因我可以帮你罗列一下:
1 美国社会学发展研究并无断层,并且在二战时期和冷战期间从欧洲接受了很大一批科学家:其中包括社会学科学家,教育学家,政治学家,管理学家,谈判学家,心理学家等。其他国家在内包括我国并无这样的积累和人才上的“非正常引进”。
所以,质性研究是一种建立在量化研究之上的,更为科学的手段。但对研究人员或者团队,需要更加复杂的训练。此外,你说的定性研究,本身就不是一种方法。定性研究里面,大大小小不同的研究差异,有几十甚至上百种之多,常用的就有:案例分析,田野调查,扎根理论,故事还原,现象分析,合作解释,内容分析,少数人种自叙等等等等,分支更是多,比如,访谈就分为兴趣小组访谈和一对一访谈。
所以,很多国家现在没有进入到定性研究成为主流的阶段。
Ⅷ 数据之巅读后感
细细品味一本名著后,大家心中一定是萌生了不少心得,此时需要认真思考读后感如何写了哦。你想好怎么写读后感了吗?以下是我帮大家整理的数据之巅读后感范文,仅供参考,大家一起来看看吧。
大数据,一个近年来的流行词汇,随着互联网信息技术的普及开始深入人心,又随着互联网对各类行业各种关系的颠覆和变革开始广泛普及。当越来越多的人开始对大数据无比推崇的时候,其实只是跟着趋势而已。这时候,如果能跳出来,看看这种趋势的源头和足迹,或许更容易找出一些能够指导未来的价值。在如今这个数据浪潮之中,《数据之巅》就提供了这么一个别样的视角。
要了解大数据,先得认清数据;要认清数据,先得看清数据的作用和价值。这方面,建国不过二百余年但已然是超级大国的美国无疑是最好的标本。都说美国的文明是建立在印刷术的基础上,这其实就是数据文化的基础——信息可以通过便捷的纸张与文字组合,实现一种虚拟化和抽象化,而这种抽象化很快就得到了广泛的信任。这是最早为数据创造价值准备的基础。在此之上,美国建国的先贤们考虑到了权力的分配、社会的发展等各项因素,建立了民主、共和相互制约的执政体系。事实上,所有的美好都是限制之后的产物,自由、民主和平等这人类的三大追求之间就是相互制约的关系。那么,该怎么进行有效的制约?如何让大家都能接纳?这时候,最能代表客观现实的数据就出现了。
《数据之巅》的第一部分就是这样展开的,从各种历史事件中数据的作用以及人们对数据的态度、反应、应用方式,勾勒出了数据文化的成长和成熟。解决权力分配的问题、决定改变历史的战争、制定从战略到战术的安排、考虑政治的计算以及商业层面上的利用;从搜集、统计、筛选、量化、抽样的方式方法演变到了解、安排、预测、准备、发掘、规范的效果体现,经历的历史似乎并不长,但造就的变革尤其精彩。数据其实一直都在,只在于人们是否需要它、重视它、愿意聆听它的意见……而人们往往也都在遇到了问题难以决断的时候才会想到数据这个伙伴,这也是为什么在第一部分的结尾中日本崛起的思考——二战后空前繁荣的美国工业因为遇上了供不应求的状态,自然走上了粗放型路径,冷落了相应的数据应用,而战败的日本正因为深陷困境,在快速汲取先进知识的同时也迅速接纳了数据文化,通过数据抽样的方式快速提升了质量……日本的崛起可以看作穷则思变的例子,但变革中数据的作用尤其明显。数据的优化作用由此可见一斑,书中更有很多案例,但要参透这一点,先得认识到数据的重要性才行,这可以算作是数据文化的入门吧!
可以说现实中的一切都是越用越少的,但看似虚拟的数据却越用越多。所谓大数据时代,背景正是高度发展科技能让更多的数据得以留存,这种留存和挖掘完全由机器实施,由此得到的结果也是叹为观止的。如果说科技的发展趋势已经越来越超乎我们的想象,那总有一些规律或者原则可以抓住——比如数据。书中第二部分的大数据崛起便将重点放到了当下,由此展望未来的可能性。诚然,大数据是被技术发展所推动的,但更是被重视数据的人们所推动的。
技术降低了数据获取、积累的成本,增加了计算的可能和利用的空间,但这只是一个表象。深层次需要在意的则是数据的开放,只有数据开放才有多元的整合,这需要由人来推动,而推动者必须有多元认知的思维方式、开放的心态——这是数据文化中尤为重要的一部分。如果之前我们认为智慧是属于人的,那么未来这个词将更多的形容一些别的体系,比如“智慧城市”。其实人的'智慧依靠的是学习、理解和经验,那么机器的学习靠的就是数据,还有那些我们为其规划的应用方式和我们的需要。如何确定我们的规划和需求?靠数据,更得靠能够深入人心的数据文化!
正如作者提到中国社会要将“大数据”这个科技符号转变为文化符号,因为只有文化才能真正驱动人们的成长和发展,科技只是手段而已。只有建立了数据文化,愿意尊重数据、善于整合数据、敢于发掘数据中的异动……才能正真利用好大数据。数据文化是尊重事实、强调精确、推崇理性和逻辑的文化,这种文化将是发展最重要的动力,更是最好的参考。从《数据之巅》中,隐约可以看到一条隐约的轨迹,通向未知的远方却一直步步为营,这便是数据,来自于人而胜于人。
歌德把历史称为“上帝的神秘作坊”。在徐子沛先生新作《数据之巅》的精彩演绎下,关于数据文化如何形成、数据治国理念如何深入人心的历史画卷徐徐展开,令我们再次饱览古今中外因数据成就的神奇瞬间,领略统计文史的山风水韵和数据文化的悠远回音。康德说,数字是重要的透视方式。此言不虚。
子沛先生一如既往把中国作为本书的重心和出发点。从中国历史上的吉光片羽到第一次现代意义上的人口普查,从中国数据可视化先驱人物陈正祥的执着努力到民族复兴能否量化的中国话题,这些元素无疑令中国读者感到亲切和温暖。遗憾的是,在悠久的中华文明史上,这样的“统计事件”不仅凤毛麟角,亦未能带动整个民族和社会形成用数据说话、以数据治事的风尚。即使今天,我们依然面对这样一个不容回避的事实:统计数据虽然证明了中国已经成为世界第二大经济体,在数据使用上,特别是大数据的收集、分析、应用的手段、意识、水平和能力方面,我们与美国、欧洲,甚至同处亚洲的日本,仍有不小差距。作为统计人,在享受本书呈现的统计和数据文化盛宴时,无疑更平添了一份独有的清醒与忧思。
中国需要进一步营造数据文化氛围。美国的历史,就是一部“善用数据”的历史。说数据成就了共和政治、数据终结了南方的奴隶制度,尚属见仁见智。“布兰代斯诉讼方法”及后来的汉德公式,公共预算制度的普及,统计学理论方法用于公共政策的制定,以及成本效益分析方法在美国政府的推行等,实实在在证明了数据在保障公平正义、促进进步发展、增进自由和理性方面的决定性支撑作用,体现了数据治国的基本理念。党的十八大把实现国家治理体系和治理能力的现代化作为新的奋斗目标,更加迫切需要大力弘扬建立在数据基础上的科学与理性,需要建树“尊重事实、强调精确、推崇理性和逻辑的数据文化”,需要进一步营造善用数据的社会氛围,使注重数据、使用数据真正成为一种习惯和风尚。
中国统计人要做大数据的先行者和引领者。在统计的“纯真年代”,政府统计是权威一般的存在,是统计生产的当然主导者。大数据时代,海量的网络化电子化信息使每一个人、每一个单位都可能成为信息的生产发布主体,政府统计包打天下的格局正在被打破。我们当然可以通过法律手段来“宣示主权”,但我相信大多数统计人凭着专业精神、职业尊严,将不屑于采取这么“简单而直率”的方法,而更愿意像一名“骑士”一样为荣誉而战。作为统计数据的生产者、发布者和使用者,没有人比我们更了解大数据的意义、价值和力量。“用大数据打造统计基础数据‘第二轨’”,深刻阐明了国家统计局应用大数据的战略思想和战略思维。目前,国家统计局已经与17家企业签订利用大数据战略合作框架协议,在贸易统计、价格统计、交通运输统计、农业统计等多个领域取得重要进展。我们不仅要直接应用大数据,还要在推动数据开放和共享、建立和统一相关应用标准,实施国家大数据创新驱动战略等方面,发挥应有作用。
中国统计人还要成为数据文化的倡导者和传播者。在宣传统计工作、弘扬数据文化方面,统计人有着天然的优势和便利。家喻户晓的GDP、CPI、PPI、PMI等统计拳头产品,大型的经济普查、人口普查、一套表联网直报等重要统计事件,为宣传统计、传播数据文化发挥了重要而积极的作用。我们还可以做得更好,也有理由做得更好。中国统计也要创建类似美国普查局的LEHD—工作单位和家庭住址的纵向动态系统,当超级飓风“桑迪”来袭,该系统大显神通,成功帮助纽约市政府组织救灾,并迅速对灾害影响作出准确评估。这样的统计“明星”产品,能够使人们更加信赖数据、依靠数据,推动数据融入政府管理、商业运营和社会治理以及人们的日常生活。
近年来,国家统计局在统计文化宣传方面做了大量工作,精心打造了统计网站、中国统计开放日、统计微讯微信等一系列新的统计宣传平台,政府统计的形象和公信力不断提升。今后更要以启沃公众数据意识为己任,以记录中华民族复兴的伟大进程为使命,从更大的视野,以更宏大的叙事,讲述中国的统计故事,书写中国的统计历史,把数据文化理念播撒得更广、更深、更远。
尼采在《查拉图斯特拉如是说》中有这样一句话:在有力量的地方,数字这位女主人就会生成,她更有力量。数据不仅代表“真正的事实”,还蕴藏着事物的发展规律。随着大数据时代的到来,数据资源及其开发利用正逐渐成为决定和影响各国核心竞争力的关键因素。中国不仅要做数据大国,更要成为数据强国。
我们这代统计人注定无法甘于淡泊和平凡,唯有顺应时代要求,以更先进的理念、更开放的姿态、更高超的技术积极拥抱大数据,广泛应用大数据,生产出更多更具竞争力的统计产品,才能在智能时代、智慧城市建设以及实现国家治理现代化的进程中,续写政府统计新的辉煌。
最近我读了涂子沛先生的《数据之巅》这本书,我深深的被作者的思考的深度和数据的力量所震撼。全书从数据角度出发,以美国政府历史以来“依数治国”的成功经验来阐释数据带给社会带来的挑战与变革。
进入21世纪第二个十年以来,随着互联网信息技术的普及与广泛应用,大数据时代正式到来。时代的变革意味着新的发展机遇与挑战,要想在数据浪潮当中立于不败之地,这就需要我们在精确的掌握数据之后,通过数据的创新来创造未来。
精确的掌握数据,需要从认识数据开始。简而言之,数据就是体现客观事实的表象,是客观性与抽象性有机结合的产物,容不得半点虚假。我们不能否认的是,所有的美好都是在限制之后的,而能够有效地进行限制,且又能够得到大家的一致认可客观现实,唯有那一张便捷的纸片上数据与文字的组合体,其实这就是数据文化的基础。数据创造价值准备的基础从侧面印证了中国的四大发明印刷术是西方国家文明的基础。
所谓的大数据时代就是在当下高度发展科技能让更多的数据得以保存。保存下来的数据是一种依据,更是一种工具。世间万物的发展都呈现各种各样的规律性,数量庞大且规律复杂,很难让我们掌握,但是一旦转换成数据保存之后,从数据的角度去分析规律变化的轨迹,能够很容易掌握并加以运用。而我作为基层执法工作者,运用数据进行执法,以控制数据达到预期管理预期,是这本书给予我最大的启发。
古代中国传统的执法者,是通过简单甚至带有粗暴的手段对执法对象进行强制管理,执法效果虽然容易操作,且直观,但是这是一种凌驾于规律之上,片面的追求短期效果的低级执法模式。进入新中国以来,尤其是改革开放以来,我国坚持依法治国,党的十八届四中全会更提出了全面推进依法治国的新常态,这是数据文化的有力体现,是我党在大数据时代下,一项重大举措。
我认为,大数据时代下运用数据进行执法,是执法能力现代化的利器。我从事交通执法这个职业已经数载,经历过从无到有,又逐渐的从有变成无。这个前后并不矛盾,从前的“无”是法律不健全,无章可循,有章难循状态。只能够自身党性约束和对事物客观理解进行执法,甚至有的时候片面的依靠上级,人类对事物的理解具有局限性,这难免会造成决策错误。
从无到有,是法律慢慢健全,法律的约束更加全面,但有的时候简单的照本宣科,眉毛胡子一把抓,也就成了教条主义。而从有到无,是一种利用客观的数据,以法律为准则,通过科学执法,将数据调整趋于合理。类似国家利用经济规律宏观调控国民经济,用一只看不见的“大手”将全国的经济发展形势引导至合理增长的区间。数据合理了,管理预期也就达到了。相对于我们有肉眼去观察,显得更为精确,且具很高的可信度。这样一来,对我们基层执法工作者带来的巨大的福利,我们从此以后再也不用担心对工作进展情况不了解而心急火燎了。
在大数据时代变革的今天,客观、精确、理性和逻辑的“数据文化”理念是推进国家治理体系和治理能力的现代化利器。大数据时代下的执法行为更是离不开数据,只有充分的利用数据化管理、数据化创新,才能在当前数据浪潮当中主动适应新常态,科学地实现新突破和新作为。
《数据之巅》读后感这是涂子沛先生关于大数据的第二本书,读了以后可以说是振聋发聩,醍醐灌顶。
第一本书本身就写得很棒了,其主要是从美国现代社会应用大数据成功解决的许多问题入手,说出了大数据的实际用处。而这本书抽丝剥茧从历史上美国对于数据的发展带给我们启迪。
1、数据分权
何为民主,何为共和,如何防范多数人的暴政?基于这个问题美国给出了参议院代表的共和与众议院代表的民主,权利与义务统一,即投票与纳税都按所代表的的人口来。
这里就诞生了对精确人口掌控的需求。基于这一点,逐渐养成了按数据说话的传统。并逐渐将单一的人口数量统计扩展到宗教,种族,性别,年龄。
2、数据引领改革
之前是北美大陆种植烟草亟需黑奴,美国解放后烟草行业败落。后来棉花兴起,死灰复燃。北方工业化也需要劳动力。黑人自由就发疯的言论源于统计上的失误,错误稀释原因因基数不同。一项战役向大海进军完全依靠准确数据抢掠补给。谢尔曼格兰特。背后的原因:维护美国的统一,(解放黑奴后其的生计太难),动员黑奴使其转败为胜。
3、数据推动技术
用数据研究社会,普通人的历史。统计学将研究粒度缩小到一个个人。加菲尔德将普查上升到了专业部门。迅速上升的统计内容,不断增加的人口给数据处理提出了挑战。于是技术创新制表机诞生了(数据处理),依靠这个IBM发展壮大,商业模式:只租不卖设备及服务。
4、数据争取权益
量化提高质量。经济发展带来劳资冲突,政治,道德失范。这时候为了改善工人生活又依靠数据兴起了数据分析法,成本收益分析法又在美国水利方面大显身手,继而福特车的风波也加速了成本收益分析法传播同时依靠数据公开使得企业不断提升产品质量,并将人的价值考虑进来。
5、抽样
运用抽样的方法降低数据处理的工作量,省时省力。盖洛普引领的总统预测,乱世佳人的精准预测,准确定位。把数据引入电影工业。质量管理大师戴明将统计方法引入质量管理领域,成就日本经济奇迹。
Ⅸ 数据新闻的功能与优势
目前,在大数据新闻制作上已经积累了经验的国际媒体有《卫报》《纽约时报》《华盛顿邮报》等,但它们也处于探索阶段。通过对国内外代表性媒体的大数据新闻实践进行研究,可以总结出大数据新闻的四个功能,即描述、判断、预测、信息定制。
《卫报》网页2012年1月5日发布了一个有关“阿拉伯之春”的大数据新闻报道。报道利用动态图表,以时间轴为主线描述了自2010年12月一突尼斯男子自焚至2011年12月的一年间,17个阿拉伯国家发生的一场政治运动。网民可以通过这个四维动态的报道,清楚地从宏观到微观,全面了解阿拉伯之春在不同国家的不同表现形式。图表上方设置了时间的推拉按钮,网民推拉到自己想观看的时间点,可以清楚地看到相同时间点上不同国家发生的相关事件。画面的下方是各个国家的标签,网民也可以通过国家标记,来关注某个具体国家在纵向时间轴上的政治演变进程。不同的政治事件用不同颜色来标示:绿色为群众性抗议活动,浅蓝色为国际上的相关反应,黄色为政治事件,红色为政权更替。如果网民想了解某个事件的具体内容,点击不同颜色的标示,随即获取深度报道的链接。这种新闻报道方式,将涉及十几个国家、时间跨度长达一年的复杂的“阿拉伯之春”,以明晰的动态方式呈现出来,纯文字报道难以达到这样的传播效果。
大数据新闻还能够描述那些看不见的短期过程,比如流言如何在社交网络上传播。《卫报》通过追踪分析260万份推特内容,利用可视化动态图表描述了从流言开始传播到辟谣结束的整个过程。它也是以时间为轴,利用圆圈大小、颜色变化来描述整个过程,绿色的圈代表散布流言的推文,红色的圈代表更正这个流言的推文,灰色的是中立的评价推文,黄色的是对流言持怀疑态度的推文。圈的大小代表了推文的影响程度,圈越大影响程度越大。如果想了解具体的内容,点到哪个圈,屏幕旁边即刻呈现这个圈所代表的推文的发布者、发布日期、转推人数等等信息。通过这个动态的演进过程,人们可以清楚地看到,社交网络并不像一般想象的那样,是一味扩散虚假消息的场所。其实在假消息出现不久,社交网络上各种辟谣的消息就已经出现了。
从这两个例子可以看出,大数据新闻的报道方式能够在宏观上对某个事件看得更加清楚与全面,事件复杂的演进过程以及这个过程中的各个方面,都能描述得直观且有趣。 2011年8月,一个黑人穆斯林男子乘出租车在伦敦街头遭到警方拦截,双方发生枪战,该男子当街死亡。两天后,约300人聚集在伦敦市中心的警察局进行抗议,后来演变成持续多天的骚乱事件,抗议者引燃了汽车、商店和公交车。当天夜里,伦敦其他地区也发生了类似袭警、抢劫、纵火等事件。一些媒体评论指出,这与贫富差距有关。英国首相卡梅伦接受采访时,声称骚乱事件与贫富差距无关。
英国《卫报》记者利用大数据的分析结果,做了关于这一事件的系列报道,其中的一个报道主题,便是骚乱与贫困有没有关联。记者利用谷歌融合图表,在伦敦地区地图上标记出骚乱分子的居住地信息(黄色点)、实际发生骚乱的地点(灰色点),以及贫困地区分布(越偏红色表示越贫穷)。根据这张伦敦市中心的图,网民可以将图扩展到整个大伦敦地区来看,也可以聚焦到具体的街区放大来看,观察每个被标记的骚乱点的人流从哪里来,到哪儿去,从而清楚地看到贫苦与骚乱之间存在的某种关联。这种关系的表达,比起单纯的文字报道来,表现清晰,说服力强。 2013年“十一”长假期间,九寨沟发生游客大量滞留现象并引发群体性事件。如果新闻媒体或旅游当局能够在此前运用中国的局部大数据进行预测性报道,完全可以避免这样的群体性事件发生。因为传媒可以根据这方面的大数据,提前报道在哪个具体时间段内,有多少人从哪些地方前往九寨沟,其中男人、女人、老人、儿童各有多少等等。
这只是一个小例子,大数据能够预测社会和人们日常生活中的各个方面。通过挖掘大数据,传媒在技术上可以制作出可视化、交互式的图表,告知很多事项。微观的如流行疾病来袭、交通拥堵情况;宏观的如经济指数变动、某种社会危机的来临等等。网络开辟了“网络预测”网页,以“大数据,知天下”的口号推出,预测的产品有高考、世界杯、电影票房等等。它们后期准备上线的产品扩展到了更广的领域,比如金融预测、房地产预测等等。 利用大数据的分析结果,满足网民的信息个性化要求,是国外媒体的最新尝试。例如Five thirty eight数据博客,在2014年5月23日新辟读者来信专栏“亲爱的莫娜”。其第一期开篇语阐释的目的是:“我开这个专栏是为了帮助读者回答一些生活中重要的或者严肃的问题,比如我是不是很正常、我处在世界的哪个地位层面等等,目的不是为了给读者答疑解惑,不是告诉读者应该做什么和不应该做什么。恰恰相反,我提供数据来解释、描述你的经历。”
综观这个专栏,读者的提问五花八门,比较严肃的如:“美国有多少人从来没有喝过一滴酒?”“美国有多少男性空乘人员?”也有比较私人的如:“我该多久换一次袜子?”“婚前同居会不会导致离婚”等等。专栏作者利用美国范围内的大数据,即刻将分析结果告知当事人,但避免给出指导性意见,仅告知各种数据的分析结果,让网民自己依照分析结果来处理自己面临的问题。这个专栏与传统的纸媒读者来信专栏不同,不是通过星座、血型、生辰八字或伪装成阅历丰富的专家,来提供些心灵鸡汤式的回答,只用数据来说话。
这种尝试在媒体中并不少见。2011年,BBC广播公司曾根据2012年政府的财政预算联合毕马威会计师事务所做了一个预算计算器,用户只需要输入一些日常信息,例如买多少啤酒,用多少汽油等,就能够算出新的预算会让你付多少税,明年生活会不会更好。
根据用户需求提供个性化的大数据服务,是未来的发展趋势。这些报道有一个共性,媒体都致力于以用户的需求为中心,利用大数据诠释宏观社会现象对用户的影响,或者回答用户困惑的问题。媒体可以精准定位,经过后台计算,按照用户的接收习惯、工作习惯和生活习惯将服务推送到用户眼前。
Ⅹ 所有的大数据都是有价值的吗
所有的大数据都是有价值的吗
大数据不一定等同于好数据,且越来越多的专家也坚信这一点,大数据并不会自动产生好的分析结果。如果数据不完整、断章取义或者被破坏,可能会导致企业产生错误的决策,从而削弱企业的竞争力或影响用户个人日常生活。
美国哈佛大学教授、定量社会科学研究所主任——Gary King就曾因数据分析时断章取义,得出了错误的结果。他发起了一个大数据分析项目,即通过检测Twitter和其他社交媒体帖子中的“工作”、“失业”和“分类”等关键词,来预测美国的失业率。
通过使用情感分析的技术,该组织收集了包含这些关键字的tweet和其他社交媒体帖子,来查看这些帖子的增加或减少是否与每月失业率存在相关性。
在监测这些内容时,研究人员发现包含其中一个关键字(“工作”)的帖子数量急剧增加,但随后,他们发现这与失业率毫无关系,因为他们忽略了乔布斯(乔布斯的名字Jobs也有“工作”的意思)去世的消息。我们应从这个例子中吸取教训,不要完全依靠“神奇”的大数据来指导决策。
King表示,“jobs”的双重含义只是诸多类似事件之一,在这一领域工作的人都遇到过类似的经历。他说:“这些关键字列表在短期内可能可行,但从长远来看,往往会带来灾难性的失败。你可以通过添加额外的关键字来解决问题,但这需要大量的人力参与。”
你可以输入关键些到Bing Social页面,便会看到一些相关或者无关的东西。如果你不更改查询,随着时间的推移,你会发现含有这些关键词的话题正以某种方式逐渐偏离主题,有时候偏离比较小,有时候却很大。”
但King表示,总体而言,很多大数据分析都产生了有用的内容。Vantiv公司首席安全官兼高级副总裁Kim Jones表示,这不是一个新问题,但如果人们认为大量数据能够奇迹般地产生良好的分析结果,这个问题可能会变严重。他指出:“Jobs的例子是一个经典的案例,数据本身并不等同于智慧。”
King认为内容是关键。他是大数据分析公司Crimson Hexagon首席科学家兼联合创始人,用该公司市场营销执行副总裁Wayne St. Amand的话来说,该公司旨在为在线对话提供“内容、意义和结构”。
然而,越来越多没有内容的数据在推动决策过程。华尔街日报2月份曾报道,医疗保险公司使用大数据来为其用户创建个人资料文件。该公司追踪的信息之一是购买加大号衣服的历史记录,这可能会导致将转诊转为减肥的计划。
没有人会觉得鼓励人们更健康地生活是错误的事情,但是这方面涉及的隐私问题却令人不安。这个人购买加大号衣服可能是送给另一位家庭成员。而且这种隐私问题可能带来更严重的影响。《彭博商业周刊》在2008年曾报道过有人因购买处方药的历史记录,而被保险公司拒绝为其上医疗保险,而这个人买药的历史记录暴露这个人有轻微的心理健康问题。
Adam Frank在博客中指出,在某些情况下,银行会因为用户在社交网站LinkedIn或者Facebook上的联系人的情况而拒绝用户的贷款。如果你的朋友赖账,你的信誉可能也会受到他们的信誉的影响。ACLU高级政策分析师Jay Stanley指出,“信用卡公司有时会因为其他消费者的信贷历史记录而降低消费者的限额。”
Kim Jones表示,从相关性得出结论,而不进行进一步分析,这给他本人也带来过麻烦。“在80年代后期和90年代初期,有数据显示,驾驶入门级豪华车,且年龄在20和27岁之间的西班牙裔和黑人男性最有可能是毒贩。而我正好符合这个标准,我是非裔美国人,年龄也在这个范围内,当时我开的正式这样的车,但我并不是毒贩。”
他表示,“我们不能只是依靠数据分析,那样可能会导致一些坏的结果。如果你忽略人类的分析因素,那么你的错误率将会非常高。”
简言之,大数据是一个工具,但不应该被视为解决方案。“它可以帮助你缩小范围,从数百万可能缩小到150左右,”Jones表示,“但是我们不能让计算机做一切判断,因为这最终可能会给你带来麻烦。”