A. 大数据的挑战和局限
大数据的挑战和局限
每个人都知道互联网改变了企业经营、政府运作以及人们生活的方式。但是一种新的、不那么明显的技术趋势却有着同样巨大的变革能力,那就是“大数据”。大数据的趋势发端于下面这个事实:如今到处传播的信息比以往任何时候都多出了许多,而且这一趋势正在应用于非同寻常的新用途。大数据与互联网截然不同,虽然互联网使数据的收集和共享方便了很多。大数据的意义并不仅仅是通信:其本质是我们可以从大量的信息中学习到从较少量的信息中无法获取的东西。
将改变人类思考方式
早在公元前3世纪,亚历山大图书馆被认为收藏了全部的人类知识。而如果把当今全世界的信息平分给每一个活着的人,那么每个人拥有的信息量将足足超过当年亚历山大图书馆全部藏书的320倍。如果把所有这些信息刻到光盘上并且分五摞叠起来的话,那么这些光盘可以一直堆到月球。
这种数据爆炸是相对新鲜的现象。仅仅在2000年的时候,全世界全部的存储信息中还只有四分之一是数字化的,其余的都保存在纸张、胶片和其他模拟介质上。但是由于数字数据数量的增长十分迅速——几乎每三年就翻一番,这种情形很快发生了逆转。如今,在所有存储信息中只有不到2%是非数字化的。
鉴于如此悬殊的比例,人们免不了在理解大数据的时候仅仅从数量上进行考虑。然而这将会产生误导。大数据的另一个特征是它能够用数据来表现世界的众多层面,而这些层面以往从来都没有被量化过——这种特征可以被称为“数据化”。例如,位置信息的数据化最早是由于经纬度的发明,而最近又有了GPS。当计算机对几个世纪内的书籍进行取样时,文字便成了被处理的数据。甚至连友谊和爱好也被数据化了——例如通过Facebook。
借助于廉价的电脑内存、高性能处理器、智能算法、聪明软件以及从基本统计学中借鉴来的数学知识,这样的一类数据正在被应用于难以置信的新用途中。这种新方法并不是试图“教会”计算机去从事驾驶或翻译这样的事情,而是要向计算机输入足够多的信息,从而使它们能够推断概率,例如交通指示绿灯亮、红灯不亮的概率,或者是在特定语境下“light”一词意为“光”而不是“轻”的概率。
以这种方式对大量数据加以利用,要求人们在三个方面彻底改变对数据的态度。第一是收集和使用大量数据,而不是像统计学家们在过去100多年里所做的那样,只满足于少量的数据或样本。第二是抛弃人们对有条理和纯净的数据的偏爱,转而接受杂乱无章——在越来越多的情形下,少许的不精确是可以容忍的。第三,在许多场合,人们需要放弃对事情原委的追究,而代之以对相关性的接纳。利用大数据,而不是试图弄懂发动机抛锚或药物副作用消失的确切原因,研究人员可以收集和分析大量有关此类事件的信息及一切相关素材,找出可能有助于预测未来事件发生的规律。大数据有助于回答是什么、而不是为什么的问题——通常有这样的回答就足够了。
互联网重塑了人类交流的方式。大数据则不同:它标志着社会处理信息方式的变化。随着时间的推移,大数据可能会改变人们思考世界的方式。随着人们利用越来越多的数据来理解事情和作出决定,人们很可能会发现生活的许多层面是随机的、而不是确定的。
从因果关系到相关性
人们看待数据的方式的两个变化——从局部变为全部以及从纯净变为凌乱——催生了第三个变化:从因果关系到相关性。这代表着告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。
加拿大的研究人员正在开发一种大数据手段,以便能在明显症状出现之前发现早产婴儿体内的感染。通过把包括心率、血压、呼吸和血氧水平等16种生命体征转化成每秒1000多个数据点的信息流,他们已经能够找到极其轻微的变化与较为严重的问题之间的相关性。最终,这项技术将使医生能够提前采取行动,从而拯救生命。
大数据所产生的影响将远远超出医学和消费品的范畴:它将深远地改变政府的运作方式和政治的性质。在推动经济增长、提供公共服务或进行战争等方面,那些能够有效利用大数据的人将拥有胜过别人的巨大优势。迄今为止,最令人兴奋的成果出现在市级,在这个级别上获取数据和利用这些信息进行实验要容易一些。纽约市长迈克尔·布隆伯格(他本人就是靠着数据行业发家的)率先进行了一项努力:该市正在利用大数据改善公共服务和降低成本。其中一个例子就是新的火灾预防策略。
非法在屋内打隔断的建筑物着火的可能性比其他建筑物高很多。纽约市每年接到2.5万宗有关房屋住得过于拥挤的投诉,但市里只有200名处理投诉的巡视员。市长办公室一个分析专家小组觉得大数据可以帮助解决这一需求与资源的落差。该小组建立了一个市内全部90万座建筑物的数据库,并在其中加入市里19个部门所收集到的数据:欠税扣押记录、水电使用异常、缴费拖欠、服务切断、救护车使用、当地犯罪率、鼠患投诉,诸如此类。接下来,他们将这一数据库与过去5年中按严重程度排列的建筑物着火记录进行比较,希望找出相关性。果然,建筑物类型和建造年份是与火灾相关的因素。不过,一个没怎么预料到的结果是,获得外砖墙施工许可的建筑物与较低的严重火灾发生率之间存在相关性。
利用所有这些数据,该小组建立了一个可以帮助他们确定哪些住房拥挤投诉需要紧急处理的系统。他们所记录的建筑物的各种特征数据都不是导致火灾的原因,但这些数据与火灾隐患的增加或降低存在相关性。这种知识被证明是极具价值的:过去房屋巡视员出现场时签发房屋腾空令的比例只有13%,在采用新办法之后,这个比例上升到了70%——效率大大提高了。
大数据的挑战和局限
大数据也正在帮助提高民主政府的透明度。一个建立在“开放数据”概念上的运动已经形成,其诉求超出了目前在发达民主国家已经十分常见的信息自由法。这一运动的支持者呼吁政府把手上浩如烟海的普通数据向公众开放。
与此同时,在政府推动使用大数据的同时,它们还需要保护公众免受不正当市场垄断的侵害。管理大数据的法规甚至可能成为国家间的角斗场。出于对反托拉斯和保护隐私的关切,欧洲各国政府已经在严查谷歌公司。脸谱网可能会成为世界各地类似行动的打击目标,因为它持有太多的个人数据。外交官们应该准备好围绕是否像对待自由贸易那样对待信息流动展开交锋。
大数据势必将改变人们生活、工作和思考的方式。建立在强调因果关系基础上的世界观正在受到推崇相关性的挑战。知识的占有曾经意味着对历史的了解,而现在却意味着预言未来的能力。解决大数据所带来的挑战将不是易事。
在决策越来越多地受到数据支配的世界里,人、直觉或是不顾事实的蛮干还有什么用武之地呢?如果每个人都求助于数据,都利用大数据工具的话,那么不可预测性——例如人类的本能、冒险、意外甚至失误——也许将会成为差异的关键。如果真是这样的话,那么需要专门为人为因素辟出一席之地——即为直觉、常识、运气留出空间,以确保它们不会被数据和机器生成的答案挤走。
这将对社会进步的观念产生重要影响。大数据使我们可以更快地进行实验,对更多的线索展开探索。这些优势应该会导致更多创新的产生。但在有些时候,发明的火花迸发是数据所无法表现的。倘若亨利·福特当初求助于大数据算法系统来研究顾客希望得到的东西,算法系统得到的答案会是“更快的马匹”,也就不会有福特著名的汽车生产线了。在大数据的世界里,需要培养的恰恰是与人类关系最密切的特性——创造力、直觉和上进心,因为人的聪明才智才是进步的源泉。
大数据是一种资源和一种工具。它的目的是告知,而不是解释;它意在促进理解,但仍然会导致误解——关键在于人们对它的掌握程度。人们必须以一种不仅欣赏其力量,而且承认其局限的态度来接纳这种技术。
B. 大数据是什么时候提出来的
大数据的概念最早可以追溯到上乱禅岩个世纪 90 年代,当时美国 IT 公司 Teradata 提出了“大型数据库管理系统”(DBMS)的概念,这就是“大数据”的前身。然而,大数据这一术语的真正流行是在 2000 年之后的。随着互联网、移动设备和传感器技术袭尺的普及,越来越多的数据被持续地产生、收集、存储和分析,这使得大数哗御据概念得到了广泛关注和应用。C. 大数据的应用案例以及未来发展趋势
赶超发达国家的重要机遇
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度,不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出来大数据这个概念,如今,这个概念几乎应用到了所有人类智力与发展的领域中。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器、智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据,大数据时代已经到来。
当前全球和我国大数据都呈现了井喷式爆发性增长,大数据已经渗透到各个行业和业务职能领域,成为重要的生产因素,大数据的演进与生产力的提高有着直接的关系。其发展特点,一是数据量呈现指数级增长。二是不同行业的大数据内容和开发应用特点各有不同,如证券、投资服务以及银行等金融服务领域拥有最高的平均数字化数据存储量,通信和媒体公司、公共事业公司以及政府等组织也有规模显著的数字化数据存储,这些行业更加具有通过大数据来创造价值的潜力。三是可以预见到大数据高速增长的现有趋势将继续推动数据增长,例如在各部门和地区之间,企业正在加快收集数据的步伐,推动了传统的事务数据库的增长;医疗卫生等面向消费者的行业中,多媒体的广泛使用刺激了大数据的增长;社交媒体的广泛普及以及物联网中应用的不断创新都进一步推动了大数据不断增长……这些相互交叉的动力刺激了数据的增长,并将继续推动数据池的迅速扩张。
发展大数据及其相关服务业将成为新兴经济体特别是我国在战略性新兴产业领域发挥后发优势赶超发达国家的重要机遇。只要条件具备,发展中经济体能够利用大数据发挥巨大的潜力。例如,亚洲地区移动手机用户最多,终端设备最多,其中中国设备数量最多,个人位置数据在亚洲已经领先。此外,在IT资产方面,尽管一些新兴市场组织落后于发达市场,但发展中经济体可以用最新技术跳跃式前进。大数据的应用不仅仅是商务,通过用户行为分析实现精准管理、科学决策和人性化服务是大数据的典型应用,大数据在各行各业特别是公共服务领域具有广阔的应用前景,包括消费行业、金融服务、食品安全、医疗卫生、军事、交通环保、电子商务、气象等。发展大数据产业机遇可贵潜力巨大。从经济和产业发展维度看大数据及相关产业发展的潜力,我国独特的位势和经济社会高速稳定发展,给大数据及其应用带来了巨大的发展空间。大数据在我国各领域和不同行业的应用潜力巨大、机遇重大。大数据的核心技术进展和大数据应用有可能带来我国新兴战略性产业发展的新机遇。
信息服务业发展的重要推力
研究表明,大数据是继传统IT之后下一个提高生产率的技术前沿和信息服务业发展的重要推动力。大数据的使用将成为未来提高竞争力、生产力、创新能力以及创造消费者盈余的关键要素。
例如医疗卫生行业,能够利用大数据避免过度治疗、减少错误治疗和重复治疗,从而降低系统成本、提高工作效率,改进和提升治疗质量;公共管理领域,能够利用大数据有效推动税收工作开展,提高教育部门和就业部门的服务效率;零售业领域,通过在供应链和业务方面使用大数据,能够改善和提高整个行业的效率;市场和营销领域,能够利用大数据帮助消费者在更合理的价格范围内找到更合适的产品以满足自身的需求,提高附加值。数据已经成为可以与物质资产和人力资产相提并论的重要的生产要素,伴随着信息化发展,企业将收集更多的信息,从而带来数据呈现指数级的增长。大数据在同时为商业和消费者创造价值方面有巨大的发展潜力。
大数据应用能够发挥重要的经济作用,不但有利于私人商业活动,更有利于国民经济和公民。数据可以为世界经济创造重要价值,提高企业和公共部门的生产率与竞争力,并为消费者创造大量的经济剩余。例如,能够富有创造性而有效地利用大数据来提高效率和质量。麦卡锡公司研究报告指出,预计美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元,能够使得美国医疗卫生支出降低超过8%,充分利用大数据的零售商有可能将其经营利润提高60%以上。通过利用大数据实现政府行政管理方面的运作效率提高。估计欧洲发达经济体可以节省开支超过1000亿欧元,其中尚不包括可以用来减少欺诈、错误以及税差的影响作用。可以预见的是,随着人们存储、汇聚和组合数据然后利用其结果进行深入分析的能力超过以往,随着越来越尖端技术的软件与不断提高的计算能力相结合,从数据中提取洞见的能力也在显著提高。
大数据及其开发利用能够催生新的产业形态,拓展成为战略性新兴产业的重要组成部分。大数据的生产、整合、开发利用具有广泛的高附加值,可以形成和应用于各行业的关键发现,大数据的有效利用可以创造巨大的潜在价值,许多行业和承担业务职能的组织可以利用大数据提高人力、物力资源的分配和协调能力,减少浪费,增加透明度,并促进新想法和新见解的产生。其价值一是提高透明度,让利益相关方能够更加容易地及时获取信息,例如在公安部门,让原本相互分离的部门之间更加容易地获取相关数据,就可大大降低搜索和处理时间;在制造业,整合来自研发、工程和制造部门的数据以便实现并行工程,可以显著缩短产品上市时间并提高质量。二是可以通过实验来发现需求、暴露可变因素并提高业绩。随着组织创造并存储更多数字形式的交易数据,并以实时或接近实时的方式收集更多准确而详细的绩效数据,组织能够通过安排对比实验,运用数据分析获取更好的决策,例如在线零售商,通过将流量和销售结合的试验论证决定价格调整和促销活动的制定。三是更加精准地组织市场,根据客户需求细分人群。利用大数据使组织能够对人群进行非常具体的细分,以便精确地定制产品和服务以满足用户需求。例如在公共部门如公共劳动力机构,利用大数据为不同的求职者提供工作培训服务,确保采用最有效和最高效的干预措施使不同的人重返工作岗位。四是可以协助决策者更加科学地进行决策。大数据的自动处理能够更好地为决策者提供更加精准恰当的决策支持,通过对大数据的自动处理来替换或支持人为决策。有些组织已经在通过分析来自客户、雇员甚至嵌入产品中的传感器的整个数据集而做出更有效的决策。五是能够创新商业模式、产品和服务。例如在医疗保健领域,通过分析病人的临床和行为数据已经创造了瞄准最适当群体的预防保健项目。例如互联网公司收集大量的在线行为数据,创新速度非常快。
应组织实施大数据产业专项
发展大数据及其相关服务业具有重要意义,有望使各个行业产生更多收益。随着我国经济和社会信息化的高速发展,不仅信息产业自身获取了巨大的数据池,各个行业都存在利用大数据获取价值的潜力。大数据促使信息化建设模式大转变,结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系统为核心,而是围绕大数据为核心。政府和企业决策者应对大数据发展研究制定发展战略和策略给予高度重视。
大数据真正的问题是大数据应用,让大数据更有意义。目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心。非结构化海量信息的智能化处理包括自然语言理解、多媒体内容理解、机器学习等。例如2012年3月29日白宫发布美国政府的大数据计划:通过提高从大型复杂的数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。
由此,我们提出组织实施大数据产业专项的初步设想。一是围绕拓展新兴信息服务业态,组织实施以大数据示范、加工、处理、整合和深加工的信息资源与内容服务业示范工程,面向重点行业和重点民生领域包括金融证券、医疗卫生、税务海关、交通运输、社会保障、电子商务等领域,开展大数据重大应用示范,提升基于大数据的公共服务能力;二是加快推动北斗导航核心技术研发和产业化,推动北斗导航与移动通信、地理信息、卫星遥感、移动互联网等融合发展,支持位置信息服务市场拓展,完善北斗导航基础设施,推进服务模式和产品创新,在重点区域和领域开展示范应用;三是大力发展地理信息产业,拓宽地理信息服务市场,推进大数据技术和服务模式融合创新,支持大数据服务创新和商业模式创新;四是组织实施基于大数据的信息内容加工服务业典型示范工程,包括关键技术产品产业化和大数据生产、转换、加工、投送平台及专用工具的产业化项目,为丰富信息消费内容产品供给提供支撑;五是组织实施自主可控的大数据关键技术产品产业化项目,主要包括商业智能、数据仓库、数据集市、元数据、可视化技术等。
D. 盘点政府推动大数据应用及发展的举措
盘点政府推动大数据应用及发展的举措
一、政府:推动大数据应用的最关键力量
(一)政府掌握大量最具应用价值的核心数据,是推动大数据应用的最关键力量
根据麦肯锡大数据研究报告指出, 各个行业利用大数据价值的难易度以及发展潜力 对比下,政府利用大数据难度最低而潜力最大。
大数据
另一方面政府开放大数据运用已经是大势所趋:
1、 政府掌握了大量最具应用价值的核心数据。 过去十多年来政府投资进行了大量电子政务或者称为政府信息化的工作,后台积累了大量的数据,而这些数据和公众的生产生活息息相关。有研究表明政府所掌握的数据使政府成为了一个国家最重要的信息保有者,有百分之七十到八十的核心数据存在于政府的后台 。
2、 开放数据本身就是政府在大数据时代提供的一项公共服务。 政府数据本质上是国家机关在履行职责时所获取的数据,采集这些数据的经费来自于公共财政,因而这些数据是公共产品,归全社会所有,应取之于民,用之于民。
3、 政府开放数据供社会进行增值开放和创新应用,推动经济增长乃至整个经济增长方式的转型。 数据是互联网创新的重要基础,如果政府不开放这一部分数据,很多创新应用没有数据作为支持,数据开发者能利用政府开放的数据,提供更好的服务,创造更多的价值, 这个过程能够提高整个国家在大数据时代的竞争力。
4、 政府开放数据推动经济增长获得的税收高于单纯卖数据获得的收入。 201 年世界经合组织在关于开放政府数据的报告中提到政府通过开放数据推动经济增长,从而获得的税收收入远高于单卖数据所能获得收入。开放数据激发经济活力从而得到税收提升,这是一个良 性循环,更是一个能创造巨大公共价值的全局性的战略。
(二) 国内外政府开放数据的情况
在 2009 年奥巴马签署开放政府数据的行政命令后,这些年来开放政府数据已成为了世界性的一个趋势。美国联邦数据平台 Data.gov 上线后,在美洲、欧洲、亚洲等地,开放政府数据已成为了政府的一项重要工作。美国联邦政府的开放政府数据平台开放了来自多个领 域的 13 万个数据集的数据。这些领域包括图中所列的农业、商业、气候、生态、教育、能源、金融、卫生、科研等十多个主题。这些主题下的数据都是美国联邦政府的各个部委所开放的。英国、加拿大、新西兰等国在 2009 年之后都建立起了政府数据开放平台,成为 了国际信息化和大数据领域的一个重要趋势。
大数据
在我国, 2011 年香港特区政府上线了 data.gov.hk,称为香港政府资料一线通。上海在 2012年 6 月推出了中国大陆第一个数据开放平台。之后,北京、武汉、无锡、佛山南海等城市也都上线了自己的数据平台。
大数据
(三)、 大数据对于政府治理具有极大的价值
大数据其实对政府的治理带来了全新的价值,无论是对宏观经济的决策能力、产业聚集能力、协同治理能力、社会管理能力、公众服务能力、快速响应能力的提升,大数据都可以在有很大层面上帮助政府治理。
大数据大数据
(四)、大数据上升至国家战略成为共识。
大数据时代,对大数据的开发、利用与保护的争夺日趋激烈,制信权成为继制陆权、制海权、制空权之后的新制权,大数据处理能力成为强国弱国区分的又一重要指标。国际上以美国为代表的发达国家纷纷布局大数据产业,相继推出大数据相关政策,大力支持大数据产 业在本国的发展。以美国为例,美国从开展关键技术研究、推动大数据应用和开放政府数据三方面布局大数据产业,尤其在开放政府数据方面非常积极,通过 Data.gov开放 37 万个数据集,并开放网站的 API 和源代码,提供上千个数据应用。我们认为,大数据未来将 引发新一轮大国竞争,大数据对整个世界的影响力会呈现爆发性增长趋势,因此包括我国在内的国家会在政策支持力度上不断提升,大数据战略将上升至国家战略已毋庸臵疑。
大数据
(五)、 我国 高度重视大数据未来发展
自去年 3 月“大数据”首次出现在《政府工作报告》中以来,国务院常务会议一年内 6次提及大数据运用。近期在 6 月 17 日的国务院常务会议上,李克强总理再次强调“我们正在推进简政放权,放管结合、优化服务,而大数据手段的运用十分重要。” 7 月 1 日, 国务院办公厅印发了《关于运用大数据加强对市场主体服务和监管的若干意见》。
大数据
大数据大数据
(六). 各部委行动时间表已经确,我国大数据发展面临历史性机遇
值得注意的是,近期国务院出台文件对各个部委推进大数据任务制定了明确的时间表,很多推进工作任务要求在 2015 年 12 月底前出台政策并实施,近期将是我国大数据发展政策出台的密集期。
表 3: 各部委推进大数据应用时间表
序号工作任务负责单位时间进度1加快建立公民、法人和其他组织统一社会信用代码制度。发展改革委、中央编办、公安部、民政部、人民银行、税务总局、工商总局、质检总局2015 年 12 月底前出台并实施2全面实行工商营业执照、组织机构代码证和税务登记证“三证合一”、 “一照一码”登记制度改革。工商总局、中央编办、发展改革委、质检总局、税务总局2015 年 12 月底前实施3建立多部门网上项目并联审批平台,实现跨部门、跨层级项目审批、核准、备案的“统一受理、同步审查、信息共享、透明公开”。发展改革委会同有关部门2015 年 12 月底前完成4推动政府部门整合相关信息,紧密结合企业需求,利用网站和微博、微信等新兴媒体为企业提供服务。网信办、工业和信息化部持续实施5研究制定在财政资金补助、政府采购、政府购买服务、政府投资工程建设招投标过程中使用信用信息和信用报告的政策措施。财政部、发展改革委2015 年 12 月底前出台并实施6充分运用大数据技术,改进经济运行监测预测和风险预警,并及时向社会发布相关信息,合理引导市场预期。发展改革委、统计局持续实施7支持银行、证券、信托、融资租赁、担保、保险等专业服务机构和行业协会、商会运用大数据为企业提供服务。人民银行、银监会、证监会、保监会、民政部持续实施8健全事中事后监管机制,汇总整合和关联分析有关数据,构建大数据监管模型,提升政府科学决策和风险预判能力。各市场监管部门2015 年 12 月底前取得阶段性成果9在办理行政许可等环节全面建立市场主体准入前信用承诺制度。 信用承诺向社会公开,并纳入市场主体信用记录。各行业主管部门2015 年广泛开展试点, 2017 年 12 月底前完成10加快建设地方信用信息共享交换平台、部门和行业信用信息系统,通过国家统一的信用信息共享交换平台实现互联共享。各省级人民政府,各有关部门2016 年 12 月底前完成11建立健全失信联合惩戒机制,将使用信用信息和信用报告嵌入行政管理和公共服务的各领域、各环节,作为必要条件或重要参考依据。在各领域建立跨部门联动响应和失信约束机制。建立各行业“黑名单”制度和市场退出机制。推动将申请人良好的信用状况作为各类行政许可的必备条件。各有关部门,各省级人民政府2015 年 12 月底前取得阶段性成果12建立产品信息溯源制度,加强对食品、药品、农产品、日用消费品、特种设备、地理标志保护产品等重要产品的监督管理,利用物联网、射频识别等信息技术,建立产品质量追溯体系,形成来源可查、去向可追、责任可究的信息链条。商务部、网信办会同食品药品监管总局、农业部、质检总局、工业和信息化部2015 年 12 月底前出台并实施13加强对电子商务平台的监督管理,加强电子商务信息采集和分析,指导开展电子商务网站可信认证服务,推广应用网站可信标识,推进电子商务可信交易环境建设。健全权益保护和争议调处机制。工商总局、商务部、网信办、工业和信息化部持续实施14进一步加大政府信息公开和数据开放力度。除法律法规另有规定外,将行政许可、行政处罚等信息自作出行政决定之日起 7 个工作日内上网公开。各有关部门,各省级人民政府持续实施15加快实施经营异常名录制度和严重违法失信企业名单制度。建设国家企业信用信息公示系统,依法对企业注册登记、行政许可、行政处罚等基本信用信息以及企业年度报告、经营异常名录和严重违法失信企业名单进行公示,并与国家统一的信用信息共享交换平台实现有机对接和信息共享。工商总局、其他有关部门,各省级人民政府持续实施16支持探索开展社会化的信用信息公示服务。建设“信用中国 ”网站,归集整合各地区、各部门掌握的应向社会公开的信用信息,实现信用信息一站式查询,方便社会了解市场主体信用状况。各级政府及其部门网站要与 “信用中国 ”网站连接,并将本单位政务公开信息和相关市场主体违法违规信息在“信用中国 ”网站公开。发展改革委、人民银行、其他有关部门,地方各级人民政府2015 年 12 月底前完成17推动各地区、各部门已建、在建信息系统互联互通和信息交换共享。在部门信息系统项目审批和验收环节,进一步强化对信息共享的要求。发展改革委、其他有关部门持续实施18健全国家电子政务网络,加快推进国家政务信息化工程建设,统筹建立人口、法人单位、自然资源和空间地理、宏观经济等国家信息资源库,加快建设完善国家重要信息系统。发展改革委、其他有关部门分年度推进实施, 2020 年前基本建成19加强对市场主体相关信息的记录,形成信用档案。对严重违法失信的市场主体,按照有关规定列入“黑名单”,并将相关信息纳入企业信用信息公示系统和国家统一的信用信息共享交换平台。各有关部门2015 年 12 月底前实施20探索建立政府信息资源目录。各有关部门2016 年 12 月底前出台目录编制指南21引导征信机构根据市场需求,大力加强信用服务产品创新,进一步扩大信用报告在行政管理和公共服务及银行、证券、保险等领域的应用。发展改革委、人民银行、银监会、证监会、保监会2017 年 12 月底前取得阶段性成果22落实和完善支持大数据产业发展的财税、金融、产业、人才等政策,推动大数据产业加快发展。发展改革委、工业和信息化部、财政部、人力资源社会保障部、人民银行、网信办、银监会、证监会、保监会2017 年 12 月底前取得阶段性成果23加快研究完善规范电子政务,监管信息跨境流动,保护国家经济安全、信息安全,以及保护企业商业秘密、个人隐私方面的管理制度,加快制定出台相关法律法规。网信办、公安部、工商总局、工业和信息化部、发展改革委等部门会同法制办2017 年 12 月底前出台(涉及法律、行政法规的,按照立法程序推进)24推动出台相关法规,对政府部门在行政管理、公共服务中使用信用信息和信用报告作出规定,为联合惩戒市场主体违法失信行为提供依据。发展改革委、人民银行、法制办2017 年 12 月底前出台(涉及法律、行政法规的,按照立法程序推进)25建立大数据标准体系,研究制定有关大数据的基础标准、技术标准、应用标准和管理标准等。加快建立政府信息采集、存储、公开、共享、使用、质量保障和安全管理的技术标准。引导建立企业间信息共享交换的标准规范。工业和信息化部、国家标准委、发展改革委、质检总局、网信办、统计局2020 年前分步出台并实施26推动实施大数据示范应用工程,在工商登记、统计调查、质量监管、竞争执法、消费维权等领域率先开展示范应用工程,实现大数据汇聚整合。在宏观管理、税收征缴、资源利用与环境保护、食品药品安全、安全生产、信用体系建设、健康医疗、劳动保障、教育文化、交通旅游、金融服务、中小企业服务、工业制造、现代农业、商贸物流、社会综合治理、收入分配调节等领域实施大数据示范应用工程。
E. 结合实际大数据的应用体现在哪些方面
社交网络,为大数据提供了信息汇集、分析的第一手资料。大数据的价值主要就是,从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户口味或需求的产品和服务,并结合用户需求有针对性地调整和优化自身。
简单的说,如果我拥有了客户大量的信息,我就能从收集到的信息中知道客户的消费习惯和消费方向,通过这些数据分析出自身产品有哪些缺失,可以及时改变策略,而不是盲目的生产一些客户并不喜欢的产品增加自身成本。大数据的核心价值就是,提升决策准确性,降低风险,提升运营精准度,降低成本。现在就让我们通过一些案例来了解大数据在实际生活中的应用。
在医疗行业。通过一些技术企业能找到大量病人相关的临床医疗信息,通过大数据处理,能更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
在能源行业。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网每隔五分钟或十分钟收集一次数据,这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
在汽车制造业。福特公司在产品的研发设计阶段,大数据就已经对汽车的部件和功能产生了重要影响。比如,福特产品开发团队曾经对SUV是否应该采取掀背式(即手动打开车后行李箱车门)或电动式进行分析。如果选择后者,门会自动打开、便捷智能,但这种方式会影响到车门开启有限的困恼。此前采用定期调查的方式并没有发现这个问题,但后来根据对社交媒体的关注和分析,发现很多人都在谈论这些问题。
在音乐方面。在车内听的歌曲很可能反映你的真实喜好,Grace note就拥有此种技术。它采用智能手机和平板电脑内置的麦克风识别用户电视或音响中播放的歌曲,并可检测掌声或嘘声等反应,甚至还能检测用户是否调高了音量。这样,Grace note可以研究用户真正喜欢的歌曲,听歌的时间和地点。Grace note拥有数百万首歌曲的音频和元数据,因而可以快速识别歌曲信息,并按音乐风格、歌手、地理位置等分类。
像这样的案例还有很多很多,涉及到了生活的方方面面,而且正在逐步渗透,由此可以看到大数据对我们生活产生的影响有多么深刻。但是现在国内大数据技术正在发展阶段,大数据人才非常紧缺,因此从大数据广阔的未来前景和明朗自身的行业形势都告诉我们,学习大数据,不光是自身这份技能对未来工作有很大的帮助,对企业来说也非常希望大数据能给企业带来巨大的利益,对大数据人才的渴求度自然是持续高涨的。
F. 目前大数据在哪些行业有案例或者说应用
大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例,在此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和分类。
大数据应用案例之:医疗行业
SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
大数据应用案例之:能源行业
智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些大稿数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
大数据应用案例之:通信行业
XOCommunications通过使用IBMSPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
电信业者透过数以千万计的禅者客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
NTTdocomo把手机位置信息和互联网上的信息结合起来,为顾滚袭孝客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。
大数据应用案例之:零售业
"我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从Twitter和Facebook上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。"Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。
零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
G. 大数据人脸分析案例
大数据人脸分析案例
大数据人脸分析案例,随着社会科技的不断发展,人工技能,人脸识别技术也不断普及到各个领域。人脸识别技术可以在大数据的环境下,极大发挥其强大的作用。下文分享有关大数据人脸分析的内容。
基于特征的方法和基于图像的方法
1、基于特征的方法
技术:基于特征的方法试图找到人脸的不变特征进行检测。其基本思想是基于人类视觉可以毫不费力地检测不同姿势和光照条件下的人脸的观察,因此必须有尽管存在这些变化的属性或特征是一致的。当前已经提出了广泛的方法来检测面部特征,然后推断面部的存在。
示例:边缘检测器通常会提取人脸特征,例如眼睛、鼻子、嘴巴、眉毛、肤色和发际线。基于提取的特征,建立统计模型来描述它们之间的关系并验证人脸在图像中的存在。
优点:易于实施,传统方法
缺点:基于特征的算法的一个主要问题是图像特征可能会由于光照、噪声和遮挡而严重损坏。此外,人脸的特征边界会被弱化,阴影会导致强边缘,这使得感知分组算法无用。
2、基于图像的方法
技术:基于图像的方法尝试从图像中的示例中学习模板。因此,基于外观的方法依靠机器学习和统计分析技术来找到“人脸”和“非人脸”图像的相关特征。学习的特征是以分布模型或判别函数的形式应用于人脸检测任务。
示例:基于图像的方法包括神经网络 (CNN)、支持向量机 (SVMi) 或 Adaboost。
优点:性能好,效率更高
缺点:难以实施。 为了计算效率和检测效率,通常需要降维。这意味着通过获得一组主要特征来考虑降低特征空间的维数,保留原始数据的有意义的属性。
人脸检测方法
已经引入了多种人脸检测技术。
1、开始阶段:人脸检测自 90 年代出现以来一直是一个具有挑战性的研究领域。
2000 年之前,尽管有很多研究,但直到 Viola 和 Jones 提出里程碑式的工作,人脸识别的实际性能还远不能令人满意。 从 Viola—Jones 的开创性工作(Viola and Jones 2004)开始,人脸检测取得了长足的进步。
Viola and Jones 开创性地使用 Haar 特征和 AdaBoost 来训练一个有希望的准确度和效率的人脸检测器(Viola and Jones 2004),这启发了之后有几种不同的方法。 然而,它有几个严重的缺点。首先,它的特征尺寸比较大。另外,它不能有效地处理非正面人脸和框外人脸。
2、早期阶段——机器学习:早期的方法主要集中在与计算机视觉领域的专家一起提取不同类型的手工特征,并训练有效的分类器以使用传统的机器学习算法进行检测。
这些方法的局限性在于它们通常需要计算机视觉专家来制作有效的特征,并且每个单独的组件都单独优化,使得整个检测流程往往不是最佳的。
为了解决第一个问题,人们付出了很多努力来提出更复杂的特征,如 HOG(定向梯度直方图)、SIFT(尺度不变特征变换)、sURF(加速鲁棒特征)和 ACF(聚合通道特征)。检测的鲁棒性,已经开发了针对不同视图或姿势分别训练的多个检测器的组合。然而,此类模型的训练和测试通常更耗时,并且检测性能的提升相对有限。3
3、最新技术 — 深度学习:近年来,使用深度学习方法,尤其是深度卷积神经网络 (CNN) 的人脸识别取得了显着进展,在各种计算机视觉任务中取得了显显著的成功。
与传统的计算机视觉方法相比,深度学习方法避免了手工设计的不足,并主导了许多著名的基准评估,例如 lmageNet大规模视觉识别挑战 (ILSVRC)。
最近,研究人员应用了 Faster R—CNN,这是最先进的通用对象检测器之一,并取得了可喜的成果。此外,CNN 级联、区域提议网络(RPN)和 Faster R—CNN 联合训练实现了端到端的优化,以及人脸检测基准,如 FDDB(人脸数据库)等。
主要挑战
人脸检测面临的困难是降低人脸识别准确率和检测率的原因。
这些挑战是复杂的背景、图像中的人脸过多、奇怪的表情、光照、分辨率较低、人脸遮挡、肤色、距离和方向等。
不寻常的面部表情:图像中的人脸可能会显示出意外或奇怪的面部表情。
照明度:某些图像部分可能具有非常高或非常低的照明度或阴影。
皮肤类型:检测不同人脸颜色的人脸检测具有挑战性,需要更广泛的训练图像多样性。
距离:如果到相机的距离太远,物体尺寸(人脸尺寸)可能太小。
朝向:人脸方向和相机的角度会影响人脸检测率。
复杂的背景: 场景中的大量对象会降低检测的准确性和速度。
一张图像中有很多人脸:一张包含大量人脸的图像对于准确检测率来说非常具有挑战性。
人脸遮挡:人脸可能会被眼镜、围巾、手、头发、帽子等物体部分遮挡,影响检测率。
低分辨率:低分辨率图像或图像噪声会对检测率产生负面影响。
人脸检测应用场景
人群监控:人脸检测用于检测经常光顾的公共或私人区域的人群。
人机交互: 多个基于人机交互的系统使用面部识别来检测人类的存在。
摄影:最近的一些数码相机使用面部检测进行自动对焦等等。
面部特征提取:可以从图像中提取鼻子、眼睛、嘴巴、肤色等面部特征。 、
性别分类: 通过人脸检测方法检测性别信息。
人脸识别:从数字图像或视频帧中识别和验证一个人。
营销:人脸检测对于营销、分析客户行为或定向广告变得越来越重要。
出勤:面部识别用于检测人类的出勤情况, 它通常与生物识别检测结合用于访问管理,如智能门禁。
2014年前后,随着大数据和深度学习的发展,神经网络备受瞩目,深度学习的出现使人脸识别技术取得了突破性进展。深度学习是机器学习的一种,其概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
区别于传统的浅层学习,深度学习的不同在于一方面通常有5层以上的'多层隐层节点,模型结构深度大;另一方面利用大数据来学习特征,明确了特征学习的重要性。
随着深度卷积神经网络和大规模数据集的最新发展,深度人脸识别取得了显著进展,基于深度学习的人脸识别技术可以通过网络自动学习人脸面部特征,从而提高人脸检测效率。
从人脸表达模型来看,可细分为2D人脸识别和3D人脸识别。基于2D的人脸识别通过2D摄像头拍摄平面成像,研究时间相对较长,在多个领域都有使用,但由于2D信息存在深度数据丢失的局限性,收集的信息有限,安全级别不够高,在实际应用中存在不足。
早在2019年,就有小学生手举照片“攻破”了快递柜的人脸识别系统。基于3D的人脸识别系统通过3D摄像头立体成像,由两个摄像头、一个红外线补光探头和一个可见光探头相互配合形成3D图像,能够准确分辨出照片、视频、面具等逼真的攻击手段。
根据使用摄像头成像原理,目前3D人脸识别主要有三种主流方案,分别是3D结构光方案(Structured Light)、时差测距技术3D方案(Time Of Flight,TOF)和双目立体成像方案(Stereo System)。基于3D结构光的人脸识别已在一些智能手机上实际应用,比如HUAWEI Mate 20 Pro、iPhone X。
2009年微软推出的Kinect(Xbox 360体感周边外设)则采用了TOF方式获取3D数据,颠覆了游戏的单一操作,为人机体感交互提供了有益探索。双目立体成像方案基于视差原理,通过多幅图像恢复物体的三维信息,由于对相机焦距、两个摄像头平面位置等要求较高,应用范围相对于3D结构光和TOF方案较窄。
除了能够准确识人,精准判断捕捉到的人脸是真实的也至关重要。活体检测技术能够在系统摄像头正确识别人脸的同时,验证用户是本人而不是照片、视频等常见攻击手段。目前活体检测分为三种,分别是配合式活体检测、静默活体检测和双目活体防伪检测。
其中,配合式活体检测最为常见,比如在银行“刷脸”办理业务、在手机端完成身份认证等应用场景,通常需要根据文字提示完成左看右看、点头、眨眨眼等动作,通过人脸关键点定位和人脸追踪等技术,验证用户是否为真实活体本人。
人脸与人体的其他生物特征(如指纹、虹膜等)一样与生俱来,它的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提。随着大数据和深度学习的不断发展,人脸识别效率显著提升,为远程办理业务的身份认证环节提供了可靠保障。
但与此同时,人脸信息保护、隐私安全等问题也应引起重视。随着《个人信息保护法》《数据安全法》及相关司法解释的出台,国家相关部门以及各种机构对个人信息安全问题的重视,有利于引导人脸识别技术的发展方向,为促进行业高质量发展、创造高品质数字生活提供有力支撑。
人脸识别的应用场景在大范围扩展:
金融领域:远程银行开户、身份核验、保险理赔和刷脸支付等。人脸识别技术的接入,能有效提高资金交易安全的保障,也提高了金融业务中的便捷性。
智慧安防领域则是为了视频结构化、人物检索、人脸布控、人群统计等软硬件一体形态产品提供基础支撑,重点应用于犯罪人员的识别追踪、失踪儿童寻找、反恐行动助力等场景。实现重点人员的识别及跟踪,在公安应用场景中达到事前预警、事中跟踪、事后快速处置的目的。
交通领域主要包括1:1人脸验证和1:N人脸辨识,目前利用人脸核验验证技术的刷脸安检已进入普遍应用阶段,在高铁站、普通火车站和机场皆已大面积推广。
而应用1:N人脸比对技术的刷脸支付主要落地在地铁公交等市内交通,这种技术能够极大提高通勤人员的出行效率,释放大量的人力资源,提升出行体验。同时,人脸识别可以对交通站点进行人流监测,根据人员出行规律预测人流高峰,提前做好疏导预案。
民生政务方面,人脸识别在政务系统的落地,提升了民众的办事效率,公民可以不用窗口排队,实现自助办事,节省了因人工效率低下产生的耗时。部分政务还可以通过在线人脸识别验证,在移动端线上办理,减轻了“办事来回跑、办事地点远、办事点分散”的困扰。
智能家居方面,主要应用在安全解锁和个性化家居服务两个场景。
在线教育领域则是通过人脸识别查验学员身份,避免一账号多个人使用,给网校造成损失,另一用途是帮助在线课堂老师了解学生学习状态,弥补网络授课相较于传统授课在师生交流环节上的不足。
商业领域,利用人脸识别功能实现各种极具创意的互动营销活动。
凡事都有两面。即便拥有以上优势,因人脸暴露度较高,相比对其他生物特征数据更容易实现被动采集,这也意味着人脸信息的数据更容易被窃取,不仅可能侵犯个人隐私,还会带来财产损失。大规模的数据库泄露还会对一个族群或国家带来安全风险。
在南方都市报个人信息保护研究中心发布的《人脸识别应用公众调研报告(2020)》中,其对两万份调研报告进行统计,问卷中就“便捷性”与“安全性”设置了量表题,请受访者分别依据前述10大类场景中的使用感受进行打分。
1分为最低分,5分为最高分。结果显示,在安全性感受方面,受访者给出的分数则明显偏低,体现出他们对安全风险的忧虑态度。