2011年发布大数据创新_大数据趋势与专业图书馆

Ⅰ 数据发展的历程

大数据的发展历程

随着计算机和网络的发展，信息不断“爆炸”：

1970s: 超大规模数据库 (VLDB)【GB=10^9字节】
21世纪初：海量数据（massive data）【TB=10^12字节】
2008年：Big data 【PB=10^15字节】
现在实际的数据量已经达到：ZB=10^3EB=10^6PB=10^21字节

2008年9月4日，《自然》（Nature）刊登了一个名为“Big Data”的专辑。2011年5月，美国著名咨询公司麦肯锡(McKinsey)发布《大数据：创新、竞争和生产力的下一个前沿》的报告，首次提出了“大数据”概念，认为数据已经成为经济社会发展的重要推动力。大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。

2013年3月29日，美国奥巴马政府宣布推出“大数据研究和发展计划”(Big Data Research and Development Initiative)，有人将其比之为克林顿政府当年提出的“信息高速公路”计划。该计划涉及美国国家科学基金会、卫生研究院、能源部、国防部等6个联邦政府部门，投资超两亿美元，研发收集、组织和分析大数据的工具及技术。2012年7月日本推出“新ICT战略研究计划”，在新一轮IT振兴计划中日本政府把大数据发展作为国家层面战略提出。这是日本新启动的2011年大地震族尘一度搁置的政府ICT战略研究。英国政府也宣称投资6亿英镑科学资金，并计划在未轮卜来两年内在大数据和节能计算研究投资1.89亿英镑。政府把大量的资金投入到计算基础设施，用以捕捉并分析通过开放式数据革命获得的数据流，带动企业投入更多的资金。

2012年3月，我国科技部发布的“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位。中国分别举办了第一届（2011年）兆桐禅和第二届（2012年）“大数据世界论坛”。IT时代周刊等举办了“大数据2012论坛”，中国计算机学会举办了“CNCC2012大数据论坛”。国家科技部，863计划信息技术领域2015年备选项目包括超级计算机、大数据、云计算、信息安全、第五代移动通信系统（5G）等。2015年8月31日，国务院正式印发《促进大数据发展行动纲要》。

Ⅱ 大数据是什么

大数据是什么意思呢?
如果从字面意思来看，大数据指的是巨量数据。那么可能有人会问，多大量级的数据才叫大数据?不同的机构或学者有不同的理解，难以有一个非常定量的定义，只能说，大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB级别。
最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡，它是这样定义大数据的：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度低四大特征。
研究机构Gartner是这样定义大数据的：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流转优化能力来适应海量、高增长率和多样化的信息资产。若从技术角度来看，大数据的战略意义不在于掌握庞大的数据，而在于对这些含有意义的数据进行专业化处理，换言之，如果把大数据比作一种产业，那么这种产业盈利的关键在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

Ⅲ 大数据在金融行业的应用与挑战

大数据在金融行业的应用与挑战
A 具有四大基本特征
金融业基本是全世界各个行业中最依赖于数据的，而且最容易实现数据的变现。全球最大的金融数据公司Bloomberg在1981年成立时“大数据”概念还没有出现。Bloomberg的最初产品是投资市场系统（IMS），主要向各类投资者提供实时数据、财务分析等。
随着信息时代降临，1983年估值仅1亿美元的Bloomberg以30%股份的代价换取美林3000万美元投资，先后推出Bloomberg Terminal、News、Radio、TV等各类产品。1996年Bloomberg身价已达20亿美元，并以2亿美元从美林回购了10%的股份。2004年Bloomberg在纽约曼哈顿中心建成246米摩天高楼。到2008年次贷危机，美林面临崩盘，其剩余20%的Bloomberg股份成为救命稻草。Bloomberg趁美林之危赎回所有股份，估值跃升至225亿美元。2016年Bloomberg全球布局192个办公室，拥有1.5万名员工，年收入约100亿美元，估值约1000亿美元，超过同年市值为650亿美元的华尔街标杆高盛。
大数据概念形成于2000年前后，最初被定义为海量数据的集合。2011年，美国麦肯锡公司在《大数据的下一个前沿：创新、竞争和生产力》报告中最早提出：大数据指大小超出典型数据库软件工具收集、存储、管理和分析能力的数据集。
具体来说，大数据具有四大基本特征：
一是数据体量大，指代大型数据集，一般在10TB规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量。
二是数据类别大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多类型的数据。
三是处理速度快，在数据量非常庞大的情况下，也能够做到数据的实时处理。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。
四是数据的真实性高，随着社交数据、企业内容、交易与应用数据等新数据源的兴起，传统数据源的局限被打破，信息的真实性和安全性显得极其重要。
而相比其他行业，金融数据逻辑关系紧密，安全性、稳定性和实时性要求更高，通常包含以下关键技术：数据分析，包括数据挖掘、机器学习、人工智能等，主要用于客户信用、聚类、特征、营销、产品关联分析等；数据管理，包括关系型和非关系型数据、融合集成、数据抽取、数据清洗和转换等；数据使用，包括分布式计算、内存计算、云计算、流处理、任务配置等；数据展示，包括可视化、历史流及空间信息流展示等，主要应用于对金融产品健康度、产品发展趋势、客户价值变化、反洗钱反欺诈等监控和预警。
B 重塑金融行业竞争新格局
“互联网+”之后，随着世界正快速兴起“大数据+”，金融行业悄然出现以下变化：
大数据特征从传统数据的“3个V”增加到“5个V”。在数量（Volume）、速度（Velocity）、种类（Variety）基础上，进一步完善了价值（Value）和真实性（Veracity），真实性包括数据的可信性、来源和信誉、有效性和可审计性等。
金融业按经营产品分类变为按运营模式分类。传统金融业按经营产品划分为银行、证券、期货、保险、基金五类，随着大数据产业兴起和混业经营的发展，现代金融业按运营模式划分为存贷款类、投资类、保险类三大类别。
大数据市场从垄断演变为充分市场竞争。全球大数据市场企业数量迅速增多，产品和服务的差异增大，技术门槛逐步降低，市场竞争日益激烈。行业解决方案、计算分析服务、存储服务、数据库服务和大数据应用成为市场份额排名最靠前的五大细分市场。
大数据形成新的经济增长点。Wikibon数据显示，2016年，全球大数据硬件、软件和服务整体市场增长22%达到281亿美元，预计到2027年，全球在大数据硬件、软件和服务上的整体开支的复合年增长率为12%，将达到大约970亿美元。
数据和IT技术替代“重复性”业务岗位。数据服务公司Eurekahedge通过追踪23家对冲基金，发现5位对冲基金经理薪金总额为10亿美元甚至更高。过去10年，靠数学模型分析金融市场的物理学家和数学家“宽客”一直是对冲基金的宠儿，其实大数据+人工智能更精于此道。高盛的纽约股票现金交易部门2000年有600名交易员而如今只剩两人，其任务全由机器包办，专家称10年后高盛员工肯定比今天还要少。
美国大数据发展走在全球前列。美国政府宣称：“数据是一项有价值的国家资本，应对公众开放，而不是将其禁锢在政府体制内。”作为大数据的策源地和创新引领者，美国大数据发展一直走在全球最前列。自20世纪以来，美国先后出台系列法规，对数据的收集、发布、使用和管理等做出具体的规定。2009年，美国政府推出Data.gov政府数据开放平台，方便应用领域的开发者利用平台开发应用程序，满足公共需求或创新创业。2010年，美国国会通过更新法案，进一步提高了数据采集精度和上报频度。2012年3月，奥巴马政府推出《大数据研究与开发计划》，大数据迎来新一轮高速发展。
英国是欧洲金融中心，大数据成为其领先科技之一。2013年，英国投资1.89亿英镑发展大数据。2015年，新增7300万英镑，创建了“英国数据银行”data.gov.uk网站。2016年，伦敦举办了超过22000场科技活动，同年，英国数字科技投资逾68亿英镑，而收入则超过1700亿英镑。另外，英国统计局利用政府资源开展“虚拟人口普查”，仅此一项每年节省5亿英镑经费。
C 打造高效金融监管体系
大数据用已发生的总体行为模式和关联逻辑预测未来，决策未来,作为现代数字科技的核心，其灵魂就是——预测。
侦测、打击逃税、洗钱与金融诈骗
全球每年因欺诈造成的经济损失约3.7万亿美元，企业因欺诈受损通常为年营收额的5%。全球最大软件公司之一美国SAS公司与税务、海关等政府部门和全球各国银行、保险、医疗保健等机构合作，有效应对日益复杂化的金融犯罪行为。如在发放许可之前，通过预先的数据分析检测客户是否有过行受贿、欺诈等前科，再确定是否发放借贷或海关通关。SAS开发的系统已被国际公认为统计分析的标准软件，在各领域广泛应用。英国政府利用大数据检测行为模式检索出200亿英镑的逃税与诈骗，追回了数十亿美元损失。被福布斯评为美国最佳银行的德克萨斯资本银行（TCBank），不断投资大数据技术，反金融犯罪系统与银行发展同步，近3年资产从90亿美元增至210亿美元。荷兰第三大人寿保险公司CZ依靠大数据对骗保和虚假索赔行为进行侦测，在支付赔偿金之前先期阻断，有效减少了欺诈发生后的司法补救。
大数据风控建立客户信用评分、监测对照体系
美国注册舞弊审核师协会（ACFE）统计发现，缺乏反欺诈控制的企业会遭受高额损失。美国主流个人信用评分工具FICO能自动将借款人的历史资料与数据库中全体借款人总体信用习惯相比较，预测借款人行为趋势，评估其与各类不良借款人之间的相似度。美国SAS公司则通过集中浏览和分析评估客户银行账户的基本信息、历史行为模式、正在发生行为模式（如转账）等，结合智能规则引擎（如搜索到该客户从新出现的国家为特有用户转账，或在新位置在线交易等），进行实时反欺诈分析。
美国一家互联网信用评估机构通过分析客户在Facebook、Twitter等社交平台留下的信息，对银行的信贷和投保申请客户进行风险评估，并将结果出售给银行、保险公司等，成为多家金融机构的合作伙伴。
D 数据整合困难
应用经济指标预测系统分析市场走势
IBM使用大数据信息技术成功开发了“经济指标预测系统”，该系统基于单体数据进行提炼整合，通过搜索、统计、分析新闻中出现的“新订单”等与股价指标有关的单词来预测走势，然后结合其他相关经济数据、历史数据分析其与股价的关系，从而得出行情预测结果。
追踪社交媒体上的海量信息评估行情变化
当今搜索引擎、社交网络和智能手机上的微博、微信、论坛、新闻评论、电商平台等每天生成几百亿甚至千亿条文本、音像、视频、数据等，涵盖厂商动态、个人情绪、行业资讯、产品体验、商品浏览和成交记录、价格走势等，蕴含巨大财富价值。
2011年5月，规模为4000万美元的英国对冲基金DC Markets，通过大数据分析Twitter的信息内容来感知市场情绪指导投资，首月盈利并以1.85%的收益率一举战胜其他对冲基金仅0.76%的平均收益率。
美国佩斯大学一位博士则利用大数据追踪星巴克、可口可乐和耐克公司在社交媒体的围观程度对比其股价，证明Facebook、Twitter和 Youtube上的粉丝数与股价密切相关。
提供广泛的投资选择和交易切换
日本个人投资理财产品Money Design在应用程序Theo中使用算法+人工智能，最低门槛924美元，用户只需回答风险承受水平、退休计划等9个问题，就可使用35种不同货币对65个国家的1.19万只股票进行交易和切换，年度管理费仅1%。Money Design还能根据用户投资目标自动平衡其账户金额，预计2020年将超过2万亿美元投资该类产品。
利用云端数据库为客户提供记账服务
日本财富管理工具商Money Forward提供云基础记账服务，可管理工资、收付款、寄送发票账单、针对性推送理财新项目等，其软件系统连接并整合了2580家各类金融机构的各类型帐户，运用大数据分析的智能仪表盘显示用户当前财富状况，还能分析用户以往的数据以预测未来的金融轨迹。目前其已拥有50万商家和350万个体用户，并与市值2.5万亿美元的山口金融集团联合开发新一款APP。
为客户定制差异化产品和营销方案
金融机构迫切需要掌握更多用户信息，继而构建用户360度立体画像，从而对细分客户进行精准营销、实时营销、智慧营销。
一些海外银行围绕客户“人生大事”，分析推算出大致生活节点，有效激发其对高价值金融产品的购买意愿。如一家澳大利亚银行通过大数据分析发现，家中即将诞生婴儿的客户对寿险产品的潜在需求最大，于是通过银行卡数据监控准妈妈开始购买保胎药品和婴儿相关产品等现象，识别出即将添丁的家庭，精准推出定制化金融产品套餐，受到了客户的积极响应，相比传统的短信群发模式大幅提高了成功率。
催生并支撑人工智能交易
“量化投资之王”西蒙斯被公认为是最能赚钱的基金经理人，自1988年创立文艺复兴科技公司的旗舰产品——大奖章基金以来，其凭借不断更新完善的大数据分析系统，20年中创造出35%的年均净回报率，比索罗斯同期高10%，比股神巴菲特同期高18%，成为有史以来最成功的对冲基金，并于1993年基金规模达2.7亿美元时停止接受新投资。在美国《Alpha》杂志每年公布的对冲基金经理排行榜上，西蒙斯2005年、2006年分别以15亿美元、17亿美元净收入稳居全球之冠，2007年以13亿美元位列第五，2008年再以25亿美元重返榜首。
推动金融产品和服务创新
E 面临三大挑战
目前，全球各行业数据量的增长速度惊人，在我国尤其集中在金融、交通、电信、制造业等重点行业，信息化的不断深入正在进一步催生更多新的海量数据。
据统计，2015年中国的数据总量达到1700EB以上，同比增长90%，预计到2020年这一数值将超过8000EB。以银行业为例，每创收100万元，银行业平均产生130GB的数据，数据强度高踞各行业之首。但在金融企业内部数据处于割裂状态，业务条线、职能部门、渠道部门、风险部门等各个分支机构往往是数据的真正拥有者，缺乏顺畅的共享机制，导致海量数据往往处于分散和“睡眠”状态，虽然金融行业拥有的数据量“富可敌国”，但真正利用时却“捉襟见肘”。
数据安全暗藏隐患
大数据本质是开放与共享，但如何界定、保护个人隐私权却成为法律难题。大数据存储、处理、传输、共享过程中也存在多种风险，不仅需要技术手段保护，还需相关法律法规规范和金融机构自律。多项实际案例表明，即使无害的数据大量囤积也会滋生各种隐患。安全保护对象不仅包括大数据自身，也包含通过大数据分析得出的知识和结论。在线市场平台英国Handshake.uk.com就尝试允许用户协商个人数据被品牌分享所得的报酬。
人才梯队建设任重道远
人才是大数据之本。与信息技术其他细分领域人才相比，大数据发展对人才的复合型能力要求更高，需要掌握计算机软件技术，并具备数学、统计学等方面知识以及应用领域的专业知识。

Ⅳ 几年左右什么促使了大数据的突破

2003——2006年，非结构化的数据大量出现，传统的数据库处理难以应对，也称非结构化数据阶段。
大数据发展历程：
1、上世纪末，是大数据的萌芽期，处于数据挖掘技术阶段。随着数据挖掘理论和数据库技术的成熟，一些商业智能工具和知识管理技术开始被应用。
2、2003年-2006年是大数据发展的突破期，社交网络的流行导致大量非结构化数据出现，传统处理方法难以应对，数据处理系统、数据库架构开始重新思考。
3、2006年-2009年，大数据形成并行计算和分布式系统，为大数据发展的成熟期。
4、2010年以来，随着智能手机应用，数据碎片化、分布式、流媒体特征更加明显，移动数据急剧增长。
5、2011年麦肯锡全球研究院发布《大数据：下一个创新、竞争和生产力的前沿》，2012年维克托·舍恩伯格《大数据时代：生活、工作与思维的大变革》宣传推广，大数据概念开始风靡全球。

Ⅳ 大数据的产生与发展现状研究

摘要：大数据的产生给未来信息技术带来新的机遇与挑战。大数据对数据处理的有效性、实时性提出了更高要求，需要根据大数据的特点对当前数据处理技术实施变革，从而形成更有益于大数据采集、存储、处理、管理、分析、共享的新兴技术。本文从大数据的产生与发展、特征、主要应用以及大数据所带来的挑战等方面进行阐述与分析。

关键词 ：大数据物联网信息处理海量计算

一、大数据的产生与发展现状

随着物联网、云计算等信息技术的飞速发展，大数据技术(Big Data)也越发进入人们的视线。大数据是用传统方法或工具很难处理或分析的数据信息。目前，人们对大数据的理解还不够全面和深入，关于大数据的含义也没有一个统一的定义。亚马逊大数据科学家John Rauser认为：大数据是超过任何一台计算机处理能力的庞大数据量。Informatica 的中国区首席顾问但彬指出：大数据是海量数据与复杂类型的数据的结合。而维基网络则把大数据定义成诸多大而复杂的、难以用当前数据库处理的数据集合。

大数据研究受到国内外学术界和工业界的广泛关注，已成为当今信息时代全世界讨论的热点。2008年，Nature杂志就推出大数据专刊，计算社区联盟也在同一年发表了报告《Big data computing; Creating revolutionary breakthroughs in commerce， science and society》，报告阐述了解决大数据问题所需的关键技术以及所面临的挑战。美国奥x政府于2012年3月在白宫网站发布了《大数据研究和发展倡议》，提出了通过收集、处理海量、复杂的数据信息，从而提升能力，加快科学和工程领域的创新步伐，转变学习教育模式，强化美国本土的安全”。2011年1月，微软公司同惠普公司合作开发了一系列能够提升生产力，同时提高决策速度的设备。此外，欧盟委员会也提出驾驳大数据浪潮的战略思路，日本发布的《面向 2020 的 ICT综合战略》也提出需要构造大量丰富的数据基础。

近年来，我国也积极开展对大数据的研究。2011年10月，工信部确认京沪深杭等 5 城市为“云计算中心”试点城市。2012年6月，中国计算机学会青年计算机科技论坛也举办了“大数据时代，智谋未来”学术报告研讨会。大数据及其科学研究方法涉及应用领域很广，并将与国计民生密切相关的科学决策、金融工程以及知识经济领域紧紧接合。

二、大数据的特点

目前，企业界和学术界都一致认为，大数据具有4个“V”特征，即：容量(Volume)、种类(Variety)、速度(Velocity)和至关重要的`价值(Value)。

(1) 容量(Volume)巨大。海量的数据集从TB 级别提升到PB 级别。

(2) 种类(Variety)繁多。大数据数据源有多种，数据格式和种类不同于以前所规定的结构化数据范畴。

(3)价值(Value)密度低。如视频的例子，在不间断连续监控的过程中，可能有意义的数据仅有一两秒。

(4)速度(Velocity)快。包含大量实时、在线数据处理分析的需求1秒钟定律。

三、大数据应用的领域

大数据产业的发展将推动全球经济由粗放型向集约型转变，这将对提升企业整体竞争力和政府监管能力具有意义深远的影响。

商业作为大数据的重要应用领域。沃尔玛公司通过对消费者购物行为等一系列非结构化数据的分析，了解不同顾客的购物习惯，公司从所销售的数据进行分析，从而选出适合在一起搭配出售的商品;淘宝也针对买家开设了大数据平台，为客户量身打造了一整套完善的网购体验产品。

大数据在金融业也起到了至关重要的作用。美国Equifax公司利用大数据技术，通过对其的数据库中与财务有关的记录海量信息进行索引处理和交叉分享，从而得到客户的个人信用等级，以推断出客户的支付需求与能力。

随着大数据在医疗与生命科学研究过程中的广泛应用和不断扩展。2010年，中国公布的《十二五规划》指出：要重点建设国家级、省级和地市级三级医疗卫生信息平台，建设电子病历和电子档案两个最为基础的数据库。各级医院也将在医疗信息仓库、数据中心等领域加大投入，医疗数据信息的存储将愈加被关注，医疗信息中心的关注焦点也将由传统的计算领域转为存储领域。

除此之外，大数据在制造业领域也有着广阔的应用。制造业企业积累了广泛的数据信息，在开展对业务数据进行技术管理的同时，企业需要通过大数据处理技术来帮助决策者从数据库储存的海量信息中找到有价值的信息，并且对其进行分析处理，从而增强决策的正确性、规避风险。

四、大数据所面临的挑战

大数据技术使人们能够更好地利用之前不能使用的各个数据类型，找出被忽略的信息，促进企业组织更加高效、智能。但随着对大数据研究的不断深入，人们也更加意识到当大数据技术向人们敞开“方便之门”的同时，也带来了众多的挑战：

(1)大数据需要更为专业化的管理技术人才。

(2) 大数据的合理利用需要解决容量大、类别多和时效性高的数据处理问题。

(3)大数据的利用对信息安全提出了更高要求。

(4)大数据的集成与管理问题。

这些挑战已成为关系到未来大数据发展的重要因素，同时也成为未来引领大数据发展的推动力。

五、结束语

大数据已经逐步渗透到人们工作生活的诸多领域中，对于大数据的研究也在不断的深化。本文针对大数据的产生与发展、特征、主要应用以及大数据所带来的挑战等方面进行阐述与分析。大数据的发展还处于初级阶段，还有更为广阔的空间需要人们不断开拓，如何合理地利用大数据、更加高效地处理大数据来为人们服务仍需要广大研究者不断地研究和探索。

参考文献：

[1]刘智慧，张泉灵.大数据技术研究综述[J].浙江大学学报，2014，46(6)：957- 972.

[2]严霄凤，张德馨.大数据研究[J].计算机技术与发展，2013，23(4)：168-172.

[3]刘俊.基于大数据流的Multi-Agent系统模型研究[J].计算机技术与发展， 2007，17(5)：166-169.

Ⅵ 大数据趋势与专业图书馆

数据被称作信息化时代的石油，其重要性不言而喻。“大数据”通常被认为是一种数据量很大、数据形式多样化的非结构化数据。从产业角度，常常把这些数据与采集它们的工具、平台、分析系统一起称为“大数据”。在大数据时代，顺应大数据趋势，实现传统业务的转移，是带给国内专业图书馆的一个契机。

1.大数据与科学研究

2011年，麦肯锡研究院在《大数据：创新、竞争和生产率的下一个前沿》的报告中提出“大数据”时代已经到来。2012年3月，奥巴马政府发布了“大数据研究和发展计划”；2012年6月，联合国专门发布了大数据发展战略。这是联合国第一次就某一技术问题发布报告。“大数据”成为2012年热门词汇和研究热点之一。除了国家和研究机构，全球主要的大型IT商业公司均对大数据技术投入巨资，目的是利用大数据为国家治理、企业决策乃至个人生活提供服务。目前，科学研究正在进入一个崭新的阶段。在信息与网络技术迅速发展的推动下，大量从宏观到微观，从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动产生出大量科学数据，形成被称为“大数据”的新的科学基础设施。数据不再仅仅是科学研究的结果，而且是科学研究活动的基础。科学家不仅通过对广泛的数据实时、动态地监测与分析来解决难以解决或不可触及的科学问题，更是把数据作为科学研究的对象和工具，基于数据来思考、设计和实施科学研究。以数据考察为基础，联合理论、实验和模拟为一体的数据密集计算的范式，成为与经验范式、理论范式和模拟范式并列的第四范式。数据被一起捕获或者由模拟器生成，处理后存储在计算机中，科研人员使用数据管理和统计学方法分析数据库和文档，据此产生创新思维和成果。这种科研模式被称为数据密集型范式，简称数据范式，是一种新的科研模式。

2.大数据与现有数据库技术的对比

大数据具有数据持续增加、体量巨大（Volume）、数据类型和来源多样（Variety）、速度快（Velocity）等特点。

3.大数据与新型数字图书馆

图书馆在科学文献（纸质或是电子）的组织与服务方面积累了丰富的经验，已成为科研活动和学术交流体系中的有力支撑。随着学术信息交流方式的变化，既有数据档案库，也有文献档案库，而数据则进入数据档案库中。因此，数据图书馆将成为未来数字图书馆的一部分。存储在各类数据库和文档系统中的科学数据，以及以业界标准化关系数据库所产生的元数据体系，将构成一种新型的、分布式的和整合式的数字图书馆。这种数字图书馆既包括传统数字图书馆的各类处理、管理、检索服务等功能，又包括数据转换、可视化和数据挖掘服务等新型数据服务功能。

4.大数据在专业研究领域中的应用

生物医学领域是大数据的先行者，这主要得益于美国国家医学图书馆基于科学数据建立的超级计算和数据处理平台。这些平台支持基础科学和应用科学的知识发现和数据关联，以及分析基础上的模拟仿真研究，为科研和政府决策提供服务。2007年，吉姆格雷扩展了其对数据密集型科学的看法，提出7个重要行动领域之一就是同国家医学图书馆支持生物科学一样，建立更多数字图书馆以支持其他科学。生物医学领域的数据量在飞速增长。欧洲分子生物实验室核酸序列数据库EMBL-Bank收到数据的速度每年递增200%；人类基因组计划2008年生产数据1万亿碱基对，2009年速率又翻一番；在生物医学文献编目中已经有1800万医学文章，每年增加接近百万篇。

美国国立医学图书馆的Entrez系统是美国国立医学图书馆建立的生命科学搜索引擎，它真正实现了数据和文献的交互性操作。用户可以在阅读论文的同时打开基因数据，跟随基因找到这个疾病，再回到文章（微软的WWT也实现了数据与文献的融合）。融合和交互操作可通过统一的链接、统一的标签和ID号实现。医学、生物学、心理学等学科领域的大型实验设备的实验型数据、人类基因数据中，有些由于观测和实验的不可重复性，有些由于时间、设备和经济等条件的限制，数据获取难度大，因此，数据的长期有效保存、科学管理、有条件共享和促进利用是极有意义和价值的一项工作。把全世界的数据都集成在一起，形成巨型的动态数据集，将诞生一个全球化的数据库。

5.国内专业图书馆的实践

专业图书馆的思考在实践方面，国内已经建立了一系列的科学数据平台，如科技部支持建设的科学数据共享工程等，但图书馆人员参与很少。在新的交流体系形成之际，专业图书馆应该深刻思考和研究支撑科研创造的信息服务环境；思考科研成果融合数据之后，形成的原始数据、派生数据和科学文献融为一体的新的信息环境下，如何提供信息和数据服务；研究数据科研基础设施建设和运行过程中信息机构的职责、作用和角色。从大量的数据中分析其潜在的价值将成为大数据时代图书馆的一大主要业务，并且提供这些业务的水平将决定着大数据时代图书馆的发展水平和方向。专业图书馆尤其要分析研究数据科学家的知识结构、基本素养、基本技能，并将此纳入培养计划加以实施，为未来社会提供所需人才。

Ⅶ 简述什么是大数据时代

在我们还没有弄明白什么是云计算，什么是物联网的时候，大数据时代来了。大数据时代带来的变革影响着我们生活和工作的方方面面。那么，什么是大数据时代？我们举例说明！
“大数据时代”首次被提出
最早提出“大数据时代”到来的是全球知名咨询公司麦肯锡。 2011年5月，全球知名咨询公司麦肯锡(McKinsey&Company)肯锡全球研究院（MGI）发布了一份报告--《大数据：创新、竞争和生产力的下一个新领域》，大数据开始备受关注，这也是专业机构第一次全方面的介绍和展望大数据。报告指出，大数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。
报告还提到，“大数据”源于数据生产和收集的能力和速度的大幅提升--由于越来越多的人、设备和传感器通过数字网络连接起来，产生、传送、分享和访问数据的能力也得到彻底变革。
大数据在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日，却因为近年来互联网和信息行业的发展而引起人们关注。进入2012年，大数据（bigdata）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。
举个实际生活中的例子，大约20年前，亚马逊刚成立时，杰夫·贝索斯让50个书评员来为他卖书，他意识到不仅仅可以请人来写书评，还可以用数据技术来提供图书推荐。起初他使用的是小数据，不是大数据，把客户进行分类，比如说有人对中国旅游或者是对园艺感兴趣，系统会自动提供推荐。他的同事告诉他，刚刚开始使用这个数据推荐时，使用体验并不好;在进一步分析后，亚马逊决定不对人进行分类，而是对用户的需求分类。这个做法做法非常成功，以至于到今天，推荐系统为亚马逊带去30%的销售收入。
什么是大数据时代？我们再通俗一点讲，就是在不影响你隐私的前提下，让你的生活很便捷。例如我要去北京出差，我忙完手里的事情，楼下已经有专车在等候送我去机场，专车根据大数据实时路况选了一条最优方案把我准点送达机场，下飞机的时候，车子已经在等我，并且把我送到了我比较喜欢而且价位适合的宾馆，到了宾馆，我喜欢的美食已经准备妥当，房间温度已经达到最佳，浴室水温已经正好合适，我喜欢的美人已经在床上宽衣解带等候宠幸……
大数据时代就是能够根据我实时产生的数据来不断给我匹配我想要的东西，让生活超级便捷。

Ⅷ 2011年什么公司发布报告,大数据开始被收关注

麦肯锡公司。大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2011年麦肯锡公司发布《大数据：创新、竞争和生产力的下一个新领域》报告，大数据开始备受关注。麦肯锡咨询公司?麦肯锡公司是世界级领先的全球管理咨询公司。

Ⅸ 详解大数据的思想如何形成与其价值维度

详解大数据的思想如何形成与其价值维度
比如经济上，黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事，“向林彪学习数据挖掘”的桥段不论真假，其背后量化分析的思想无疑有其现实基础，而这一基础甚至可以回推到2000多年前，孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代，磁带取代穿孔卡片机，启动了数据存储的革命。磁盘驱动器随即发明，它带来的最大想象空间并不是容量，而是随机读写的能力，这一下子解放了数据工作者的思维模式，开始数据的非线性表达和管理。数据库应运而生，从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用)，到网状数据库，再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS)，80年代演变到商业智能(BI)和数据仓库，开辟了数据分析——也就是为数据赋予意义——的道路。

那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的，第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个：一是基于retaillink的供应链优化，把数据与供应商共享，指导它们的产品设计、生产、定价、配送、营销等整个流程，同时供应商可以优化库存、及时补货;二是购物篮分析，也就是常说的啤酒加尿布。关于啤酒加尿布，几乎所有的营销书都言之凿凿，我告诉大家，是Teradata的一个经理编的，人类历史上从没有发生过，但是，先教育市场，再收获市场，它是有功的。
仅次于沃尔玛的乐购(Tesco)，强在客户关系管理(CRM)，细分客户群，分析其行为和意图，做精准营销。
这些都发生在90年代。00年代时，科研产生了大量的数据，如天文观测、粒子碰撞，数据库大拿吉姆·格雷等提出了第四范式，是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔)，理论(牛顿被苹果砸出灵感，形成经典物理学定律)，模拟(粒子加速太贵，核试验太脏，于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的，开普勒根据前人对行星位置的观测数据拟合出椭圆轨道，就是数据方法。但是到90年代的时候，科研数据实在太多了，数据探索成为显学。在现今的学科里，有一对孪生兄弟，计算XX学和XX信息学，前者是模拟/计算范式，后者是数据范式，如计算生物学和生物信息学。有时候计算XX学包含了数据范式，如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》，引起轩然大波。他主要的观点是有了数据，就不要模型了，或者很难获得具有可解释性的模型，那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先，我们在观察客观世界中采集了三个点的数据，根据这些数据，可以对客观世界有个理论假设，用一个简化的模型来表示，比如说三角形。可以有更多的模型，如四边形，五边形。随着观察的深入，又采集了两个点，这时发现三角形、四边形的模型都是错的，于是确定模型为五边形，这个模型反映的世界就在那个五边形里，殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂，已经无法用简单、可解释的模型来表达，这样，数据本身成了模型，严格地说，数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子，统一的统计学模型取代了各种语言的理论/模型(如语法)，能从英文翻译到法文，就能从瑞典文翻译到中文，只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题，以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然，科学界不认同《理论的终结》，认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据，机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型，知识疆域的上限就是机器线性增长的计算力，它不能扩展到新的空间。在人类历史上，每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右，大数据的浪潮卷起，这些争论迅速被淹没了。看谷歌趋势，”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家，一家是IDC，每年给EMC做digitaluniverse的报告，上升到泽字节范畴(给大家个概念，现在硬盘是太字节，1000太=1拍，阿里、Facebook的数据是几百拍字节，1000拍=1艾，网络是个位数艾字节，谷歌是两位数艾字节，1000艾=1泽);一家是麦肯锡，发布《大数据：创新、竞争和生产力的下一个前沿》;一家是《经济学人》，其中的重要写手是跟老舍同着《大数据时代》的肯尼思？库克耶;还有一家是Gartner，杜撰了3V(大、杂、快)，其实这3V在2001年就已经被编出来了，只不过在大数据语境里有了全新的诠释。
咱们国内，欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维，现在已经被奉为圭臬，但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲，1.没有全集数据，数据都在孤岛里;2.全集太贵，鉴于大数据信息密度低，是贫矿，投入产出比不见得好;3.宏观分析中采样还是有用的，盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性，采访火车上的民工得出都买到票的结论不是好采样，现在只做固定电话采样调查也不行了(移动电话是大头)，在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差，更会丢失黑天鹅的信号，因此在全集数据存在且可分析的前提下，全量是首选。全量>好的采样>不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的，但不等于喜欢混杂性。数据清洗比以前更重要，数据失去辨识度、失去有效性，就该扔了。老舍引用谷歌PeterNovig的结论，少数高质量数据+复杂算法被大量低质量数据+简单算法打败，来证明这一思维。Peter的研究是Web文本分析，确实成立。但谷歌的深度学习已经证明这个不完全对，对于信息维度丰富的语音、图片数据，需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策，相关性是有用的，如亚马逊的个性化推荐;而对于小批量的大决策，因果性依然重要。就如中药，只到达了相关性这一步，但它没有可解释性，无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后，要做随机对照试验，把所有可能导致“治愈的果”的干扰因素排除，获得因果性和可解释性。在商业决策上也是一样，相关性只是开始，它取代了拍脑袋、直觉获得的假设，而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要，动机不代表行为。预测性分析也一样，不然警察会预测人犯罪，保险公司会预测人生病，社会很麻烦。大数据算法极大影响了我们的生活，有时候会觉得挺悲哀的，是算法觉得了你贷不贷得到款，谷歌每调整一次算法，很多在线商业就会受到影响，因为被排到后面去了。
下面时间不多了，关于价值维度，我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外，还有数据本身的价值化。这一点不赘述了，引用马云的话吧，“信息的出发点是我认为我比别人聪明，数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人，而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么？价值这个V怎么映射到其他3V和时空象限中？我画了个图：
再贴上解释。“见微”与“知着”在Volume的空间维度。小数据见微，作个人刻画，我曾用《一代宗师》中“见自己”形容之;大数据知着，反映自然和群体的特征和趋势，我以“见天地、见众生”比喻之。“着”推动“微”(如把人群细分为buckets)，又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“着”又反映了时间维度，数据刚产生时个人价值最大，随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点，是闪念之间的实时智慧，结合过往(负轴)、预测未来(正轴)，可以皆明，即获得perpetual智慧。《西游记》里形容真假孙悟空，一个是“知天时、通变化”，一个是“知前后、万物皆明”，正好对应。为达到皆明，需要全量分析、预测分析和处方式分析(prescriptiveanalytics，为让设定的未来发生，需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据，辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界，从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知着，对宏观现象规律的研究早已有之，大数据的知着有两个新特点，一是从采样到全量，比如央视去年“你幸福吗”的调查，是街头的采样，前不久《中国经济生活大调查》关于幸福城市排名的结论，是基于10万份问卷(17个问题)的采样，而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与)，是基于新浪微博数据的全集(托老王的福)，这些数据是人们的自然表达(而不是面对问卷时的被动应对)，同时又有上下文语境，因此更真实、也更有解释性。北上广不幸福，是因为空气还是房价或教育，在微博上更容易传播的积极情绪还是消极情绪，数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”，是过头话，采样和传统的统计分析方法对数据分布采用一些简化的模型，这些模型把异常和长尾忽略了，全量的分析可以看到黑天鹅的身影，听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学，已经有一批数学家、物理学家成了经济学家、宽客，现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子，它通过几十万用户的数据，主要是反映投资活跃程度和投资收益水平的指标，建立一个量化模型来推知整体投资景气度。
再看见微，我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体，进入到微观和抽象，这时大数据就很重要了。我们更关注社会科学，那是先微观、具体，再宏观、抽象，许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和，我们原来看到是一张抽象派的画，看不懂，通过客户细分慢慢可以形成一张大致看得懂的现实图景，不过是马赛克的，再通过微分、甚至定位个人，形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念)，最简单的是高收入、低收入这类反映背景的，再有就是反映行为和生活方式的，如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇，Nobody wants to be nobody today。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上，就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼，东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角)，他还要更细分，摇摆州每一个郡每一个年龄段每一个时间段在看什么电视，摇摆州(俄亥俄)1%选民随时间变化的投票倾向，摇摆选民在Reddit上还是Facebook上，都在其掌握之中。
对于企业来说，要从以产品为中心，转到以客户(买单者)甚至用户(使用者)为中心，从关注用户背景到关注其行为、意图和意向，从关注交易形成转到关注每一个交互点/触点，用户是从什么路径发现我的产品的，决定之前又做了什么，买了以后又有什么反馈，是通过网页、还是QQ、微博或是微信。
再讲第三个，当下。时间是金钱，股票交易就是快鱼吃慢鱼，用免费股票交易软件有几秒的延迟，而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命，美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警，已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮，而是结帐完的小票，真正有价值的是当顾客还拎着购物篮，在浏览、试用、选择商品的时候，在每一个触点影响他/她的选择。数据价值具有半衰期，最新鲜的时候个性化价值最大，渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几，原来10年一次的人口普查就是刻舟求剑，而现在东莞一出事网络迁徙图就反映出来了。当然，当下并不一定是完全准确的，其实如果没有更多、更久的数据，匆忙对网络迁徙图解读是可能陷入误区的。
第四个，皆明。时间有限，就简单说了。就是从放马后炮到料事如神(predictiveanalytics)，从料事如神到运筹帷幄(prescriptiveanalytics)，只知道有东风是预测分析，确定要借箭的目标、并给出处方利用草船来借，就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户，需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子，我们的GPS有几十米的误差，但与地图数据结合就能做到精确，GPS在城市的高楼中没有信号，可以与惯性导航结合。
晓意涉及到大数据下的机器智能，是个大问题，也不展开了。贴一段我的文章：有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献，它在大数据背景下出现了传播的误区：一、它其实不是大数据，而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来，奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是，在运用数量化工具的同时，比恩也增加了球探的费用，军功章里有机器的一半，也有人的一半，因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录，以及机器学习(尤其是深度学习)晓意能力的增强，可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画，当这些应用于人力资源，已经或多或少体现了球探承担的。

导航:首页 > 网络数据 > 2011年发布大数据创新

2011年发布大数据创新

与2011年发布大数据创新相关的资料

友情链接