㈠ 大数据的预测功能是增值服务的核心
大数据的预测功能是增值服务的核心
从走在大数据发展前沿的互联网新兴行业,到与人类生活息息相关的医疗保健、电力、通信等传统行业,大数据浪潮无时无刻不在改变着人们的生产和生活方式。大数据时代的到来,给国内外各行各业带来诸多的变革动力和巨大价值。
最新发布的报告称,全球大数据市场规模将在未来五年内迎来高达26%的年复合增长率——从今年的148.7亿美元增长到2018年的463.4亿美元。全球各大公司、企业和研究机构对大数据商业模式进行了广泛地探索和尝试,虽然仍旧有许多模式尚不明朗,但是也逐渐形成了一些成熟的商业模式。
两种存储模式为主
互联网上的每一个网页、每一张图片、每一封邮件,通信行业每一条短消息、每一通电话,电力行业每一户用电数据等等,这些足迹都以“数据”的形式被记录下来,并以几何量级的速度增长。这就是大数据时代带给我们最直观的冲击。
正因为数据量之大,数据多为非结构化,现有的诸多存储介质和系统极大地限制着大数据的挖掘和发展。为更好地解决大数据存储问题,国内外各大企业和研究机构做了许许多多的尝试和努力,并不断摸索其商业化前景,目前形成了如下两种比较成熟的商业模式:
可扩展的存储解决方案。该存储解决方案可帮助政府、企业对存储的内容进行分类和确定优先级,高效安全地存储到适当存储介质中。而以存储区域网络(SAN)、统一存储、文件整合/网络连接存储(NAS)的传统存储解决方案,无法提供和扩展处理大数据所需要的灵活性。而以Intel、Oracle、华为、中兴等为代表的新一代存储解决方案提供商提供的适用于大、中小企业级的全系存储解决方案,通过标准化IT基础架构、自动化流程和高扩展性,来满足大数据多种应用需求。
云存储。云存储是一个以数据存储和管理为核心的云计算系统,其结构模型一般由存储层、基础管理、应用接口和访问层四层组成。通过易于使用的API,方便用户将各种数据放到云存储里面,然后像使用水电一样按用量进行收费。用户不用关心数据的存储介质、网络状况以及安全性的管理,只需按需向提供方购买空间。
源数据价值水涨船高
在红红火火的大数据时代,随着数据的累积,数据本身的价值也在不断升值,这种情况很好地反应了事物由量变到质变的规律。例如有一种罕见的疾病,得病率为十万分之一,如果从小样本数据来看非常罕见,但是扩大到全世界70亿人,那么数量就非常庞大。以前技术落后,不能将该病情数字化集中研究,所以很难攻克。但是,我们现在把各种各样的数据案例搜集起来统一分析,我们很快就能攻克很多以前想象不到的科学难题。类似的例子,不胜枚举。
正是由于可以通过大数据挖掘到很多看不见的价值,源数据本身的价值也水涨船高。一些掌握海量有效数据的公司和企业找到了一条行之有效的商业路径:对源数据直接或者经过简单封装销售。在互联网领域,以Facebook、twitter、微博为代表的社交网站拥有大量的用户和用户关系数据,这些网站正尝试以各种方式对该源数据进行商业化销售,Google、Yahoo!、网络[微博]等搜索公司拥有大量的搜索轨迹数据以及网页数据,他们可以通过简单API提供给第三方并从中盈利;在传统行业中,中国联通[微博](3.44, 0.03, 0.88%)、中国电信[微博]等运营商拥有大量的底层用户资料,可以通过简单地去隐私化,然后进行销售盈利。
各大公司或者企业通过提供海量数据服务来支撑公司发展,同时以免费的服务补偿用户,这种成熟的商业模式经受住了时间的考验。但是对于任何用户数据的买卖,还需处理好用户隐私信息,通过去隐私化方式,来保护好用户隐私。
预测是增值服务的核心
在大数据基础上进行深度挖掘,所衍生出来的增值服务,是大数据领域最具想象空间的商业模式。大数据增值服务的核心是什么?预测!大数据引发了商业分析模式转变,从过去的样本模式到现在的全数据模式,从过去的小概率到现在的大概率,从而能够得到比以前更准确的预测。目前形成了如下几种比较成熟的商业模式。
个性化的精准营销。一提起“垃圾短信”,大家都很厌烦,这是因为本来在营销方看来是有价值的、“对”的信息,发到了“错”的用户手里。通过对用户的大量的行为数据进行详细分析,深度挖掘之后,能够实现给“对”的用户发送“对”的信息。比如大型商场可以对会员的购买记录进行深度分析,发掘用户和品牌之间的关联。然后,当某个品牌的忠实用户收到该品牌打折促销的短信之后,一定不是厌烦,而是欣喜。如优捷信达、中科嘉速等拥有强大数据处理技术的公司在数据挖掘、精准广告分析等方面拥有丰富的经验。
企业经营的决策指导。针对大量的用户数据,运用成熟的数据挖掘技术,分析得到企业运营的各种趋势,从而给企业的决策提供强有力的指导。例如,汽车销售公司,可以通过对网络上用户的大量评论进行分析,得到用户最关心和最不满意的功能,然后对自己的下一代产品进行有针对性的改进,以提升消费者的满意度。
总体来说,从宏观层面来看,大数据是我们未来社会的新能源;从企业微观层面来看,大数据分析和运用能力正成为企业的核心竞争力。深入研究和积极探索大数据的商业模式,对企业的未来发展有至关重要的意义。
㈡ 使用比较多的大数据分析解决方案有哪些
大数据分析解决方案分为数据采集、数据存储、数据计算或处理、数据挖掘、数版据展现五个方面。权
数据采集:需要对于海量数据、实时数据的采集能力,这是数据利用的第一步。
数据存储:对应大数据特点,需要大容量、高容错、高效率的存储能力,这是数据利用的基础。
数据计算:需要强大、廉价、快速的数据处理货计算能力,强大对应大数据的量大、类型多,廉价对应大数据的价值密度低,快速对应大数据的速度快,这是大数据能够发展的关键。
数据挖掘:要能够全角度、多方位的立体分析挖掘数据价值,应用好数据挖掘才能将数据转化为价值,这是数据利用的核心。
数据展现:多途径、直观、丰富的数据展现形式是数据的外在形象,这是数据应用的亮点,是能够得到用户认可的窗口。
以上是对于大数据平台需要解决的问题,必须具备的能力,数据提出的要求。
㈢ 大数据分析需全面解决方案
大数据分析需全面解决方案
当前,越来越多企业将大数据的分析结果作为其判断未来发展的依据。同时,传统的商业预测逻辑正日益被新的大数据预测所取代。但是,我们要谨慎管理大家对大数据的期望值,因为海量数据只有在得到有效治理的前提下才能进一步发展其业务价值。
最广为人知的大数据定义是Gartner给出的大数据的3V特性:巨大的数据量(Volume)、数据的快速处理(Velocity)、多变的数据结构和类型(Variety)。根据这一定义,大家首先想到的是IT系统中一直难以处理却又不容忽视的非结构化数据。也就是说,大数据不仅要处理好交易型数据的分析,还把社交媒体、电子商务、决策支持等信息都融入进来。现在,分布式处理技术Hadoop和NoSQL已经能对非结构化数据进行存储、处理、分析和挖掘,但未能为满足客户的大数据需求提供一个全面的解决方案。
事实上,普遍意义上的大数据范围更加广泛,任何涉及海量数据及多数据源的复杂计算,均属大数据范畴,而不仅局限于非结构化数据。因此,诸如电信运营商所拥有的巨量用户的各类详细数据、手机开关机信息、手机在网注册信息、手机通话计费信息、手机上网详细日志信息、用户漫游信息、用户订阅服务信息和用户基础服务信息等,均可划归为大数据。
与几年前兴起的云计算相比,大数据实现其业务价值所要走的路或许更为长远。但是企业用户已经迫不及待,越来越多企业高层倾向于将大数据分析结果作为其商业决策的重要依据。在这种背景下,我们必须找到一种全面的大数据解决方案,不仅要解决非结构化数据的处理问题,还要将功能扩展到海量数据的存储、大数据的分布式采集和交换、海量数据的实时快速访问、统计分析与挖掘和商务智能分析等。
典型的大数据解决方案应该是具有多种能力的平台化解决方案,这些能力包括结构化数据的存储、计算、分析和挖掘,多结构化数据的存储、加工和处理,以及大数据的商务智能分析。这种解决方案在技术应具有以下四个特性:软硬集成化的大数据处理、全结构化数据处理的能力、大规模内存计算的能力、超高网络速度的访问。
㈣ 大数据解决方案都有哪些
在信息时代的我们,总会听到一些新鲜词,比如大数据,物联网,人工智能等等。而现在,物联网、大数据、人工智能已经走进了我们的生活,对于很多人看到的大数据的前景从而走进了这一行业,对于大数据的分析和解决是很多人不太了解的,那么大数据的解决方案都有哪些呢?一般来说,大数据的解决方案就有Apache Drill、Pentaho BI、Hadoop、RapidMiner、Storm、HPCC等等。下面就给大家逐个讲解一下这些解决方案的情况。
第一要说的就是Apache Drill。这个方案的产生就是为了帮助企业用户寻找更有效、加快Hadoop数据查询的方法。这个项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
第二要说的就是Pentaho BI。Pentaho BI 平台和传统的BI 产品不同,它是一个以数据流程为中心的,面向解决方案的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,这样一来就方便了商务智能应用的开发。Pentaho BI的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项复杂的、完整的商务智能解决方案。
然后要说的就是Hadoop。Hadoop 是一个能够对海量数据进行分布式处理的软件框架。不过Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。另外,Hadoop 依赖于社区服务器,所以Hadoop的成本比较低,任何人都可以使用。
接着要说的是RapidMiner。RapidMiner是世界领先的数据挖掘解决方案,有着先进的技术。RapidMiner数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
Storm。Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。 Storm支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、Admaster等等。
最后要说的就是HPCC。什么是HPPC呢?HPCC是High Performance Computing and Communications(高性能计算与通信)的缩写。HPCC主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。
通过上述的内容,想必大家已经知道了大数据的解决方案了吧,目前世界范围内拥有的大数据解决方案种类较多,只有开发并使用好最先进的,最完备的大数据解决方案,一个公司,甚至一个国家才能走在世界前列。
㈤ EXCEL大数据量导出的解决方案
EXCEL大数据量导出的解决方案
将web页面上显示的报表导出到excel文件里是一种很常见的需求。润乾报表的类excel模型,支持excel文件数据无失真的导入导出,使用起来非常的方便。然而,当数据量较大的情况下,excel本身的支持最多65535行数据的问题便凸显出来。下面就给出大数据量导出到excel的解决方案。
首先,对于数据超过了65535行的问题,很自然的就会想到将整个数据分块,利用excel的多sheet页的功能,将超出65535行后的数据写入到下一个sheet页中,即通过多sheet页的方式,突破了最高65535行数据的限定。
具体做法就是:
单独做一个链接,使用JSP导出,在JSP上通过程序判断报表行数,超过65535行后分SHEET写入。这样这个问题就得以解决了。
更进一步地说,在这种大数据量的报表生成和导出中,要占用大量的内存,尤其是在使用TOMCAT的情况下,JVM最高只能支持到2G内存,则会发生内存溢出的情况。此时的内存开销主要是两部分,一部分是该报表生成时的开销,另一部分是该报表生成后写入一个EXCEL时的开销。由于JVM的GC机制是不能强制回收的,因此,对于此种情形,我们给出一个变通的解决方案。
首先,将该报表设置起始行和结束行参数,在API生成报表的过程中,分步计算报表,比如一张20万行数据的报表,在生成过程中,可通过起始行和结束行分4-5次进行。这样,就降低了报表生成时的内存占用,在后面报表生成的过程中,如果发现内存不够,即可自动启动JVM的GC机制,回收前面报表的缓存。
导出EXCEL的过程,放在每段生成报表之后立即进行,改多个SHEET页为多个EXCEL,即在分步生成报表的同时分步生成EXCEL,则通过POI包生成EXCEL的内存消耗也得以降低。通过多次生成,同样可以在后面EXCEL生成所需要的内存不足时,有效回收前面生成EXCEL时占用的内存。
再使用文件操作,对每个客户端的导出请求在服务器端根据SESSIONID和登陆时间生成唯一的临时目录,用来放置所生成的多个EXCEL,然后调用系统控制台,打包多个EXCEL为RAR或者JAR方式,最终反馈给用户一个RAR包或者JAR包,响应客户请求后,再次调用控制台删除该临时目录。
使用这种方法,首先是通过分段运算和生成,有效降低了报表从生成结果到生成EXCEL的内存开销。其次是通过使用压缩包,响应给用户的生成文件体积大大缩小,降低了多用户并发访问时服务器下载文件的负担,有效减少多个用户导出下载时服务器端的流量,从而达到进一步减轻服务器负载的效果。
㈥ 华为大数据解决方案是什么
现在有好多公司在做大数据,不仅仅只有华为。比如北京开运联合信息技术股份有限公司大数据解决方案是要根据您所需要的行业,来定制的。
㈦ 如何处理大量数据并发操作
处理大量数据并发操作可以采用如下几种方法:
1.使用缓存:使用程序直接保存到内存中。或者使用缓存框架: 用一个特定的类型值来保存,以区别空数据和未缓存的两种状态。
2.数据库优化:表结构优化;SQL语句优化,语法优化和处理逻辑优化;分区;分表;索引优化;使用存储过程代替直接操作。
3.分离活跃数据:可以分为活跃用户和不活跃用户。
4.批量读取和延迟修改: 高并发情况可以将多个查询请求合并到一个。高并发且频繁修改的可以暂存缓存中。
5.读写分离: 数据库服务器配置多个,配置主从数据库。写用主数据库,读用从数据库。
6.分布式数据库: 将不同的表存放到不同的数据库中,然后再放到不同的服务器中。
7.NoSql和Hadoop: NoSql,not only SQL。没有关系型数据库那么多限制,比较灵活高效。Hadoop,将一个表中的数据分层多块,保存到多个节点(分布式)。每一块数据都有多个节点保存(集群)。集群可以并行处理相同的数据,还可以保证数据的完整性。
拓展资料:
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
㈧ 在灾备和运维方面比较出众的大数据解决方案有哪些
为了有效减轻和抵御自然或其他突发灾难对企业生存和发展造成破坏,业界曾经要求区分业务连贯性(Business Continuity)和灾难恢复(Disaster Recovery),但随着技术的发展和研究不断深入,这两个概念已经逐渐融合,相关措施一般统为业务连贯性计划(BCP,Business Continuity Plan),国内则习惯性称之为“灾备计划”。
灾备计划的实施中,核心是数据。当前,企业的发展和成功越来越依赖于对数据信息的掌握和管理,数据已经成为企业最重要的财富;灾备系统的部署也正是为了在发生灾难的时候实现数据的恢复并维持相关应用。然而,在目前的技术条件下,建立完善的灾备系统还需要解决数据处理和安全中的一些让人头疼的问题。
灾备系统的数据处理和安全问题
数据量急速增长
根据IDC 2008年3月的报告,2007年各种新增数据的总量(281 ExaByte)较上年增长了约75%,已经超过所有可用存储介质总容量(264 ExaByte)约6%,预计2011年数据总量将达到2006年的10倍。在企业中,除了一般应用的数据急速增长,各种新兴的信息化技术(如ERP、CRM、电子商务等等)在提高效率的同时,也同样会产生大量数据。
急速增长的数据量给灾备系统带来的最直观的问题是存储空间不足,需要购买更多的存储介质(磁带或磁盘)。随着系统总存储容量的增加,除了购买介质本身的支出外,设备部署空间、降温、电能消耗等等附带需求也随之迅速增长。
另一方面,数据量增长也给系统的处理能力带来了巨大压力。与存储介质不同,系统的处理能力(如CPU、I/O总线等)一般较难扩展,通常只能通过硬件整体升级完成,如果不能通过技术手段有效平抑数据量增长对系统处理能力的压力,系统可靠性将面临频繁硬件升级的严峻挑战。同时,对系统的投资也不能得到充分利用。
此外,灾备系统通常都需要异地部署。数据量的增加要求远程数据传输具有更高的带宽;由于传输带宽的限制,传输时间的延长可能会降低系统运行效率,甚至无法及时完成异地数据传输,造成灾备系统不能发挥功效。
保护敏感数据
完整的信息安全保护需要遵循AIC三原则,即对保护数据需要同时关注可用性(Availability)、完整性(Integrity)和机密性(Confidentiality)等三个关键特性。尽管不同的应用场景会有不同的要求,但在系统的设计时必须对这三个特性都予以足够的重视,而目前国内的灾备系统往往仅将视线主要集中在可用性上,对完整性和机密性都缺乏必要的关注。
部署灾备系统是为了能在灾难发生后及时恢复应用,保证相关业务的有效运行。因此数据有效性是系统设计中首要关注的内容,而与此同时,随着信息技术的应用越来越广泛,敏感数据被泄漏甚至篡改的风险也越来越大,一旦发生意外,企业将在激烈的市场竞争中受到沉重,甚至毁灭性的打击。
2. 现有解决方案及不足
为了应对上述问题,存储业界分别提出了相应的解决方案:数据缩减技术可以有效减少备份数据的总量;对敏感数据的严密保护可通过采用加密技术实现。
目前广泛应用的数据缩减技术主要有重复数据删除(Data De-plication)和数据压缩(Data Compression)。重复数据删除技术通过删除存储过程中重复出现的数据块来降低数据总量,数据缩减比通常可达10:1到20:1,即应用重复数据删除技术后的总据量将减少到原始数据量的10%到5%;数据压缩技术通过对数据重新编码来降低其冗余度,从而实现数据量的减少,一般数据的压缩比约为2:1,即数据可被压缩到原大小的一半左右。这两种技术具有不同层面的针对性,并能够结合起来使用,从而实现更高的数据缩减比例。需要注意的是,如果同时应用重复数据删除和数据压缩技术,通常会先应用数据删除技术,然后再使用数据压缩技术,从而尽量减少对系统处理能力的占用。
为了对存储系统的数据进行有效保护,业界于今年初正式通过了IEEE 1619/1619.1存储安全标准。 IEEE1619采用一种新的加密算法模式XTS-AES,有效地解决了块导向存储设备(例如,磁盘驱动器)上的数据加密问题; IEEE 1619.1则主要是针对大的磁盘驱动器,可以采用CBC、GCM等多种AES加密和验证算法模式;其他如密钥管理等后续相关标准的制定也正在有序进行。
然而,尽管有这些方案能够分别应对灾备系统面临的大数据量和安全性问题,在实际的系统设计和部署中仍然存在一些麻烦,分散的技术实现会带来资源占用过多、系统运行效率低、复杂度太高、可靠性低等等各种问题,业界迫切地需要一种新的高集成度的总体解决方案,来全面解决所有的这些问题。
更为突出的问题是,数据保护所引入的加密处理将从根本上限制数据缩减技术的应用,这几种技术之间存在着根本的矛盾:重复数据删除和数据压缩技术的基础是大量数据中存在相似或相同的特性,而加密处理后数据中的相似或相同都将被完全破坏。
3. Hifn Express DR融合技术方案介绍
要想充分利用上述数据缩减和安全保护技术,构建完善的灾备系统,就必须仔细协调这几种处理。作为存储和网络创新的推动者,Hifn凭借对数据缩减和加密处理技术的深刻理解,以及对灾备系统存储应用的准确把握,提出了全新的Hifn Express DR解决方案,如图所示。
基于Hifn Express DR解决方案,数据将在被压缩后再提交进一步处理,以增加系统I/O带宽,从而使现有系统的硬件投资得到最大限度的利用和保护;在内部处理过程中,从I/O模块得到的源数据将首先被解压缩,然后使用特定的算法(一般使用SHA-1/2)计算出数据块的识别信息,以便进行重复数据删除处理;重复数据删除处理的元数据块将会被压缩,以进一步减少数据量。为了实现全面的数据保护,还可以对压缩后的数据块进行加密,加密算法和处理方式严格遵从IEEE 1619系列标准。整个处理过程都将由相关硬件处理单元自动完成,从而极大提高系统处理器和存储单元的工作效率。
通过对重复数据删除、数据压缩和加密技术的综合运用,基于该架构的新一代Hifn Express DR系列加速卡可以帮助客户将灾备系统的数据量减少到原始数据的5%以下,并实现数据的全面安全保护,其处理性能也将达到创纪录的1,600MB/s。
㈨ 大数据在开发中遇到的困难怎么解决方案
大数据时代下的信息技术日存在的问题:
第一:运营商带宽能力与对数据洪流的适应能力面临前所未有的挑战;
第二:大数据处理和分析的能力远远不及理想中水平,数据量的快速增长,对存储技术提出了挑战;同时,需要高速信息传输能力支持,与低密度有价值数据的快速分析、处理能力。
第三:部分早期的Hadoop项目将面临挑战;
第四:大数据环境下通过对用户数据的深度分析,很容易了解用户行为和喜好,乃至企业用户的商业机密,对个人隐私问题必须引起充分重视;
第五:大数据时代的基本特征,决定其在技术与商业模式上有巨大的创新空间,如何创新已成为大数据时代的一个首要问题;
第六:大数据时代对政府制订规则与监管部门发挥作用提出了新的挑战 大数据时代面临挑战的应对策略:
1、合理获取数据
在大数据时代,数据的产生速度飞快而且体量庞大,往往以TB或YB甚至是ZB来衡量。各种机构、个人都在不断地向外产生和发布结构化与非结构化的复杂数据,并进行数据交换,如人们当前最常用的数据来源渠道——互联网,每天的数据交换量已极为惊人。
2、存储随需而变
美国一家知名的 DVD 租赁企业每年都会邀请一些协同处理算法的专家对其用户数据进行分析,从而了解租赁客户的需求。
3、筛选与分析大数据
充分利用数据“洞察”自己身边的人或物,在诸多供给方当中精准地匹配自身需求,从而最大限度地满足自身吁求也是大数据价值的应有之义。
4、理性面对大数据的价值诱惑
毫无疑问,大数据时代将是商业智能“大显身手”的时代。企业利用发达的数据挖掘技术正日益精准地揣摩着消费者心态,并运用各种手段对其“循循善诱” 。
5、云计算和大数据相辅相成
为了满足大数据的需求,商务智能软件必须改变。
㈩ SQLSERVER大数据库解决方案
在微软的大数据解决方案中,数据管理是最底层和最基础的一环。
灵活的数据管理层,可以支持所有数据类型,包括结构化、半结构化和非结构化的静态或动态数据。
在数据管理层中主要包括三款产品:SQLServer、SQLServer并行数据仓库和
Hadoop on Windows。
针对不同的数据类型,微软提供了不同的解决方案。
具体来说,针对结构化数据可以使用SQLServer和SQLServer并行数据仓库处理。
非结构化数据可以使用Windows Azure和WindowsServer上基于Hadoop的发行版本处理;而流数据可以使用SQLServerStreamInsight管理,并提供接近实时的分析。
1、SQLServer。去年发布的SQLServer2012针对大数据做了很多改进,其中最重要的就是全面支持Hadoop,这也是SQLServer2012与SQLServer2008最重要的区别之一。今年年底即将正式发布的SQLServer2014中,SQLServer进一步针对大数据加入内存数据库功能,从硬件角度加速数据的处理,也被看为是针对大数据的改进。
2、SQLServer并行数据仓库。并行数据仓库(Parallel Data Warehouse Appliance,简称PDW)是在SQLServer2008 R2中推出的新产品,目前已经成为微软主要的数据仓库产品,并将于今年发布基于SQLServer2012的新款并行数据仓库一体机。SQLServer并行数据仓库采取的是大规模并行处理(MPP)架构,与传统的单机版SQLServer存在着根本上的不同,它将多种先进的数据存储与处理技术结合为一体,是微软大数据战略的重要组成部分。
3、Hadoop on Windows。微软同时在Windows Azure平台和WindowsServer上提供Hadoop,把Hadoop的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起,形成完整的大数据解决方案。微软大数据解决方案还通过简单的部署以及与Active Directory和System Center等组件的集成,为Hadoop提供了Windows的易用性和可管理性。凭借Windows Azure上基于Hadoop的服务,微软为其大数据解决方案在云端提供了灵活性。