1. 云计算和大数据到底是个什么关系一直没搞明白
关于来大数据和云计算的关系人们源通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。
整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力。
2. 大数据和云计算之间是什么关系_大数据和云计算有什么区别和联系
大数据是云计算的杀手锏应用
大数据与云计算的关系,引起一些人的困惑。为了便于探讨二者的关系,这里从“计算”和“数据”的历史关系说起。因为云计算首先是一种“计算”,大数据首先是一种“数据”,而计算机就是用来“计算”“数据”的。
计算机是软件和硬件分离的,是一种软件定义的电子产品(可编程)。计算机设计中的一个重要问题是如何有效管理CPU、内存和I/O等硬件资源,以及如何让应用程序合理使用这些资源。这两大任务最早内嵌在各种应用程序中,由应用程序自身完成,缺点是费力、复杂和易错,难以升级和移植,而且重复工作。
上世纪60年代这些共性功能开始从应用中分离出来,逐步形成了一种通用的软件包,这就是操作系统。操作系统是位于硬件和应用程序之间的“中间件”,让应用软件和硬件得以分离并独立发展,发展成了最核心的计算机系统软件,也成就了微软公司的伟大。
以UNIX为始祖的常见现代操作系统有Android、BSD、iOS、Linux、MacOSX、QNX等,以及原创的微软Windows、WindowsPhone和IBM的z/OS.操作系统的工作范围,也从最初的计算机蔓延到手机、游戏控制器、电视机顶盒、智能汽车和智能眼镜等,还有与云计算密切相关的Web服务器。
上世纪70年代,计算机的快速发展使得数字化数据爆发式增长,“海量”数据管理成了新挑战。把通用操作系统的文件管理用于数据管理时,无论是扩展性、效率和便利性,都不适应“海量”数据的管理需要,应用软件被迫内嵌自己设计的数据管理系统。同样的,“海量”数据管理由每个应用程序自身完成,缺点也是费力、复杂和易错,难以升级和移植,并肆码且重复工作。
于是一种专门面向“海量”数据管理的通用软件问世了,那就是数据库管理系统(DBMS),一种应用系统软件。DBMS包括了数据库定义、创建、查询、更新和管理等功能,这些都是数据管理所必需的,是操作系统的文件管理系统所没有的。
著名的DBMS有MySQL、PostgreSQL、SQLite、MicrosoftSQLServer、MicrosoftAess、Oracle、Sybase、dBASE、FoxPro和IBMDB2等,都是关系型DBMS.当然还有非关系型NoSQL模式的,只是没那么流行。
DBMS与字处理软件等一起,成为单机时代最重要的应用软件,也成就了一家伟大的应用软件公司Oracle.大约不足20年前,操作系统和数据库的技术和市场未来,看起来都那么可预知。一个是微软的天下,一个是Oracle的天下。
但互联网来了,尤其是Web开始流行。
Web服务器所使用的操作系统,最初面向单机设计,扩展用于局域网范围内管理多台服务器还勉强可用。但当互联网巨头崛起,需要Web服务器的操作系统管理数百万台Web服务器的时候,传统操作系统勉为其难,需要“技术革命”了。“革命”的结果就是云计算。
云计兄雹迅算大伞下有很多概念,核心技术之一是虚拟化。虚拟化有“1虚N”和“N虚1”两种模式,前者主要是为了省钱,以AmazonAWS为代表;后者主要是为了大数据处理,以GoogleGAE为代表。
云计算的“N虚1”模式,可将多台物理计算机虚拟化为一台超级计算机,向应用程序提供资源池的调度管理服务,与传统操作系统的功能几乎完全相同,因此常被称为“云计算操作系统”。只是云计算操作系统的工作范围,扩大到数据中心甚至整个互联网范围内,把每台计算机羡此也当做资源看待和管理。
有了云计算操作系统,云应用软件和硬件(计算机资源)得以分离,各自可以独立发展。历史再次重演,云计算以及SNS、微博、移动互联网和物联网等的快速发展,具有3V特点的数据爆发,大数据管理的挑战也最先到来。同样,面向计算设计的通用云计算操作系统,在大数据管理方面的扩展性、效率和便利性,都面临新挑战。
历史上计算机面对“海量”数据的挑战,将数据应用和数据管理分离,催生了通用的DBMS.现在云计算面对大数据的挑战,也必将使大数据应用和大数据管理分离,催生“大数据库管理系统”,并且逐步走向通用化和平台化。
ATM(异步传输模式)是通信资源稀缺时代的产物,TCP/IP是通信资源富饶时代的产物。类似的,传统DBMS是IT资源稀缺时代的产物,大数据管理系统是IT资源富饶时代的产物。
计算是工具,可以工业化提供;数据是资源,是个性化的资产。如果说Office、游戏等是PC的杀手锏应用,浏览器、搜索、SNS等是互联网的杀手锏应用,那么大数据等就是云计算的杀手锏应用。
3. 大数据和云计算的关系
大数据与云计算的概念
大数据
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据领域的人才需求主要围绕大数据的产业链展开,涉及到数据的采集、整理、存储、安全、分析、呈现和应用,岗位多集中在大数据平台研发、大数据应用开发、大数据分析和大数据运维等几个岗位。
大数据本身除了要有数据、采集、汇聚一定量的数据之外,更重要的是数据的处理、挖掘、分析、可视化、应用这样一整套的过程。关于大数据的话题,基本围绕三个问题展开:一是数据从哪里来,二是数据如何进行分析,三是数据如何进行商品化。
云计算
是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
云计算的应用目前正在经历从IaaS向PaaS和SaaS发展,在用户分布上也逐渐开始从互联网企业向广大传统企业过渡,未来的市场空间还是非常大的。
大数据与云计算的联系
大数据与云计算经常联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十数百或甚至数千的服务器分配工作,大数据需要特殊的技术,以有效地处理大量数据。适用大数据的技术,包括大规模并行处理数据库、数据挖掘电网、分布文件系统、分布式数据库、计算平台、互联网和可扩展的存储系统,大数据指的海量的数据一般日处理PB级别以上,一般用于挖掘,分析,做一些智能性商业板块。
从理论角度来看,二者属于不同层次的事情,云计算研究的是计算问题,大数据研究的是巨量数据处理问题,而巨量数据处理依然属于计算问题的研究范围,因此,从这个角度来看,大数据是云计算的一个子领域。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,随着云时代的来临,大数据也吸引了越来越多的关注。
从应用角度来看,大数据是云计算的应用案例之一,云计算是大数据的实现工具之一。综上,大数据与云计算既有不同又有联系,但在现实中,由于大数据处理时为了获得良好的效率和质量,常常采用云计算技术,因此,大数据与云计算便常常同时出现于人们的眼前,从而造成了人们的困惑。
大数据注重的是数据分析,云计算是偏向计算机软硬件架构与应用。大数据方向需要有一定的数学基础,如果数学不是很好,这个学习起来比较吃力。云计算需要计算机技术能力较强。两个方向应该来说都需要良好的数学基础和编程基础。
大数据和云计算各有不同的关注点,但是在技术体系结构上,都是以分布式存储和分布式计算为基础,所以二者之间的联系也比较紧密。
总结,不管云计算怎样去变化,必然需要依托数据中心实现落地。可以说,云计算是数据中心“叶子”,云计算通过“光合作用”促进数据中心的发展,而数据中心得壮大又为云计算发展提供了坚实的基础,这二者起到相互依存,互相促进的作用。
4. 大数据和云计算有什么关系
在对大数据与云计算的关系理解之前,我们需要对这两个概念分别进行了解。
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯,简单理解就是海量数据的高效处理。
云计算就是硬件资源的虚拟化丛者轮,云计算相当于我们的计算机和操作系统,将大量渗信的硬件资源虚拟化后再进行分配使用。
本质上看,云计算强调的是计算,而数据则是计算的对象,二者是动与静的关系,但大数据需要处理数据的能力,比如数据获取、清洁、转换、统计等等,而云计算为大数据处理提供了一个很好的平台,是唯一可行的大数据处理方式,二者是静中有动,动中有静。云计算是基础设施,大数据可以使用云计算的存储能力来保存数据,计算能力来进行运算。云计算需要大数据,大数据需要云计算,云计算能为大数据提供强大的存储和计算能力,能够更加迅速地处理大数据的丰富信息,并更方便地提供服务;而来自大数据的业务需求,能为云计算的实施找到更多更嫌饥好的实际应用,大数据与云计算相结合,二者相辅相成,相得益彰,互相都能发挥最大的优势,为社会创造出更大的贡献。
5. 云计算和大数据是什么关系
1.云计算是提取大数据的前提
信息社会,数据量在不断增长,技术在不断进步,大部分企业都能通过大数据获得额外利益。在海量数据的前提下,如果提取、处理和利用数据的成本超过了数据价值本身,那么有价值相当于没价值。来自公有云、私有云以及混合云之上的强大的云计算能力,对于降低数据提取过程中的成本不可或缺。
2.云计算是过滤无用信息的“神器”
首次收集的数据中,一般来说90%属于无用数据,因此需要过滤出能为企业提供经济利益的可用数据。在大量无用数据中,重点需过滤出两大类,一是大量存储着的临时信息,几乎不存在投入必要;二是从公司防火墙外部接入到内部的网络数据,价值极低。云计算可以提供按需扩展的计算和存储资源,可用来过滤掉无用数据,其中公有云是处理防火墙外部网络数据的最佳选择。
3.云计算可高效分析数据
数据分析阶段,可引入公有云和混合云技术,此外,类似Hadoop的分布式处理软件平台可用于数据集中处理阶段。当完成数据分析后,提供分析的原始数据不需要一直保留,可以使用私有云把分析处理结果,即可用信息导入公司内部。