㈠ 大数据的定义是什么
大数据首先是一个非常大的数据集,可以达到TB(万亿字节)甚至ZB(十万亿亿字节)。这里面的数据可能既有结构化的数据,也有半结构化和非结构化的数据,而且来自于不同的数据源。
结构化的数据是什么呢?对于接触过关系型数据库的小伙伴来说,应该一点都不陌生。对了,就是我们关系型数据库中的一张表,每行都具有相同的属性。如下面的一张表:
(子标签的次序和个数不一定完全一致)
那什么又是非结构化数据呢?这类数据没有预定义完整的数据结构,在我们日常工作生活中可能更多接触的就是这类数据,比如,图片、图像、音频、视频、办公文档等等。
知道了这三类结构的数据,我们再来看看大数据的数据源有哪些呢?归纳起来大致有五种数据源。
一是社交媒体平台。如有名气的Facebook、Twitter、YouTube和Instagram等。媒体是比较受欢迎的大数据来源之一,因为它提供了关于消费者偏好和变化趋势的宝贵依据。并且因为媒体是自我传播的,可以跨越物理和人口障碍,因此它是企业深入了解目标受众、得出模式和结论、增强决策能力的方式。
二是云平台。公有的、私有的和第三方的云平台。如今,越来越多的企业将数据转移到云上,超越了传统的数据源。云存储支持结构化和非结构化数据,并为业务提供实时信息和随需应变的依据。云计算的主要特性是灵活性和可伸缩性。由于大数据可以通过网络和服务器在公共或私有云上存储和获取,因此云是一种高效、经济的数据源。
三是Web资源。公共网络构成了广泛且易于访问的大数据,个人和公司都可以从网上或“互联网”上获得数据。此外,国内的大型购物网站,淘宝、京东、阿里巴巴,更是云集了海量的用户数据。
四是IoT(Internet of Things)物联网数据源。物联网目前正处于迅猛发展势头。有了物联网,我们不仅可以从电脑和智能手机获取数据,还可以从医疗设备、车辆流程、视频游戏、仪表、相机、家用电器等方面获取数据。这些都构成了大数据宝贵的数据来源。
五是来自于数据库的数据源。现今的企业都喜欢融合使用传统和现代数据库来获取相关的大数据。这些数据都是企业驱动业务利润的宝贵资源。常见的数据库有MS Access、DB2、Oracle、MySQL以及大数据的数据库Hbase、MongoDB等。
我们再来总结一下,什么样的数据就属于大数据呢?通常来大数据有4个特点,这就是业内人士常说的4V,volume容量、 variety多样性、velocity速度和veracity准确性。
㈡ 大数据常用哪些数据库(什么是大数据库)
通常数据库分为关系型数据库和非关系型数据库,关系型数据库的优势到现在也是无可替代的,比如MySQL、SQLServer、Oracle、DB2、SyBase、Informix、PostgreSQL以及比较小型的Aess等等数据库,这些数据纳卜库支持复杂的SQL操作和事务机制,适合小量数据读写场景;但是到了大数据时代,人们更多的数据和物联网加入的数据已经超出了关系数据库的承载范围。
大数据时代初期,随着数据请求并发量大不断增大,一般都是采用的集群同亏搭步数据的方式处理,就是将数据库分成了很多的小库,每个数据库的数据内容是不变的,都是保存了源数据库的数据副本,通过同步或者异步方式保证数据的一致性,每个库设定特定的读写方式,比如主数据库负责写操作,从数据库是负责读操作,等等根据业务复杂程度以此类推,将业务在物理层面上进行了分离,但是这种方式依旧存在一定的负载压力的问题,企业数据在不断的扩增中,后面就采用分库分表的方式解决,对读写负载进行分离,但是这种实现依旧存在不足,且需要不断进行数据库服务器扩容。
NoSQL数据库大致分为5种类型
1、列族数据库:BigTable、HBase、Cassandra、AmazonSimpleDB、HadoopDB等,下面简单介绍几个
(1)Cassandra:Cassandra是一个列存储数据库,支持跨数据中心的数据复制。它的数据模型提供列索引,log-structured修改,支持反规范化,实体化视图和嵌入超高速缓存。
(2)HBase:ApacheHbase源于Google的Bigtable,是一个开源、分布式、面向列存储的模型。在Hadoop和HDFS之上提供了像Bigtable一销茄拿样的功能。
(3)AmazonSimpleDB:AmazonSimpleDB是一个非关系型数据存储,它卸下数据库管理的工作。开发者使用Web服务请求存储和查询数据项
(4)ApacheAumulo:ApacheAumulo的有序的、分布式键值数据存储,基于Google的BigTable设计,建立在ApacheHadoop、Zookeeper和Thrift技术之上。
(5)Hypertable:Hypertable是一个开源、可扩展的数据库,模仿Bigtable,支持分片。
(6)AzureTables:为要求大量非结构化数据存储的应用提供NoSQL性能。表能够自动扩展到TB级别,能通过REST和ManagedAPI访问。
2、键值数据库:Redis、SimpleDB、Scalaris、Memcached等,下面简单介绍几个
(1)Riak:Riak是一个开源,分布式键值数据库,支持数据复制和容错。(2)Redis:Redis是一个开源的键值存储。支持主从式复制、事务,Pub/Sub、Lua脚本,还支持给Key添加时限。
(3)Dynamo:Dynamo是一个键值分布式数据存储。它直接由亚马逊Dynamo数据库实现;在亚马逊S3产品中使用。
(4)OracleNoSQLDatabase:来自Oracle的键值NoSQL数据库。它支持事务ACID(原子性、一致性、持久性和独立性)和JSON。
(5)OracleNoSQLDatabase:具备数据备份和分布式键值存储系统。
(6)Voldemort:具备数据备份和分布式键值存储系统。
(7)Aerospike:Aerospike数据库是一个键值存储,支持混合内存架构,通过强一致性和可调一致性保证数据的完整性。
3、文档数据库:MongoDB、CouchDB、Perservere、Terrastore、RavenDB等,下面简单介绍几个
(1)MongoDB:开源、面向文档,也是当下最人气的NoSQL数据库。
(2)CounchDB:ApacheCounchDB是一个使用JSON的文档数据库,使用Javascript做MapRece查询,以及一个使用HTTP的API。
(3)Couchbase:NoSQL文档数据库基于JSON模型。
(4)RavenDB:RavenDB是一个基于.NET语言的面向文档数据库。
(5)MarkLogic:MarkLogicNoSQL数据库用来存储基于XML和以文档为中心的信息,支持灵活的模式。
4、图数据库:Neo4J、InfoGrid、OrientDB、GraphDB,下面简单介绍几个
(1)Neo4j:Neo4j是一个图数据库;支持ACID事务(原子性、独立性、持久性和一致性)。
(2):一个图数据库用来维持和遍历对象间的关系,支持分布式数据存储。
(3):是结合使用了内存和磁盘,提供了高可扩展性,支持SPARQ、RDFS和Prolog推理。
5、内存数据网格:Hazelcast、OracleCoherence、TerracottaBigMemorry、GemFire、Infinispan、GridGain、GigaSpaces,下面简单介绍几个
(1)Hazelcast:HazelcastCE是一个开源数据分布平台,它允许开发者在数据库集群之上共享和分割数据。
(2)OracleCoherence:Oracle的内存数据网格解决方案提供了常用数据的快速访问能力,一致性支持事务处理能力和数据的动态划分。
(3)TerracottaBigMemory:来自Terracotta的分布式内存管理解决方案。这项产品包括一个Ehcache界面、Terracotta管理控制台和BigMemory-Hadoop连接器。
(4)GemFire:VmwarevFabricGemFire是一个分布式数据管理平台,也是一个分布式的数据网格平台,支持内存数据管理、复制、划分、数据识别路由和连续查询。
(5)Infinispan:Infinispan是一个基于Java的开源键值NoSQL数据存储,和分布式数据节点平台,支持事务,peer-to-peer及client/server架构。
(6)GridGain:分布式、面向对象、基于内存、SQLNoSQL键值数据库。支持ACID事务。
(7)GigaSpaces:GigaSpaces内存数据网格能够充当应用的记录系统,并支持各种各样的高速缓存场景。
㈢ 在大数据时代,关系型数据库有哪些缺点
关系型数据库的主要特征
1)数据集中控制,在文件管理方法中,文件是分散的,每个用户或每种处理都有各自的文件,这些文件之间一般是没有联系的,因此,不能按照统一的方法来控制、维护和管理。而数据库则很好地克服了这一缺点,可以集中控制、维护和管理有关数据。
2)数据独立,数据库中的数据独立于应用程序,包括数据的物理独立性和逻辑独立性,给数据库的使用、调整、优化和进一步扩充提供了方便,提高了数据库应用系统的稳定性。
3)数据共享,数据库中的数据可以供多个用户使用,每个用户只与库中的一部分数据发生联系;用户数据可以重叠,用户可以同时存取数据而互不影响,大大提高了数据库的使用效率。
4)减少数据冗余,数据库中的数据不是面向应用,而是面向系统。数据统一定咐锋瞎义、组织和存储,集中管理,避免了不必要的数据冗余,也提高了数据的一致性。
5)数据结构化,整个数据库按一定的结构形式构成,数据在记录内部和记录类型之间相互关联,用户可通过不同的路径存取数据。
6)统一的数据保护功能,在多用户共享数据资源的情况下,对用户使用数据有严格的检查,对数据库规定密码或存取权限,基喊拒绝非法用户进入数据库,以确保数据的安全性、一致性和并发控制。
很多了。。关系型的有:SQLServer、Sybase、Informix
mysql 。等等。。
实时的我知道的有:Lotus Notes。。包括XML也可以做为实时数据库的。
要那么多来干什么啊?现在的数据库大多都是关系型数据库啊。Oracle、SQLServer、Sybase、Informix、aess、DB2、mysql、vfp、人大金仓(国产的,我用过)只要你认为可以,什么xml都可以作为关系型数据库啊。恰好10个。 希望我的回答对你有帮助!
目前主流的大型数据库、中型数据库以及个人及小型数据库几乎都是关系型数据库,例如ORACLE、SQL SERVER、MySQL、SyBase、Aess等等。
大型的有:
oracle、sqlserver、db2、infomix、Sybase 等
开源的有:
MySQL、Postpresql 等
文件型的有:
Aess、SQL Anywhere、sqlite、interbase
不冲突,各有用处。
很多大数据应用还是基于关系型数据库。
大数据一般和具体应用相关,关系型数据库是一种工具。
1、存储引擎:MySQL中的数据用各种不同的技术存储在文衡空件(或者内存)中。这些技术中的每一种技术都使用不同的存储机制、索引技巧、锁定水平并且最终提供广泛的不同的功能和能力。通过选择不同的技术,你能够获得额外的速度或者功能,从而改善你的应用的整体功能。
2、索引设计:索引和表一般要创建在不同的表空间中,以提高IO性能。因为索引不会在空值上生效,所以如果某列有空值且希望建立索引,那么可以考虑建立组合索引(colName, 1)。
3、sql优化器(商业数据库竞争的核心):由于移动设备的资源限制,嵌入式移动数据库一般和应用系统集成在一起,作为整个应用系统的前端而存在,而它所管理的数据集可能是后端服务器中数据集的子集或子集的副本。
4、事务管理与并发控制:在事务处理中,一旦某个操作发生异常,则整个事务都会重新开始,数据库也会返回到事务开始之前的状态,在事务中对数据库所做的一切操作都会取消。事务要是成功的话,事务中所有的操作都会执行。
5、容灾与恢复技术:基于数据同步复制技术,通过实时同步I/O,实现服务器和数据库数据从源端到目标端的持续捕获(RPO趋近于0,注:RPO=最后备份与发生灾难之间的时间,也是业务系统所允许的在灾难过程中的最大数据丢失),并且可以全自或手动创建数据恢复点,以确保数据发生错误时,恢复数据到最新的时间点。
一般情况vertical-align用的地方不多是因为其兼容性不好。
在及其特殊的情况下才会用到它,在需要汉字和图片对齐的地方我从来不用它。
在父元素高度一定的情况下用height和line-height可以实现垂直对齐。
垂直居中还和字体有一定的影响,字体不一样可能看着就不太绝对居中。
vertica-align不是所有标签内都有效。在td内用向你说的有中英文差异的话不如在外边再加个div使div居中里面的自然也就居中了。
需要图文都居中的地方建议使用height和line-height同值的方法。
㈣ 璇风畝杩版暟鎹搴撲笁绉嶆ā鍨嬪強鍏剁壒鐐
鏁版嵁搴撶$悊绯荤粺鏀鎸佺殑鏁版嵁妯″瀷鏈夊眰娆℃ā鍨嬨佺綉鐘舵ā鍨嬪拰鍏崇郴妯″瀷3绉嶃
涓銆佸眰娆℃ā鍨嬪眰娆℃ā鍨嬪皢鏁版嵁缁勭粐鎴愪竴瀵瑰氬叧绯荤殑缁撴瀯锛屽眰娆$粨鏋勯噰鐢ㄥ叧閿瀛楁潵璁块棶鍏朵腑姣忎竴灞傛$殑姣忎竴閮ㄥ垎銆備紭鐐规槸瀛樺彇鏂逛究涓旈熷害蹇锛涚粨鏋勬竻鏅帮紝瀹规槗鐞嗚В锛涙暟鎹淇鏀瑰拰鏁版嵁搴撴墿灞曞规槗瀹炵幇锛涙绱㈠叧閿灞炴у崄鍒嗘柟渚裤
鍙戝睍鐜扮姸
鍦ㄦ暟鎹搴撶殑鍙戝睍鍘嗗彶涓婏紝鏁版嵁搴撳厛鍚庣粡鍘嗕簡灞傛℃暟鎹搴撱佺綉鐘舵暟鎹搴撳拰鍏崇郴鏁版嵁搴撶瓑鍚勪釜闃舵电殑鍙戝睍锛屾暟鎹搴撴妧鏈鍦ㄥ悇涓鏂归潰鐨勫揩閫熺殑鍙戝睍銆
鐗瑰埆鏄鍏崇郴鍨嬫暟鎹搴撳凡缁忔垚涓虹洰鍓嶆暟鎹搴撲骇鍝佷腑鏈閲嶈佺殑涓鍛橈紝80骞翠唬浠ユ潵锛屽嚑涔庢墍鏈夌殑鏁版嵁搴撳巶鍟嗘柊鍑虹殑鏁版嵁搴撲骇鍝侀兘鏀鎸佸叧绯诲瀷鏁版嵁搴擄紝鍗充娇涓浜涢潪鍏崇郴鏁版嵁搴撲骇鍝佷篃鍑犱箮閮芥湁鏀鎸佸叧绯绘暟鎹搴撶殑鎺ュ彛銆
杩欎富瑕佹槸浼犵粺鐨勫叧绯诲瀷鏁版嵁搴撳彲浠ユ瘮杈冨ソ鐨勮В鍐崇$悊鍜屽瓨鍌ㄥ叧绯诲瀷鏁版嵁鐨勯棶棰樸傞殢鐫浜戣$畻鐨勫彂灞曞拰澶ф暟鎹鏃朵唬鐨勫埌鏉ワ紝鍏崇郴鍨嬫暟鎹搴撹秺鏉ヨ秺鏃犳硶婊¤冻闇瑕侊紝杩欎富瑕佹槸鐢变簬瓒婃潵瓒婂氱殑鍗婂叧绯诲瀷鍜岄潪鍏崇郴鍨嬫暟鎹闇瑕佺敤鏁版嵁搴撹繘琛屽瓨鍌ㄧ$悊銆
㈤ 大数据正在如何改变数据库格局
大数据正在如何改变数据库格局
提及“数据库”,大多数人会想到拥有30多年风光历史的RDBMS。然而,这可能很快就会发生改变。
一大批新的竞争者都在争夺这一块重要市场,他们的方法是多种多样的,却都有一个共同点:极其专注于大数据。推动新的数据迭代衍生品大部分都是基于底层大数据的3V特征:数量,速度和种类。本质上来讲,今天的数据比以往任何时候都要传输更快,体积更大,同时更加多样化。这是一个新的数据世界,换言之,传统的关系数据库管理系统并没有真正为此而设计。“基本上,他们不能扩展到大量,或快速,或不同种类的数据。”一位数据分析、数据科学咨询机构的总裁格雷戈里认为。这就是哈特汉克斯最近发现。截至到2013年左右,营销服务机构使用不同的数据库,包括MicrosoftSQLServer和Oracle真正应用集群(RAC)的组合。“我们注意到,数据随着时间的增长,我们的系统不能足够快速的处理信息”一位科技发展公司的负责人肖恩说到。“如果你不断地购买服务器,你只能继续走到这幺远,我们希望确保自己有向外扩展的平台。”最小化中断是一个重要的目标,Iannuzzi说到,因逗首此“我们不能只是切换到Hadoop。”相反,却选择了拼接机器,基本上把完整的SQL数据库放到目前流行的Hadoop大数据平台之上,并允许现有的应用程序能够与它连接,他认为。哈特汉克斯现在是在执行的初期阶段,但它已经看到了好处,Iannuzzi说,包括提高容错性,高可用性,冗余性,稳定性和“性能全面提升”。一种完美风暴推动了新的数据库技术的出现,IDC公司研究副总裁CarlOlofson说到。首先,“我们正在使用的设备与过去对比,处理大数据集更加快速,灵活性更强”Olofson说。在过去,这样的集合“几乎必须放在旋转磁盘上”,而且数据必须以特定的方式来结构化,他解释说。现在有64位寻址,使得能够设置更大的存储空间以及更快的网络,并能够串联多台计算器充当单个大型数据库。“这些东西在不可用之前开辟了可能性”Olofson说。与此同时,工作负载也发生了变化。10年前的网站主要是静态的,例如,今天我们享受到的网络服务环境和互动式购物体验。反过来,需要新的可扩展性,他说。公司正在利用新的方式来使用数据。虽然传统上我们大部分的精力都放在了对事务处理_销售总额的记录,比如,数据存储在可以用来分析的地方_现在我们做的更多。应用状态管理就是一个例子假设你正在玩一个网络游戏。该技术会记录你与系统的每个会话并连接在一起,以呈现出连续的体验,即使你切换设备或各种移动,不同的服务器都会进行处理,Olofson解释说。数据必须保持连续性,这样企业才可以分析问题,例如“为什么从来没有人穿过水晶厅”。在网络购物方面,为什么对方点击配坦选择颜色后大多数人不会购买某个特殊品牌的鞋子。“以前,我们并没试图解决这些问题,或者我们试图扔进盒子也不太合适”Olofson说。Hadoop是当今新的竞争者中一个重量级的产品。虽然他本身不是一个数据库,它的成长为企业解决大数据扮演关键角色。从本质上讲,Hadoop是一个运行高度并行应用程序的数据中心平台,它有很强的可扩展性。通过允许企业扩展“走出去”的分布方式,而不是通过额外昂贵的服务器“向上”扩展,“它使得我们可以低成本地把一个大的数据集汇总,然后进行分析研究成果”Olofson说。其他新的RDBMS的替代品如NoSQL家族产品,其中包括MongoDB-目前第四大流行数据库管理系统,比照DB引擎山卖数和MarkLogic非结构化数据存储服务。“关系型数据库一直是一项伟大的技术持续了30年,但它是建立在不同的时代有不同的技术限制和不同的市场需求,”MarkLogic的执行副总裁乔·产品帕卡说。大数据是不均匀的,他说。许多传统的技术,这仍然是一个基本要求。“想象一下,你的笔记本电脑上唯一的程序是Excel”帕卡说。“设想一下,你要和你的朋友利用网络保持联系_或者你正在写一个合约却不适合放进行和列中。”拼接数据集是特别棘手的“关系型,你把所有这些数据集中在一起前,必须先决定如何去组织所有的列,”他补充说。“我们可以采取任何形式或结构,并立即开始使用它。”NoSQL数据库没有使用关系数据模型,并且它们通常不具有SQL接口。尽管许多的NoSQL存储折中支持速度等其他因素,MarkLogic为企业定身量做,提供更为周全的选择。NoSQL储存市场有相当大的增长,据市场研究媒体,不是每个人都认为这是正确的做法-至少,不是在所有情况下。NoSQL系统“解决了许多问题,他们横向扩展架构,但他们却抛出了SQL,”一位CEO-MonteZweben说。这反过来,又为现有的代码构成问题。SpliceMachine是一家基于Hadoop的实时大数据技术公司,支持SQL事务处理,并针对OLAP和OLAP应用进行实时优化处理。它被称为替代NewSQL的一个例子,另一类预期会在未来几年强劲增长。“我们的理念是保持SQL,但横向扩展架构”Zweben说。“这是新事物,但我们正在努力试图使它让人们不必重写自己的东西。”深度信息科学选择并坚持使用SQL,但需要另一种方法。公司的DeepSQL数据库使用相同的应用程序编程接口(API)和关系模型如MySQL,意味着没有应用变化的需求而使用它。但它以不同的方式处理数据,使用机器学习。DeepSQL可以自动适应使用任何工作负载组合的物理,虚拟或云主机,该公司表示,从而省去了手动优化数据库的需要。该公司的首席战略官ChadJones表示,在业绩大幅增加的同时,也有能力将“规模化”为上千亿的行。一种来自Algebraix数据完全不同的方式,表示已经开发了数据的第一个真正的数学化基础。而计算器硬件需在数学建模前建成,这不是在软件的情况下,Algebraix首席执行官查尔斯银说。“软件,尤其是数据,从未建立在数学的基础上”他说,“软件在很大程度上是语言学的问题。”经过五年的研发,Algebraix创造了所谓的“数据的代数”集合论,“数据的通用语言”Silver说。“大数据肮脏的小秘密是数据仍然放在不与其他数据小仓融合的地方”Silver解释说。“我们已经证明,它都可以用数学方法来表示所有的集成。”配备一个基础的平台,Algebraix现在为企业提供业务分析作为一种服务。改进的性能,容量和速度都符合预期的承诺。时间会告诉我们哪些新的竞争者取得成功,哪些没有,但在此期间,长期的领导者如Oracle不会完全停滞不前。“软件是一个非常时尚行业”安德鲁·门德尔松,甲骨文执行副总裁数据库服务器技术说。“事情经常去从流行到不受欢迎,回再次到流行。”今天的许多创业公司“带回炒冷饭少许抛光或旋转就可以了”他说。“这是一个新一代孩子走出学校和重塑的东西。”SQL是“唯一的语言,可以让业务分析师提出问题并得到答案,他们没有程序员,”门德尔松说。“大市场将始终是关系型。”至于新的数据类型,关系型数据库产品早在上世纪90年代发展为支持非结构化数据,他说。在2013年,甲骨文的同名数据库版本12C增加了支持JSON(JavaScript对象符号)。与其说需要一个不同类型的数据库,它更是一种商业模式的转变,门德尔松说。“云,若是每个人都去,这将破坏这些小家伙”他说。“大家都在云上了,所以在这里有没有地方来放这些小家伙?“他们会去亚马逊的云与亚马逊竞争?”他补充说。“这将是困难的。”甲骨文有“最广泛的云服务”门德尔松说。“在现在的位置,我们感觉良好。”Gartner公司的研究主任里克·格林沃尔德,倾向于采取了类似的观点。“对比传统强大的RDBMS,新的替代品并非功能齐全”格林沃尔德说。“一些使用案例可以与新的竞争者来解决,但不是全部,并非一种技术”。展望未来,格林沃尔德预计,传统的RDBMS供货商感到价格压力越来越大,并为他们的产品增加新的功能。“有些人会自由地带来新的竞争者进入管理自己的整个数据生态系统”他说。至于新的产品,有几个会生存下来,他预测“许多人将被收购或资金耗尽”。今天的新技术并不代表传统的RDBMS的结束,“正在迅速发展自己”IDC的Olofson。赞成这种说法,“RDBMS是需要明确定义的数据_总是会有这样一个角色。”但也会有一些新的竞争者的角色,他说,特别是物联网技术和新兴技术如非易失性内存芯片模块(NVDIMM)占据上风。