导航:首页 > 网络数据 > 具有大数据量存储管理能力并与oracle

具有大数据量存储管理能力并与oracle

发布时间:2023-01-08 00:10:32

『壹』 oracle数据库的优势有哪些

oracle 优势很多,大部分银行保险电信大部分是用oracle处理的
优势主要 有
1、处理速度快,非常快
2、安内全级别高。容支持快闪以及完美的恢复,即使硬件坏了 也可以恢复到故障发前的1s
3、几台数据库做集群数据库,可以做到几秒s以内故障转移,而且数据物理完全一致,现在集群一直是最优秀的解决方案,对于银行保险没有其他太多的选项{数据不丢,快速切换,负载均衡}
4、网格控制,以及 数据仓库方面 也非常强大
对了免费 以及 开源的 言论 都是错误的。。。oracle产品及服务都是付费的,而且价格不菲。比其他数据库要贵,物有所值。oracle不是开源的。不过可以在redhat 或者其他开源操作系统上安装。
mysql在sun没被oracle收购是开源的,免费的,之后oracle公司打算 把mysql打造成不开源,收费模式的。

『贰』 大数据数据库有哪些

问题一:大数据技术有哪些 非常多的,问答不能发link,不然我给你link了。有譬如Hadoop等开源大数据项目的,编程语言的,以下就大数据底层技术说下。
简单以永洪科技的技术说下,有四方面,其实也代表了部分通用大数据底层技术:
Z-Suite具有高性能的大数据分析能力,她完全摒弃了向上升级(Scale-Up),全面支持横向扩展(Scale-Out)。Z-Suite主要通过以下核心技术来支撑PB级的大数据:
跨粒度计算(In-Databaseputing)
Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数。得益于跨粒度计算技术,Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算,我们称之为库内计算(In-Database)。这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。
并行计算(MPP puting)
Z-Suite是基于MPP架构的商业智能平台,她能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源,不管是服务器还是普通的PC,她对网络条件也没有严苛的要求。作为横向扩展的大数据平台,Z-Suite能够充分发挥各个节点的计算能力,轻松实现针对TB/PB级数据分析的秒级响应。
列存储 (Column-Based)
Z-Suite是列存储的。基于列存储的数据集市,不读取无关数据,能降低读写开销,同时提高I/O 的效率,从而大大提高查询性能。另外,列存储能够更好地压缩数据,一般压缩比在5 -10倍之间,这样一来,数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术,节省了存储设备和内存的开销,却大大了提升计算性能。
内存计算
得益于列存储技术和并行计算技术,Z-Suite能够大大压缩数据,并同时利用多个节点的计算能力和内存容量。一般地,内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算,CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速,是实现大数据分析的关键应用技术。

问题二:大数据使用的数据库是什么数据库 ORACLE、DB2、SQL SERVER都可以,关键不是选什么数据库,而是数据库如何优化! 需要看你日常如何操作,以查询为主或是以存储为主或2者,还要看你的数据结构,都要因地制宜的去优化!所以不是一句话说的清的!

问题三:什么是大数据和大数据平台 大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。

问题四:常用大型数据库有哪些 FOXBASE
MYSQL
这俩可算不上大型数据库管理系统
PB 是数据库应用程序开发用的ide,根本就不是数据库管理系统
Foxbase是dos时代的产品了,进入windows时代改叫foxpro,属于桌面单机级别的小型数据库系统,mysql是个中轻量级的,但是开源,大量使用于小型网站,真正重量级的是Oracle和DB2,银行之类的关键行业用的多是这两个,微软的MS SQLServer相对DB2和Oracle规模小一些,多见于中小型企业单位使用,Sybase可以说是日薄西山,不行了

问题五:几大数据库的区别 最商业的是ORACLE,做的最专业,然后是微软的SQL server,做的也很好,当然还有DB2等做得也不错,这些都是大型的数据库,,,如果掌握的全面的话,可以保证数据的安全. 然后就是些小的数据库access,mysql等,适合于中小企业的数据库100万数据一下的数据.如有帮助请采纳,谢!

问题六:全球最大的数据库是什么 应该是Oracle,第一,Oracle为商业界所广泛采用。因为它规范、严谨而且服务到位,且安全性非常高。第二,如果你学习使用Oracle不是商用,也可以免费使用。这就为它的广泛传播奠定了在技术人员中的基础。第三,Linux/Unix系统常常作为服务器,服务器对Oracle的使用简直可以说极其多啊。建议楼梗多学习下这个强大的数据库

问题七:什么是大数据? 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托・迈尔-舍恩伯格及肯尼斯・库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[2])大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
说起大数据,就要说到商业智能:
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

商业智能作为一个工具,是用来处理企业中现有数据,并将其转换成知识、分析和结论,辅助业务或者决策者做出正确且明智的决定。是帮助企业更好地利用数据提高决策质量的技术,包含了从数据仓库到分析型系统等。

商务智能的产生发展
商业智能的概念经由Howard Dresner(1989年)的通俗化而被人们广泛了解。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。

商务智能是20世纪90年代末首先在国外企业界出现的一个术语,其代表为提高企业运营性能而采用的一系列方法、技术和软件。它把先进的信息技术应用到整个企业,不仅为企业提供信息获取能力,而且通过对信息的开发,将其转变为企业的竞争优势,也有人称之为混沌世界中的智能。因此,越来越多的企业提出他们对BI的需求,把BI作为一种帮助企业达到经营目标的一种有效手段。

目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的决策。

为了将数据转化为知识,需要利用数据仓库、线上分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是ETL、数据仓库、OLAP、数据挖掘、数据展现等技术的综合运用。

把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
企业导入BI的优点
1.随机查询动态报表

2.掌握指标管理

3.随时线上分析处理

4.视觉化之企业仪表版

5.协助预测规划

导入BI的目的
1.促进企业决策流程(Facilitate the Business Decision-Making Process):BIS增进企业的资讯整合与资讯分析的能力,汇总公司内、外部的资料,整合成有效的决策资讯,让企业经理人大幅增进决策效率与改善决策品质。

......>>

问题八:数据库有哪几种? 常用的数据库:oracle、sqlserver、mysql、access、sybase 2、特点。 -oracle: 1.数据库安全性很高,很适合做大型数据库。支持多种系统平台(HPUX、SUNOS、OSF/1、VMS、 WINDOWS、WINDOWS/NT、OS/2)。 2.支持客户机/服务器体系结构及混合的体系结构(集中式、分布式、 客户机/服务器)。 -sqlserver: 1.真正的客户机/服务器体系结构。 2.图形化用户界面,使系统管理和数据库管理更加直观、简单。 3.具有很好的伸缩性,可跨越从运行Windows 95/98的膝上型电脑到运行Windows 2000的大型多处理器等多种平台使用。 -mysql: MySQL是一个开放源码的小型关系型数据库管理系统,开发者为瑞典MySQL AB公司,92HeZu网免费赠送MySQL。目前MySQL被广泛地应用在Internet上的中小型网站中。提供由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。 -access Access是一种桌面数据库,只适合数据量少的应用,在处理少量数据和单机访问的数据库时是很好的,效率也很高。 但是它的同时访问客户端不能多于4个。 -

问题九:什么是大数据 大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 大数据首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(putational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
要理解大数据这一概念,首先要从大入手,大是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
第一,数据体量巨大。从TB级别,跃升到PB级别。
第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。最后这一点也是和传统的......>>

问题十:国内真正的大数据分析产品有哪些 国内的大数据公司还是做前端可视化展现的偏多,BAT算是真正做了大数据的,行业有硬性需求,别的行业跟不上也没办法,需求决定市场。
说说更通用的数据分析吧。
大数据分析也属于数据分析的一块,在实际应用中可以把数据分析工具分成两个维度:
第一维度:数据存储层――数据报表层――数据分析层――数据展现层
第二维度:用户级――部门级――企业级――BI级
1、数据存储层
数据存储设计到数据库的概念和数据库语言,这方面不一定要深钻研,但至少要理解数据的存储方式,数据的基本结构和数据类型。SQL查询语言必不可少,精通最好。可从常用的selece查询,update修改,delete删除,insert插入的基本结构和读取入手。
Access2003、Access07等,这是最基本的个人数据库,经常用于个人或部分基本的数据存储;MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。
SQL Server2005或更高版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。
DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台。
BI级别,实际上这个不是数据库,而是建立在前面数据库基础上的,企业级应用的数据仓库。Data Warehouse,建立在DW机上的数据存储基本上都是商业智能平台,整合了各种数据分析,报表、分析和展现!BI级别的数据仓库结合BI产品也是近几年的大趋势。
2、报表层
企业存储了数据需要读取,需要展现,报表工具是最普遍应用的工具,尤其是在国内。传统报表解决的是展现问题,目前国内的帆软报表FineReport已经算在业内做到顶尖,是带着数据分析思想的报表,因其优异的接口开放功能、填报、表单功能,能够做到打通数据的进出,涵盖了早期商业智能的功能。
Tableau、FineBI之类,可分在报表层也可分为数据展现层。FineBI和Tableau同属于近年来非常棒的软件,可作为可视化数据分析软件,我常用FineBI从数据库中取数进行报表和可视化分析。相对而言,可视化Tableau更优,但FineBI又有另一种身份――商业智能,所以在大数据处理方面的能力更胜一筹。
3、数据分析层
这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;
Excel软件,首先版本越高越好用这是肯定的;当然对excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;
SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件;
SAS软件:SAS相对SPSS其实功能更强大,SAS是平台化的,EM挖掘模块平台整合,相对来讲,SAS比较难学些,但如果掌握了SAS会更有价值,比如离散选择模型,抽样问题,正交实验设计等还是SAS比较好用,另外,SAS的学习材料比较多,也公开,会有收获的!
JMP分析:SAS的一个分析分支
XLstat:Excel的插件,可以完......>>

『叁』 具有大数据量存储管理能力并与ORACLE数据库高度兼容发国产数据系统是

达梦数据库系统达梦数据库管理系统是达梦公司推出的具有完全自主知识产权的高性能数据库管理系统,简称DM。达梦数据库管理系统的最新版本是7.0版本,简称DM7。DM7采取全新的体系架构,在保证大型通用的基础上,针对可靠性、高性能、海量数据处理和安全性做了大量的研发和改进工作,极大提升了达梦数据库产品的性能、可靠性、可扩大性,能同时统筹OLTP和OLAP要求,从根本上提升了DM7产品的品质。 查看更多答案>>

『肆』 大数据三大核心技术:拿数据、算数据、卖数据!

大数据的由来

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

1

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

大数据的应用领域

大数据无处不在,大数据应用于各个行业,包括金融、 汽车 、餐饮、电信、能源、体能和 娱乐 等在内的 社会 各行各业都已经融入了大数据的印迹。

制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

汽车 行业,利用大数据和物联网技术的无人驾驶 汽车 ,在不远的未来将走入我们的日常生活。

互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。

电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。

能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。

物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。

城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。

体育 娱乐 ,大数据可以帮助我们训练球队,决定投拍哪种 题财的 影视作品,以及预测比赛结果。

安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

个人生活, 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。

大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了 社会 生产和生活,未来必将产生重大而深远的影响。

大数据方面核心技术有哪些?

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

数据采集与预处理

对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。

Flume NG

Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除channel中的信息。

NDC

Logstash

Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择,可以在同一时间从众多常用的数据来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。

Sqoop

Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapRece 作业(极其容错的分布式并行计算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。

流式计算

流式计算是行业研究的一个热点,流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流分析工具有很多,比如开源的strom,spark streaming等。

Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是Storm提供的后台守护进程,之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker因为错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。

Zookeeper

Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了手动拷贝配置的繁琐,还很好的保证了数据的可靠和一致性,同时它可以通过名字来获取资源或者服务的地址等信息,可以监控集群中机器的变化,实现了类似于心跳机制的功能。

数据存储

Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。

HBase

HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

Phoenix

Phoenix,相当于一个java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。

Yarn

Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。

Mesos

Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。

Redis

Redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。

Atlas

Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来,Atlas相当于连接它的客户端,在前端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通讯,它实现了MySQL的客户端和服务端协议,同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节,同时为了降低MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责监听所有的客户端连接请求,工作线程只监听主线程的命令请求。

Ku

Ku是围绕Hadoop生态圈建立的存储引擎,Ku拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Ku不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。Ku的应用场景很广泛,比如可以进行实时的数据分析,用于数据可能会存在变化的时序数据应用等。

在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减少磁盘上的存储。

数据清洗

MapRece作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Rece(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。

随着业务数据量的增多,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统,比如oozie或者azkaban,对关键任务进行调度和监控。

Oozie

Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的提交请求(提交工作流作业),当提交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业),然后向Oozie提交Workflow,Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因,用户程序不必等待作业执行完成(因为有些大作业可能会执行很久(几个小时甚至几天))。Oozie在后台以异步方式,再将workflow对应的Action提交给hadoop执行。

Azkaban

Azkaban也是一种工作流的控制引擎,可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server用来调度工作流和任务,记录工作流或者任务的日志。

流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台,其特点是易用、实时、可靠,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求

数据查询分析

Hive

Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapRece。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapRece jobs,然后在hadoop上面运行。Hive支持标准的SQL语法,免去了用户编写MapRece程序的过程,它的出现可以让那些精通SQL技能、但是不熟悉MapRece 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。

Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈 。Hive 将执行计划分成map->shuffle->rece->map->shuffle->rece…的模型。如果一个Query会被编译成多轮MapRece,则会有更多的写中间结果。由于MapRece执行框架本身的特点,过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中,用户只需要创建表,导入数据,编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。

Impala

Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapRece批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala将整个查询分成一执行计划树,而不是一连串的MapRece任务,相比Hive没了MapRece启动时间。

Hive 适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证想法的大数据分析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用像Hive那样把它组合成管道型的map->rece模式,以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。

Spark

Spark拥有Hadoop MapRece所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。

Solr

Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。

Elasticsearch

Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等,常用的机器学习算法比如,贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

数据可视化

对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。

在上面的每一个阶段,保障数据的安全是不可忽视的问题。

基于网络身份认证的协议Kerberos,用来在非安全网络中,对个人通信以安全的手段进行身份认证,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。

控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。

简单说有三大核心技术:拿数据,算数据,卖数据。

『伍』 sqlserver和oracle主要有什么区别

1,oracle支持多种操作系统,sql server只支持windows。
2,oracle给dba更多的灵活性,可以根据实际情况调整参数,使你的应用的性能最佳,因而带来一个缺点是很难上手;sql server则相反,当然很容易上手。
体系结构
oracle的文件体系结构为:
数据文件 .dbf(真实数据)
日志文件 .rdo
控制文件 .ctl
参数文件 .ora
sql server的文件体系结构为:
.mdf (数据字典)
.ndf (数据文件)
.ldf (日志文件)
www.2cto.com
oracle存储结构:
在oracle里有两个块参数pctfree(填充因子)和pctused(复用因子),可控制块确定块本身何时有,何时没有足够的空间接受新信息(对块的存储情况的分析机制)
这样可降低数据行连接与行迁移的可能性。块的大小可设置(oltp块和dss块)
在oracle中,将连续的块组成区,可动态分配区(区的分配可以是等额的也可以是自增长的)可减少空间分配次数
在oraclel里表可以分为多个段,段由多个区组成,每个段可指定分配在哪个表空间里(段的类型分为:数据段、索引段、回滚段、临时段、cash段。oracle里还可对表进行分区,可按照用户定义的业务规则、条件或规范,物理的分开磁盘上的数据。
这样大大降低了磁盘争用的可能性。
oracle有七个基本表空间:
·system表空间(存放数据字典和数据管理自身所需的信息)
·rbs回滚表空间
·temp临时表空间
·tools交互式表空间
·users用户默认表空间
·indx索引表空间
·dbsys福数据表空间
不同的数据分别放在不同的表空间(数据字典与真实数据分开存放),在oracle里基表(存储系统参数信息)是加密存储,任何人都无法访问。只能通过用户可视视图查看。

sql server 存储结构
以页为最小分配单位,每个页为8k(不可控制,缺乏对页的存储情况的分析机制),可将8个连续的页的组成一个‘扩展’,以进一步减少分配时所耗用的资源。(分配缺乏灵活性),在sql server里数据以表的方式存放,而表是存放在数据库里。
sql server有五个基本数据库: www.2cto.com
·master(数据字典)
·mode(存放样版)
·tempdb(临时数据库)
·msdb(存放调度信息和日志信息)
·pubs(示例数据库)
真实数据与数据字典存放在一起。对系统参数信息无安全机制。

oracle登入管理:
·system/manager (初始帐户)
·sys/change_on_nstall
·install/oracle(安装帐户)
·scott/tiger(示例数据库,测试用)
在oracle里默认只有三个系统用户,oracle是通过用户登入。

sql server登入管理:
·sql server身份验证
·windows 身份验证
在sql server里是通过windows用户帐户或是用sql server身份验证连接数据库的。

sql不是一种语言,而是对oracle数据库传输指令的一种方式。
sql中null既不是字符也不是数字,它是缺省数据。oracle提供了nvl函数来解决。
oracle中的字符串连接为 string1‖string2 ,sql中为string1+string2.
集合操作:在sql中只有union(并操作),oracle中包含minus(差操作)、interect(交操作)、union(并操作)。

索引:sql的索引分为聚集索引和非聚集索引,还包括全文索引;
oracle的索引包括:b+树索引,bitmap位图索引,函数索引,反序索引,
主键索引,散列索引,本地索引。 www.2cto.com
oracle的数据类型比较复杂,有基本数据类型,衍生型,列对象型,表对象型,结构体型;

sql中的数据比较简单,只有一些简单的基本数据类型无法提供事务操作。
在sql中如果一个事务从开始执行到结束时了错了,它就会回滚到开始之前;
在oracle中它采用的是定点回滚,就是该事务函数化和精确错误定位,用savepoint标记保存点,用rollback标记回滚错误的保存点。
在sql中循环只有while一种这用起来不灵活,在oracle中有多种循环(loop循环、while循环、for循环)。
在sql中游标的使用比较复杂,不能同时打开一个以上的游标,因为它只有一个全局变量@@fast_statues而且声明游标也麻烦,关闭游标时也不清除内存的;oracle中游标是以提高速度全部统一的单项游标,可以允许多用户异步读取,而且声明比较简单,就一句declare cursor游标名 is select 语句就可以了。
容错机制:sql中的错误机制比较复杂,没有提供错误描述;oracle中容错类型有三种,一个是预定义错误,一个是非预定义错误,一个是用户自定义,其中在自定义错误中它有两个是在sql中不有的,那就是sqlcode 错误号、sqlerrm错误描述。

文件体系结构:sql中有.mdf(主要数据文件)、.ndf(扩展文件,可以有多个)、
.ldf(日志文件,可以有多个,存放在联机重做日志数据,这里的日志文件有一个缺点就是如果日志文件已填小巧玲珑的话,sql将自动停止运行并等待人工干预,所以要经常监控日志的情况保证系统的稳定运行)。oracle中有.dbf(主要数据文件)、.rdo(日志文件,用来做灾难性的数据备份)、.ctl(控制文件,将数据库的物理文件映射到了数据字典中的逻辑表空间和连机重做日志文件上去,确保数据的一致性)、.ora(参数文件)。

sql只能是本机备份本机的数据库,无法联机备份,而且备份压缩很低,占用了大量空间;oracle提供了7种备份机制,具有联机备份功能,有志门的备份机子。
oracle的日志默认有3个,先写入1号日志,满了后再写入2号日志,2号满了再写入3号日志,3号满了后oracle将自动备分1号日志的内容,然后清空后写入新的日志信息,且oracle的日志有多路复用功能,我们可以为日志创建多个镜像,把相同的日志信息同时写入多个日志文件中,这样可以防止磁盘损坏造成的数据丢失。
sql server对每个数据库只能分配一个日志文件。且当日志填满后,日志将停止工作,等待人工干预,而无法自动重用。 www.2cto.com
oracle的控制文件记录了数据库文件的物理位置和有效性,在每次打开oracle系统都将自动对数据进行验证,查看其有效性,防止数据的丢失,这体现了oracle对数据管理的严密性。
sql server无此安全机制,只用在使用到了数据库的信息后,系统才去查找数据是否存在。
oracle的参数文件init.ora是可调的,既我们可以根据数据库的规模调整oracle对系统资源的使用情况,以达到最合理的资源分配,让oracle达到最佳的性能。

sql server的配置参数是内定的不可调整,它对系统资源的分配是固定的,不受拥护控制,因此无法同时处理大量用户的需求,这限制了它只能作为中,小型数据库。
oracle以块为最小存储单位,以区为单位分配空间,用户可以根据需要自己定义块的大小,且区可以按等额或递增进行分配,这可以大大减少系统的i/o操作提高数据库的性能。
sql server中以页为单位或使用扩展类型以8页为一单位进行空间分配而无法人工干预,当遇到频繁存储或大数据量存储时,系统将频繁进行i/o操作使工作效率低下。
oracle中的sql语句书写规范且提供了完整的函数和数据类型。oracle提供了健全的错误机制,用户可以轻松的获得错误位置和错误原因而加以修改。用户还可以自己定义所须的错误类型,用以检查逻辑错误。oracle中对数据类型的转换和游标的定义也十分方便。因此,我们对代码的书写和维护也比sql server方便许多。
sql server使用类c语言,不易维护和查看代码。sql server包含的数据类型太少,无法定义结构体,数组,对象。sql server无法定义流程机制,类型转换也极不方便,sql server中对游标定义十分复杂,且当用户定义的多个游标同时打开时系统却只有一个游标变量,这是sql server中一个严重的缺陷。

oracle中用户可以根据数据需要在创建块时定义填充因子(空闲空间的百分比)和复用因子(当块的存储数据所占的空间下降到这个百分比之下时,块才重新标记为可用)。用户可以根据记录变化频率和数据量的大小设置合适的填充因子和空闲因子。

sql server只有填充因子,而它的定义与oracle刚好相反,它定义的是剩余可用空间的百分比。而sql server中没有复用因子,当页中数据低于填充因子,但剩余的空间已经不可能再插入新的数据,但页还是标记为可用的,当系统要写入新数据都要访问这个页而浪费时间,这种页称为废页,将使系统插入新数据时浪费大量时间查找可用的页。

oracle在创建表时用户可以精确定义数据存放的表空间,甚至可以把一张表分开存放在多个表空间中,这样可以将数据量庞大的表按某些字段分开存放,这将给查询带来极高的效率。
www.2cto.com
随着信息技术的飞速发展,数据处理不仅在数量上要求越来越大,而且在质量上也要求越来越高。

操作系统的稳定对数据库来说是十分紧要的,在数据库可操作平台上,oracle可在所有主流平台上运行,oracle数据库采用开放的策略目标,它使得客户可以选择一种最适合他们特定需要的解决方案。客户可以利用很多种第三方应用程序、工具。对开发商来说是很大的支持。而sql server却只能在windows上运行了,这个就显得比较单调了,但sql sever在window平台上的表现,和windows操作系统的整体结合程度,使用方便性,和microsoft开发平台的整合性都比oracle强的很多。但windows操作系统的稳定性及可靠性大家是有目共睹的,再说microsoft公司的策略目标是将客户都锁定到windows平台的环境当中,只有随着windows性能的改善,sql server才能进一步提高。从操作平台这点上oracle是完全优胜于sql server的了。
从资料上可以看到,oracle的安全认证获得最高认证级别的iso标准认证,而sql server并没有获得什么安全认证。这方面证明了oracle的安全性是高于sql server的。

购买一个产品,首先考虑的当然是产品的性能了,当考虑性能的同时当然少不了究竟要花多少钱在这产品也是个很关键的问题。要建立并运行一个数据库系统。不仅仅包含最初购置软件、硬件的费用,还包含了培训及以后维护的费用。orcale数据库的价格是远比sql server数据库要高,为什么oracle数据库比sql server数据库价格上要高出那么多,一方面oracle的初始花费相对较高,特别是在考虑工具软件的时候,oracle很多工具软件需要另外购买,与microsoft提供免费的sql server工具软件相比,oracle更显价格的不菲。但由于sql server只能在windows下运行的原因,普遍认为sql server数据库的可靠性是比较差的。oracle的性能优势体现在他的多用户上,而sql server的性能优势在多用户上就显得力不从心了。

操作上sql server明显要比orcale简单,如果你用过java和dotnet的开发平台,区别的基本就是oracle和sql server不同,oracle的界面基本是基于java的,大部分的工具是dos界面的,甚至sqlplus也是, sql server是跟vb一样,全图形界面,很少见到dos窗口。sql server中的企业管理器给用户提供一个全图形界面的集成管理控制台来集中管理多个服务器。oracle也有自己的企业管理器,而且它的性能在某些方面甚至超过了sql server的企业管理器,但它安装较为困难。
orcale数据库和sql server数据库那个更快?其实是一个很难答的问题,因为存在许多不定因素,包括处理类型、数据分布以及硬件基础设施等。
sql server 2000是一个具备完全web支持的数据库产品,提供了可扩展标记语言核心支持以及internet上和防火墙外进行查询的能力,具有可伸缩性、灵活性、扩充性好,而且价格便宜等特点,而oracle则有着可靠安全性,速度比sql server快上百倍,但其价格在实施中却比sql server它高出了几百倍。
其实各行业考虑选择那种数据库,是由数据库的特点以及根据自己的业务需求和基础设施综合考虑来决定的。

『陆』 浅谈Oracle中大数据量表的管理

简介

随着信息业的发展 在企业级数据库应用中 经常会有一些几十GB 上百GB的数据表 这些大数据量表的设计 维护及其备份都是数据库管理中的重点及其难点 本文就从设计 维护及其备份方面探讨一下大数据量表的管理

设计

大表时效性

大数据量表的数据量一般来说是跟时间成正比的 时间越久 数据量越大 在设计阶段首先要考虑这些大表的时效性

通常情况 在一定的时间区间 数据的访问频度比较大 超过这个区间 数据的访问频度极小 这个时间区间根据不同的应用类型而不同 通常是几个月 超过这个时间区间的数据可以认为是历史数据 数据访问的可能性不打 在企业应用中 并不是所有的数据都需要保留在生产数据库中 对于这些历史数据 可以考虑离线存放 或者是存放在另外的数据库中 比如数据仓库等

大表的时效性可以通过在表上加时间戳列来实现

使用分区表

Oracle 以后提供了分区表的功能 分区表可以把一个表的数据从物理和逻辑上分割成小的区域 Oracle支持非常大的分区表 一个对象可以允许多达 个分区 对于大表来说 使用分区表是首选方案 分区表可以改善表的维护 备份 恢复及查询性能

分区表有 种分区方式

n Range Partitioning

n Hash Partitioning

n Composite Partitioning

n List Partitioning

对于有时效性的大表 可以采用按时间分区的 Range Partitioning表 例如按天分区的分区表

CREATE TABLE Test(

DATATIME DATE NOT NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

CONSTRAINT PK_TEST PRIMARY KEY (datatime p p ) USING INDEX LOCAL TABLESPACE USERINDEX

)

PARTITION BY RANGE (DATATIME)

(PARTITION Test_ VALUES LESS THAN (TO_DATE( YYYY MM DD ))

(PARTITION Test_ VALUES LESS THAN (TO_DATE( YYYY MM DD ))

……

);

对于按时间分区仍然不能满足性能需求的表 还可以根据应用需求 使用子分区对表进一步细化

应用设计中 要充分利用分区表的特性 对大表的访问要完全避免全表访问 缩小访问范围 在查询条件中 尽量使用分区的列

维护

大表的维护工作比较繁琐 索引的维护 存储空间的维护 历史数据的清理等等 使用分区表可以简化大表的维护工作 但是如果表很多的话 手动的创建 删除分区也是一件很繁琐 而且容易出错的事情

此章节以按天分区的分区表为例讨论大表的自动维护

分区表的命名规则

分区表分区的命名应当按照一定的规则命名 以利于自动维护的实现 本例采用按天分区的分区表 分区的命名方式为TABLENAME_YYMMDD 例如 TEST表的 年 月 日的分区命名为TEST _

维护字典

在数据库中创建维护字典表 存放需要自动维护的分区表的信息 包括表名 schema 表的类型 数据在数据库中的保留时间等信息

Table Name: H_RETENTION

Column Type Null? Description

tablename Varchar ( ) Not null 表名

schemaname Varchar ( ) Not null Schema

typeid Varchar ( ) Not null 表类型 PARTITION NORMAL …

retention Number( ) Not null 该表的保存天数

自动创建分区

对于按时间分区的分区表 若不能及时创建新的数据分区 会导致数据无法插入到分区表的严重后果 数据库会产生报错信息ORA : inserted partition key does not map to any partition 插入失败

创建分区可以手工创建 也可以根据维护字典 通过系统的任务调度来创建分区 通常是在月底创建下个月的分区

自动创建分区实现如下

/**************************************************************************

Program Name:Add_Partition

Description:

创建某个用户下个月的所有分区

***************************************************************************/

PROCEDURE add_partition (v_schema IN VARCHAR )

IS

CURSOR c_td_table

IS

SELECT tablename

FROM h_retention

WHERE typeid = PARTITION

AND schemaname = UPPER (v_schema)

ORDER BY tablename;

v_cur BINARY_INTEGER;

v_int BINARY_INTEGER;

v_partition VARCHAR ( );

v_date DATE;

v_days NUMBER;

sql_stmt VARCHAR ( ); String used to save sql statement

err_msg VARCHAR ( );

BEGIN

v_date := TRUNC (ADD_MONTHS (SYSDATE ) MM );

v_days :=

TO_NUMBER (TO_CHAR (LAST_DAY (ADD_MONTHS (SYSDATE )) DD ));

v_cur := DBMS_SQL open_cursor;

FOR v_table IN c_td_table

LOOP

v_date := TRUNC (ADD_MONTHS (SYSDATE ) MM );

v_partition := v_table tablename;

FOR i IN v_days

LOOP

BEGIN

sql_stmt :=

ALTER TABLE

|| v_schema

||

|| v_table tablename

|| ADD PARTITION

|| v_partition

|| _

|| TO_CHAR (v_date YYMMDD )

||

|| VALUES LESS THAN (TO_DATE(

|| TO_CHAR (v_date + YYYY MM DD )

|| YYYY MM DD )) ;

DBMS_SQL parse (v_cur sql_stmt DBMS_SQL native);

v_int := DBMS_SQL EXECUTE (v_cur);

EXCEPTION

WHEN OTHERS

THEN

err_msg :=

v_partition

|| : Create

|| TO_CHAR (v_date YYMMDD )

|| partition unsuccessfully! Error Information:

|| SQLERRM;

log_insert (err_msg); You can define your own log_insert function

MIT;

END;

v_date := v_date + ;

END LOOP;

END LOOP;

DBMS_SQL close_cursor (v_cur);

END;

自动删除过期分区

为了释放存储空间并提高大表的性能 要从数据库中删除大表中过期的历史数据 删除操作可以手工执行 也可以通过系统的任务调度来自动删除 分区表数据删除只需要删除相应的数据分区 与delete相比 有如下好处

u 速度快

u 占用回滚表空间少

u 产生日志量少

u 释放空间

如果有global的索引 删除分区后需要重建索引

自动删除分区实现如下

lishixin/Article/program/Oracle/201311/18275

『柒』 大数据存储管理系统主要包括

分布式文件存储,NoSQL数据库,NewSQL数据库。
分布式文件存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散存储在企业的各个角落。分布式文件存储采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
NoSQL泛指非关系型的数据库,NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。关系型数据库已经无法满足Web2.0的需求,主要表现为:无法满足海量数据的管理需求、无法满足数据高并发的需求、高可扩展性和高可用性的功能太低。
NewSQL是各种新的可扩展/高性能数据库的简称,这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。

『捌』 具有大数据量管理能力,同时有与ORACLE数据库高度兼容的国产数据库系统是以下哪一个

选择第一个,达梦数据库系统

『玖』 为什么Oracle数据库适合大型企业 而SQL Server数据库适合中小企业

我也学了很久了,关于那么多的数据库的区别给你说一下
mssql定位与中型数据库市场!
oracle定位与大型数据库市场!
mssql的数据库脚本是t-sql
oracle的数据库脚本是pl/sql
mssql只能用于windows平台
oracle可以跨多个平台
mssql便宜、易于掌握、相对简单
oracle奇贵且按组件收费、概念多、麻烦
delphi开发当然注重pl/sql的掌握!
-------------------------------------
开放性:
SQL Server 只能在windows 上运行,没有丝毫的开放性,操作系统的系统的稳定对数据库是十分重要的。Windows9X系列产品是偏重于桌面应用,NT server只适合中小型企业。而且windows平台的可靠性,安全性和伸缩性是非常有限的。它不象unix那样久经考验,尤其是在处理大数据量的关键业务时.
Oracle 能在所有主流平台上运行(包括 windows)。完全支持所有的工业标准。采用完全开放策略。可以使客户选择最适合的解决方案。对开发商全力支持。
DB2 能在所有主流平台上运行(包括windows)。最适于海量数据。DB2在企业级的应用最为广泛,在全球的500家最大的企业中,几乎85%以上用DB2数据库服务器,而国内到97年约占5%.

可伸缩性,并行性
SQL server DB2 并行实施和共存模型并不成熟。很难处理日益增多的用户数和数据卷。伸缩性有限。
Oracle 平行服务器通过使一组结点共享同一簇中的工作来扩展windownt的能力,提供高可用性和高伸缩性的簇的解决方案。 如果windowsNT不能满足需要, 用户可以把数据库移到UNIX中。
DB2 DB2具有很好的并行性。DB2把数据库管理扩充到了并行的、多节点的环境. 数据库分区是数据库的一部分,包含自己的数据、索引、配置文件、和事务日 志。数据库分区有时被称为节点或数据库节点

安全性
SQL server 没有获得任何安全证书。
Oracle Server 获得最高认证级别的ISO标准认证。
DB2 获得最高认证级别的ISO标准认证。

性能
SQL Server 多用户时性能不佳
Oracle 性能最高, 保持windowsNT下的TPC-D和TPC-C的世界记录。
DB2 适用于数据仓库和在线事物处理 性能较高。

客户端支持及应用模式
SQL Server C/S结构,只支持windows客户,可以用ADO,DAO,OLEDB ,ODBC连接.
Oracle 多层次网络计算,支持多种工业标准,可以用ODBC, JDBC,OCI等网络客户连接
DB2 跨平台,多层结构,支持ODBC,JDBC等客户

操作简便
SQL Server 操作简单,但只有图形界面.
Oracle 较复杂, 同时提供GUI和命令行,在windowsNT和unix下操作相同
DB2 操作简单,同时提供GUI和命令行,在windowsNT和unix下操作相同

使用风险
SQL server 完全重写的代码,经历了长期的测试,不断延迟,许多功能需要时间来证明。并不十分兼容早期产品。使用需要冒一定风险。
Oracle 长时间的开发经验,完全向下兼容。得到广泛的应用。完全没有风险。
DB2 在巨型企业得到广泛的应用,向下兼容性好。风险小。 仅供参考

---------------------------------------------------------------

九大数据仓库方案特点比较

中国电子设备系统工程研究所 王建新 刘东波

01-5-21 下午 04:33:38

--------------------------------------------------------------------------------

IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。下面针对这些数据仓库解决方案的性能和特点做分析和比较。
IBMIBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。
严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM(与Arbor联合开发)的DB2 OLAP服务器;统计分析工具采用SAS系统。
OracleOracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic语法的语言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。
在Oracle数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,目前的Oracle 8i和Express 之间集成度还不够高,Oracle 8i和Express之间需要复制元数据,如果Oracle Discoverer(或BO)需要访问汇总数据,则需要将汇总数据同时存放在Oracle和Express中,系统维护比较困难。值得注意的是,刚刚问世的Oracle 9i把OLAP和数据挖掘作为重要特点。
SybaseSybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse Architect是PowerDesigner中的一个设计模块,它支持星形模型、雪花模型和ER模型;数据抽取与转换工具包括PowerStage、Replication Server、Carleton PASSPORT,PowerStage是Sybase提供的可视化数据迁移工具。
Adaptive Server Enterprise是Sybase企业级关系数据库,Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos Impromptu、Business Objects、Brio Query等);数据分析与展现工具包括PowerD

阅读全文

与具有大数据量存储管理能力并与oracle相关的资料

热点内容
手机上看不到电脑上的文件 浏览:626
关于ps的微信公众号 浏览:612
矩阵论教程 浏览:971
字体文件分系统吗 浏览:921
编程一级考试要带什么证件 浏览:923
extjs表格修改前数据 浏览:612
什么是数据库的函数 浏览:722
oppo手机怎么用数据线连接电脑 浏览:247
恒智天成备份文件在哪里 浏览:976
电脑没联网怎么拷贝文件 浏览:224
wps工具栏怎么换成中文 浏览:338
win7和xp共享文件 浏览:883
苹果4代音量键没反应 浏览:827
怎样打开tif文件 浏览:153
java下载文件zip 浏览:440
qq浏览器压缩文件怎么设密码 浏览:526
黄埔数控编程哪里好 浏览:406
mac109升级1010 浏览:691
在java的菜单如何导入文件 浏览:982
现在什么网站销量最高 浏览:760

友情链接