导航:首页 > 网络数据 > oracle大数据怎么处理

oracle大数据怎么处理

发布时间:2024-07-22 14:15:54

㈠ Oracle数据库大数据量表如何优化

要看数据多到何种程度。
比如一个表的笔数只是几百,如果不需要和其他大表关联查询数据,连索引都不用建。
如果是几十万级别的表,一般正确建索引就可以。
如果是千万级别的表,不但要正确建索引,而且要定时手工进行收集统计信息维护,不建议系统自动维护,以免影响使用性能。
如果是亿以上级别的表,则可考虑按一定条件拆分表资拆好租料,将旧资料归档,这样可改旅兆善生成表的使用。
数据库优化的同时,程序也要袜盯进行相应优化,程序和
数据科学
搭配,才能使性能达到最佳。

㈡ oracle 如何处理更新大数据量

楼下的看清复楚,有50k的照片,不管制blob还是long raw处理起来都是很慢的
2G数据拷贝也不是秒级的操作。
你的pga对于你的数据过小,很容易导致大量而外i/o,操作最好是分批提交,不要一条sql写入。

㈢ oracle单表的数据量太大该怎么处理

实际有多大?

如果太大,那么可以考虑分区 或者分表管理

㈣ oracle中对大数据处理有哪些方式

一、大数据存储方式:
1. BLOB,二进制大数据
2. CLOB,文本类型大数据
3. BFILE(推荐),文件方式大内数据,以连接(容文件位置)方式存储,实际在数据库外
4. RAW,二进制大数据(ORACLE老版本的,9i后逐渐被BLOB/CLOB/BFILE代替)
二、大数据的处理内置函数
1. BLOB/CLOB/BFILE:DBMS_LOB包
2. RAW:UTL_RAW包

㈤ oracle一张上千万记录的数据表需要改为分区表,用什么方法好

Oracle提供了分区技术以支持VLDB(Very Large DataBase)。分区表通过对分区列的判断,把分区列不同的记录,放到不同的分区中。分区完全对应用透明。

Oracle的分区表可以包括多个分区,每个分区都是一个独立的段(SEGMENT),可以存放到不同的表空间中。查询时可以通过查询表来访问各个分区中的数据,也可以通过在查询时直接指定分区的方法来进行查询。

分区提供以下优点:

由于将数据分散到各个分区中,减少了数据损坏的可能性;

可以对单独的分区进行备份和恢复;

可以将分区映射到不同的物理磁盘上,来分散IO;

提高可管理性、可用性和性能。

Oracle提供了以下几种分区类型:

范围分区(range);

哈希分区(hash);

列表分区(list);

范围-哈希复合分区(range-hash);

范围-列表复合分区(range-list)。

Oracle的普通表没有办法通过修改属性的方式直接转化为分区表,必须通过重建的方式进行转变,下面介绍三种效率比较高的方法,并说明它们各自的特点。

方法一:利用原表重建分区表。

步骤:

SQL> CREATE TABLE T (ID NUMBER PRIMARY KEY, TIME DATE);

表已创建。

SQL> INSERT INTO T SELECT ROWNUM, CREATED FROM DBA_OBJECTS;

已创建6264行。

SQL> COMMIT;

提交完成。
SQL> CREATE TABLE T_NEW (ID, TIME) PARTITION BY RANGE (TIME)
2 (PARTITION P1 VALUES LESS THAN (TO_DATE('2004-7-1', 'YYYY-MM-DD')),
3 PARTITION P2 VALUES LESS THAN (TO_DATE('2005-1-1', 'YYYY-MM-DD')),
4 PARTITION P3 VALUES LESS THAN (TO_DATE('2005-7-1', 'YYYY-MM-DD')),
5 PARTITION P4 VALUES LESS THAN (MAXVALUE))
6 AS SELECT ID, TIME FROM T;

表已创建。

SQL> RENAME T TO T_OLD;

表已重命名。

SQL> RENAME T_NEW TO T;

表已重命名。

SQL> SELECT COUNT(*) FROM T;

COUNT(*)
----------
6264

SQL> SELECT COUNT(*) FROM T PARTITION (P1);

COUNT(*)
----------
0

SQL> SELECT COUNT(*) FROM T PARTITION (P2);

COUNT(*)
----------
6246

SQL> SELECT COUNT(*) FROM T PARTITION (P3);

COUNT(*)
----------
18

优点:方法简单易用,由于采用DDL语句,不会产生UNDO,且只产生少量REDO,效率相对较高,而且建表完成后数据已经在分布到各个分区中了。

不足:对于数据的一致性方面还需要额外的考虑。由于几乎没有办法通过手工锁定T表的方式保证一致性,在执行CREATE TABLE语句和RENAME T_NEW TO T语句直接的修改可能会丢失,如果要保证一致性,需要在执行完语句后对数据进行检查,而这个代价是比较大的。另外在执行两个RENAME语句之间执行的对T的访问会失败。

适用于修改不频繁的表,在闲时进行操作,表的数据量不宜太大。

方法二:使用交换分区的方法。

步骤:

SQL> CREATE TABLE T (ID NUMBER PRIMARY KEY, TIME DATE);

表已创建。

SQL> INSERT INTO T SELECT ROWNUM, CREATED FROM DBA_OBJECTS;

已创建6264行。

SQL> COMMIT;

提交完成。

SQL> CREATE TABLE T_NEW (ID NUMBER PRIMARY KEY, TIME DATE) PARTITION BY RANGE (TIME)
2 (PARTITION P1 VALUES LESS THAN (TO_DATE('2005-7-1', 'YYYY-MM-DD')),
3 PARTITION P2 VALUES LESS THAN (MAXVALUE));

表已创建。

SQL> ALTER TABLE T_NEW EXCHANGE PARTITION P1 WITH TABLE T;

表已更改。

SQL> RENAME T TO T_OLD;

表已重命名。

SQL> RENAME T_NEW TO T;

表已重命名。
SQL> SELECT COUNT(*) FROM T;

COUNT(*)
----------
6264

优点:只是对数据字典中分区和表的定义进行了修改,没有数据的修改或复制,效率最高。如果对数据在分区中的分布没有进一步要求的话,实现比较简单。在执行完RENAME操作后,可以检查T_OLD中是否存在数据,如果存在的话,直接将这些数据插入到T中,可以保证对T插入的操作不会丢失。

不足:仍然存在一致性问题,交换分区之后RENAME T_NEW TO T之前,查询、更新和删除会出现错误或访问不到数据。如果要求数据分布到多个分区中,则需要进行分区的SPLIT操作,会增加操作的复杂度,效率也会降低。

适用于包含大数据量的表转到分区表中的一个分区的操作。应尽量在闲时进行操作。

方法三:Oracle9i以上版本,利用在线重定义功能

步骤:

SQL> CREATE TABLE T (ID NUMBER PRIMARY KEY, TIME DATE);

表已创建。

SQL> INSERT INTO T SELECT ROWNUM, CREATED FROM DBA_OBJECTS;

已创建6264行。

SQL> COMMIT;

提交完成。

SQL> EXEC DBMS_REDEFINITION.CAN_REDEF_TABLE(USER, 'T', DBMS_REDEFINITION.CONS_USE_PK);

PL/SQL 过程已成功完成。

SQL> CREATE TABLE T_NEW (ID NUMBER PRIMARY KEY, TIME DATE) PARTITION BY RANGE (TIME)
2 (PARTITION P1 VALUES LESS THAN (TO_DATE('2004-7-1', 'YYYY-MM-DD')),
3 PARTITION P2 VALUES LESS THAN (TO_DATE('2005-1-1', 'YYYY-MM-DD')),
4 PARTITION P3 VALUES LESS THAN (TO_DATE('2005-7-1', 'YYYY-MM-DD')),
5 PARTITION P4 VALUES LESS THAN (MAXVALUE));
表已创建。

SQL> EXEC DBMS_REDEFINITION.START_REDEF_TABLE(USER, 'T', 'T_NEW', -
> 'ID ID, TIME TIME', DBMS_REDEFINITION.CONS_USE_PK);

PL/SQL 过程已成功完成。

SQL> EXEC DBMS_REDEFINITION.FINISH_REDEF_TABLE('YANGTK', 'T', 'T_NEW');

PL/SQL 过程已成功完成。

SQL> SELECT COUNT(*) FROM T;

COUNT(*)
----------
6264

SQL> SELECT COUNT(*) FROM T PARTITION (P2);

COUNT(*)
----------
6246

SQL> SELECT COUNT(*) FROM T PARTITION (P3);

COUNT(*)
----------
18

优点:保证数据的一致性,在大部分时间内,表T都可以正常进行DML操作。只在切换的瞬间锁表,具有很高的可用性。这种方法具有很强的灵活性,对各种不同的需要都能满足。而且,可以在切换前进行相应的授权并建立各种约束,可以做到切换完成后不再需要任何额外的管理操作。

不足:实现上比上面两种略显复杂。

适用于各种情况。

这里只给出了在线重定义表的一个最简单的例子,详细的描述和例子可以参考下面两篇文章。

Oracle的在线重定义表功能:http://blog.itpub.net/post/468/12855

Oracle的在线重定义表功能(二):http://blog.itpub.net/post/468/12962

索引也可以进行分区,分区索引有两种类型:global和local。对于local索引,每一个表分区对应一个索引分区,当表的分区发生变化时,索引的维护由Oracle自动进行。对于global索引,可以选择是否分区,而且索引的分区可以不与表分区相对应。当对分区进行维护操作时,通常会导致全局索引的INVALDED,必须在执行完操作后REBUILD。Oracle9i提供了UPDATE GLOBAL INDEXES语句,可以使在进行分区维护的同时重建全局索引。

全局索引可以包含多个分区的值 局部索引比全局索引容易管理,而全局索引比较快
注意:不能为散列分区 或者 子分区创建全局索引

Oracle的分区功能十分强大。不过用起来发现有两点不大方便:

第一是已经存在的表没有方法可以直接转化为分区表。不过Oracle提供了在线重定义表的功能,可以通过这种方式来完成普通表到分区表的转化。可以参考这个例子:http://blog.itpub.net/post/468/13091

第二点是如果采用了local分区索引,那么在增加表分区的时候,索引分区的表空间是不可控制的。如果希望将表和索引的分区分开到不同的表空间且不同索引分区也分散到不同的表空间中,那么只能在增加分区后,对新增的分区索引单独rebuild。

Oracle最大允许存在多少个分区呢?

我们可以从Oracle的Concepts手册上找到这个信息,对于Oracle9iR2:

Tables can be partitioned into up to 64,000 separate partitions.

对于Oracle10gR2,Oracle增强了分区特性:

Tables can be partitioned into up to 1024K-1 separate partitions.

关于何时应该进行分区,Oracle有如下建议:

■ Tables greater than 2GB should always be considered for partitioning.
■ Tables containing historical data, in which new data is added into the newest partition. A typical example is a historical table where only the current month's data is updatable and the other 11 months are read only.

这些信息是在网上查到的,测试了下确实可以用。

㈥ Oracle等数据库数据量特别大的时候怎样从程序和SQL语句方面优化使查询速度加快

一般最抄常用的大数据量优袭化:
1、创建分区表,使查询时的大表尽量分割成小表。Oracle提供范围分区、列表分区、Hash分区以及复合分区,具体选择哪种分区最优,需要根据你的业务数据来确定。
2、创建索引,创建合适的索引可以大大提高查询速度。但是你的这张大表如果会频繁的进行update、insert等操作,索引会导致这些操作变慢。就有可能需要进行动态索引的使用。
3、优化复杂SQL;对复杂的SQL进行合理的优化,这个有时候也需要根据你的数据情况来优化,可以参考一些SQL语句优化方面的文档。

㈦ ORACLE大数据表Update处理

ORACLE中如果表数据量很大(M级或更大) update某个字段是很慢的(如我的HIS项目中更新历史业务流程表 万条记录 用CURSOR来更新 条MIT一次 花了 天也没更新完) 后来尝试过的改进办法有

把表上的LOGGING取消

把表上的INDEX取消

但是依然很慢 无奈下找到这个

没陪在这个主题问答里 ORA官方提了一种处理的办法

利用CREATE table as select xxxxx的办法来生成一新表T

在T 上创建与目标表一样的索引

把目标表删除或RENAME(注意备份以备反悔)

把T 改名成目标表

试了一下 果然非常岁察如地快 我的任务差不多在 Min就完成了

如csywdk table_room是一张大表 要删除其中bakfwid在noNewYWFW 中的记录 且要更新bakfwid在imp_table_room中记录的ROOM_LOC为imp_table_room room_loc:

( )创建新表

create table tmp_new_table_room as

select t ROOM_ID t NEWROOMID t BUILDID t TFH t DKH t BUILD_NO t LAYER_NO t ROOM_NO t ROOM_NAME

decode(t bakfwid null t ROOM_LOC t room_loc)

t ROOM_AREA

t SURTYPE t LAYER_NAME t DEVDEP t CELL t DELFLAG t QXXZ t SJSJLSH t FD t ID t BAKFWID

from csywdk table_room t left join imp_table_room t on t bakfwid=t bakfwid

where not exists(select from noNewYWFW t where t bakfwid=t bakfwid)

( )创建备份表

create table Table_room as

select * from csywdk table_room

( )替换原表

drop table sde table_room

create table sde table_room as

select * from tmp_new_table_room

在这个问答里还提到一句ORA PL/SQL效率相关的话

能用一句语句处理的任务决不乎启要用多句编程来实现

lishixin/Article/program/Oracle/201311/18980

㈧ 浅谈Oracle中大数据量表的管理

简介

随着信息业的发展 在企业级数据库应用中 经常会有一些几十GB 上百GB的数据表 这些大数据量表的设计 维护及其备份都是数据库管理中的重点及其难点 本文就从设计 维护及其备份方面探讨一下大数据量表的管理

设计

大表时效性

大数据量表的数据量一般来说是跟时间成正比的 时间越久 数据量越大 在设计阶段首先要考虑这些大表的时效性

通常情况 在一定的时间区间 数据的访问频度比较大 超过这个区间 数据的访问频度极小 这个时间区间根据不同的应用类型而不同 通常是几个月 超过这个时间区间的数据可以认为是历史数据 数据访问的可能性不打 在企业应用中 并不是所有的数据都需要保留在生产数据库中 对于这些历史数据 可以考虑离线存放 或者是存放在另外的数据库中 比如数据仓库等

大表的时效性可以通过在表上加时间戳列来实现

使用分区表

Oracle 以后提供了分区表的功能 分区表可以把一个表的数据从物理和逻辑上分割成小的区域 Oracle支持非常大的分区表 一个对象可以允许多达 个分区 对于大表来说 使用分区表是首选方案 分区表可以改善表的维护 备份 恢复及查询性能

分区表有 种分区方式

n Range Partitioning

n Hash Partitioning

n Composite Partitioning

n List Partitioning

对于有时效性的大表 可以采用按时间分区的 Range Partitioning表 例如按天分区的分区表

CREATE TABLE Test(

DATATIME DATE NOT NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

P NUMBER NULL

CONSTRAINT PK_TEST PRIMARY KEY (datatime p p ) USING INDEX LOCAL TABLESPACE USERINDEX

)

PARTITION BY RANGE (DATATIME)

(PARTITION Test_ VALUES LESS THAN (TO_DATE( YYYY MM DD ))

(PARTITION Test_ VALUES LESS THAN (TO_DATE( YYYY MM DD ))

……

);

对于按时间分区仍然不能满足性能需求的表 还可以根据应用需求 使用子分区对表进一步细化

应用设计中 要充分利用分区表的特性 对大表的访问要完全避免全表访问 缩小访问范围 在查询条件中 尽量使用分区的列

维护

大表的维护工作比较繁琐 索引的维护 存储空间的维护 历史数据的清理等等 使用分区表可以简化大表的维护工作 但是如果表很多的话 手动的创建 删除分区也是一件很繁琐 而且容易出错的事情

此章节以按天分区的分区表为例讨论大表的自动维护

分区表的命名规则

分区表分区的命名应当按照一定的规则命名 以利于自动维护的实现 本例采用按天分区的分区表 分区的命名方式为TABLENAME_YYMMDD 例如 TEST表的 年 月 日的分区命名为TEST _

维护字典

在数据库中创建维护字典表 存放需要自动维护的分区表的信息 包括表名 schema 表的类型 数据在数据库中的保留时间等信息

Table Name: H_RETENTION

Column Type Null? Description

tablename Varchar ( ) Not null 表名

schemaname Varchar ( ) Not null Schema

typeid Varchar ( ) Not null 表类型 PARTITION NORMAL …

retention Number( ) Not null 该表的保存天数

自动创建分区

对于按时间分区的分区表 若不能及时创建新的数据分区 会导致数据无法插入到分区表的严重后果 数据库会产生报错信息ORA : inserted partition key does not map to any partition 插入失败

创建分区可以手工创建 也可以根据维护字典 通过系统的任务调度来创建分区 通常是在月底创建下个月的分区

自动创建分区实现如下

/**************************************************************************

Program Name:Add_Partition

Description:

创建某个用户下个月的所有分区

***************************************************************************/

PROCEDURE add_partition (v_schema IN VARCHAR )

IS

CURSOR c_td_table

IS

SELECT tablename

FROM h_retention

WHERE typeid = PARTITION

AND schemaname = UPPER (v_schema)

ORDER BY tablename;

v_cur BINARY_INTEGER;

v_int BINARY_INTEGER;

v_partition VARCHAR ( );

v_date DATE;

v_days NUMBER;

sql_stmt VARCHAR ( ); String used to save sql statement

err_msg VARCHAR ( );

BEGIN

v_date := TRUNC (ADD_MONTHS (SYSDATE ) MM );

v_days :=

TO_NUMBER (TO_CHAR (LAST_DAY (ADD_MONTHS (SYSDATE )) DD ));

v_cur := DBMS_SQL open_cursor;

FOR v_table IN c_td_table

LOOP

v_date := TRUNC (ADD_MONTHS (SYSDATE ) MM );

v_partition := v_table tablename;

FOR i IN v_days

LOOP

BEGIN

sql_stmt :=

ALTER TABLE

|| v_schema

||

|| v_table tablename

|| ADD PARTITION

|| v_partition

|| _

|| TO_CHAR (v_date YYMMDD )

||

|| VALUES LESS THAN (TO_DATE(

|| TO_CHAR (v_date + YYYY MM DD )

|| YYYY MM DD )) ;

DBMS_SQL parse (v_cur sql_stmt DBMS_SQL native);

v_int := DBMS_SQL EXECUTE (v_cur);

EXCEPTION

WHEN OTHERS

THEN

err_msg :=

v_partition

|| : Create

|| TO_CHAR (v_date YYMMDD )

|| partition unsuccessfully! Error Information:

|| SQLERRM;

log_insert (err_msg); You can define your own log_insert function

MIT;

END;

v_date := v_date + ;

END LOOP;

END LOOP;

DBMS_SQL close_cursor (v_cur);

END;

自动删除过期分区

为了释放存储空间并提高大表的性能 要从数据库中删除大表中过期的历史数据 删除操作可以手工执行 也可以通过系统的任务调度来自动删除 分区表数据删除只需要删除相应的数据分区 与delete相比 有如下好处

u 速度快

u 占用回滚表空间少

u 产生日志量少

u 释放空间

如果有global的索引 删除分区后需要重建索引

自动删除分区实现如下

lishixin/Article/program/Oracle/201311/18275

阅读全文

与oracle大数据怎么处理相关的资料

热点内容
什么是数据标准化 浏览:708
aecc三维功能实例视频教程 浏览:719
iphone6s静音键用法 浏览:560
油卡盒子APP是什么公司名下的 浏览:597
怪物猎人wp文件夹什么意思 浏览:108
设置密码的pdf文件如何转换成word 浏览:876
多个文件合并到一起后叫什么 浏览:387
数据库位是什么意思 浏览:104
如何改变手机上的网络连接 浏览:908
某网站图片侵权如何举报 浏览:820
zemax宏编程有什么用 浏览:874
做保函为什么要获取招标文件 浏览:921
魔兽世界数据是哪个文件夹 浏览:439
oppor9s手机系统升级 浏览:728
文件上传ie8 浏览:619
cleanmymac恢复文件 浏览:241
win10装虚拟机没有网络 浏览:283
安排什么意思网络语言 浏览:837
顺丰常州寄份文件到广州多少钱 浏览:73
wow110挂机升级 浏览:967

友情链接