1. 從foxpro的大數據量(超過12萬條)DBF導出到Excel的問題,我想沒5000條數據導出一個EX
假設你的大數據量表取名「信息表」,如下程序將可以幫助你將它按要求導出。
use 信息表專
count to 記錄屬數
首記錄=1
for t=1 to ceiling(記錄數/5000)
if t*5000>記錄數
末記錄=記錄數
else
末記錄=t*5000
endif
表名=iif(t<10,"0"+allt(str(t))+".xls",allt(str(t))+".xls")
to &表名 xls for recn()>=首記錄.and.recn()<=末記錄
首記錄=末記錄+1
endf
如果你對命令不熟悉,建議你直接用復制加粘貼的辦法來創建這個程序文件,運行後就可以在你的默認目錄下生成你所需要的全部Excel表文件了。
2. ORACLE大數據表Update處理
ORACLE中如果表數據量很大(M級或更大) update某個欄位是很慢的(如我的HIS項目中更新歷史業務流程表 萬條記錄 用CURSOR來更新 條MIT一次 花了 天也沒更新完) 後來嘗試過的改進辦法有
把表上的LOGGING取消
把表上的INDEX取消
但是依然很慢 無奈下找到這個
沒陪在這個主題問答里 ORA官方提了一種處理的辦法
利用CREATE table as select xxxxx的辦法來生成一新表T
在T 上創建與目標表一樣的索引
把目標表刪除或RENAME(注意備份以備反悔)
把T 改名成目標表
試了一下 果然非常歲察如地快 我的任務差不多在 Min就完成了
如csywdk table_room是一張大表 要刪除其中bakfwid在noNewYWFW 中的記錄 且要更新bakfwid在imp_table_room中記錄的ROOM_LOC為imp_table_room room_loc:
( )創建新表
create table tmp_new_table_room as
select t ROOM_ID t NEWROOMID t BUILDID t TFH t DKH t BUILD_NO t LAYER_NO t ROOM_NO t ROOM_NAME
decode(t bakfwid null t ROOM_LOC t room_loc)
t ROOM_AREA
t SURTYPE t LAYER_NAME t DEVDEP t CELL t DELFLAG t QXXZ t SjsJLSH t FD t ID t BAKFWID
from csywdk table_room t left join imp_table_room t on t bakfwid=t bakfwid
where not exists(select from noNewYWFW t where t bakfwid=t bakfwid)
( )創建備份表
create table Table_room as
select * from csywdk table_room
( )替換原表
drop table sde table_room
create table sde table_room as
select * from tmp_new_table_room
在這個問答里還提到一句ORA PL/SQL效率相關的話
能用一句語句處理的任務決不乎啟要用多句編程來實現
lishixin/Article/program/Oracle/201311/18980
3. 大型資料庫設計原則
一個好的資料庫產品不等於就有一個好的應用系統 如果不能設計一個合理的資料庫模型 不僅會增加客戶端和伺服器段程序的編程和維護的難度 而且將會影響系統實際運行的性能 一般來講 在一個MIS系統分析 設計 測試和試運行階段 因為數據量較小 設計人員和測試人員往往只注意到功能的實現 而很難注意到性能的薄弱之處 等到系統投入實際運行一段時間後 才發現系統的性能在降低 這時再來考慮提高系統性能則要花費更多的人力物力 而整個系統也不可避免的形成了一個打補丁工程 筆者依據多年來設計和使用資料庫的經驗 提出以下一些設計准則 供同仁們參考
命名的規范
不同的資料庫產品對對象的命名有不同的要求 因此 資料庫中的各種對象的命名 後台程序的代碼編寫應採用大小寫敏感的形式 各種對象命名長度不要超過 個字元 這樣便於應用系統適應不同的資料庫
游標(Cursor)的慎用
游標提供了對特定集合中逐行掃描的手段 一般使用游標逐行遍歷數據 根據取出的數據不同條件進行不同的操作 尤其對多表和大表定義的游標(大的數據集合)循環很容易使程序進入一個漫長的等特甚至死機 筆者在某市《住房公積金管理系統》進行日終帳戶滾積數計息處理時 對一個 萬個帳戶的游標處理導致程序進入了一個無限期的等特(後經測算需 個小時才能完成)(硬體環境 Alpha/ Mram Sco Unix Sybase ) 後根據不同的條件改成用不同的UPDATE語句得以在二十分鍾之內完成 示例如下
Declare Mycursor cursor for select count_no from COUNT
Open Mycursor
Fetch Mycursor into @vcount_no
While (@@sqlstatus= )
Begin
If @vcount_no= 條件
操作
If @vcount_no= 條件
操作
Fetch Mycursor into @vcount_no
End
改為
Update COUNT set 操作 for 條件
Update COUNT set 操作 for 條件
在有些場合 有時也非得使用游標 此時也可考慮將符合條件的數據行轉入臨時表中 再對臨時表定義游標進行操作 可時性能得到明顯提高 筆者在某地市〈電信收費系統〉資料庫後台程序設計中 對一個表( 萬行中符合條件的 多行數據)進行游標操作(硬體環境 PC伺服器 PII Mram NT Ms Sqlserver ) 示例如下
Create #tmp /* 定義臨時表 */
(欄位
欄位
)
Insert into #tmp select * from TOTAL where
條件 /* TOTAL中 萬行 符合條件只有幾十行 */
Declare Mycursor cursor for select * from #tmp
/*對臨時表定義游標*/
索引(Index)的使用原則
創建索引一般有以下兩個目的 維護被索引列的唯一性和提供快速訪問表中數據的策略 大型資料庫有兩種索引即簇索引和非簇索引 一個沒有簇索引的表是按堆結構存儲數據 所有的數據均添加在表的尾部 而建立了簇索引的表 其數據在物理上會按照簇索引鍵的順序存儲 一個表只允許有一個簇索引 因此 根據B樹結構 可以理解添加任何一種索引均能提高按索引列查詢的速度 但會降低插入 更新 刪除操作的性能 尤其是當填充因子(Fill Factor)較大時 所以對索引較多的表進行頻繁的插入 更新 刪除操作 建表和索引時因設置較小的填充因子 以便在各數據頁中留下較多的自由空間 減少頁分割及重新組織的工作
數據的一致性和完整性
為了保證資料庫的一致性和完整性 設計人員往往會設計過多的表間關聯(Relation) 盡可能的降低數據的冗餘 表間關聯是一種強制性措施 建立後 對父表(Parent Table)和子表(Child Table)的插入 更新 刪除操作均要佔用系統的開銷 另外 最好不要用Identify 屬性欄位作為主鍵與子表關聯 如果數據冗餘低 數據的完整性容易得到保證 但增加了表間連接查詢的操作 為了提高系統的響應時間 合理的數據冗餘也是必要的 使用規則(Rule)和約束(Check)來防止系統操作人員誤輸入造成數據的錯誤是設計人員的另一種常用手段 但是 不必要的規則和約束也會佔用系統的不必要開銷 需要注意的是 約束對數據的有效性驗證要比規則快 所有這些 設計人員在設計階段應根據系統操作的類型 頻度加以均衡考慮
事務的陷阱
事務是在一次性完成的一組操作 雖然這些操作是單個的操作 SQL Server能夠保證這組操作要麼全部都完成 要麼一點都不做 正是大型資料庫的這一特性 使得數據的完整性得到了極大的保證
眾所周知 SQL Server為每個獨立的SQL語句都提供了隱含的事務控制 使得每個DML的數據操作得以完整提交或回滾 但是SQL Server還提供了顯式事務控制語句
BEGIN TRANSACTION 開始一個事務
MIT TRANSACTION 提交一個事務
ROLLBACK TRANSACTION 回滾一個事務
事務可以嵌套 可以通過全局變數@@trancount檢索到連接的事務處理嵌套層次 需要加以特別注意並且極容易使編程人員犯錯誤的是 每個顯示或隱含的事物開始都使得該變數加 每個事務的提交使該變數減 每個事務的回滾都會使得該變數置 而只有當該變數為 時的事務提交(最後一個提交語句時) 這時才把物理數據寫入磁碟
資料庫性能調整
在計算機硬體配置和網路設計確定的情況下 影響到應用系統性能的因素不外乎為資料庫性能和客戶端程序設計 而大多數資料庫設計員採用兩步法進行資料庫設計 首先進行邏輯設計 而後進行物理設計 資料庫邏輯設計去除了所有冗餘數據 提高了數據吞吐速度 保證了數據的完整性 清楚地表達數據元素之間的關系 而對於多表之間的關聯查詢(尤其是大數據表)時 其性能將會降低 同時也提高了客 戶端程序的編程難度 因此 物理設計需折衷考慮 根據業務規則 確定對關聯表的數據量大小 數據項的訪問頻度 對此類數據表頻繁的關聯查詢應適當提高數據冗餘設計
數據類型的選擇
數據類型的合理選擇對於資料庫的性能和操作具有很大的影響 有關這方面的書籍也有不少的闡述 這里主要介紹幾點經驗
Identify欄位不要作為表的主鍵與其它表關聯 這將會影響到該表的數據遷移
Text 和Image欄位屬指針型數據 主要用來存放二進制大型對象(BLOB) 這類數據的操作相比其它數據類型較慢 因此要避開使用
日期型欄位的優點是有眾多的日期函數支持 因此 在日期的大小比較 加減操作上非常簡單 但是 在按照日期作為條件的查詢操作也要用函數 相比其它數據類型速度上就慢許多 因為用函數作為查詢的條件時 伺服器無法用先進的性能策略來優化查詢而只能進行表掃描遍歷每行
例如 要從DATA_TAB 中(其中有一個名為DATE的日期欄位)查詢 年的所有記錄
lishixin/Article/program/Oracle/201311/17929
4. 淺談Oracle中大數據量表的管理
簡介
隨著信息業的發展 在企業級資料庫應用中 經常會有一些幾十GB 上百GB的數據表 這些大數據量表的設計 維護及其備份都是資料庫管理中的重點及其難點 本文就從設計 維護及其備份方面探討一下大數據量表的管理
設計
大表時效性
大數據量表的數據量一般來說是跟時間成正比的 時間越久 數據量越大 在設計階段首先要考慮這些大表的時效性
通常情況 在一定的時間區間 數據的訪問頻度比較大 超過這個區間 數據的訪問頻度極小 這個時間區間根據不同的應用類型而不同 通常是幾個月 超過這個時間區間的數據可以認為是歷史數據 數據訪問的可能性不打 在企業應用中 並不是所有的數據都需要保留在生產資料庫中 對於這些歷史數據 可以考慮離線存放 或者是存放在另外的資料庫中 比如數據倉庫等
大表的時效性可以通過在表上加時間戳列來實現
使用分區表
Oracle 以後提供了分區表的功能 分區表可以把一個表的數據從物理和邏輯上分割成小的區域 Oracle支持非常大的分區表 一個對象可以允許多達 個分區 對於大表來說 使用分區表是首選方案 分區表可以改善表的維護 備份 恢復及查詢性能
分區表有 種分區方式
n Range Partitioning
n Hash Partitioning
n Composite Partitioning
n List Partitioning
對於有時效性的大表 可以採用按時間分區的 Range Partitioning表 例如按天分區的分區表
CREATE TABLE Test(
DATATIME DATE NOT NULL
P NUMBER NULL
P NUMBER NULL
P NUMBER NULL
P NUMBER NULL
P NUMBER NULL
P NUMBER NULL
P NUMBER NULL
P NUMBER NULL
CONSTRAINT PK_TEST PRIMARY KEY (datatime p p ) USING INDEX LOCAL TABLESPACE USERINDEX
)
PARTITION BY RANGE (DATATIME)
(PARTITION Test_ VALUES LESS THAN (TO_DATE( YYYY MM DD ))
(PARTITION Test_ VALUES LESS THAN (TO_DATE( YYYY MM DD ))
……
);
對於按時間分區仍然不能滿足性能需求的表 還可以根據應用需求 使用子分區對表進一步細化
應用設計中 要充分利用分區表的特性 對大表的訪問要完全避免全表訪問 縮小訪問范圍 在查詢條件中 盡量使用分區的列
維護
大表的維護工作比較繁瑣 索引的維護 存儲空間的維護 歷史數據的清理等等 使用分區表可以簡化大表的維護工作 但是如果表很多的話 手動的創建 刪除分區也是一件很繁瑣 而且容易出錯的事情
此章節以按天分區的分區表為例討論大表的自動維護
分區表的命名規則
分區表分區的命名應當按照一定的規則命名 以利於自動維護的實現 本例採用按天分區的分區表 分區的命名方式為TABLENAME_YYMMDD 例如 TEST表的 年 月 日的分區命名為TEST _
維護字典
在資料庫中創建維護字典表 存放需要自動維護的分區表的信息 包括表名 schema 表的類型 數據在資料庫中的保留時間等信息
Table Name: H_RETENTION
Column Type Null? Description
tablename Varchar ( ) Not null 表名
schemaname Varchar ( ) Not null Schema
typeid Varchar ( ) Not null 表類型 PARTITION NORMAL …
retention Number( ) Not null 該表的保存天數
自動創建分區
對於按時間分區的分區表 若不能及時創建新的數據分區 會導致數據無法插入到分區表的嚴重後果 資料庫會產生報錯信息ORA : inserted partition key does not map to any partition 插入失敗
創建分區可以手工創建 也可以根據維護字典 通過系統的任務調度來創建分區 通常是在月底創建下個月的分區
自動創建分區實現如下
/**************************************************************************
Program Name:Add_Partition
Description:
創建某個用戶下個月的所有分區
***************************************************************************/
PROCEDURE add_partition (v_schema IN VARCHAR )
IS
CURSOR c_td_table
IS
SELECT tablename
FROM h_retention
WHERE typeid = PARTITION
AND schemaname = UPPER (v_schema)
ORDER BY tablename;
v_cur BINARY_INTEGER;
v_int BINARY_INTEGER;
v_partition VARCHAR ( );
v_date DATE;
v_days NUMBER;
sql_stmt VARCHAR ( ); String used to save sql statement
err_msg VARCHAR ( );
BEGIN
v_date := TRUNC (ADD_MONTHS (SYSDATE ) MM );
v_days :=
TO_NUMBER (TO_CHAR (LAST_DAY (ADD_MONTHS (SYSDATE )) DD ));
v_cur := DBMS_SQL open_cursor;
FOR v_table IN c_td_table
LOOP
v_date := TRUNC (ADD_MONTHS (SYSDATE ) MM );
v_partition := v_table tablename;
FOR i IN v_days
LOOP
BEGIN
sql_stmt :=
ALTER TABLE
|| v_schema
||
|| v_table tablename
|| ADD PARTITION
|| v_partition
|| _
|| TO_CHAR (v_date YYMMDD )
||
|| VALUES LESS THAN (TO_DATE(
|| TO_CHAR (v_date + YYYY MM DD )
|| YYYY MM DD )) ;
DBMS_SQL parse (v_cur sql_stmt DBMS_SQL native);
v_int := DBMS_SQL EXECUTE (v_cur);
EXCEPTION
WHEN OTHERS
THEN
err_msg :=
v_partition
|| : Create
|| TO_CHAR (v_date YYMMDD )
|| partition unsuccessfully! Error Information:
|| SQLERRM;
log_insert (err_msg); You can define your own log_insert function
MIT;
END;
v_date := v_date + ;
END LOOP;
END LOOP;
DBMS_SQL close_cursor (v_cur);
END;
自動刪除過期分區
為了釋放存儲空間並提高大表的性能 要從資料庫中刪除大表中過期的歷史數據 刪除操作可以手工執行 也可以通過系統的任務調度來自動刪除 分區表數據刪除只需要刪除相應的數據分區 與delete相比 有如下好處
u 速度快
u 佔用回滾表空間少
u 產生日誌量少
u 釋放空間
如果有global的索引 刪除分區後需要重建索引
自動刪除分區實現如下
lishixin/Article/program/Oracle/201311/18275
5. android的Cursor.requery()方法過時怎麼辦
Cursor.requery()方法 是過時了。如果數據量大,會導致重寫讀取的事件長(也就是requery()的執行時間)。在資料庫數據少的時候,我們仍然可以安全地使用requery。但吵猛是對於具有大量數據時,就不建議使扒棗用了。
SimpleCursorAdapter adapter=new SimpleCursorAdapter(context, layout, cursor, from, to, flags);
當你插入數據時,參數cursor 的數據必須要變化才會更新,所以你要將cursor 從新 進行賦值(春碰拆注意 cursor不是新的實例),再調用notifyDataSetChanged();
6. oracle 一個游標可存多大的數據量
游標和指針我理解是一個意思的
它只是用來描述取得內存中數據的方式
就像導航一樣,GPS會給你地圖上的位置,而能不能跑到,取決與你的車里有多少油
例如:
在資料庫中查詢 取到一個結果集 你能不能取到那些數據,取決於你的機器 假如結果集中有一個CLOB類型欄位 而你的機器,內存+硬碟總共250M 沒可能看到數據,對吧
修改最大游標: alter system set open_cursor=800, scope=both;
只要你能接受性能,隨便你改,另外 open_cursor是整形 改得越大,性能越受影響
以下來自「賓士M888」的回答
1、plsql是面向過程的語言,這類語言還有c,cobol等,這類語言的共同點是一次只能處理一條數據,而資料庫sql返回的對象是一個集合,這樣直接用plsql程序操作就會出現問題。
2、在這種環境下就出現了游標,游標實際是一個內存地址,只想的是sql查詢出的結果集,當需要的時候再根據游標一條一條取數據【fetch】,直到全部數據取完。
就像chsoftstar說的那樣 出現游標無法取數的問題,很大可能是寫錯了,具體什麼原因,還得樓主自己查找了
7. 如何看當前最大打開cursor數量是多少
方臘大輪法如仿段下輪信:
select s.USERNAME,S.sid,s.SERIAL#,p.SPID, osuser, machine, count(*) num_curs
from v$open_cursor o, v$session s,v$process p
where /*user_name = '' and*/ o.sid=s.sid and p.ADDR=s.PADDR
group by s.USERNAME,S.sid,s.SERIAL#,p.SPID, osuser, machine
order by num_curs desc;
8. 存儲過程中用什麼可以替代游標
Mysql存儲過程優化——使用臨時表代替游標。
Mysql游標在操作小數據量時比較方便,效率可觀,但操作大數據量,速度比較慢前運,甚至直接產生系統錯誤。
一般說來,當操作的數據超過1萬條時,就避免用游標吧。
為了測試游標性能,寫了下面一個游標對IDC_Gather_Info表中數據進行遍歷
下面是當表中數據分別為15萬、5萬、1萬時游標的表現:
1.數據量15萬,存儲過程執行失敗,提遲消示錯誤:Incorrect
key
file
for
table
'/tmp/#sql_3044_0.MYI';try
to
repair
it
2.數據量5萬,執行成功,耗時31.051s
3.數據量1萬,執行成功,耗時1.371s
下面使用臨時表替換游標:
1.數據量15萬,執行成功,耗時8.928s
2.數據量5萬,執行成功,耗時2.994s
3.數據量碼悔知1萬,執行成功,耗時0.634s
可以看到Mysql的游標在處理大一點的數據量時還是比較乏力的,僅適合用於操作幾百上千的小數據量。
9. typecho對於大數據負載能力如何比如1000萬數據,有誰測試過嗎
眾所周知,java在處理數據量比較大的時候,載入到內存必然會導致內存溢出,而在一些數據處理中我們不得不去處理海量數據,在做數據處理中,我們常見的手段是分解,壓縮,並行,臨時文件等方法;
例如,我們要將資料庫(不論是什麼資料庫)的數據導出到一個文件,一般是Excel
或文本格式的CSV;對於Excel來講,對於POI和JXL的介面,你很多時候沒有辦法去控制內存什麼時候向磁碟寫入,很惡心,而且這些API在內存構
造的對象大小將比數據原有的大小要大很多倍數,所以你不得不去拆分Excel,還好,POI開始意識到這個問題,在3.8.4的版本後,開始提供
cache的行數,提供了SXSSFWorkbook的介面,可以設置在內存中的行數,不過可惜的是,他當你超過這個行數,每添加一行,它就將相對行數前
面的一行寫入磁碟(如你設置2000行的話,當你寫第20001行的時候,他會將第一行寫入磁碟),其實這個時候他些的臨時文件,以至於不消耗內存,不過
這樣你會發現,刷磁碟的頻率會非常高,我們的確不想這樣,因為我們想讓他達到一個范圍一次性將數據刷如磁碟,比如一次刷1M之類的做法,可惜現在還沒有這
種API,很痛苦,我自己做過測試,通過寫小的Excel比使用目前提供刷磁碟的API來寫大文件,效率要高一些,而且這樣如果訪問的人稍微多一些磁碟
IO可能會扛不住,因為IO資源是非常有限的,所以還是拆文件才是上策;而當我們寫CSV,也就是文本類型的文件,我們很多時候是可以自己控制的,不過你
不要用CSV自己提供的API,也是不太可控的,CSV本身就是文本文件,你按照文本格式寫入即可被CSV識別出來;如何寫入呢?下面來說說。。。
在處理數據層面,如從資料庫中讀取數據,生成本地文件,寫代碼為了方便,我們未必要
1M怎麼來處理,這個交給底層的驅動程序去拆分,對於我們的程序來講我們認為它是連續寫即可;我們比如想將一個1000W數據的資料庫表,導出到文件;此
時,你要麼進行分頁,oracle當然用三層包裝即可,mysql用limit,不過分頁每次都會新的查詢,而且隨著翻頁,會越來越慢,其實我們想拿到一
個句柄,然後向下游動,編譯一部分數據(如10000行)將寫文件一次(寫文件細節不多說了,這個是最基本的),需要注意的時候每次buffer的數據,
在用outputstream寫入的時候,最好flush一下,將緩沖區清空下;接下來,執行一個沒有where條件的SQL,會不會將內存撐爆?是的,這個問題我們值得去思考下,通過API發現可以對SQL進行一些操作,例如,通過:PreparedStatement
statement =
connection.prepareStatement(sql),這是默認得到的預編譯,還可以通過設置:PreparedStatement
statement = connection.prepareStatement(sql ,
ResultSet.TYPE_FORWARD_ONLY ,
ResultSet.CONCUR_READ_ONLY);
來設置游標的方式,以至於游標不是將數據直接cache到本地內存,然後通過設置statement.setFetchSize(200);設置游標每次遍歷的大小;OK,這個其實我用過,oracle用了和沒用沒區別,因為oracle的jdbc
API默認就是不會將數據cache到java的內存中的,而mysql里頭設置根本無效,我上面說了一堆廢話,呵呵,
我只是想說,java提供的標准API也未必有效,很多時候要看廠商的實現機制,還有這個設置是很多網上說有效的,但是這純屬抄襲;對於oracle上面
說了不用關心,他本身就不是cache到內存,所以java內存不會導致什麼問題,如果是mysql,首先必須使用5以上的版本,然後在連接參數上加上
useCursorFetch=true這個參數,至於游標大小可以通過連接參數上加上:defaultFetchSize=1000來設置,例如:
jdbc:mysql://xxx.xxx.xxx.xxx:3306/abc?zeroDateTimeBehavior=convertToNull&useCursorFetch=true&defaultFetchSize=1000
上次被這個問題糾結了很久(mysql的數據老導致程序內存膨脹,並行2個直接系統
就宕了),還去看了很多源碼才發現奇跡竟然在這里,最後經過mysql文檔的確認,然後進行測試,並行多個,而且數據量都是500W以上的,都不會導致內
存膨脹,GC一切正常,這個問題終於完結了。
我們再聊聊其他的,數據拆分和合並,當數據文件多的時候我們想合並,當文件太大想要
拆分,合並和拆分的過程也會遇到類似的問題,還好,這個在我們可控制的范圍內,如果文件中的數據最終是可以組織的,那麼在拆分和合並的時候,此時就不要按
照數據邏輯行數來做了,因為行數最終你需要解釋數據本身來判定,但是只是做拆分是沒有必要的,你需要的是做二進制處理,在這個二進制處理過程,你要注意
了,和平時read文件不要使用一樣的方式,平時大多對一個文件讀取只是用一次read操作,如果對於大文件內存肯定直接掛掉了,不用多說,你此時因該每
次讀取一個可控范圍的數據,read方法提供了重載的offset和length的范圍,這個在循環過程中自己可以計算出來,寫入大文件和上面一樣,不要
讀取到一定程序就要通過寫入流flush到磁碟;其實對於小數據量的處理在現代的NIO技術的中也有用到,例如多個終端同時請求一個大文件下載,例如視頻
下載吧,在常規的情況下,如果用java的容器來處理,一般會發生兩種情況:
其一為內存溢出,因為每個請求都要載入一個文件大小的內存甚至於更多,因為java
包裝的時候會產生很多其他的內存開銷,如果使用二進制會產生得少一些,而且在經過輸入輸出流的過程中還會經歷幾次內存拷貝,當然如果有你類似nginx之
類的中間件,那麼你可以通過send_file模式發送出去,但是如果你要用程序來處理的時候,內存除非你足夠大,但是java內存再大也會有GC的時
候,如果你內存真的很大,GC的時候死定了,當然這個地方也可以考慮自己通過直接內存的調用和釋放來實現,不過要求剩餘的物理內存也足夠大才行,那麼足夠
大是多大呢?這個不好說,要看文件本身的大小和訪問的頻率;
其二為假如內存足夠大,無限制大,那麼此時的限制就是線程,傳統的IO模型是線程是
一個請求一個線程,這個線程從主線程從線程池中分配後,就開始工作,經過你的Context包裝、Filter、攔截器、業務代碼各個層次和業務邏輯、訪
問資料庫、訪問文件、渲染結果等等,其實整個過程線程都是被掛住的,所以這部分資源非常有限,而且如果是大文件操作是屬於IO密集型的操作,大量的CPU
時間是空餘的,方法最直接當然是增加線程數來控制,當然內存足夠大也有足夠的空間來申請線程池,不過一般來講一個進程的線程池一般會受到限制也不建議太多
的,而在有限的系統資源下,要提高性能,我們開始有了new
IO技術,也就是NIO技術,新版的裡面又有了AIO技術,NIO只能算是非同步IO,但是在中間讀寫過程仍然是阻塞的(也就是在真正的讀寫過程,但是不會
去關心中途的響應),還未做到真正的非同步IO,在監聽connect的時候他是不需要很多線程參與的,有單獨的線程去處理,連接也又傳統的socket變
成了selector,對於不需要進行數據處理的是無需分配線程處理的;而AIO通過了一種所謂的回調注冊來完成,當然還需要OS的支持,當會掉的時候會
去分配線程,目前還不是很成熟,性能最多和NIO吃平,不過隨著技術發展,AIO必然會超越NIO,目前谷歌V8虛擬機引擎所驅動的node.js就是類
似的模式,有關這種技術不是本文的說明重點;
將上面兩者結合起來就是要解決大文件,還要並行度,最土的方法是將文件每次請求的大
小降低到一定程度,如8K(這個大小是經過測試後網路傳輸較為適宜的大小,本地讀取文件並不需要這么小),如果再做深入一些,可以做一定程度的
cache,將多個請求的一樣的文件,cache在內存或分布式緩存中,你不用將整個文件cache在內存中,將近期使用的cache幾秒左右即可,或你
可以採用一些熱點的演算法來配合;類似迅雷下載的斷點傳送中(不過迅雷的網路協議不太一樣),它在處理下載數據的時候未必是連續的,只要最終能合並即可,在
伺服器端可以反過來,誰正好需要這塊的數據,就給它就可以;才用NIO後,可以支持很大的連接和並發,本地通過NIO做socket連接測試,100個終
端同時請求一個線程的伺服器,正常的WEB應用是第一個文件沒有發送完成,第二個請求要麼等待,要麼超時,要麼直接拒絕得不到連接,改成NIO後此時
100個請求都能連接上伺服器端,服務端只需要1個線程來處理數據就可以,將很多數據傳遞給這些連接請求資源,每次讀取一部分數據傳遞出去,不過可以計算
的是,在總體長連接傳輸過程中總體效率並不會提升,只是相對相應和所開銷的內存得到量化控制,這就是技術的魅力,也許不要太多的演算法,不過你得懂他。
類似的數據處理還有很多,有些時候還會將就效率問題,比如在HBase的文件拆分和
合並過程中,要不影響線上業務是比較難的事情,很多問題值得我們去研究場景,因為不同的場景有不同的方法去解決,但是大同小異,明白思想和方法,明白內存
和體系架構,明白你所面臨的是沈陽的場景,只是細節上改變可以帶來驚人的效果。
-
10. 在oracle中,大數據量情況下,merge是否比cursor 快啊目前我們存儲過程都是用cursor,但很慢。。
看你的業務邏輯是抄否復雜.
如果簡單的, 可以一句 merge 語句就處理掉的。
那麼當然優先使用 merge 處理比較好。
假如業務邏輯很復雜, 一句 merge 語句無法處理。
迫不得已,只能使用 游標處理的。
可以嘗試使用 BULK COLLECT
看看是否能有一些性能上面的提升
http://hi..com/wangqing999/blog/item/2ea041cc0d4606037e3e6f20.html