linux內存延遲分配_如何提高Linux伺服器磁碟io性能

A. linux基本磁碟的優缺點

Ext3日誌文件系統特點
1、高可用性
系統使用了ext3文件系統後，即使在非正常關機後，系統也不需要檢查文件系統。宕機發生後，恢復ext3文件系統的時間只要數十秒鍾。
2、數據的完整性
ext3文件系統能夠極大地提高文件系統的完整性，避免了意外宕機對文件系統的破壞。在保證數據完整性方面，ext3文件系統有2種模式可供選擇。其中之一就是「同時保持文件系統及數據的一致性」模式。採用這種方式，你永遠不再會看到由於非正常關機而存儲在磁碟上的垃圾文件。
3、文件系統的速度
盡管使用ext3文件系統時，有時在存儲數據時可能要多次寫數據，但是，從總體上看來，ext3比ext2的性能還要好一些。這是因為ext3的日誌功能對磁碟的驅動器讀寫頭進行了優化。所以，文件系統的讀寫性能較之Ext2文件系統並來說，性能並沒有降低。
4、數據轉換

[1]由ext2文件系統轉換成ext3文件系統非常容易，只要簡單地鍵入兩條命令即可完成整個轉換過程，用戶不用花時間備份、恢復、格式化分區等。用一個ext3文件系統提供的小工具tune2fs，它可以將ext2文件系統輕松轉換為ext3日誌文件系統。另外，ext3文件系統可以不經任何更改，而直接載入成為ext2文件系統。
5、多種日誌模式
Ext3有多種日誌模式，一種工作模式是對所有的文件數據及metadata（定義文件系統中數據的數據,即數據的數據）進行日誌記錄（data=journal模式）；另一種工作模式則是只對metadata記錄日誌，而不對數據進行日誌記錄，也即所謂data=ordered或者data=writeback模式。系統管理人員可以根據系統的實際工作要求，在系統的工作速度與文件數據的一致性之間作出選擇。
相對於Ext3,特點如下：
1. 與 Ext3 兼容。執行若干條命令，就能從 Ext3 在線遷移到 Ext4，而無須重新格式化磁碟或重新安裝系統。原有 Ext3 數據結構照樣保留，Ext4 作用於新數據，當然，整個文件系統因此也就獲得了 Ext4 所支持的更大容量。
2. 更大的文件系統和更大的文件。較之 Ext3 目前所支持的最大 16TB 文件系統和最大 2TB 文件，Ext4 分別支持 1EB（1,048,576TB， 1EB=1024PB， 1PB=1024TB）的文件系統，以及 16TB 的文件。
3. 無限數量的子目錄。 Ext3 目前只支持 32,000 個子目錄，而 Ext4 支持無限數量的子目錄。
4. Extents。 Ext3 採用間接塊映射，當操作大文件時，效率極其低下。比如一個 100MB 大小的文件，在 Ext3 中要建立 25,600 個數據塊（每個數據塊大小為 4KB）的映射表。而 Ext4 引入了現代文件系統中流行的 extents 概念，每個 extent 為一組連續的數據塊，上述文件則表示為「該文件數據保存在接下來的 25,600 個數據塊中」，提高了不少效率。
5. 多塊分配。當寫入數據到 Ext3 文件系統中時，Ext3 的數據塊分配器每次只能分配一個 4KB 的塊，寫一個 100MB 文件就要調用 25,600 次數據塊分配器，而 Ext4 的多塊分配器「multiblock allocator」（mballoc）支持一次調用分配多個數據塊。
6. 延遲分配。 Ext3 的數據塊分配策略是盡快分配，而 Ext4 和其它現代文件操作系統的策略是盡可能地延遲分配，直到文件在 cache 中寫完才開始分配數據塊並寫入磁碟，這樣就能優化整個文件的數據塊分配，與前兩種特性搭配起來可以顯著提升性能。
7. 快速 fsck。以前執行 fsck 第一步就會很慢，因為它要檢查所有的 inode，現在 Ext4 給每個組的 inode 表中都添加了一份未使用 inode 的列表，今後 fsck Ext4 文件系統就可以跳過它們而只去檢查那些在用的 inode 了。
8. 日誌校驗。日誌是最常用的部分，也極易導致磁碟硬體故障，而從損壞的日誌中恢復數據會導致更多的數據損壞。Ext4 的日誌校驗功能可以很方便地判斷日誌數據是否損壞，而且它將 Ext3 的兩階段日誌機制合並成一個階段，在增加安全性的同時提高了性能。
9. 「無日誌」（No Journaling）模式。日誌總歸有一些開銷，Ext4 允許關閉日誌，以便某些有特殊需求的用戶可以藉此提升性能。
10. 在線碎片整理。盡管延遲分配、多塊分配和 extents 能有效減少文件系統碎片，但碎片還是不可避免會產生。Ext4 支持在線碎片整理，並將提供 e4defrag 工具進行個別文件或整個文件系統的碎片整理。
11. inode 相關特性。 Ext4 支持更大的 inode，較之 Ext3 默認的 inode 大小 128 位元組，Ext4 為了在 inode 中容納更多的擴展屬性（如納秒時間戳或 inode 版本），默認 inode 大小為 256 位元組。Ext4 還支持快速擴展屬性（fast extended attributes）和 inode 保留（inodes reservation）。
12. 持久預分配（Persistent preallocation）。 P2P 軟體為了保證下載文件有足夠的空間存放，常常會預先創建一個與所下載文件大小相同的空文件，以免未來的數小時或數天之內磁碟空間不足導致下載失敗。 Ext4 在文件系統層面實現了持久預分配並提供相應的 API（libc 中的 posix_fallocate()），比應用軟體自己實現更有效率。
13. 默認啟用 barrier。磁盤上配有內部緩存，以便重新調整批量數據的寫操作順序，優化寫入性能，因此文件系統必須在日誌數據寫入磁碟之後才能寫 commit 記錄，若 commit 記錄寫入在先，而日誌有可能損壞，那麼就會影響數據完整性。Ext4 默認啟用 barrier，只有當 barrier 之前的數據全部寫入磁碟，才能寫 barrier 之後的數據。（可通過 "mount -o barrier=0" 命令禁用該特性。）

B. Linux內存系統

維基網路——虛擬內存定義

All about Linux swap space

Linux將物理RAM （Random Access Memory）劃分為稱為頁面的內存塊。交換是將一頁內存復制到硬碟上的預配置空間（稱為交換空間）以釋放改內存頁面上的過程。物理內存和交換空間的組合就是可用的虛擬內存量。

虛擬內存的那點事兒

進程是與其他進程共享CPU和內存資源的。為了有效的管理內存並減少出錯，現代操作系統提供了一種對主存的抽象概念，即：虛擬內存（ Virtual Memory ）。 虛擬內存為每個進程提供一個一致的，私有的地址空間，每個進程擁有一片連續完整的內存空間。

正如維基網路所說，虛擬內存不只是「使用硬碟空間來擴展內存」的技術。 虛擬內存的重要意義是它定義了一個連續的虛擬地址空間， 使得程序編寫難度降低。並且，把內存擴展到硬碟空間只是使用虛擬內存的必然結果，虛擬內存空間會存在硬碟中，並且會被全部放入內存中緩沖（按需），有的操作系統還會在內存不夠的情況下，將一進程的內存全部放入硬碟空間中，並在切換到進程時再從硬碟讀取（這也是Windows會經常假死的原因...）。

虛擬內存主要提供了如下三個重要的能力：

內存通常被組織為一個由M個連續的位元組大小的單元組成的數組。每個位元組都有一個唯一的物理地址（Physical Address PA），作為到數組的索引。

CPU訪問內存最簡單直接的方法就是使用物理地址，這種定址方式稱為 物理定址 。

現代計算機使用的是一種被稱為虛擬定址（Virtual Addressing）的定址方式。 使用虛擬定址，CPU需要將虛擬地址翻譯成物理地址，這樣才能訪問到真實的物理內存。

虛擬定址需要硬體與操作系統之間相互合作。 CPU中含有一個被稱為內存管理單元（Memory Management Unit，MMU）的硬體，它的功能是將虛擬地址轉換稱為物理地址，MMU需要藉助存放在內存中的頁表來動態翻譯虛擬地址，該頁表由操作系統管理。

分頁表是一種數據結構，它用於計算機操作系統中虛擬內存系統，其存儲了虛擬地址到物理地址之間的映射。虛擬地址在訪問進程中是唯一的，而物理地址在硬體（比如內存）中是唯一的。

在操作系統中使用 虛擬內存 ，每個進程會認為使用一塊大的連續的內存，事實上，每個進程的內存散布在 物理內存 的不同區域。或者可能被調出到備份存儲中（一般是硬碟）。當一個進程請求自己的內存，操作系統負責把程序生成的虛擬地址，映射到實際存儲的物理內存上。操作系統在 分頁表 中存儲虛擬地址到物理地址的映射。每個映射被稱為 分頁表項（page table entry ,PTE） 。

在一個簡單的地址空間方案中，由虛擬地址定址的頁與物理內存中的幀之間的關系。物理內存可以包含屬於許多進程的頁。如果不經常使用，或者物理內存已滿，可以將頁面分頁到磁碟。在上圖中，並非所有頁面都在物理內存中。

虛擬地址到物理地址的轉換（即虛擬內存的管理）、內存保護、CPU高速緩存的控制。

現代的內存管理單元是以頁的方式，分割虛擬地址空間（處理器使用的地址范圍）的；頁的大小是2的n次方，通常為幾KB（位元組）。地址尾部的n位（頁大小的2的次方數）作為頁內的偏移量保持不變。其餘的地址位（address）為（虛擬）頁號。

內存管理單元通常藉助一種叫做轉譯旁觀緩沖器（Translation Lookaside Buffer，TLB）和相聯高速緩存來將虛擬頁號轉換為物理頁號。當後備緩沖器中沒有轉換記錄時，則使用一種較慢的機制，其中包括專用硬體的數據結構或軟體輔助手段。這個數據結構稱為 分頁表 ，頁表中的數據叫做 分頁表項 （page table entry PTE）。物理頁號結合頁偏移量便提供了完整的物理地址。

頁表或轉換後備緩沖器數據項應該包括的信息有：

有時候，TLB和PTE會 禁止對虛擬頁訪問 ，這可能是因為沒有RAM與虛擬頁相關聯。如果是這種情況，MMU將向CPU發出頁錯誤的信號，操作系統將進行處理，也許會尋找RAM的空白幀，同時建立一個新的PTE將之映射到所請求的虛擬地址。如果沒有空閑的RAM，可能必須關閉一個已經存在的頁面，使用一些替換演算法，將之保存到磁碟中（這被稱為頁面調度）。

當需要將虛擬地址轉換為物理地址時，首先搜索TLB，如果找到匹配（TLB）命中，則返回物理地址並繼續存儲器訪問。然而，如果沒有匹配（稱為TLB未命中），則MMU或操作系統TLB未命中處理器通常會查找頁表中的地址映射以查看是否存在映射（頁面遍歷），如果存在，則將其寫回TLB（這必須完成，因為硬體通過虛擬存儲器系統中的TLB訪問存儲器），並且重啟錯誤指令（這也可以並行發生）。此後續轉換找到TLB命中，並且內存訪問將繼續。

虛擬地址到物理地址的轉換過程，如果虛擬內存不存在與TLB，轉換會被重置並通過分頁表和硬體尋找。

通常情況下，用於處理此中斷的程序是操作系統的一部分。如果操作系統判斷此次訪問有效，那麼 操作系統會嘗試將相關的分頁從硬碟上的虛擬內存文件調入內存。 而如果訪問是不被允許的，那麼操作系統通常會結束相關的進程。

雖然叫做「頁缺失」錯誤，但實際上這並不一定是一種錯誤。而且這一機制是利用虛擬內存來增加程序可用內存空間。

發生這種情況的可能性：

當原程序再次需要該頁內的數據時，如果這一頁確實沒有被分配出去，那麼系統只需要重新為該頁在MMU內注冊映射即可。

操作系統需要：

硬性頁缺失導致的性能損失是很大的。
另外，有些操作系統會將程序的一部分延遲到需要使用的時候再載入入內存執行，以此提升性能。這一特性也是通過捕獲硬性頁缺失達到的。

當硬性頁缺失過於頻繁發生時，稱發生 系統顛簸。

具體動作與所使用的操作系統有關，比如Windows會使用異常機制向程序報告，而類Unix系統則使用信號機制。

盡管在整個運行過程中，程序引用不同的頁面總數（也就是虛擬內存大小）可能超出了物理存儲器（DRAM）總大小，但是程序常常在較小的活動頁面上活動，這個集合叫做工作集或者常駐集。在工作集被緩存後，對它的反復調用會使程序命中提高，從而提高性能。

大部分的程序都可以在存儲器獲取數據和讀取中達到穩定的狀態，當程序達到穩定狀態時，存儲器的使用量通常都不會太大。虛擬內存雖然可以有效率控制存儲器的使用， 但是大量的頁缺失還是造成了系統遲緩的主要因素。 當工作集的大小超過物理存儲器大小，程序將會發生一種不幸的情況，這種情況稱為 「顛簸」 ，頁面將不停的寫入、釋放、讀取，由於大量的丟失（而非命中）而損失極大性能。用戶可以增加隨機存取存儲器的大小或是減少同時在系統里運行程序的數量來降低系統顛簸的記錄。

推薦閱讀：

操作系統--分頁(一)

操作系統實現（二）：分頁和物理內存管理

C. linux ext4分區多大合理

這個完全取決於 linux系統的文件分區類型,比如 ext3 和ext4這兩種文件分區類型，Ext3目前所支持的最大16TB文件系統和最大2TB文件，Ext4分別支持1EB的文件系統，以及16TB的文件。

以下是Ext4和Ext3的特點和區別：Linuxkernel自2.6.28開始正式支持新的文件系統Ext4。Ext4是Ext3的改進版，修改了Ext3中部分重要的數據結構，而不僅僅像Ext3對Ext2那樣，只是增加了一個日誌功能而已。Ext4可以提供更佳的性能和可靠性，還有更為豐富的功能：
1.與Ext3兼容。執行若干條命令，就能從Ext3在線遷移到Ext4，而無須重新格式化磁碟或重新安裝系統。原有Ext3數據結構照樣保留，Ext4作用於新數據，當然，整個文件系統因此也就獲得了Ext4所支持的更大容量。
2.更大的文件系統和更大的文件。較之Ext3目前所支持的最大16TB文件系統和最大2TB文件，Ext4分別支持1EB（1,048,576TB，1EB=1024PB，1PB=1024TB）的文件系統，以及16TB的文件。
3.無限數量的子目錄。Ext3目前只支持32,000個子目錄，而Ext4支持無限數量的子目錄。4.Extents。Ext3採用間接塊映射，當操作大文件時，效率極其低下。比如一個100MB大小的文件，在Ext3中要建立25,600個數據塊（每個數據塊大小為4KB）的映射表。而Ext4引入了現代文件系統中流行的extents概念，每個extent為一組連續的數據塊，上述文件則表示為「該文件數據保存在接下來的25,600個數據塊中」，提高了不少效率。
5.多塊分配。當寫入數據到Ext3文件系統中時，Ext3的數據塊分配器每次只能分配一個4KB的塊，寫一個100MB文件就要調用25,600次數據塊分配器，而Ext4的多塊分配器「multiblockallocator」（mballoc）支持一次調用分配多個數據塊。
6.延遲分配。Ext3的數據塊分配策略是盡快分配，而Ext4和其它現代文件操作系統的策略是盡可能地延遲分配，直到文件在cache中寫完才開始分配數據塊並寫入磁碟，這樣就能優化整個文件的數據塊分配，與前兩種特性搭配起來可以顯著提升性能。
7.快速fsck。以前執行fsck第一步就會很慢，因為它要檢查所有的inode，現在Ext4給每個組的inode表中都添加了一份未使用inode的列表，今後fsckExt4文件系統就可以跳過它們而只去檢查那些在用的inode了。
8.日誌校驗。日誌是最常用的部分，也極易導致磁碟硬體故障，而從損壞的日誌中恢復數據會導致更多的數據損壞。Ext4的日誌校驗功能可以很方便地判斷日誌數據是否損壞，而且它將Ext3的兩階段日誌機制合並成一個階段，在增加安全性的同時提高了性能。
9.「無日誌」（NoJournaling）模式。日誌總歸有一些開銷，Ext4允許關閉日誌，以便某些有特殊需求的用戶可以藉此提升性能。
10.在線碎片整理。盡管延遲分配、多塊分配和extents能有效減少文件系統碎片，但碎片還是不可避免會產生。Ext4支持在線碎片整理，並將提供e4defrag工具進行個別文件或整個文件系統的碎片整理。
11.inode相關特性。Ext4支持更大的inode，較之Ext3默認的inode大小128位元組，Ext4為了在inode中容納更多的擴展屬性（如納秒時間戳或inode版本），默認inode大小為256位元組。Ext4還支持快速擴展屬性（fastextendedattributes）和inode保留（inodesreservation）。
12.持久預分配（Persistentpreallocation）。P2P軟體為了保證下載文件有足夠的空間存放，常常會預先創建一個與所下載文件大小相同的空文件，以免未來的數小時或數天之內磁碟空間不足導致下載失敗。Ext4在文件系統層面實現了持久預分配並提供相應的API（libc中的(posix_fallocate)），比應用軟體自己實現更有效率。
13.默認啟用barrier。磁碟上配有內部緩存，以便重新調整批量數據的寫操作順序，優化寫入性能，因此文件系統必須在日誌數據寫入磁碟之後才能寫commit記錄，若commit記錄寫入在先，而日誌有可能損壞，那麼就會影響數據完整性。Ext4默認啟用barrier，只有當barrier之前的數據全部寫入磁碟，才能寫barrier之後的數據。（可通過"mount-obarrier=0"命令禁用該特性。）

以上希望能幫到你。呵呵

D. 如何提高Linux伺服器磁碟io性能

您好，很高興為您解答。

在現有文件系統下進行優化：
linux內核和各個文件系統採用了幾個優化方案來提升磁碟訪問速度。但這些優化方案需要在我們的伺服器設計中進行配合才能得到充分發揮。
文件系統緩存
linux內核會將大部分空閑內存交給虛擬文件系統，來作為文件緩存，叫做page cache。在內存不足時，這部分內存會採用lru演算法進行淘汰。通過free命令查看內存，顯示為cached的部分就是文件緩存了。

如何針對性優化：
lru並不是一個優秀淘汰演算法，lru最大的優勢是普適性好，在各種使用場景下都能起到一定的效果。如果能找到當前使用場景下，文件被訪問的統計特徵，針對性的寫一個淘汰演算法，可以大幅提升文件緩存的命中率。對於http正向代理來說，一個好的淘汰演算法可以用1GB內存達到lru演算法100GB內存的緩存效果。如果不打算寫一個新的淘汰演算法，一般不需要在應用層再搭一個文件cache程序來做緩存。

最小分配：
當文件擴大，需要分配磁碟空間時，大部分文件系統不會僅僅只分配當前需要的磁碟空間，而是會多分配一些磁碟空間。這樣下次文件擴大時就可以使用已經分配好的空間，而不會頻繁的去分配新空間。
例如ext3下，每次分配磁碟空間時，最小是分配8KB。
最小分配的副作用是會浪費一些磁碟空間（分配了但是又沒有使用）

如何針對性優化：
我們在reiserfs下將最小分配空間從8KB改大到128K後提升了30%的磁碟io性能。如果當前使用場景下小文件很多，把預分配改大就會浪費很多磁碟空間，所以這個數值要根據當前使用場景來設定。似乎要直接改源代碼才能生效，不太記得了，09年的時候改的，有興趣的同學自己google吧。

io訪問調度：
在同時有多個io訪問時，linux內核可以對這些io訪問按LBA進行合並和排序，這樣磁頭在移動時，可以「順便」讀出移動過程中的數據。
SATA等磁碟甚至在磁碟中內置了io排序來進一步提升性能，一般需要在主板中進行配置才能啟動磁碟內置io排序。linux的io排序是根據LBA進行的，但LBA是一個一維線性地址，無法完全反應出二維的圓形磁碟，所以磁碟的內置io排序能達到更好的效果。

如何針對性優化：
io訪問調度能大幅提升io性能，前提是應用層同時發起了足夠的io訪問供linux去調度。
怎樣才能從應用層同時向內核發起多個io訪問呢？
方案一是用aio_read非同步發起多個文件讀寫請求。
方案二是使用磁碟線程池同時發起多個文件讀寫請求。
對我們的http正向代理來說，採用16個線程讀寫磁碟可以將性能提升到2.5倍左右。具體開多少個線程/進程，可以根據具體使用場景來決定。

小提示：
將文件句柄設置為非阻塞時，進程還是會睡眠等待磁碟io，非阻塞對於文件讀寫是不生效的。在正常情況下，讀文件只會引入十幾毫秒睡眠，所以不太明顯；而在磁碟io極大時，讀文件會引起十秒以上的進程睡眠。

預讀取：
linux內核可以預測我們「將來的讀請求」並提前將數據讀取出來。通過預讀取可以減少讀io的次數，並且減小讀請求的延時。

如何針對性優化：
預讀取的預測准確率是有限的，與其依賴預讀取，不如我們直接開一個較大的緩沖區，一次性將文件讀出來再慢慢處理；盡量不要開一個較小的緩沖區，循環讀文件/處理文件。
雖然說「預讀取」和「延遲分配」能起到類似的作用，但是我們自己擴大讀寫緩沖區效果要更好。

延遲分配：
當文件擴大，需要分配磁碟空間時，可以不立即進行分配，而是暫存在內存中，將多次分配磁碟空間的請求聚合在一起後，再進行一次性分配。
延遲分配的目的也是減少分配次數，從而減少文件不連續。

延遲分配的副作用有幾個：
1、如果應用程序每次寫數據後都通過fsync等介面進行強制刷新，延遲分配將不起作用
2、延遲分配有可能間歇性引入一個較大的磁碟IO延時（因為要一次性向磁碟寫入較多數據）
只有少數新文件系統支持這個特性

如何針對性優化：
如果不是對安全性（是否允許丟失）要求極高的數據，可以直接在應用程序里緩存起來，積累到一定大小再寫入，效果比文件系統的延遲分配更好。如果對安全性要求極高，建議經常用fsync強制刷新。

在線磁碟碎片整理：
Ext4提供了一款碎片整理工具，叫e4defrag，主要包含三個功能：
1、讓每個文件連續存儲
2、盡量讓每個目錄下的文件連續存儲
3、通過整理空閑磁碟空間，讓接下來的分配更不容易產生碎片

如何針對性優化：
「讓每個目錄下的文件連續存儲」是一個極有價值的功能。
傳統的做法是通過拼接圖片來將這10張圖片合並到一張大圖中，再由前端將大圖切成10張小圖。
有了e4defrag後，可以將需連續訪問的文件放在同一個文件夾下，再定期使用e4defrag進行磁碟整理。

實現自己的文件系統：
在大部分伺服器上，不需要支持「修改文件」這個功能。一旦文件創建好，就不能再做修改操作，只支持讀取和刪除。在這個前提下，我們可以消滅所有文件碎片，把磁碟io效率提升到理論極限。

有一個公式可以衡量磁碟io的效率：
磁碟利用率 = 傳輸時間/（平均尋道時間+傳輸時間）

如若滿意，請點擊回答右側【採納答案】，如若還有問題，請點擊【追問】

~ O(∩_∩)O~

導航:首頁 > 編程系統 > linux內存延遲分配

linux內存延遲分配

與linux內存延遲分配相關的資料

友情鏈接