linux内存延迟分配_如何提高Linux服务器磁盘io性能

A. linux基本磁盘的优缺点

Ext3日志文件系统特点
1、高可用性
系统使用了ext3文件系统后，即使在非正常关机后，系统也不需要检查文件系统。宕机发生后，恢复ext3文件系统的时间只要数十秒钟。
2、数据的完整性
ext3文件系统能够极大地提高文件系统的完整性，避免了意外宕机对文件系统的破坏。在保证数据完整性方面，ext3文件系统有2种模式可供选择。其中之一就是“同时保持文件系统及数据的一致性”模式。采用这种方式，你永远不再会看到由于非正常关机而存储在磁盘上的垃圾文件。
3、文件系统的速度
尽管使用ext3文件系统时，有时在存储数据时可能要多次写数据，但是，从总体上看来，ext3比ext2的性能还要好一些。这是因为ext3的日志功能对磁盘的驱动器读写头进行了优化。所以，文件系统的读写性能较之Ext2文件系统并来说，性能并没有降低。
4、数据转换

[1]由ext2文件系统转换成ext3文件系统非常容易，只要简单地键入两条命令即可完成整个转换过程，用户不用花时间备份、恢复、格式化分区等。用一个ext3文件系统提供的小工具tune2fs，它可以将ext2文件系统轻松转换为ext3日志文件系统。另外，ext3文件系统可以不经任何更改，而直接加载成为ext2文件系统。
5、多种日志模式
Ext3有多种日志模式，一种工作模式是对所有的文件数据及metadata（定义文件系统中数据的数据,即数据的数据）进行日志记录（data=journal模式）；另一种工作模式则是只对metadata记录日志，而不对数据进行日志记录，也即所谓data=ordered或者data=writeback模式。系统管理人员可以根据系统的实际工作要求，在系统的工作速度与文件数据的一致性之间作出选择。
相对于Ext3,特点如下：
1. 与 Ext3 兼容。执行若干条命令，就能从 Ext3 在线迁移到 Ext4，而无须重新格式化磁盘或重新安装系统。原有 Ext3 数据结构照样保留，Ext4 作用于新数据，当然，整个文件系统因此也就获得了 Ext4 所支持的更大容量。
2. 更大的文件系统和更大的文件。较之 Ext3 目前所支持的最大 16TB 文件系统和最大 2TB 文件，Ext4 分别支持 1EB（1,048,576TB， 1EB=1024PB， 1PB=1024TB）的文件系统，以及 16TB 的文件。
3. 无限数量的子目录。 Ext3 目前只支持 32,000 个子目录，而 Ext4 支持无限数量的子目录。
4. Extents。 Ext3 采用间接块映射，当操作大文件时，效率极其低下。比如一个 100MB 大小的文件，在 Ext3 中要建立 25,600 个数据块（每个数据块大小为 4KB）的映射表。而 Ext4 引入了现代文件系统中流行的 extents 概念，每个 extent 为一组连续的数据块，上述文件则表示为“该文件数据保存在接下来的 25,600 个数据块中”，提高了不少效率。
5. 多块分配。当写入数据到 Ext3 文件系统中时，Ext3 的数据块分配器每次只能分配一个 4KB 的块，写一个 100MB 文件就要调用 25,600 次数据块分配器，而 Ext4 的多块分配器“multiblock allocator”（mballoc）支持一次调用分配多个数据块。
6. 延迟分配。 Ext3 的数据块分配策略是尽快分配，而 Ext4 和其它现代文件操作系统的策略是尽可能地延迟分配，直到文件在 cache 中写完才开始分配数据块并写入磁盘，这样就能优化整个文件的数据块分配，与前两种特性搭配起来可以显著提升性能。
7. 快速 fsck。以前执行 fsck 第一步就会很慢，因为它要检查所有的 inode，现在 Ext4 给每个组的 inode 表中都添加了一份未使用 inode 的列表，今后 fsck Ext4 文件系统就可以跳过它们而只去检查那些在用的 inode 了。
8. 日志校验。日志是最常用的部分，也极易导致磁盘硬件故障，而从损坏的日志中恢复数据会导致更多的数据损坏。Ext4 的日志校验功能可以很方便地判断日志数据是否损坏，而且它将 Ext3 的两阶段日志机制合并成一个阶段，在增加安全性的同时提高了性能。
9. “无日志”（No Journaling）模式。日志总归有一些开销，Ext4 允许关闭日志，以便某些有特殊需求的用户可以借此提升性能。
10. 在线碎片整理。尽管延迟分配、多块分配和 extents 能有效减少文件系统碎片，但碎片还是不可避免会产生。Ext4 支持在线碎片整理，并将提供 e4defrag 工具进行个别文件或整个文件系统的碎片整理。
11. inode 相关特性。 Ext4 支持更大的 inode，较之 Ext3 默认的 inode 大小 128 字节，Ext4 为了在 inode 中容纳更多的扩展属性（如纳秒时间戳或 inode 版本），默认 inode 大小为 256 字节。Ext4 还支持快速扩展属性（fast extended attributes）和 inode 保留（inodes reservation）。
12. 持久预分配（Persistent preallocation）。 P2P 软件为了保证下载文件有足够的空间存放，常常会预先创建一个与所下载文件大小相同的空文件，以免未来的数小时或数天之内磁盘空间不足导致下载失败。 Ext4 在文件系统层面实现了持久预分配并提供相应的 API（libc 中的 posix_fallocate()），比应用软件自己实现更有效率。
13. 默认启用 barrier。磁盘上配有内部缓存，以便重新调整批量数据的写操作顺序，优化写入性能，因此文件系统必须在日志数据写入磁盘之后才能写 commit 记录，若 commit 记录写入在先，而日志有可能损坏，那么就会影响数据完整性。Ext4 默认启用 barrier，只有当 barrier 之前的数据全部写入磁盘，才能写 barrier 之后的数据。（可通过 "mount -o barrier=0" 命令禁用该特性。）

B. Linux内存系统

维基网络——虚拟内存定义

All about Linux swap space

Linux将物理RAM （Random Access Memory）划分为称为页面的内存块。交换是将一页内存复制到硬盘上的预配置空间（称为交换空间）以释放改内存页面上的过程。物理内存和交换空间的组合就是可用的虚拟内存量。

虚拟内存的那点事儿

进程是与其他进程共享CPU和内存资源的。为了有效的管理内存并减少出错，现代操作系统提供了一种对主存的抽象概念，即：虚拟内存（ Virtual Memory ）。 虚拟内存为每个进程提供一个一致的，私有的地址空间，每个进程拥有一片连续完整的内存空间。

正如维基网络所说，虚拟内存不只是“使用硬盘空间来扩展内存”的技术。 虚拟内存的重要意义是它定义了一个连续的虚拟地址空间， 使得程序编写难度降低。并且，把内存扩展到硬盘空间只是使用虚拟内存的必然结果，虚拟内存空间会存在硬盘中，并且会被全部放入内存中缓冲（按需），有的操作系统还会在内存不够的情况下，将一进程的内存全部放入硬盘空间中，并在切换到进程时再从硬盘读取（这也是Windows会经常假死的原因...）。

虚拟内存主要提供了如下三个重要的能力：

内存通常被组织为一个由M个连续的字节大小的单元组成的数组。每个字节都有一个唯一的物理地址（Physical Address PA），作为到数组的索引。

CPU访问内存最简单直接的方法就是使用物理地址，这种寻址方式称为 物理寻址 。

现代计算机使用的是一种被称为虚拟寻址（Virtual Addressing）的寻址方式。 使用虚拟寻址，CPU需要将虚拟地址翻译成物理地址，这样才能访问到真实的物理内存。

虚拟寻址需要硬件与操作系统之间相互合作。 CPU中含有一个被称为内存管理单元（Memory Management Unit，MMU）的硬件，它的功能是将虚拟地址转换称为物理地址，MMU需要借助存放在内存中的页表来动态翻译虚拟地址，该页表由操作系统管理。

分页表是一种数据结构，它用于计算机操作系统中虚拟内存系统，其存储了虚拟地址到物理地址之间的映射。虚拟地址在访问进程中是唯一的，而物理地址在硬件（比如内存）中是唯一的。

在操作系统中使用 虚拟内存 ，每个进程会认为使用一块大的连续的内存，事实上，每个进程的内存散布在 物理内存 的不同区域。或者可能被调出到备份存储中（一般是硬盘）。当一个进程请求自己的内存，操作系统负责把程序生成的虚拟地址，映射到实际存储的物理内存上。操作系统在 分页表 中存储虚拟地址到物理地址的映射。每个映射被称为 分页表项（page table entry ,PTE） 。

在一个简单的地址空间方案中，由虚拟地址寻址的页与物理内存中的帧之间的关系。物理内存可以包含属于许多进程的页。如果不经常使用，或者物理内存已满，可以将页面分页到磁盘。在上图中，并非所有页面都在物理内存中。

虚拟地址到物理地址的转换（即虚拟内存的管理）、内存保护、CPU高速缓存的控制。

现代的内存管理单元是以页的方式，分割虚拟地址空间（处理器使用的地址范围）的；页的大小是2的n次方，通常为几KB（字节）。地址尾部的n位（页大小的2的次方数）作为页内的偏移量保持不变。其余的地址位（address）为（虚拟）页号。

内存管理单元通常借助一种叫做转译旁观缓冲器（Translation Lookaside Buffer，TLB）和相联高速缓存来将虚拟页号转换为物理页号。当后备缓冲器中没有转换记录时，则使用一种较慢的机制，其中包括专用硬件的数据结构或软件辅助手段。这个数据结构称为 分页表 ，页表中的数据叫做 分页表项 （page table entry PTE）。物理页号结合页偏移量便提供了完整的物理地址。

页表或转换后备缓冲器数据项应该包括的信息有：

有时候，TLB和PTE会 禁止对虚拟页访问 ，这可能是因为没有RAM与虚拟页相关联。如果是这种情况，MMU将向CPU发出页错误的信号，操作系统将进行处理，也许会寻找RAM的空白帧，同时建立一个新的PTE将之映射到所请求的虚拟地址。如果没有空闲的RAM，可能必须关闭一个已经存在的页面，使用一些替换算法，将之保存到磁盘中（这被称为页面调度）。

当需要将虚拟地址转换为物理地址时，首先搜索TLB，如果找到匹配（TLB）命中，则返回物理地址并继续存储器访问。然而，如果没有匹配（称为TLB未命中），则MMU或操作系统TLB未命中处理器通常会查找页表中的地址映射以查看是否存在映射（页面遍历），如果存在，则将其写回TLB（这必须完成，因为硬件通过虚拟存储器系统中的TLB访问存储器），并且重启错误指令（这也可以并行发生）。此后续转换找到TLB命中，并且内存访问将继续。

虚拟地址到物理地址的转换过程，如果虚拟内存不存在与TLB，转换会被重置并通过分页表和硬件寻找。

通常情况下，用于处理此中断的程序是操作系统的一部分。如果操作系统判断此次访问有效，那么 操作系统会尝试将相关的分页从硬盘上的虚拟内存文件调入内存。 而如果访问是不被允许的，那么操作系统通常会结束相关的进程。

虽然叫做“页缺失”错误，但实际上这并不一定是一种错误。而且这一机制是利用虚拟内存来增加程序可用内存空间。

发生这种情况的可能性：

当原程序再次需要该页内的数据时，如果这一页确实没有被分配出去，那么系统只需要重新为该页在MMU内注册映射即可。

操作系统需要：

硬性页缺失导致的性能损失是很大的。
另外，有些操作系统会将程序的一部分延迟到需要使用的时候再加载入内存执行，以此提升性能。这一特性也是通过捕获硬性页缺失达到的。

当硬性页缺失过于频繁发生时，称发生 系统颠簸。

具体动作与所使用的操作系统有关，比如Windows会使用异常机制向程序报告，而类Unix系统则使用信号机制。

尽管在整个运行过程中，程序引用不同的页面总数（也就是虚拟内存大小）可能超出了物理存储器（DRAM）总大小，但是程序常常在较小的活动页面上活动，这个集合叫做工作集或者常驻集。在工作集被缓存后，对它的反复调用会使程序命中提高，从而提高性能。

大部分的程序都可以在存储器获取数据和读取中达到稳定的状态，当程序达到稳定状态时，存储器的使用量通常都不会太大。虚拟内存虽然可以有效率控制存储器的使用， 但是大量的页缺失还是造成了系统迟缓的主要因素。 当工作集的大小超过物理存储器大小，程序将会发生一种不幸的情况，这种情况称为 “颠簸” ，页面将不停的写入、释放、读取，由于大量的丢失（而非命中）而损失极大性能。用户可以增加随机存取存储器的大小或是减少同时在系统里运行程序的数量来降低系统颠簸的记录。

推荐阅读：

操作系统--分页(一)

操作系统实现（二）：分页和物理内存管理

C. linux ext4分区多大合理

这个完全取决于 linux系统的文件分区类型,比如 ext3 和ext4这两种文件分区类型，Ext3目前所支持的最大16TB文件系统和最大2TB文件，Ext4分别支持1EB的文件系统，以及16TB的文件。

以下是Ext4和Ext3的特点和区别：Linuxkernel自2.6.28开始正式支持新的文件系统Ext4。Ext4是Ext3的改进版，修改了Ext3中部分重要的数据结构，而不仅仅像Ext3对Ext2那样，只是增加了一个日志功能而已。Ext4可以提供更佳的性能和可靠性，还有更为丰富的功能：
1.与Ext3兼容。执行若干条命令，就能从Ext3在线迁移到Ext4，而无须重新格式化磁盘或重新安装系统。原有Ext3数据结构照样保留，Ext4作用于新数据，当然，整个文件系统因此也就获得了Ext4所支持的更大容量。
2.更大的文件系统和更大的文件。较之Ext3目前所支持的最大16TB文件系统和最大2TB文件，Ext4分别支持1EB（1,048,576TB，1EB=1024PB，1PB=1024TB）的文件系统，以及16TB的文件。
3.无限数量的子目录。Ext3目前只支持32,000个子目录，而Ext4支持无限数量的子目录。4.Extents。Ext3采用间接块映射，当操作大文件时，效率极其低下。比如一个100MB大小的文件，在Ext3中要建立25,600个数据块（每个数据块大小为4KB）的映射表。而Ext4引入了现代文件系统中流行的extents概念，每个extent为一组连续的数据块，上述文件则表示为“该文件数据保存在接下来的25,600个数据块中”，提高了不少效率。
5.多块分配。当写入数据到Ext3文件系统中时，Ext3的数据块分配器每次只能分配一个4KB的块，写一个100MB文件就要调用25,600次数据块分配器，而Ext4的多块分配器“multiblockallocator”（mballoc）支持一次调用分配多个数据块。
6.延迟分配。Ext3的数据块分配策略是尽快分配，而Ext4和其它现代文件操作系统的策略是尽可能地延迟分配，直到文件在cache中写完才开始分配数据块并写入磁盘，这样就能优化整个文件的数据块分配，与前两种特性搭配起来可以显著提升性能。
7.快速fsck。以前执行fsck第一步就会很慢，因为它要检查所有的inode，现在Ext4给每个组的inode表中都添加了一份未使用inode的列表，今后fsckExt4文件系统就可以跳过它们而只去检查那些在用的inode了。
8.日志校验。日志是最常用的部分，也极易导致磁盘硬件故障，而从损坏的日志中恢复数据会导致更多的数据损坏。Ext4的日志校验功能可以很方便地判断日志数据是否损坏，而且它将Ext3的两阶段日志机制合并成一个阶段，在增加安全性的同时提高了性能。
9.“无日志”（NoJournaling）模式。日志总归有一些开销，Ext4允许关闭日志，以便某些有特殊需求的用户可以借此提升性能。
10.在线碎片整理。尽管延迟分配、多块分配和extents能有效减少文件系统碎片，但碎片还是不可避免会产生。Ext4支持在线碎片整理，并将提供e4defrag工具进行个别文件或整个文件系统的碎片整理。
11.inode相关特性。Ext4支持更大的inode，较之Ext3默认的inode大小128字节，Ext4为了在inode中容纳更多的扩展属性（如纳秒时间戳或inode版本），默认inode大小为256字节。Ext4还支持快速扩展属性（fastextendedattributes）和inode保留（inodesreservation）。
12.持久预分配（Persistentpreallocation）。P2P软件为了保证下载文件有足够的空间存放，常常会预先创建一个与所下载文件大小相同的空文件，以免未来的数小时或数天之内磁盘空间不足导致下载失败。Ext4在文件系统层面实现了持久预分配并提供相应的API（libc中的(posix_fallocate)），比应用软件自己实现更有效率。
13.默认启用barrier。磁盘上配有内部缓存，以便重新调整批量数据的写操作顺序，优化写入性能，因此文件系统必须在日志数据写入磁盘之后才能写commit记录，若commit记录写入在先，而日志有可能损坏，那么就会影响数据完整性。Ext4默认启用barrier，只有当barrier之前的数据全部写入磁盘，才能写barrier之后的数据。（可通过"mount-obarrier=0"命令禁用该特性。）

以上希望能帮到你。呵呵

D. 如何提高Linux服务器磁盘io性能

您好，很高兴为您解答。

在现有文件系统下进行优化：
linux内核和各个文件系统采用了几个优化方案来提升磁盘访问速度。但这些优化方案需要在我们的服务器设计中进行配合才能得到充分发挥。
文件系统缓存
linux内核会将大部分空闲内存交给虚拟文件系统，来作为文件缓存，叫做page cache。在内存不足时，这部分内存会采用lru算法进行淘汰。通过free命令查看内存，显示为cached的部分就是文件缓存了。

如何针对性优化：
lru并不是一个优秀淘汰算法，lru最大的优势是普适性好，在各种使用场景下都能起到一定的效果。如果能找到当前使用场景下，文件被访问的统计特征，针对性的写一个淘汰算法，可以大幅提升文件缓存的命中率。对于http正向代理来说，一个好的淘汰算法可以用1GB内存达到lru算法100GB内存的缓存效果。如果不打算写一个新的淘汰算法，一般不需要在应用层再搭一个文件cache程序来做缓存。

最小分配：
当文件扩大，需要分配磁盘空间时，大部分文件系统不会仅仅只分配当前需要的磁盘空间，而是会多分配一些磁盘空间。这样下次文件扩大时就可以使用已经分配好的空间，而不会频繁的去分配新空间。
例如ext3下，每次分配磁盘空间时，最小是分配8KB。
最小分配的副作用是会浪费一些磁盘空间（分配了但是又没有使用）

如何针对性优化：
我们在reiserfs下将最小分配空间从8KB改大到128K后提升了30%的磁盘io性能。如果当前使用场景下小文件很多，把预分配改大就会浪费很多磁盘空间，所以这个数值要根据当前使用场景来设定。似乎要直接改源代码才能生效，不太记得了，09年的时候改的，有兴趣的同学自己google吧。

io访问调度：
在同时有多个io访问时，linux内核可以对这些io访问按LBA进行合并和排序，这样磁头在移动时，可以“顺便”读出移动过程中的数据。
SATA等磁盘甚至在磁盘中内置了io排序来进一步提升性能，一般需要在主板中进行配置才能启动磁盘内置io排序。linux的io排序是根据LBA进行的，但LBA是一个一维线性地址，无法完全反应出二维的圆形磁盘，所以磁盘的内置io排序能达到更好的效果。

如何针对性优化：
io访问调度能大幅提升io性能，前提是应用层同时发起了足够的io访问供linux去调度。
怎样才能从应用层同时向内核发起多个io访问呢？
方案一是用aio_read异步发起多个文件读写请求。
方案二是使用磁盘线程池同时发起多个文件读写请求。
对我们的http正向代理来说，采用16个线程读写磁盘可以将性能提升到2.5倍左右。具体开多少个线程/进程，可以根据具体使用场景来决定。

小提示：
将文件句柄设置为非阻塞时，进程还是会睡眠等待磁盘io，非阻塞对于文件读写是不生效的。在正常情况下，读文件只会引入十几毫秒睡眠，所以不太明显；而在磁盘io极大时，读文件会引起十秒以上的进程睡眠。

预读取：
linux内核可以预测我们“将来的读请求”并提前将数据读取出来。通过预读取可以减少读io的次数，并且减小读请求的延时。

如何针对性优化：
预读取的预测准确率是有限的，与其依赖预读取，不如我们直接开一个较大的缓冲区，一次性将文件读出来再慢慢处理；尽量不要开一个较小的缓冲区，循环读文件/处理文件。
虽然说“预读取”和“延迟分配”能起到类似的作用，但是我们自己扩大读写缓冲区效果要更好。

延迟分配：
当文件扩大，需要分配磁盘空间时，可以不立即进行分配，而是暂存在内存中，将多次分配磁盘空间的请求聚合在一起后，再进行一次性分配。
延迟分配的目的也是减少分配次数，从而减少文件不连续。

延迟分配的副作用有几个：
1、如果应用程序每次写数据后都通过fsync等接口进行强制刷新，延迟分配将不起作用
2、延迟分配有可能间歇性引入一个较大的磁盘IO延时（因为要一次性向磁盘写入较多数据）
只有少数新文件系统支持这个特性

如何针对性优化：
如果不是对安全性（是否允许丢失）要求极高的数据，可以直接在应用程序里缓存起来，积累到一定大小再写入，效果比文件系统的延迟分配更好。如果对安全性要求极高，建议经常用fsync强制刷新。

在线磁盘碎片整理：
Ext4提供了一款碎片整理工具，叫e4defrag，主要包含三个功能：
1、让每个文件连续存储
2、尽量让每个目录下的文件连续存储
3、通过整理空闲磁盘空间，让接下来的分配更不容易产生碎片

如何针对性优化：
“让每个目录下的文件连续存储”是一个极有价值的功能。
传统的做法是通过拼接图片来将这10张图片合并到一张大图中，再由前端将大图切成10张小图。
有了e4defrag后，可以将需连续访问的文件放在同一个文件夹下，再定期使用e4defrag进行磁盘整理。

实现自己的文件系统：
在大部分服务器上，不需要支持“修改文件”这个功能。一旦文件创建好，就不能再做修改操作，只支持读取和删除。在这个前提下，我们可以消灭所有文件碎片，把磁盘io效率提升到理论极限。

有一个公式可以衡量磁盘io的效率：
磁盘利用率 = 传输时间/（平均寻道时间+传输时间）

如若满意，请点击回答右侧【采纳答案】，如若还有问题，请点击【追问】

~ O(∩_∩)O~

导航:首页 > 编程系统 > linux内存延迟分配

linux内存延迟分配

与linux内存延迟分配相关的资料

友情链接