linuxskbuf_Linux TCP/IP協議棧數據包處理流程及代碼實現分析

1. linux 網路設備驅動完成數據包發送的流程

從網路設備驅動程序的結構分析可知，Linux網路子系統在發送數據包時，會調用驅動程序提供的hard_start_transmit()函數，該函數用於啟動數據包的發送。在設備初始化的時候，這個函數指針需被初始化以指向設備的xxx_tx (）函數。網路設備驅動完成數據包發送的流程如下：1）網路設備驅動程序從上層協議傳遞過來的sk_buff參數獲得數據包的有效數據和長度，將有效數據放入臨時緩沖區。2）對於乙太網，如果有效數據的長度小於乙太網沖突檢測所要求數據幀的最小長度ETH ZLEN，則給臨時緩沖區的末尾填充0。3）設置硬體的寄存器，驅使網路設備進行數據發送操作。特別要強調對netif_ stop_queue()的調用，當發送隊列為滿或因其他原因來不及發送當前上層傳下來的數據包時，則調用此函數阻止上層繼續向網路設備驅動傳遞數據包。當忙於發送的數據包被發送完成後，在以TX結束的中斷處理中，應該調用netif_wake_queue (）喚醒被阻塞的上層，以啟動它繼續向網路設備驅動傳送數據包。當數據傳輸超時時，意味著當前的發送操作失敗或硬體已陷入未知狀態，此時，數據包發送超時處理函數xxx _tx _timeout ()將被調用。這個函數也需要調用由Linux內核提供的netif_wake _queue()函數以重新啟動設備發送隊列。

2. 關於 Linux 網路，你必須知道這些

我們一起學習了文件系統和磁碟 I/O 的工作原理，以及相應的性能分析和優化方法。接下來，我們將進入下一個重要模塊—— Linux 的網路子系統。

由於網路處理的流程最復雜，跟我們前面講到的進程調度、中斷處理、內存管理以及 I/O 等都密不可分，所以，我把網路模塊作為最後一個資源模塊來講解。

同 CPU、內存以及 I/O 一樣，網路也是 Linux 系統最核心的功能。網路是一種把不同計算機或網路設備連接到一起的技術，它本質上是一種進程間通信方式，特別是跨系統的進程間通信，必須要通過網路才能進行。隨著高並發、分布式、雲計算、微服務等技術的普及，網路的性能也變得越來越重要。

說到網路，我想你肯定經常提起七層負載均衡、四層負載均衡，或者三層設備、二層設備等等。那麼，這里說的二層、三層、四層、七層又都是什麼意思呢？

實際上，這些層都來自國際標准化組織制定的開放式系統互聯通信參考模型（Open System Interconnection Reference Model），簡稱為 OSI 網路模型。

但是 OSI 模型還是太復雜了，也沒能提供一個可實現的方法。所以，在 Linux 中，我們實際上使用的是另一個更實用的四層模型，即 TCP/IP 網路模型。

TCP/IP 模型，把網路互聯的框架分為應用層、傳輸層、網路層、網路介面層等四層，其中，

為了幫你更形象理解 TCP/IP 與 OSI 模型的關系，我畫了一張圖，如下所示：

當然了，雖說 Linux 實際按照 TCP/IP 模型，實現了網路協議棧，但在平時的學習交流中，我們習慣上還是用 OSI 七層模型來描述。比如，說到七層和四層負載均衡，對應的分別是 OSI 模型中的應用層和傳輸層（而它們對應到 TCP/IP 模型中，實際上是四層和三層）。

OSI引入了服務、介面、協議、分層的概念，TCP/IP借鑒了OSI的這些概念建立TCP/IP模型。

OSI先有模型，後有協議，先有標准，後進行實踐；而TCP/IP則相反，先有協議和應用再提出了模型，且是參照的OSI模型。

OSI是一種理論下的模型，而TCP/IP已被廣泛使用，成為網路互聯事實上的標准。

有了 TCP/IP 模型後，在進行網路傳輸時，數據包就會按照協議棧，對上一層發來的數據進行逐層處理；然後封裝上該層的協議頭，再發送給下一層。

當然，網路包在每一層的處理邏輯，都取決於各層採用的網路協議。比如在應用層，一個提供 REST API 的應用，可以使用 HTTP 協議，把它需要傳輸的 JSON 數據封裝到 HTTP 協議中，然後向下傳遞給 TCP 層。

而封裝做的事情就很簡單了，只是在原來的負載前後，增加固定格式的元數據，原始的負載數據並不會被修改。

比如，以通過 TCP 協議通信的網路包為例，通過下面這張圖，我們可以看到，應用程序數據在每個層的封裝格式。

這些新增的頭部和尾部，增加了網路包的大小，但我們都知道，物理鏈路中並不能傳輸任意大小的數據包。網路介面配置的最大傳輸單元（MTU），就規定了最大的 IP 包大小。在我們最常用的乙太網中，MTU 默認值是 1500（這也是 Linux 的默認值）。

一旦網路包超過 MTU 的大小，就會在網路層分片，以保證分片後的 IP 包不大於 MTU 值。顯然，MTU 越大，需要的分包也就越少，自然，網路吞吐能力就越好。

理解了 TCP/IP 網路模型和網路包的封裝原理後，你很容易能想到，Linux 內核中的網路棧，其實也類似於 TCP/IP 的四層結構。如下圖所示，就是 Linux 通用 IP 網路棧的示意圖：

我們從上到下來看這個網路棧，你可以發現，

這里我簡單說一下網卡。網卡是發送和接收網路包的基本設備。在系統啟動過程中，網卡通過內核中的網卡驅動程序注冊到系統中。而在網路收發過程中，內核通過中斷跟網卡進行交互。

再結合前面提到的 Linux 網路棧，可以看出，網路包的處理非常復雜。所以，網卡硬中斷只處理最核心的網卡數據讀取或發送，而協議棧中的大部分邏輯，都會放到軟中斷中處理。

我們先來看網路包的接收流程。

當一個網路幀到達網卡後，網卡會通過 DMA 方式，把這個網路包放到收包隊列中；然後通過硬中斷，告訴中斷處理程序已經收到了網路包。

接著，網卡中斷處理程序會為網路幀分配內核數據結構（sk_buff），並將其拷貝到 sk_buff 緩沖區中；然後再通過軟中斷，通知內核收到了新的網路幀。

接下來，內核協議棧從緩沖區中取出網路幀，並通過網路協議棧，從下到上逐層處理這個網路幀。比如，

最後，應用程序就可以使用 Socket 介面，讀取到新接收到的數據了。

為了更清晰表示這個流程，我畫了一張圖，這張圖的左半部分表示接收流程，而圖中的粉色箭頭則表示網路包的處理路徑。

了解網路包的接收流程後，就很容易理解網路包的發送流程。網路包的發送流程就是上圖的右半部分，很容易發現，網路包的發送方向，正好跟接收方向相反。

首先，應用程序調用 Socket API（比如 sendmsg）發送網路包。

由於這是一個系統調用，所以會陷入到內核態的套接字層中。套接字層會把數據包放到 Socket 發送緩沖區中。

接下來，網路協議棧從 Socket 發送緩沖區中，取出數據包；再按照 TCP/IP 棧，從上到下逐層處理。比如，傳輸層和網路層，分別為其增加 TCP 頭和 IP 頭，執行路由查找確認下一跳的 IP，並按照 MTU 大小進行分片。

分片後的網路包，再送到網路介面層，進行物理地址定址，以找到下一跳的 MAC 地址。然後添加幀頭和幀尾，放到發包隊列中。這一切完成後，會有軟中斷通知驅動程序：發包隊列中有新的網路幀需要發送。

最後，驅動程序通過 DMA ，從發包隊列中讀出網路幀，並通過物理網卡把它發送出去。

多台伺服器通過網卡、交換機、路由器等網路設備連接到一起，構成了相互連接的網路。由於網路設備的異構性和網路協議的復雜性，國際標准化組織定義了一個七層的 OSI 網路模型，但是這個模型過於復雜，實際工作中的事實標准，是更為實用的 TCP/IP 模型。

TCP/IP 模型，把網路互聯的框架，分為應用層、傳輸層、網路層、網路介面層等四層，這也是 Linux 網路棧最核心的構成部分。

我結合網路上查閱的資料和文章中的內容，總結了下網卡收發報文的過程，不知道是否正確：

當發送數據包時，與上述相反。鏈路層將數據包封裝完畢後，放入網卡的DMA緩沖區，並調用系統硬中斷，通知網卡從緩沖區讀取並發送數據。

了解 Linux 網路的基本原理和收發流程後，你肯定迫不及待想知道，如何去觀察網路的性能情況。具體而言，哪些指標可以用來衡量 Linux 的網路性能呢？

實際上，我們通常用帶寬、吞吐量、延時、PPS（Packet Per Second）等指標衡量網路的性能。

除了這些指標，網路的可用性（網路能否正常通信）、並發連接數（TCP 連接數量）、丟包率（丟包百分比）、重傳率（重新傳輸的網路包比例）等也是常用的性能指標。

分析網路問題的第一步，通常是查看網路介面的配置和狀態。你可以使用 ifconfig 或者 ip 命令，來查看網路的配置。我個人更推薦使用 ip 工具，因為它提供了更豐富的功能和更易用的介面。

以網路介面 eth0 為例，你可以運行下面的兩個命令，查看它的配置和狀態：

你可以看到，ifconfig 和 ip 命令輸出的指標基本相同，只是顯示格式略微不同。比如，它們都包括了網路介面的狀態標志、MTU 大小、IP、子網、MAC 地址以及網路包收發的統計信息。

第一，網路介面的狀態標志。ifconfig 輸出中的 RUNNING ，或 ip 輸出中的 LOWER_UP ，都表示物理網路是連通的，即網卡已經連接到了交換機或者路由器中。如果你看不到它們，通常表示網線被拔掉了。

第二，MTU 的大小。MTU 默認大小是 1500，根據網路架構的不同（比如是否使用了 VXLAN 等疊加網路），你可能需要調大或者調小 MTU 的數值。

第三，網路介面的 IP 地址、子網以及 MAC 地址。這些都是保障網路功能正常工作所必需的，你需要確保配置正確。

第四，網路收發的位元組數、包數、錯誤數以及丟包情況，特別是 TX 和 RX 部分的 errors、dropped、overruns、carrier 以及 collisions 等指標不為 0 時，通常表示出現了網路 I/O 問題。其中：

ifconfig 和 ip 只顯示了網路介面收發數據包的統計信息，但在實際的性能問題中，網路協議棧中的統計信息，我們也必須關注。你可以用 netstat 或者 ss ，來查看套接字、網路棧、網路介面以及路由表的信息。

我個人更推薦，使用 ss 來查詢網路的連接信息，因為它比 netstat 提供了更好的性能（速度更快）。

比如，你可以執行下面的命令，查詢套接字信息：

netstat 和 ss 的輸出也是類似的，都展示了套接字的狀態、接收隊列、發送隊列、本地地址、遠端地址、進程 PID 和進程名稱等。

其中，接收隊列（Recv-Q）和發送隊列（Send-Q）需要你特別關注，它們通常應該是 0。當你發現它們不是 0 時，說明有網路包的堆積發生。當然還要注意，在不同套接字狀態下，它們的含義不同。

當套接字處於連接狀態（Established）時，

當套接字處於監聽狀態（Listening）時，

所謂全連接，是指伺服器收到了客戶端的 ACK，完成了 TCP 三次握手，然後就會把這個連接挪到全連接隊列中。這些全連接中的套接字，還需要被 accept() 系統調用取走，伺服器才可以開始真正處理客戶端的請求。

與全連接隊列相對應的，還有一個半連接隊列。所謂半連接是指還沒有完成 TCP 三次握手的連接，連接只進行了一半。伺服器收到了客戶端的 SYN 包後，就會把這個連接放到半連接隊列中，然後再向客戶端發送 SYN+ACK 包。

類似的，使用 netstat 或 ss ，也可以查看協議棧的信息：

這些協議棧的統計信息都很直觀。ss 只顯示已經連接、關閉、孤兒套接字等簡要統計，而 netstat 則提供的是更詳細的網路協議棧信息。

比如，上面 netstat 的輸出示例，就展示了 TCP 協議的主動連接、被動連接、失敗重試、發送和接收的分段數量等各種信息。

接下來，我們再來看看，如何查看系統當前的網路吞吐量和 PPS。在這里，我推薦使用我們的老朋友 sar，在前面的 CPU、內存和 I/O 模塊中，我們已經多次用到它。

給 sar 增加 -n 參數就可以查看網路的統計信息，比如網路介面（DEV）、網路介面錯誤（EDEV）、TCP、UDP、ICMP 等等。執行下面的命令，你就可以得到網路介面統計信息：

這兒輸出的指標比較多，我來簡單解釋下它們的含義。

其中，Bandwidth 可以用 ethtool 來查詢，它的單位通常是 Gb/s 或者 Mb/s，不過注意這里小寫字母 b ，表示比特而不是位元組。我們通常提到的千兆網卡、萬兆網卡等，單位也都是比特。如下你可以看到，我的 eth0 網卡就是一個千兆網卡：

其中，Bandwidth 可以用 ethtool 來查詢，它的單位通常是 Gb/s 或者 Mb/s，不過注意這里小寫字母 b ，表示比特而不是位元組。我們通常提到的千兆網卡、萬兆網卡等，單位也都是比特。如下你可以看到，我的 eth0 網卡就是一個千兆網卡：

我們通常使用帶寬、吞吐量、延時等指標，來衡量網路的性能；相應的，你可以用 ifconfig、netstat、ss、sar、ping 等工具，來查看這些網路的性能指標。

小狗同學問到：老師，您好 ss —lntp 這個當session處於listening中 rec-q 確定是 syn的backlog嗎？
A: Recv-Q為全連接隊列當前使用了多少。中文資料里這個問題講得最明白的文章： https://mp.weixin.qq.com/s/yH3PzGEFopbpA-jw4MythQ

看了源碼發現，這個地方講的有問題.關於ss輸出中listen狀態套接字的Recv-Q表示全連接隊列當前使用了多少,也就是全連接隊列的當前長度,而Send-Q表示全連接隊列的最大長度

3. Linux系統編程—消息隊列

消息隊列本質上是位於內核空間的鏈表，鏈表的每個節點都是一條消息。每一條消息都有自己的消息類型，消息類型用整數來表示，而且必須大於 0。每種類型的消息都被對應的鏈表所維護：

其中數字 1 表示類型為 1 的消息，數字2、3、4 類似。彩色塊表示消息數據，它們被掛在對應類型的鏈表上。

值得注意的是，剛剛說過沒有消息類型為 0 的消息，實際上，消息類型為 0 的鏈表記錄了所有消息加入隊列的順序，其中紅色箭頭表示消息加入的順序。

無論你是發送還是接收消息，消息的格式都必須按照規范來。簡單的說，它一般長成下面這個樣子：

所以，只要你保證首4位元組(32 位 linux 下的 long)是一個整數就行了。
舉個例子：

從上面可以看出，正文部分是什麼數據類型都沒關系，因為消息隊列傳遞的是 2 進制數據，不一定非得是文本。

msgsnd 函數用於將數據發送到消息隊列。如果該函數被信號打斷，會設置 errno 為 EINTR。

參數 msqid：ipc 內核對象 id
參數 msgp：消息數據地址
參數 msgsz：消息正文部分的大小（不包含消息類型）
參數 msgflg：可選項
該值為 0：如果消息隊列空間不夠，msgsnd 會阻塞。
IPC_NOWAIT：直接返回，如果空間不夠，會設置 errno 為 EAGIN.

返回值：0 表示成功，-1 失敗並設置 errno。

msgrcv 函數從消息隊列取出消息後，並將其從消息隊列里刪除。

參數 msqid：ipc 內核對象 id
參數 msgp：用來接收消息數據地址
參數 msgsz：消息正文部分的大小（不包含消息類型）
參數 msgtyp：指定獲取哪種類型的消息

msgtyp = 0：獲取消息隊列中的第一條消息
msgtyp > 0：獲取類型為 msgtyp 的第一條消息，除非指定了 msgflg 為MSG_EXCEPT，這表示獲取除了 msgtyp 類型以外的第一條消息。
msgtyp < 0：獲取類型 ≤|msgtyp|≤|msgtyp| 的第一條消息。
參數 msgflg：可選項。
如果為 0 表示沒有消息就阻塞。
IPC_NOWAIT：如果指定類型的消息不存在就立即返回，同時設置 errno 為 ENOMSG
MSG_EXCEPT：僅用於 msgtyp > 0 的情況。表示獲取類型不為 msgtyp 的消息
MSG_NOERROR：如果消息數據正文內容大於 msgsz，就將消息數據截斷為 msgsz

程序 msg_send 和 msg_recv 分別用於向消息隊列發送數據和接收數據。

msg_send 程序定義了一個結構體 Msg，消息正文部分是結構體 Person。該程序向消息隊列發送了 10 條消息。
msg_send.c

程序 msg_send 第一次運行完後，內核中的消息隊列大概像下面這樣：

msg_recv 程序接收一個參數，表示接收哪種類型的消息。比如./msg_recv 4 表示接收類型為 4 的消息，並列印在屏幕。

先運行 msg_send，再運行 msg_recv。
接收所有消息

接收類型為 4 的消息

獲取和設置消息隊列的屬性

msqid：消息隊列標識符
cmd：控制指令
IPC_STAT:獲得msgid的消息隊列頭數據到buf中
IPC_SET：設置消息隊列的屬性，要設置的屬性需先存儲在buf中，可設置的屬性包括：msg_perm.uid、msg_perm.gid、msg_perm.mode以及msg_qbytes
buf：消息隊列管理結構體。

返回值：
成功：0
出錯：-1，錯誤原因存於error中
EACCESS：參數cmd為IPC_STAT，確無許可權讀取該消息隊列
EFAULT：參數buf指向無效的內存地址
EIDRM：標識符為msqid的消息隊列已被刪除
EINVAL：無效的參數cmd或msqid
EPERM：參數cmd為IPC_SET或IPC_RMID，卻無足夠的許可權執行

4. 詳解Linux系統內存知識及調優方案

內存是計算機中重要的部件之一，它是與CPU進行溝通的橋梁。計算機中所有程序的運行都是在內存中進行的，因此內存的性能對計算機的影響非常大。內存作用是用於暫時存放CPU中的運算數據，以及與硬碟等外部存儲器交換的數據。只要計算機在運行中，CPU就會把需要運算的數據調到內存中進行運算，當運算完成後CPU再將結果傳送出來，內存的運行也決定了計算機的穩定運行。對於整個操作系統來說，內存可能是最麻煩的的設備。而其性能的好壞直接影響著整個操作系統。

我們知道CPU是不能與硬碟打交道的，只有數據被載入到內存中才可以被CPU調用。cpu在訪問內存的時候需要先像內存監控程序請求，由監控程序控制和分配內存的讀寫請求，這個監控程序叫做MMU(內存管理單元)。下面以32位系統來說明內存的訪問過程：

32位的系統上每一個進程在訪問內存的時候，每一個進程都當做自己有4個G的內存空間可用，這叫虛擬內存(地址)，虛擬內存轉化成物理內存是通過MMU來完成的。為了能夠從線性地址轉換成物理地址，需要page table(頁表)的內存空間,page table要載入到MMU上。為了完成線性地址到物理地址的映射，如果按照1個位元組1個位元組映射的話，需要一張非常大的表，這種轉換關系會非常的復雜。因此把內存空間又劃分成了另外一種存儲單元格式，通常為4K。在不同的硬體平台上，它們的大小一般是不一樣的，像x86 32位的有4k的頁;而64位的有4k頁，2M頁，4M頁，8M頁等等，默認都是4k的。每一個進程一般而言都有自己的頁路徑和頁表映射機制，不管那一個頁表都是由內核載入的。每一個進程只能看到自己的線性地址空間，想要增加新的內存的時候，只能在自己的線性地址空間中申請，並且申請後一定是通過操作系統的內核映射到物理地址空間中去找那麼一段空間，並且告訴線性地址空間准備好了，可以訪問，並且在page table中增加一條映射關系，於是就可以訪問物理內存了，這種叫做內存分配。但是新的申請一定是通過操作的內核到物理內存中去找那麼一段空間，並且告訴線性地址空間好了，可以建設映射關系，最終page table建立映射關系。

這反映了上述描述過程的大體情況。可以看到每一個用戶程序都會有自己的頁表，並且映射到對應的主存儲器上去。

根據上述文字和圖表的描述可以發現2個問題：

1.每個進程如果需要訪問內存的時候都需要去查找page table的話，勢必會造成伺服器的性能底下

2.如果主存儲器的內存滿了以後，應用程序還需要調用內存的時候怎麼辦

對於第一個問題，我們就需要藉助TLB(Translation Lookaside Buffer)翻譯後備緩沖器。TLB是一個內存管理單元，它可以用於改進虛擬地址到物理地址轉換速度的緩存。這樣每次在查找page table的時候就可以先去TLB中查找相應的頁表數據，如果有就直接返回，沒有再去查找page table，並把查找到的結果緩存中TLB中。TLB雖然解決了緩存的功能，但是在那麼page table中查找映射關系仍然很慢，所以又有了page table的分級目錄。page table可以分為1級目錄，2級目錄和偏移量

但是一個進程在運行的時候要頻繁的打開文件，關閉文件。這就意味著要頻繁的申請內存和釋放內存。有些能夠在內存中緩存數據的那些進程，他們對內存的分配和回收更多，那麼每一次分配都會在頁表中建立一個對應項。所以，就算內存的速度很快，大量頻繁的同一時間分配和釋放內存，依然會降低伺服器的整體性能。當然內存空間不夠用的時候，我們稱為oom(out of memory,內存耗盡)。當內存耗盡的時候，，整個操作系統掛了。這種情況下我們可以考慮交換分區，交換分區畢竟是由硬碟虛擬出來的內存，所以其性能與真正的內存相比，差了很多，所以要盡力避免使用交換分區。有物理內存空間的時候盡量保證全部使用物理內存。cpu無論如何是不能給交換內存打交道的，它也只能給物理內存打交道，能定址的空間也只能是物理內存。所以當真正物理內存空間不夠用的時候，會通過LRU演算法把其中最近最少使用的內存放到交換內存中去，這樣物理內存中的那段空間就可以供新的程序使用了。但是這樣會引發另外的一個問題，即原來的進程通過page table尋找的時候，那一段空間的數據已經不屬於它了。所以此刻cpu發送通知或者異常告訴這個程序，這個地址空間已不屬於它，這個時候可能會出現2種情況：

1.物理內存有可用的空間可用：這個時候cpu會根據以前的轉換策略會把交換分區中的那段內存重新送到物理內存中去，但是轉換過來的空間地址不一定會是以前的那一段空間地址，因為以前的那一段空間地址可能已經被別人使用了。

2.物理內存沒有可用的空間可用：這個時候依然會使用LRU算發把當前物理地址空間上最近最少使用的空間地址轉換到交換內存中去，並把當前進程需要的這斷在交換空間中的內存送到物理內存空間中去，並且重新建立映射關系。

上述通知或者異常出現的情況，通常叫做缺頁異常。缺頁異常也分為大異常和小異常兩種。大異常就是訪問的數據內存中沒有，不的不去硬碟上載入，無論是從交換內存中還是直接從磁碟的某個文件系統上，反正需要從硬碟上去載入，這種異常載入需要很長時間。小異常就是進程之間通過共享內存，第二個進程訪問的時候，查看本地的內存映射表沒有，但是其它進程已經擁有了這個內存頁，所以可以直接映射，這種異常載入需要的時間一般很短。

在操作系統開機的時候，每一個io設備都會像cpu申請一些列的隨機埠，這種埠叫做io埠。在IBM PC體系結構中，I/O地址空間一共提供了65,536個8位的I/O埠。正是這些io埠的存在，cpu可以與io設備進行讀寫交互的過程。在執行讀寫操作時，CPU使用地址匯流排選擇所請求的I/O埠，使用數據匯流排在CPU寄存器和埠之間傳送數據。I/O埠還可以被映射到物理地址空間：因此，處理器和I/O設備之間的通信就可以直接使用對內存進行操作的匯編語言指令(例如，mov、and、or等等)。現代的硬體設備更傾向於映射I/O，因為這樣處理的速度較快，並可以和DMA結合起來使用。這樣io在和內存傳數據的時候就不需要通過cpu，cpu把匯流排的控制權交給DMA，每次io傳數據的時候就調用DMA一次，就把cpu給解放了出來。當數據傳輸完了以後，DMA通知給cpu中斷一次。DMA在運行的時候對整個匯流排有控制許可權，當cpu發現有其它進程需要使用匯流排的時候，二者就會產生爭用。這個時候，在匯流排控制權的使用上，CPU和DMA具有相等的許可權。只要CPU委託給了DMA，就不能隨意的收回這個委託，就要等待DMA的用完。

如果沒有其它進程可以運行，或者其它進程運行的時間非常短，這個時候CPU發現我們的IO仍然沒有完成，那就意味著，CPU只能等待IO了。CPU在時間分配裡面有個iowait的值，就是CPU在等待IO花費的時間。有些是在同步調用過程中，CPU必須要等待IO的完成;否者CPU可以釋放IO的傳輸在背後自動完成，CPU自己去處理其它的事情。等硬碟數據傳輸完成以後，硬碟只需要像CPU發起一個通知即可。CPU外圍有一種設備，這個設備叫做可編程中斷控制器。每一個硬體設備為了給CPU通信，在剛開機的時候，在BIOS實現檢測的時候，這個設備就要到可編程中斷控制器上去注冊一個所謂的中斷號。那麼這個號碼就歸這個硬體使用了。當前主機上可能有多個硬體，每一個硬體都有自己的號碼，CPU在收到中斷號以後，就能夠通過中斷相量表查找到那個硬體設備進行中斷。並且就由對應的IO埠過來處理了。

CPU正在運行其它進程，當一個中斷請求發過來的時候，CPU會立即終止當前正在處理的進程，而去處理中斷。當前CPU掛起當前正在處理的進程，轉而去執行中斷的過程，也叫做中斷切換。只不過，這種切換在量級別上比進程切換要低一些，而且任何中斷的優先順序通常比任何進程也要高，因為我們指的是硬體中斷。中斷還分為上半部和下半部，一般而言，上半部就是CPU在處理的時候，把它接進來，放到內存中，如果這個事情不是特別緊急(CPU或者內核會自己判斷)，因此在這種情況下，CPU回到現場繼續執行剛才掛起的進程，當這個進程處理完了，再回過頭來執行中斷的下半部分。

在32位系統中，我們的內存(線性地址)地址空間中，一般而言，低地址空間有一個G是給內核使用的，上面3個G是給進程使用的。但是應該明白，其實在內核內存當中，再往下，不是直接這樣劃分的。32位系統和64位系統可能不一樣(物理地址)，在32位系統中，最低端有那麼10多M的空間是給DMA使用的。DNA的匯流排寬度是很小的，可能只有幾位，所以定址能力很有限，訪問的內存空間也就很有限。如果DMA需要復制數據，而且自己能夠定址物理內存，還可以把數據直接壯哉進內存中去，那麼就必須保證DMA能夠定址那段內存才行。定址的前提就是把最低地址斷M，DA的定址范圍內的那一段給了DMA。所以站在這個角度來說，我們的內存管理是分區域的。

在32位系統上，16M的內存空間給了ZONE_DMA(DMA使用的物理地址空間);從16M到896M給了ZONE_NORMAL(正常物理地址空間)，對於Linux操作系統來說，是內核可以直接訪問的地址空間;從896M到1G這斷空間叫做"Reserved"(預留的物理地址空間);從1G到4G的這段物理地址空間中，我們的內核是不能直接訪問的，要想訪問必須把其中的一段內容映射到Reserved來，在Reserved中保留出那一段內存的地址編碼，我們內核才能上去訪問，所以內核不直接訪問大於1G的物理地址空間。所以在32位系統上，它訪問內存當中的數據，中間是需要一個額外步驟的。

在64位系統上，ZONE_DAM給了低端的1G地址空間，這個時候DMA的定址能力被大大加強了;ZONE_DAM32可以使用4G的空間;而大於1G以上給劃分了ZONE_NORMAL,這段空間都可以被內核直接訪問。所以在64位上，內核訪問大於1G的內存地址，就不需要額外的步驟了，效率和性能上也大大增加，這也就是為什麼要使用64位系統的原因。

在現在的PC架構上，AMD,INTER都支持一種機制，叫做PEA(物理地址擴展)。所謂PAE。指的是在32位系統的地址匯流排上，又擴展了4位，使得32位系統上的地址空間可以達到64G。當然在32為系統上，不管你的物理內存有多大，單個進程所使用的空間是無法擴展的。因為在32位的系統上，線性地址空間只有4個G，而單個進程能夠識別的訪問也只有3個G。

linux的虛擬內存子系統包含了以下幾個功能模塊：

slab allocator,zoned buddy allocator,MMU,kswapd,bdflush

slab allocator叫做slab分配器

buddy allocator又叫做buddy system，叫做夥伴系統，也是一種內存分配器

buddy system是工作在MMU之上的，而slab allocator又是工作在buddy system之上的。

設置為小於等於1G，在資料庫伺服器應該勁量避免使用交換內存

3.在應用伺服器上，可以設置為RAM*0.5，當然這個是理論值

如果不的不使用交換內存，應該把交換內存放到最靠外的磁軌分區上，因為最外邊的磁碟的訪問速度最快。所以如果有多塊硬碟，可以把每塊硬碟的最外層的磁軌拿一小部分出來作為交換分區。交換分區可以定義優先順序，因此把這些硬碟的交換內存的優先順序設置為一樣，可以實現負載均衡的效果。定義交換分區優先順序的方法為編輯/etc/fstab：

/dev/sda1 swap swap pri=5 0 0

/dev/sdb1 swap swap pri=5 0 0

/dev/sdc1 swap swap pri=5 0 0

/dev/sdd1 swap swap pri=5 0 0

四.內存耗盡時候的相關調優參數

當Linux內存耗盡的時候，它會殺死那些佔用內存最多的進程，以下三種情況會殺死進程：

1.所有的進程都是活動進程，這個時候想交換出去都沒有空閑的進程

2.沒有可用的page頁在ZONE_NORMAL中

3.有其它新進程啟動，申請內存空間的時候，要找一個空閑內存給做映射，但是這個時候找不到了

一旦內存耗盡的時候，操作系統就會啟用oom-kill機制。

在/proc/PID/目錄下有一個文件叫做oom_score,就是用來指定oom的評分的，就是壞蛋指數。

如果要手動啟用oom-kill機制的話，只需要執行echo f>/proc/sysrq-trigger即可，它會自動殺掉我們指定的壞蛋指數評分最高的那個進程

可以通過echo n > /proc/PID/oom_adj來調整一個進程的壞蛋評分指數。最終的評分指數就是2的oom_adj的值的N次方。假如我們的一個進程的oom_adj的值是5，那麼它的壞蛋評分指數就是2的5次方。

如果想禁止oom-kill功能的使用可以使用vm.panic_on_oom=1即可。

五.與容量有關的內存調優參數：

overcommit_memory,可用參數有3個，規定是否能夠過量使用內存：

0：默認設置，內核執行啟發式的過量使用處理

1：內核執行無內存的過量使用處理。使用這個值會增大內存超載的可能性

2：內存的使用量等於swap的大小+RAM*overcommit_ratio的值。如果希望減小內存的過度使用，這個值是最安全的

overcommit_ratio:將overcommit_memory指定為2時候，提供的物理RAM比例，默認為50

六.與通信相關的調優參數

常見在同一個主機中進行進程間通信的方式：

1.通過消息message;2.通過signal信號量進行通信;3.通過共享內存進行通信，跨主機常見的通信方式是rpc

以消息的方式實現進程通信的調優方案：

msgmax:以位元組為單位規定消息隊列中任意消息的最大允許大小。這個值一定不能超過該隊列的大小(msgmnb)，默認值為65536

msgmnb:以位元組為單位規定單一消息隊列的最大值(最大長度)。默認為65536位元組

msgmni:規定消息隊列識別符的最大數量(及隊列的最大數量)。64位架構機器的默認值為1985;32位架構機器的默認值為1736

以共享內存方式實現進程通信的調優方案：

shmall:以位元組為單位規定一次在該系統中可以使用的共享內存總量(單次申請的上限)

shmmax:以位元組為單位規定每一個共享內存片段的最大大小

shmmni:規定系統范圍內最大共享內存片段。在64和32位的系統上默認值都是4096

七.與容量相關的文件系統可調優參數：

file-max:列出內核分配的文件句柄的最大值

dirty_ratio:規定百分比值，當臟數據達到系統內存總數的這個百分比值後開始執行pdflush,默認為20

dirty_background_ratio:規定百分比值，當某一個進程自己所佔用的臟頁比例達到系統內存總數的這個百分比值後開始在後台執行pdflush，默認為10

dirty_expire_centisecs:pdlush每隔百分之一秒的時間開啟起來刷新臟頁，默認值為3000，所以每隔30秒起來開始刷新臟頁

dirty_writeback_centisecs:每隔百分之一秒開始刷新單個臟頁。默認值為500，所以一個臟頁的存在時間達到了5秒，就開始刷新臟

八.linux內存常用的觀察指標命令：

Memory activity

vmstat [interval] [count]

sar -r [interval] [count]

Rate of change in memory

sar -R [interval] [count]

frmpg/s:每秒釋放或者分配的內存頁，如果為正數，則為釋放的內存頁;如果為負數，則為分配的內存頁

bufpg/s:每秒buffer中獲得或者釋放的內存頁。如果為正數則為獲得的內存頁，為負數。則為釋放的內存頁

campg/s:每秒cache中獲得或者釋放的內存頁。如果為正數則為獲得的內存頁，為負數。則為釋放的內存頁

Swap activity

sar -W [interval] [count]

ALL IO

sar -B [interval] [count]

pgpgin/s:每秒從磁碟寫入到內核的塊數量

pgpgout/s:每秒從內核寫入到磁碟的塊數量

fault/s:每秒鍾出現的缺頁異常的個數

majflt/s:每秒鍾出現的大頁異常的個數

pgfree/s:每秒回收回來的頁面個數

5. Linux TCP/IP協議棧數據包處理流程及代碼實現分析

好吧復，我來回答吧，首先制是網卡驅動程序捕獲到數據包，做檢驗無誤後，和DMA以及CPU交互，然後由DMA和驅動程序創建BD表，然後分配skbuf（LINUX下）數據結構保存獲得的數據幀，內核通過協議棧處理這個skbuf，通常是層層剝離每個層的首部，然後傳到上一層，細節就是一個變數做偏移量，每次做一個首部偏移讀取首部數據，識別本層協議類型以及下一層協議類型，具體過程就是這個網路原理的過程，請參考《TCP/IP詳解卷一》《linux設備驅動程序》《understanding linux network internals》《Unix網路編程卷一》等。

6. Linux內核中sk_buff結構詳解

sk_buff是Linux網路中最核心的結構體，它用來管理和控制接收或發送數據包的信息。各層協議都依賴於sk_buff而存在。內核中sk_buff結構體在各層協議之間傳輸不是用拷貝sk_buff結構體，而是通過增加協議頭和移動指針來操作的。如果是從L4傳輸到L2，則是通過往sk_buff結構體中增加該層協議頭來操作；如果是從L4到L2，則是通過移動sk_buff結構體中的data指針來實現，不會刪除各層協議頭。這樣做是為了提高CPU的工作效率。

skb_buff結構如下所示：

這里要聲明兩個概念的區別，後續直接用這兩個概念，注意區分：
（1）線性數據：head - end。
（2）實際線性數據：data - tail，不包含線性數據中的頭空間和尾空間。
skb->data_len : skb中的分片數據（非線性數據）的長度。
skb->len : skb中的數據塊的總長度，數據塊包括實際線性數據和非線性數據，非線性數據為data_len，所以skb->len= (data - tail) + data_len。
skb->truesize : skb的總長度，包括sk_buff結構和數據部分，skb=sk_buff控制信息 + 線性數據（包括頭空間和尾空間） + skb_shared_info控制信息 + 非線性數據，所以skb->truesize = sizeof(struct sk_buff) + (head - end) + sizeof(struct skb_shared_info) + data_len。

sk_buff結構體中的都是sk_buff的控制信息，是網路數據包的一些配置，真正儲存數據的是sk_buff結構體中幾個指針指向的數據區中，線性數據區的大小 = (skb->end - skb->head)，對於每個數據包來說這個大小都是固定不變的，在傳輸過程中skb->end和skb->head所指向的地址都是不變的，這里要注意這個地址不是本機的地址，如果是本機的地址那麼數據包傳到其他主機上這個地址就是無效的，所以這個地址是這個skb緩沖區的相對地址。

線性數據區是用來存放各層協議頭部和應用層發下來的數據。各層協議頭部相關信息放在線性數據區中。實際數據指針為data和tail，data指向實際數據開始的地方，tail指向實際數據結束的地方。
用一張圖來表示sk_buff和數據區的關系：

這一節介紹先行數據區在sk_buff創建過程中的變化，圖中暫時省略了非線性數據區：

2.1中所講的都是線性數據區中的相關的配置，當線性數據區不夠用的時候就會啟用非線性數據區作為數據區域的擴展，skb中用skb_shared_info分片結構體來配置非線性數據。

skb_shared_info結構體是和skb中的線性數據區一體的，所以在skb的各種操作時都會把這兩個結構看作是一個結構來操作。如：

skb_shared_info結構：

非線性數據區有兩種不同的構成數據的方式
（1）用數組存儲的分片數據區，採用是是結構體中的frags[MAX_SKB_FRAGS]
對於frags[]一般用在當數據比較多，在線性數據區裝不下的時候，skb_frag_t中是一頁一頁的數據，skb_frag_struct結構體如下：

下圖顯示了frags是怎麼分配分片數據的：

（2）frag_list指針來指向的分片數據：

參考：

導航:首頁 > 編程系統 > linuxskbuf

linuxskbuf

與linuxskbuf相關的資料

友情鏈接