『壹』 從ip addr add和ifconfig的區別看linux網卡ip地址的結構
如果你非常理解網路協議的原理以及網路的分層架構那麼我想你就不會有這個問題,實際上,每一個網卡設備都有一個mac地址,但是卻可 以有多個網路層地址,比如IP地址,然而這個事實無法很好地像用戶提供操作介面,所以就引出了ip別名(IP aliases)和輔助ip(secondary IP addresses)的概念。其實很容易理解這個事實,按照分層的思想,下層總是為上層服務,也就是為上層提供舞台,上層利用下層的服務,而不必讓下層知 道自己的情況,如果一個擁有合理mac地址的網卡沒有配置網路層地址(比如IP地址)這件事合理的話,那麼為這個設備配置多個IP地址也是合理的,正好像 一個ip可以對應多個應用層埠一樣,也就是說,下層對上層總是一對多的關系,在分層架構中這種關系是合理的。下面我們就看一下linux的網卡的ip地 址結構。剛才說了在linux中,一個網卡可以有多個IP,那麼這多個ip有什麼關系呢?其實這些ip組成了一個吊鏈結構,所謂吊鏈結構就是一些節點鏈接 成一條鏈,然後每個節點帶有自己的一條鏈
每個節點代表的ip地址標識一個網段,這個節點的ip就是這個網段的 Primary地址,它下面所帶的ip就是這個網段的Secondary地址,也就是說一個網卡可以帶有各個節點所帶鏈表長度之和個ip地址,而且這些 ip不是線形的,而是上述的吊鏈結構。我們看一下這么做有什麼好處。玩過Cisco路由器的朋友可能都知道有個Secondary IP的概念,這個特性可以創建邏輯子網,也就是說在一個物理網口上連接兩個子網,這咋看起來好像不可思議,其實很簡單,比如這個網口接到一台交換機上,如 果這個網口沒有配置Secondary IP的話,那麼這台交換機只能連接一個網段的主機,比如192.168.1.1/24,但是,如果它配置了Secondary IP,那麼就可以連接兩個網段的主機,比如192.168.1.1/24和10.0.0.1/24,道理就是這么簡單,但是卻很有用,該機制可以被路由匯 總策略所使用。注意上面這個例子中的Secondary IP不是這里說的linux的Secondary address,在linux中恰恰相反,只要一個網卡上配置的ip不是一個網段的,那麼都是Primary IP,就是吊鏈結構中上面的那條主鏈中的IP,linux中的Secondary address是主鏈結點的子鏈結點中的IP,這一點一定注意,概念是不能混淆的。前面說的只是吊鏈中主鏈的作用,那麼子鏈呢?其實想像一下也很簡單,比 如一台機器上運行著一個代理伺服器或者負載均衡服務,代理伺服器或者負載均衡服務和主伺服器要監聽相同的埠,那麼就可以用secondary address來解決了,只要需要在同一網段監聽同一個埠的應用都是吊鏈中子鏈存在的原因,因此可以說,主鏈對外部或者說對下面鏈路層虛擬了多塊網卡, 而子鏈向上層虛擬了多台機器,配置了吊鏈結構的linux主機如果說只有一塊網卡,那麼外部會認為它有多塊網卡,對於內部,應用層會認為彼此在不同的主機 上,這就是效果。
除了上面大體的介紹之外,還有很多細節,吊鏈在主鏈上是沒有主次的,子鏈除了第一個節點其它節點也不分主次,都是平行的關系,但是子鏈中的第一個節點總是 鏈接在主鏈中,它們攜帶的地址就是primary地址,它們下面隸屬的子鏈攜帶的地址就是這個primary地址的secondary地址,如此看來,一 旦主鏈上一個節點被刪除了,那麼它的子鏈也將不復存在,所謂皮之不存毛將焉附。但是這種策略總是顯得不是那麼優美,因為父親犯錯,兒子也要受連累,這在現 代社會早就不時行了,那麼就需要改變機制了,因此linux中特意有了一個選項,就是當一個primary地址被刪除時,如果它有secondary地址 的話,那麼它的第一個secondary地址(長子)繼承被刪除的primary地址的位置成為primary地址,這樣就顯得很合理了,要不然在刪除 primary地址的時候,如果有程序用secondary地址,那麼要麼延遲刪除,要麼程序崩潰,採用自動提升策略的話就不會出現問題。
至於說IP aliases,那是以前版本有的了,就是一個實現問題,解決的問題和現在的secondary IP機制一樣,它主要就是在物理網卡名字後面加上後綴從而成為虛擬網路介面,本質上和secondary IP機制沒有區別,區別就是IP aliases顯得不是那麼直觀,而secondary IP卻是真正讓應用看到了一個網卡的多個地址,比如你要是用IP aliases的話,有的時候你總是會問eth0:0是什麼?我就曾經在內核裡面拚命找eth0:0這個網路設備的注冊代碼,都要瘋掉了也沒有找到,其實 我並不是很傻,但是我卻因為那個該死的名字作出了傻事。
下面就可以看看linux內核的實現代碼了,首先弄明白一些數據結構,最重要的就是net_device,其次就是in_device,然後就是in_ifaddr,明白了這三個數據結構,一切就明白了,這是真的。
structnet_device
{
...
void*ip_ptr;//指向一個in_device結構,這欄位從net_device中分離表明一個網卡可以支持多種網路層協議的
...
}
structin_device
{
structnet_device*dev;//指向它隸屬的net_device,也就是網卡
atomic_trefcnt;//引用計數
intdead;
structin_ifaddr*ifa_list;//所有的ip地址鏈表
...
};
structin_ifaddr//代表一個ip地址
{
structin_ifaddr*ifa_next;//上面的in_device中的ifa_list欄位就是靠這個欄位連成鏈的
structin_device*ifa_dev;//回指in_device結構
structrcu_headrcu_head;
u32ifa_local;//ip地址
u32ifa_address;
u32ifa_mask;//掩碼
u32ifa_broadcast;//廣播地址
u32ifa_anycast;
unsignedcharifa_scope;
unsignedcharifa_flags;//只有IFA_F_SECONDARY標志,因為除了這個就是primary地址了
unsignedcharifa_prefixlen;
charifa_label[IFNAMSIZ];//名字,在ipaliases時代,它就可能是ethx:y的形式,在secondaryip時代,它統一就是ethx
};
注 意,上面的結構並沒有將linux網卡的ip地址結構表示為吊鏈結構,所謂的吊鏈結構只是邏輯上的,在數據結構上,一個網卡所有的ip地址全部都在 ifa_list中被鏈接成一個線性的鏈表,至於是primary地址還是secondary地址就看in_ifaddr的ifa_flags欄位了。每 當有新的地址被設置的時候,inet_insert_ifa總是被調用,linux為何沒有在代碼上將ip地址表示為吊鏈結構呢?我也不知道,個人感覺一 個net_device帶有一個primary ip鏈表,然後每個primary ip節點帶有一個secondary ip鏈表,這樣會更好一些的,我覺得inet_insert_ifa實現的十分拙劣。添加地址可以通過兩個用戶空間程序搞定,一個是ifconfig,另 一個是ip addr add,ifconfig是基於ioctl進行地址添加的,而ip程序是基於netlink進行地址添加的,不管哪一種方式都可以達到目的,現在就可以看 看另一個問題了:為何用ip addr add添加的ip地址用ifconfig看不到,而ifconfig設置的地址ip addr show卻是可以看到。這個問題通過看代碼一眼就可以明白,在ifconfig獲得ip地址的時候,代碼:
for(ifap=&in_dev->ifa_list;(ifa=*ifap)!=NULL;ifap=&ifa->ifa_next)
{
if(!strcmp(ifr.ifr_name,ifa->ifa_label)&&sin_orig.sin_addr.s_addr==ifa->ifa_address)
{
break;
}
}
取 的是這個被找到的ifa的ip地址,而我們知道,所有的ifa鏈接成一個線性鏈表,那麼找到了第一個就不會再往後走了,因此只能得到一個結果,就是鏈表最 前面的那個,而ip add show就不同了,具體在函數inet_mp_ifaddr中實現,該函數遍歷所有的ifa,並且傳到用戶空間緩沖區。這里可以做一個實驗:首先用 ip addr add添加幾個不在同一個網段的primary ip地址,然後再ifconfig一個和前面的ip都不在一個網段的ip,然後可以用ifconfig查看一下,發現不是剛剛用ifconfig設置進去 的那個ip,而是用ip addr add添加進去的,這就說明ifconfig永遠都是取的ifa鏈表最前面的那一個,還有一點要注意,就是如果你用ip addr add添加了很多的secondary ip地址,那麼恰好你用ifconfig設置的ip地址和那些secondary ip在一個網段,那麼所有的secondary ip都將被刪除,這些都是sencondary ip的規范決定的,而且在代碼中也有體現。另外還要注意,路由表的表項都是基於primary ip的,因為所有的操作都是以primary ip為主的,比如在添加路由的時候:
voidfib_add_ifaddr(structin_ifaddr*ifa)
{
structin_device*in_dev=ifa->ifa_dev;
structnet_device*dev=in_dev->dev;
structin_ifaddr*prim=ifa;
...
if(ifa->ifa_flags&IFA_F_SECONDARY){//如果ifa是個sencondary地址,那麼就找到它隸屬的primary地址後然後以這個primary為主進行設置
prim=inet_ifa_byprefix(in_dev,prefix,mask);
if(prim==NULL){
printk(KERN_DEBUG"fib_add_ifaddr:bug:prim==NULL/n");
return;
}
}
fib_magic(RTM_NEWROUTE,RTN_LOCAL,addr,32,prim);//添加進路由表
...
}
到 此為止我們知道了不少東西,最重要的就是linux中網卡ip地址的吊鏈結構以及這么設計的好處,另外就是設置ip地址的方式有ioctl和 netlink。其實網卡擁有多個ip並不會帶來什麼沖突,本質上ip和網卡沒有什麼關系,它們唯一的關系就是靠網路分層模型聯系在一起的,細節上就是靠 路由聯系在一起的,比如我添加路由的時候指定了一個目的地址和下一跳ip地址以及一個網卡出口,那麼內核會根據提供的目的地址將路由插在合式的位置,然後 將nh的網路設備設置為你提供的網卡出口,等到傳輸數據的時候就會查找路由從而找到出口,就是這么簡單,你自己手動設置的路由可以隨意設置,即使完全錯誤 內核也會將之加入路由表的,還有一種路由是內核自動生成的,就是在網卡剛剛up的時候,這時通過網卡的net_device找到其in_device然後 找到其ip地址,這樣的路由稱為鏈路路由。
通過secondary IP機制,你可以認為你的機器有很多網卡,對於應用,監聽同一埠的應用會認為它們在區域網中不同的機器上,你可以隨意使用這些ip地址而不會發生混亂,路由和底層的arp會處理好這一切,當然前提是你將路由設置對。
附: 用戶空間有ifup/ifdown,/sbin/ip,ifconfig,還有netplugd守護進程,這些有何關系嗎?這中間ip程序是最基本的,沒 有任何策略,策略就是參數指定,要麼就是別的程序調用它,而netplugd就是一個監控守護進程,通過netlink監控網卡狀態,然後根據不同的監控 結果調用/etc/netplug.d/netplug腳本,進而可能調用ifup/ifdown腳本,而後者就是腳本,其中會調用ifup-eth腳 本,最終整理好參數後調用ip程序(典型的就是:ip link set eth0 up/down),當然ip程序完全可以自己調用,比如ip addr add以及ip route add等等,而ifconfig沒有那麼繞圈子,就是通過ioctl進行設置,可以通過strace來觀察。這其中奧妙大了去了,說白了就是策略和機制分 離,另外還體現出linux中的很多功能都是很小的程序組合而成的。
Linux的ip地址的吊鏈結構以及ip地址的定址特性(詳見《關於IP網段間互訪的問題—路由是根本》)充分說明了linux的協議棧實現多麼的完美,完全符合分層和封裝模型,使得下層的邏輯和上層的邏輯完全解除耦合,也就是說ip層完全不依賴鏈路層以及物理層的物理布局,最後記住,ip層事情比如定址路由只由ip層實現,之所有有鏈路層發現的路由,完全是為了方便。