linux协议栈实现分析_Linux TCP/IP协议栈数据包处理流程及代码实现分析

① 关于linux学习路线的问题请教前辈

很多同学接触Linux不多，对Linux平台的开发更是一无所知。而现在的趋势越来越表明，作为一个优秀的软件开发人员，或计算机IT行业从业人员，掌握Linux是一种很重要的谋生资源与手段。下来我将会结合自己的几年的个人开发经验，及对 Linux，更是类UNIX系统，及开源软件文化，谈谈Linux的学习方法与学习中应该注意的一些事。
就如同刚才说的，很多同学以前可能连Linux是什么都不知道，对UNIX更是一无所知。所以我们从最基础的讲起，对于Linux及UNIX的历史我们不做多谈，直接进入入门的学习。
Linux入门是很简单的，问题是你是否有耐心，是否爱折腾，是否不排斥重装一类的大修。没折腾可以说是学不好Linux的，鸟哥说过，要真正了解Linux的分区机制，对LVM使用相当熟练，没有20次以上的Linux装机经验是积累不起来的，所以一定不要怕折腾。
由于大家之前都使用Windows，所以我也尽可能照顾这些“菜鸟”。我的推荐，如果你第一次接触Linux，那么首先在虚拟机中尝试它。虚拟机我推荐Virtual Box，我并不主张使用VM，原因是VM是闭源的，并且是收费的，我不希望推动盗版。当然如果你的Money足够多，可以尝试VM，但我要说的是即使是VM，不一定就一定好。付费的软件不一定好。首先，Virtual Box很小巧，Windows平台下安装包在80MB左右，而VM动辄600MB，虽然功能强大，但资源消耗也多，何况你的需求Virtual Box完全能够满足。所以，还是自己选。如何使用虚拟机，是你的事，这个我不教你，因为很简单，不会的话Google或Bai都可以，英文好的可以直接看官方文档。
现在介绍Linux发行版的知识。正如你所见，Linux发行版并非Linux，Linux仅是指操作系统的内核，作为科班出生的你不要让我解释，我也没时间。我推荐的发行版如下：
UBUNTU适合纯菜鸟，追求稳定的官方支持，对系统稳定性要求较弱，喜欢最新应用，相对来说不太喜欢折腾的开发者。
Debian，相对UBUNTU难很多的发行版，突出特点是稳定与容易使用的包管理系统，缺点是企业支持不足，为社区开发驱动。
Arch，追逐时尚的开发者的首选，优点是包更新相当快，无缝升级，一次安装基本可以一直运作下去，没有如UBUNTU那样的版本概念，说的专业点叫滚动升级，保持你的系统一定是最新的。缺点显然易见，不稳定。同时安装配置相对Debian再麻烦点。
Gentoo，相对Arch再难点，考验使用者的综合水平，从系统安装到微调，内核编译都亲历亲为，是高手及黑客显示自己技术手段，按需配置符合自己要求的系统的首选。
Slackware与Gentoo类似。
CentOS，社区维护的RedHat的复刻版本，完全使用RedHat的源码重新编译生成，与RedHat的兼容性在理论上来说是最好的。如果你专注于Linux服务器，如网络管理，架站，那么CentOS是你的选择。
LFS，终极黑客显摆工具，完全从源代码安装，编译系统。安装前你得到的只有一份文档，你要做的就是照文档你的说明，一步步，一条条命令，一个个软件包的去构建你的Linux，完全由你自己控制，想要什么就是什么。如果你做出了LFS，证明你的Linux功底已经相当不错，如果你能拿LFS文档活学活用，再将Linux从源代码开始移植到嵌入式系统，我敢说中国的企业你可以混的很好。
你得挑一个适合你的系统，然后在虚拟机安装它，开始使用它。如果你想快速学会Linux，我有一个建议就是忘记图形界面，不要想图形界面能不能提供你问题的答案，而是满世界的去找，去问，如何用命令行解决你的问题。在这个过程中，你最好能将Linux的命令掌握的不错，起码常用的命令得知道，同时建立了自己的知识库，里面是你积累的各项知识。
再下个阶段，你需要学习的是Linux平台的C/C++开发，同时还有Bash脚本编程，如果你对Java兴趣很深还有Java。同样，建议你抛弃掉图形界面的IDE，从VIM开始，为什么是VIM，而不是Emacs，我无意挑起编辑器大战，但我觉得VIM适合初学者，适合手比较笨，脑袋比较慢的开发者。Emacs的键位太多，太复杂，我很畏惧。然后是GCC，Make，Eclipse（Java，C++或者）。虽然将C++列在了Eclipse中，但我并不推荐用IDE开发C++，因为这不是Linux的文化，容易让你忽略一些你应该注意的问题。IDE让你变懒，懒得跟猪一样。如果你对程序调试，测试工作很感兴趣，GDB也得学的很好，如果不是GDB也是必修课。这是开发的第一步，注意我并没有提过一句Linux系统API的内容，这个阶段也不要关心这个。你要做的就是积累经验，在Linux平台的开发经验。我推荐的书如下：C语言程序设计，谭浩强的也可以。C语言，白皮书当然更好。C++推荐C++ Primer Plus，Java我不喜欢，就不推荐了。工具方面推荐VIM的官方手册，GCC中文文档，GDB中文文档，GNU开源软件开发指导（电子书），汇编语言程序设计（让你对库，链接，内嵌汇编，编译器优化选项有初步了解，不必深度）。
如果你这个阶段过不了就不必往下做了，这是底线，最基础的基础，否则离开，不要霍霍Linux开发。不专业的Linux开发者作出的程序是与Linux文化或UNIX文化相背的，程序是走不远的，不可能像Bash，VIM这些神品一样。所以做不好干脆离开。
接下来进入Linux系统编程，不二选择，APUE，UNIX环境高级编程，一遍一遍的看，看10遍都嫌少，如果你可以在大学将这本书翻烂，里面的内容都实践过，有作品，你口头表达能力够强，你可以在面试时说服所有的考官。（可能有点夸张，但APUE绝对是圣经一般的读物，即使是Windows程序员也从其中汲取养分，Google创始人的案头书籍，扎尔伯克的床头读物。）
这本书看完后你会对Linux系统编程有相当的了解，知道Linux与Windows平台间开发的差异在哪？它们的优缺点在哪？我的总结如下：做Windows平台开发，很苦，微软的系统API总在扩容，想使用最新潮，最高效的功能，最适合当前流行系统的功能你必须时刻学习。Linux不是，Linux系统的核心API就100来个，记忆力好完全可以背下来。而且经久不变，为什么不变，因为要同UNIX兼容，符合POSIX标准。所以Linux平台的开发大多是专注于底层的或服务器编程。这是其优点，当然图形是Linux的软肋，但我站在一个开发者的角度，我无所谓，因为命令行我也可以适应，如果有更好的图形界面我就当作恩赐吧。另外，Windows闭源，系统做了什么你更本不知道，永远被微软牵着鼻子跑，想想如果微软说Win8不支持qq，那腾讯不得哭死。而Linux完全开源，你不喜欢，可以自己改，只要你技术够。另外，Windows虽然使用的人多，但使用场合单一，专注与桌面。而Linux在各个方面都有发展，尤其在云计算，服务器软件，嵌入式领域，企业级应用上有广大前景，而且兼容性一流，由于支持POSIX可以无缝的运行在UNIX系统之上，不管是苹果的Mac还是IBM的AS400系列，都是完全支持的。另外，Linux的开发环境支持也绝对是一流的，不管是C/C++，Java，Bash，Python，PHP，Javascript，。。。。。。就连C#也支持。而微软除Visual Stdio套件以外，都不怎么友好，不是吗？
如果你看完APUE的感触有很多，希望验证你的某些想法或经验，推荐UNIX程序设计艺术，世界顶级黑客将同你分享他的看法。
现在是时候做分流了。大体上我分为四个方向：网络，图形，嵌入式，设备驱动。
如果选择网络，再细分，我对其他的不是他熟悉，只说服务器软件编写及高性能的并发程序编写吧。相对来说这是网络编程中技术含量最高的，也是底层的。需要很多的经验，看很多的书，做很多的项目。
我的看法是以下面的顺序来看书：
APUE再深读 – 尤其是进程，线程，IPC，套接字
多核程序设计 - Pthread一定得吃透了，你很NB
UNIX网络编程 – 卷一，卷二
TCP/IP网络详解 – 卷一再看上面两本书时就该看了
5.TCP/IP 网络详解 – 卷二我觉得看到卷二就差不多了，当然卷三看了更好，努力，争取看了
6.Lighttpd源代码 - 这个服务器也很有名了
7.Nginx源代码 – 相较于Apache，Nginx的源码较少，如果能看个大致，很NB。看源代码主要是要学习里面的套接字编程及并发控制，想想都激动。如果你有这些本事，可以试着往暴雪投简历，为他们写服务器后台，想一想全球的魔兽都运行在你的服务器软件上。
Linux内核 TCP/IP协议栈 – 深入了解TCP/IP的实现
如果你还喜欢驱动程序设计，可以看看更底层的协议，如链路层的，写什么路由器，网卡，网络设备的驱动及嵌入式系统软件应该也不成问题了。
当然一般的网络公司，就算网络级别的也该毫不犹豫的雇用你。只是看后面这些书需要时间与经验，所以35岁以前办到吧！跳槽到给你未来的地方！
图形方向，我觉得图形方向也是很有前途的，以下几个方面。
Opengl的工业及游戏开发，国外较成熟。
影视动画特效，如皮克斯，也是国外较成熟。
GPU计算技术，可以应用在浏览器网页渲染上，GPU计算资源利用上，由于开源的原因，有很多的文档程序可以参考。如果能进火狐开发，或google做浏览器开发，应该会很好。
嵌入式方向：嵌入式方向没说的，Linux很重要。
掌握多个架构，不仅X86的，ARM的，单片机什么的也必须得懂。硬件不懂我预见你会死在半路上，我也想走嵌入式方向，但我觉得就学校教授嵌入式的方法，我连学电子的那帮学生都竞争不过。奉劝大家，一定得懂硬件再去做，如果走到嵌入式应用开发，只能祝你好运，不要碰上像Nokia，Hp这样的公司，否则你会很惨的。
驱动程序设计：软件开发周期是很长的，硬件不同，很快。每个月诞生那么多的新硬件，如何让他们在Linux上工作起来，这是你的工作。由于Linux的兼容性很好，如果不是太低层的驱动，基本C语言就可以搞定，系统架构的影响不大，因为有系统支持，你可能做些许更改就可以在ARM上使用PC的硬件了，所以做硬件驱动开发不像嵌入式，对硬件知识的要求很高。可以从事的方向也很多，如家电啊，特别是如索尼，日立，希捷，富士康这样的厂子，很稀缺的。
LDD – Linux驱动程序设计与内核编程的基础读物
深入理解Linux内核 – 进阶的
Linux源代码 – 永无止境的
当然你还的看个方面的书，如网络啊什么的。

② Linux网络协议栈7--ipsec收发包流程

流程路径：ip_rcv() --> ip_rcv_finish() --> ip_local_deliver() --> ip_local_deliver_finish()
解封侧一定是ip报文的目的端，ip_rcv_finish中查到的路由肯定是本机路由（RTCF_LOCAL），调用 ip_local_deliver 处理。
下面是贴的网上的一张图片。

ip_local_deliver_finish中根据上次协议类型，调用对应的处理函数。inet_protos 中挂载了各类协议的操作集，对于AH或者ESP来说，是xfrm4_rcv，对于ipsec nat-t情况下，是udp协议的处理函数udp_rcv，内部才是封装的ipsec报文（AH或者ESP）。

xfrm4_rcv --> xfrm4_rcv_spi --> xfrm4_rcv_encap --> xfrm_input
最终调用 xfrm_input 做收包解封装流程。
1、创建SKB的安全路径；
2、解析报文，获取daddr、spi，加上协议类型（esp、ah等），就可以查询到SA了，这些是SA的key，下面列出了一组linux ipsec的state（sa）和policy，方便一眼就能看到关键信息；
3、调用SA对应协议类型的input函数，解包，并返回更上层的协议类型，type可为esp,ah,ipcomp等。对应的处理函数esp_input、ah_input等；
4、解码完成后，再根据ipsec的模式做解封处理，常用的有隧道模式和传输模式。对应xfrm4_mode_tunnel_input 和 xfrm4_transport_inout，处理都比较简单，隧道模式去掉外层头，传输模式只是设置一些skb的数据。
5、协议类型可以多层封装，如ESP+AH，所以需要再次解析内存协议，如果还是AH、ESP、COMP，则解析新的spi，返回2，查询新的SA处理报文。
6、经过上面流程处理，漏出了用户数据报文（IP报文），根据ipsec模式：

流程路径如下图，这里以转发流程为例，本机发送的包主要流程类似。
转发流程：

ip_forward 函数中调用xfrm4_route_forward，这个函数：
1、解析用户报文，查找对应的Ipsec policy（__xfrm_policy_lookup）；
2、再根据policy的模版tmpl查找对应最优的SA（xfrm_tmpl_resolve），模版的内容以及和SA的对应关系见上面贴出的ip xfrm命令显示；
3、最后根据SA生成安全路由，挂载再skb的dst上；一条用户流可以声明多个安全策略（policy），所以会对应多个SA，每个SA处理会生成一个安全路由项struct dst_entry结构（xfrm_resolve_and_create_bundle），这些安全路由项通过 child 指针链接为一个链表，其成员 output挂载了不同安全协议的处理函数，这样就可以对数据包进行连续的处理，比如先压缩，再ESP封装，再AH封装。
安全路由链的最后一个路由项一定是普通IP路由项，因为最终报文都得走普通路由转发出去，如果是隧道模式，在tunnel output封装完完成ip头后还会再查一次路由挂载到安全路由链的最后一个。
注： SA安全联盟是IPsec的基础，也是IPsec的本质。 SA是通信对等体间对某些要素的约定，例如使用哪种协议、协议的操作模式、加密算法、特定流中保护数据的共享密钥以及SA的生存周期等。

然后，经过FORWARD点后，调用ip_forward_finish()-->dst_output，最终调用skb_dst(skb)->output(skb)，此时挂载的xfrm4_output

本机发送流程简单记录一下，和转发流程殊途同归：
查询安全路由： ip_queue_xmit --> ip_route_output_flow --> __xfrm_lookup
封装发送： ip_queue_xmit --> ip_local_out --> dst_output --> xfrm4_output

注：
1). 无论转发还是本地发送，在查询安全路由之前都会查一次普通路由，如果查不到，报文丢弃，但这条路由不一定需要指向真实的下一跳的出接口，只要能匹配到报文DIP即可，如配置一跳其它接口的defualt。
2). strongswan是一款用的比较多的ipsec开源软件，协商完成后可以看到其创建了220 table，经常有人问里面的路由有啥用、为什么有时有有时无。这里做个测试记录： 1、220中貌似只有在tunnel模式且感兴趣流是本机发起（本机配置感兴趣流IP地址）的时候才会配置感兴趣流相关的路由，路由指定了source；2、不配置也没有关系，如1）中所说，只要存在感兴趣流的路由即可，只不过ping的时候需要指定source，否者可能匹配不到感兴趣流。所以感觉220这个表一是为了保证

ipsec封装发送流程：
xfrm4_output-->xfrm4_output_finish-->xfrm_output-->xfrm_output2-->xfrm_output_resume-->xfrm_output_one
xfrm4_output 函数先过POSTROUTING点，在封装之前可以先做SNAT。后面则调用xfrm_output_resume-->xfrm_output_one 做IPSEC封装最终走普通路由走IP发送。

贴一些网上的几张数据结构图
1、安全路由

2、策略相关协议处理结构

3、状态相关协议处理结构

③ 从ip addr add和ifconfig的区别看linux网卡ip地址的结构

如果你非常理解网络协议的原理以及网络的分层架构那么我想你就不会有这个问题，实际上，每一个网卡设备都有一个mac地址，但是却可以有多个网络层地址，比如IP地址，然而这个事实无法很好地像用户提供操作接口，所以就引出了ip别名（IP aliases）和辅助ip（secondary IP addresses）的概念。其实很容易理解这个事实，按照分层的思想，下层总是为上层服务，也就是为上层提供舞台，上层利用下层的服务，而不必让下层知道自己的情况，如果一个拥有合理mac地址的网卡没有配置网络层地址（比如IP地址）这件事合理的话，那么为这个设备配置多个IP地址也是合理的，正好像一个ip可以对应多个应用层端口一样，也就是说，下层对上层总是一对多的关系，在分层架构中这种关系是合理的。下面我们就看一下linux的网卡的ip地址结构。刚才说了在linux中，一个网卡可以有多个IP，那么这多个ip有什么关系呢？其实这些ip组成了一个吊链结构，所谓吊链结构就是一些节点链接成一条链，然后每个节点带有自己的一条链

每个节点代表的ip地址标识一个网段，这个节点的ip就是这个网段的 Primary地址，它下面所带的ip就是这个网段的Secondary地址，也就是说一个网卡可以带有各个节点所带链表长度之和个ip地址，而且这些 ip不是线形的，而是上述的吊链结构。我们看一下这么做有什么好处。玩过Cisco路由器的朋友可能都知道有个Secondary IP的概念，这个特性可以创建逻辑子网，也就是说在一个物理网口上连接两个子网，这咋看起来好像不可思议，其实很简单，比如这个网口接到一台交换机上，如果这个网口没有配置Secondary IP的话，那么这台交换机只能连接一个网段的主机，比如192.168.1.1/24，但是，如果它配置了Secondary IP，那么就可以连接两个网段的主机，比如192.168.1.1/24和10.0.0.1/24，道理就是这么简单，但是却很有用，该机制可以被路由汇总策略所使用。注意上面这个例子中的Secondary IP不是这里说的linux的Secondary address，在linux中恰恰相反，只要一个网卡上配置的ip不是一个网段的，那么都是Primary IP，就是吊链结构中上面的那条主链中的IP，linux中的Secondary address是主链结点的子链结点中的IP，这一点一定注意，概念是不能混淆的。前面说的只是吊链中主链的作用，那么子链呢？其实想象一下也很简单，比如一台机器上运行着一个代理服务器或者负载均衡服务，代理服务器或者负载均衡服务和主服务器要监听相同的端口，那么就可以用secondary address来解决了，只要需要在同一网段监听同一个端口的应用都是吊链中子链存在的原因，因此可以说，主链对外部或者说对下面链路层虚拟了多块网卡，而子链向上层虚拟了多台机器，配置了吊链结构的linux主机如果说只有一块网卡，那么外部会认为它有多块网卡，对于内部，应用层会认为彼此在不同的主机上，这就是效果。
除了上面大体的介绍之外，还有很多细节，吊链在主链上是没有主次的，子链除了第一个节点其它节点也不分主次，都是平行的关系，但是子链中的第一个节点总是链接在主链中，它们携带的地址就是primary地址，它们下面隶属的子链携带的地址就是这个primary地址的secondary地址，如此看来，一旦主链上一个节点被删除了，那么它的子链也将不复存在，所谓皮之不存毛将焉附。但是这种策略总是显得不是那么优美，因为父亲犯错，儿子也要受连累，这在现代社会早就不时行了，那么就需要改变机制了，因此linux中特意有了一个选项，就是当一个primary地址被删除时，如果它有secondary地址的话，那么它的第一个secondary地址（长子）继承被删除的primary地址的位置成为primary地址，这样就显得很合理了，要不然在删除 primary地址的时候，如果有程序用secondary地址，那么要么延迟删除，要么程序崩溃，采用自动提升策略的话就不会出现问题。
至于说IP aliases，那是以前版本有的了，就是一个实现问题，解决的问题和现在的secondary IP机制一样，它主要就是在物理网卡名字后面加上后缀从而成为虚拟网络接口，本质上和secondary IP机制没有区别，区别就是IP aliases显得不是那么直观，而secondary IP却是真正让应用看到了一个网卡的多个地址，比如你要是用IP aliases的话，有的时候你总是会问eth0:0是什么？我就曾经在内核里面拼命找eth0:0这个网络设备的注册代码，都要疯掉了也没有找到，其实我并不是很傻，但是我却因为那个该死的名字作出了傻事。
下面就可以看看linux内核的实现代码了，首先弄明白一些数据结构，最重要的就是net_device，其次就是in_device，然后就是in_ifaddr，明白了这三个数据结构，一切就明白了，这是真的。

structnet_device
{
...
void*ip_ptr;//指向一个in_device结构，这字段从net_device中分离表明一个网卡可以支持多种网络层协议的
...
}
structin_device
{
structnet_device*dev;//指向它隶属的net_device，也就是网卡
atomic_trefcnt;//引用计数
intdead;
structin_ifaddr*ifa_list;//所有的ip地址链表
...
};
structin_ifaddr//代表一个ip地址
{
structin_ifaddr*ifa_next;//上面的in_device中的ifa_list字段就是靠这个字段连成链的
structin_device*ifa_dev;//回指in_device结构
structrcu_headrcu_head;
u32ifa_local;//ip地址
u32ifa_address;
u32ifa_mask;//掩码
u32ifa_broadcast;//广播地址
u32ifa_anycast;
unsignedcharifa_scope;
unsignedcharifa_flags;//只有IFA_F_SECONDARY标志，因为除了这个就是primary地址了
unsignedcharifa_prefixlen;
charifa_label[IFNAMSIZ];//名字，在ipaliases时代，它就可能是ethx:y的形式，在secondaryip时代，它统一就是ethx
};

注意，上面的结构并没有将linux网卡的ip地址结构表示为吊链结构，所谓的吊链结构只是逻辑上的，在数据结构上，一个网卡所有的ip地址全部都在 ifa_list中被链接成一个线性的链表，至于是primary地址还是secondary地址就看in_ifaddr的ifa_flags字段了。每当有新的地址被设置的时候，inet_insert_ifa总是被调用，linux为何没有在代码上将ip地址表示为吊链结构呢？我也不知道，个人感觉一个net_device带有一个primary ip链表，然后每个primary ip节点带有一个secondary ip链表，这样会更好一些的，我觉得inet_insert_ifa实现的十分拙劣。添加地址可以通过两个用户空间程序搞定，一个是ifconfig，另一个是ip addr add，ifconfig是基于ioctl进行地址添加的，而ip程序是基于netlink进行地址添加的，不管哪一种方式都可以达到目的，现在就可以看看另一个问题了：为何用ip addr add添加的ip地址用ifconfig看不到，而ifconfig设置的地址ip addr show却是可以看到。这个问题通过看代码一眼就可以明白，在ifconfig获得ip地址的时候，代码：

for(ifap=&in_dev->ifa_list;(ifa=*ifap)!=NULL;ifap=&ifa->ifa_next)
{
if(!strcmp(ifr.ifr_name,ifa->ifa_label)&&sin_orig.sin_addr.s_addr==ifa->ifa_address)
{
break;
}
}

取的是这个被找到的ifa的ip地址，而我们知道，所有的ifa链接成一个线性链表，那么找到了第一个就不会再往后走了，因此只能得到一个结果，就是链表最前面的那个，而ip add show就不同了，具体在函数inet_mp_ifaddr中实现，该函数遍历所有的ifa，并且传到用户空间缓冲区。这里可以做一个实验：首先用 ip addr add添加几个不在同一个网段的primary ip地址，然后再ifconfig一个和前面的ip都不在一个网段的ip，然后可以用ifconfig查看一下，发现不是刚刚用ifconfig设置进去的那个ip，而是用ip addr add添加进去的，这就说明ifconfig永远都是取的ifa链表最前面的那一个，还有一点要注意，就是如果你用ip addr add添加了很多的secondary ip地址，那么恰好你用ifconfig设置的ip地址和那些secondary ip在一个网段，那么所有的secondary ip都将被删除，这些都是sencondary ip的规范决定的，而且在代码中也有体现。另外还要注意，路由表的表项都是基于primary ip的，因为所有的操作都是以primary ip为主的，比如在添加路由的时候：

voidfib_add_ifaddr(structin_ifaddr*ifa)
{
structin_device*in_dev=ifa->ifa_dev;
structnet_device*dev=in_dev->dev;
structin_ifaddr*prim=ifa;
...
if(ifa->ifa_flags&IFA_F_SECONDARY){//如果ifa是个sencondary地址，那么就找到它隶属的primary地址后然后以这个primary为主进行设置
prim=inet_ifa_byprefix(in_dev,prefix,mask);
if(prim==NULL){
printk(KERN_DEBUG"fib_add_ifaddr:bug:prim==NULL/n");
return;
}
}
fib_magic(RTM_NEWROUTE,RTN_LOCAL,addr,32,prim);//添加进路由表
...
}

到此为止我们知道了不少东西，最重要的就是linux中网卡ip地址的吊链结构以及这么设计的好处，另外就是设置ip地址的方式有ioctl和 netlink。其实网卡拥有多个ip并不会带来什么冲突，本质上ip和网卡没有什么关系，它们唯一的关系就是靠网络分层模型联系在一起的，细节上就是靠路由联系在一起的，比如我添加路由的时候指定了一个目的地址和下一跳ip地址以及一个网卡出口，那么内核会根据提供的目的地址将路由插在合式的位置，然后将nh的网络设备设置为你提供的网卡出口，等到传输数据的时候就会查找路由从而找到出口，就是这么简单，你自己手动设置的路由可以随意设置，即使完全错误内核也会将之加入路由表的，还有一种路由是内核自动生成的，就是在网卡刚刚up的时候，这时通过网卡的net_device找到其in_device然后找到其ip地址，这样的路由称为链路路由。
通过secondary IP机制，你可以认为你的机器有很多网卡，对于应用，监听同一端口的应用会认为它们在局域网中不同的机器上，你可以随意使用这些ip地址而不会发生混乱，路由和底层的arp会处理好这一切，当然前提是你将路由设置对。
附：用户空间有ifup/ifdown，/sbin/ip，ifconfig，还有netplugd守护进程，这些有何关系吗？这中间ip程序是最基本的，没有任何策略，策略就是参数指定，要么就是别的程序调用它，而netplugd就是一个监控守护进程，通过netlink监控网卡状态，然后根据不同的监控结果调用/etc/netplug.d/netplug脚本，进而可能调用ifup/ifdown脚本，而后者就是脚本，其中会调用ifup-eth脚本，最终整理好参数后调用ip程序（典型的就是：ip link set eth0 up/down），当然ip程序完全可以自己调用，比如ip addr add以及ip route add等等，而ifconfig没有那么绕圈子，就是通过ioctl进行设置，可以通过strace来观察。这其中奥妙大了去了，说白了就是策略和机制分离，另外还体现出linux中的很多功能都是很小的程序组合而成的。

Linux的ip地址的吊链结构以及ip地址的寻址特性（详见《关于IP网段间互访的问题—路由是根本》）充分说明了linux的协议栈实现多么的完美，完全符合分层和封装模型，使得下层的逻辑和上层的逻辑完全解除耦合，也就是说ip层完全不依赖链路层以及物理层的物理布局，最后记住，ip层事情比如寻址路由只由ip层实现，之所有有链路层发现的路由，完全是为了方便。

④ Linux TCP/IP协议栈数据包处理流程及代码实现分析

好吧复，我来回答吧，首先制是网卡驱动程序捕获到数据包，做检验无误后，和DMA以及CPU交互，然后由DMA和驱动程序创建BD表，然后分配skbuf（LINUX下）数据结构保存获得的数据帧，内核通过协议栈处理这个skbuf，通常是层层剥离每个层的首部，然后传到上一层，细节就是一个变量做偏移量，每次做一个首部偏移读取首部数据，识别本层协议类型以及下一层协议类型，具体过程就是这个网络原理的过程，请参考《TCP/IP详解卷一》《linux设备驱动程序》《understanding linux network internals》《Unix网络编程卷一》等。

⑤ linux环境下的进程调度算法有哪些

第一部分：实时调度算法介绍

对于什么是实时系统，POSIX 1003.b作了这样的定义：指系统能够在限定的响应时间内提供所需水平的服务。而一个由Donald Gillies提出的更加为大家接受的定义是：一个实时系统是指计算的正确性不仅取决于程序的逻辑正确性，也取决于结果产生的时间，如果系统的时间约束条件得不到满足，将会发生系统出错。

实时系统根据其对于实时性要求的不同，可以分为软实时和硬实时两种类型。硬实时系统指系统要有确保的最坏情况下的服务时间，即对于事件的响应时间的截止期限是无论如何都必须得到满足。比如航天中的宇宙飞船的控制等就是现实中这样的系统。其他的所有有实时特性的系统都可以称之为软实时系统。如果明确地来说，软实时系统就是那些从统计的角度来说，一个任务（在下面的论述中，我们将对任务和进程不作区分）能够得到有确保的处理时间，到达系统的事件也能够在截止期限到来之前得到处理，但违反截止期限并不会带来致命的错误，像实时多媒体系统就是一种软实时系统。

一个计算机系统为了提供对于实时性的支持，它的操作系统必须对于CPU和其他资源进行有效的调度和管理。在多任务实时系统中，资源的调度和管理更加复杂。本文下面将先从分类的角度对各种实时任务调度算法进行讨论，然后研究普通的 Linux操作系统的进程调度以及各种实时Linux系统为了支持实时特性对普通Linux系统所做的改进。最后分析了将Linux操作系统应用于实时领域中时所出现的一些问题，并总结了各种实时Linux是如何解决这些问题的。

1. 实时CPU调度算法分类

各种实时操作系统的实时调度算法可以分为如下三种类别[Wang99][Gopalan01]：基于优先级的调度算法（Priority-driven scheling-PD）、基于CPU使用比例的共享式的调度算法（Share-driven scheling-SD）、以及基于时间的进程调度算法（Time-driven scheling-TD），下面对这三种调度算法逐一进行介绍。

1.1. 基于优先级的调度算法

基于优先级的调度算法给每个进程分配一个优先级，在每次进程调度时，调度器总是调度那个具有最高优先级的任务来执行。根据不同的优先级分配方法，基于优先级的调度算法可以分为如下两种类型[Krishna01][Wang99]：

静态优先级调度算法：

这种调度算法给那些系统中得到运行的所有进程都静态地分配一个优先级。静态优先级的分配可以根据应用的属性来进行，比如任务的周期，用户优先级，或者其它的预先确定的策略。RM（Rate-Monotonic）调度算法是一种典型的静态优先级调度算法，它根据任务的执行周期的长短来决定调度优先级，那些具有小的执行周期的任务具有较高的优先级。

动态优先级调度算法：

这种调度算法根据任务的资源需求来动态地分配任务的优先级，其目的就是在资源分配和调度时有更大的灵活性。非实时系统中就有很多这种调度算法，比如短作业优先的调度算法。在实时调度算法中， EDF算法是使用最多的一种动态优先级调度算法，该算法给就绪队列中的各个任务根据它们的截止期限（Deadline）来分配优先级，具有最近的截止期限的任务具有最高的优先级。

1.2. 基于比例共享调度算法

虽然基于优先级的调度算法简单而有效，但这种调度算法提供的是一种硬实时的调度，在很多情况下并不适合使用这种调度算法：比如象实时多媒体会议系统这样的软实时应用。对于这种软实时应用，使用一种比例共享式的资源调度算法（SD算法）更为适合。

比例共享调度算法指基于CPU使用比例的共享式的调度算法，其基本思想就是按照一定的权重（比例）对一组需要调度的任务进行调度，让它们的执行时间与它们的权重完全成正比。

我们可以通过两种方法来实现比例共享调度算法[Nieh01]：第一种方法是调节各个就绪进程出现在调度队列队首的频率，并调度队首的进程执行；第二种做法就是逐次调度就绪队列中的各个进程投入运行，但根据分配的权重调节分配个每个进程的运行时间片。

比例共享调度算法可以分为以下几个类别：轮转法、公平共享、公平队列、彩票调度法（Lottery）等。

比例共享调度算法的一个问题就是它没有定义任何优先级的概念；所有的任务都根据它们申请的比例共享CPU资源，当系统处于过载状态时，所有的任务的执行都会按比例地变慢。所以为了保证系统中实时进程能够获得一定的CPU处理时间，一般采用一种动态调节进程权重的方法。

1.3. 基于时间的进程调度算法

对于那些具有稳定、已知输入的简单系统，可以使用时间驱动（Time-driven:TD）的调度算法，它能够为数据处理提供很好的预测性。这种调度算法本质上是一种设计时就确定下来的离线的静态调度方法。在系统的设计阶段，在明确系统中所有的处理情况下，对于各个任务的开始、切换、以及结束时间等就事先做出明确的安排和设计。这种调度算法适合于那些很小的嵌入式系统、自控系统、传感器等应用环境。

这种调度算法的优点是任务的执行有很好的可预测性，但最大的缺点是缺乏灵活性，并且会出现有任务需要被执行而CPU却保持空闲的情况。

2. 通用Linux系统中的CPU调度

通用Linux系统支持实时和非实时两种进程，实时进程相对于普通进程具有绝对的优先级。对应地，实时进程采用SCHED_FIFO或者SCHED_RR调度策略，普通的进程采用SCHED_OTHER调度策略。

在调度算法的实现上，Linux中的每个任务有四个与调度相关的参数，它们是rt_priority、policy、priority（nice）、counter。调度程序根据这四个参数进行进程调度。

在SCHED_OTHER 调度策略中，调度器总是选择那个priority+counter值最大的进程来调度执行。从逻辑上分析，SCHED_OTHER调度策略存在着调度周期（epoch），在每一个调度周期中，一个进程的priority和counter值的大小影响了当前时刻应该调度哪一个进程来执行，其中 priority是一个固定不变的值，在进程创建时就已经确定，它代表了该进程的优先级，也代表这该进程在每一个调度周期中能够得到的时间片的多少； counter是一个动态变化的值，它反映了一个进程在当前的调度周期中还剩下的时间片。在每一个调度周期的开始，priority的值被赋给 counter，然后每次该进程被调度执行时，counter值都减少。当counter值为零时，该进程用完自己在本调度周期中的时间片，不再参与本调度周期的进程调度。当所有进程的时间片都用完时，一个调度周期结束，然后周而复始。另外可以看出Linux系统中的调度周期不是静态的，它是一个动态变化的量，比如处于可运行状态的进程的多少和它们priority值都可以影响一个epoch的长短。值得注意的一点是，在2.4以上的内核中， priority被nice所取代，但二者作用类似。

可见SCHED_OTHER调度策略本质上是一种比例共享的调度策略，它的这种设计方法能够保证进程调度时的公平性--一个低优先级的进程在每一个epoch中也会得到自己应得的那些CPU执行时间，另外它也提供了不同进程的优先级区分，具有高priority值的进程能够获得更多的执行时间。

对于实时进程来说，它们使用的是基于实时优先级rt_priority的优先级调度策略，但根据不同的调度策略，同一实时优先级的进程之间的调度方法有所不同：

SCHED_FIFO：不同的进程根据静态优先级进行排队，然后在同一优先级的队列中，谁先准备好运行就先调度谁，并且正在运行的进程不会被终止直到以下情况发生：1.被有更高优先级的进程所强占CPU；2.自己因为资源请求而阻塞；3.自己主动放弃CPU（调用sched_yield）；

SCHED_RR：这种调度策略跟上面的SCHED_FIFO一模一样，除了它给每个进程分配一个时间片，时间片到了正在执行的进程就放弃执行；时间片的长度可以通过sched_rr_get_interval调用得到；

由于Linux系统本身是一个面向桌面的系统，所以将它应用于实时应用中时存在如下的一些问题：

Linux系统中的调度单位为10ms，所以它不能够提供精确的定时；

当一个进程调用系统调用进入内核态运行时，它是不可被抢占的；

Linux内核实现中使用了大量的封中断操作会造成中断的丢失；

由于使用虚拟内存技术，当发生页出错时，需要从硬盘中读取交换数据，但硬盘读写由于存储位置的随机性会导致随机的读写时间，这在某些情况下会影响一些实时任务的截止期限；

虽然Linux进程调度也支持实时优先级，但缺乏有效的实时任务的调度机制和调度算法；它的网络子系统的协议处理和其它设备的中断处理都没有与它对应的进程的调度关联起来，并且它们自身也没有明确的调度机制；

3. 各种实时Linux系统

3.1. RT-Linux和RTAI

RT -Linux是新墨西哥科技大学（New Mexico Institute of Technology）的研究成果[RTLinuxWeb][Barabanov97]。它的基本思想是，为了在Linux系统中提供对于硬实时的支持，它实现了一个微内核的小的实时操作系统（我们也称之为RT-Linux的实时子系统），而将普通Linux系统作为一个该操作系统中的一个低优先级的任务来运行。另外普通Linux系统中的任务可以通过FIFO和实时任务进行通信。RT-Linux的框架如图 1所示：

图 1 RT-Linux结构

RT -Linux的关键技术是通过软件来模拟硬件的中断控制器。当Linux系统要封锁CPU的中断时时，RT-Linux中的实时子系统会截取到这个请求，把它记录下来，而实际上并不真正封锁硬件中断，这样就避免了由于封中断所造成的系统在一段时间没有响应的情况，从而提高了实时性。当有硬件中断到来时， RT-Linux截取该中断，并判断是否有实时子系统中的中断例程来处理还是传递给普通的Linux内核进行处理。另外，普通Linux系统中的最小定时精度由系统中的实时时钟的频率决定，一般Linux系统将该时钟设置为每秒来100个时钟中断，所以Linux系统中一般的定时精度为 10ms，即时钟周期是10ms，而RT-Linux通过将系统的实时时钟设置为单次触发状态，可以提供十几个微秒级的调度粒度。

RT-Linux实时子系统中的任务调度可以采用RM、EDF等优先级驱动的算法，也可以采用其他调度算法。

RT -Linux对于那些在重负荷下工作的专有系统来说，确实是一个不错的选择，但他仅仅提供了对于CPU资源的调度；并且实时系统和普通Linux系统关系不是十分密切，这样的话，开发人员不能充分利用Linux系统中已经实现的功能，如协议栈等。所以RT-Linux适合与工业控制等实时任务功能简单，并且有硬实时要求的环境中，但如果要应用与多媒体处理中还需要做大量的工作。

意大利的RTAI( Real-Time Application Interface )源于RT-Linux，它在设计思想上和RT-Linux完全相同。它当初设计目的是为了解决RT-Linux难于在不同Linux版本之间难于移植的问题，为此，RTAI在 Linux 上定义了一个实时硬件抽象层，实时任务通过这个抽象层提供的接口和Linux系统进行交互，这样在给Linux内核中增加实时支持时可以尽可能少地修改 Linux的内核源代码。

3.2. Kurt-Linux

Kurt -Linux由Kansas大学开发，它可以提供微秒级的实时精度[KurtWeb] [Srinivasan]。不同于RT-Linux单独实现一个实时内核的做法，Kurt -Linux是在通用Linux系统的基础上实现的，它也是第一个可以使用普通Linux系统调用的基于Linux的实时系统。

Kurt-Linux将系统分为三种状态：正常态、实时态和混合态，在正常态时它采用普通的Linux的调度策略，在实时态只运行实时任务，在混合态实时和非实时任务都可以执行；实时态可以用于对于实时性要求比较严格的情况。

为了提高Linux系统的实时特性，必须提高系统所支持的时钟精度。但如果仅仅简单地提高时钟频率，会引起调度负载的增加，从而严重降低系统的性能。为了解决这个矛盾， Kurt-Linux采用UTIME所使用的提高Linux系统中的时钟精度的方法[UTIMEWeb]：它将时钟芯片设置为单次触发状态（One shot mode），即每次给时钟芯片设置一个超时时间，然后到该超时事件发生时在时钟中断处理程序中再次根据需要给时钟芯片设置一个超时时间。它的基本思想是一个精确的定时意味着我们需要时钟中断在我们需要的一个比较精确的时间发生，但并非一定需要系统时钟频率达到此精度。它利用CPU的时钟计数器TSC (Time Stamp Counter)来提供精度可达CPU主频的时间精度。

对于实时任务的调度，Kurt-Linux采用基于时间（TD）的静态的实时CPU调度算法。实时任务在设计阶段就需要明确地说明它们实时事件要发生的时间。这种调度算法对于那些循环执行的任务能够取得较好的调度效果。

Kurt -Linux相对于RT-Linux的一个优点就是可以使用Linux系统自身的系统调用，它本来被设计用于提供对硬实时的支持，但由于它在实现上只是简单的将Linux调度器用一个简单的时间驱动的调度器所取代，所以它的实时进程的调度很容易受到其它非实时任务的影响，从而在有的情况下会发生实时任务的截止期限不能满足的情况，所以也被称作严格实时系统（Firm Real-time）。目前基于Kurt-Linux的应用有：ARTS（ATM Reference Traffic System）、多媒体播放软件等。另外Kurt-Linux所采用的这种方法需要频繁地对时钟芯片进行编程设置。

3.3. RED-Linux

RED -Linux是加州大学Irvine分校开发的实时Linux系统[REDWeb][ Wang99]，它将对实时调度的支持和Linux很好地实现在同一个操作系统内核中。它同时支持三种类型的调度算法，即：Time-Driven、 Priority-Dirven、Share-Driven。

为了提高系统的调度粒度，RED-Linux从RT-Linux那儿借鉴了软件模拟中断管理器的机制，并且提高了时钟中断频率。当有硬件中断到来时，RED-Linux的中断模拟程序仅仅是简单地将到来的中断放到一个队列中进行排队，并不执行真正的中断处理程序。

另外为了解决Linux进程在内核态不能被抢占的问题， RED-Linux在Linux内核的很多函数中插入了抢占点原语，使得进程在内核态时，也可以在一定程度上被抢占。通过这种方法提高了内核的实时特性。

RED-Linux的设计目标就是提供一个可以支持各种调度算法的通用的调度框架，该系统给每个任务增加了如下几项属性，并将它们作为进程调度的依据：

Priority：作业的优先级；

Start-Time：作业的开始时间；

Finish-Time：作业的结束时间；

Budget：作业在运行期间所要使用的资源的多少；

通过调整这些属性的取值及调度程序按照什么样的优先顺序来使用这些属性值，几乎可以实现所有的调度算法。这样的话，可以将三种不同的调度算法无缝、统一地结合到了一起。

⑥ 关于 Linux 网络，你必须知道这些

我们一起学习了文件系统和磁盘 I/O 的工作原理，以及相应的性能分析和优化方法。接下来，我们将进入下一个重要模块—— Linux 的网络子系统。

由于网络处理的流程最复杂，跟我们前面讲到的进程调度、中断处理、内存管理以及 I/O 等都密不可分，所以，我把网络模块作为最后一个资源模块来讲解。

同 CPU、内存以及 I/O 一样，网络也是 Linux 系统最核心的功能。网络是一种把不同计算机或网络设备连接到一起的技术，它本质上是一种进程间通信方式，特别是跨系统的进程间通信，必须要通过网络才能进行。随着高并发、分布式、云计算、微服务等技术的普及，网络的性能也变得越来越重要。

说到网络，我想你肯定经常提起七层负载均衡、四层负载均衡，或者三层设备、二层设备等等。那么，这里说的二层、三层、四层、七层又都是什么意思呢？

实际上，这些层都来自国际标准化组织制定的开放式系统互联通信参考模型（Open System Interconnection Reference Model），简称为 OSI 网络模型。

但是 OSI 模型还是太复杂了，也没能提供一个可实现的方法。所以，在 Linux 中，我们实际上使用的是另一个更实用的四层模型，即 TCP/IP 网络模型。

TCP/IP 模型，把网络互联的框架分为应用层、传输层、网络层、网络接口层等四层，其中，

为了帮你更形象理解 TCP/IP 与 OSI 模型的关系，我画了一张图，如下所示：

当然了，虽说 Linux 实际按照 TCP/IP 模型，实现了网络协议栈，但在平时的学习交流中，我们习惯上还是用 OSI 七层模型来描述。比如，说到七层和四层负载均衡，对应的分别是 OSI 模型中的应用层和传输层（而它们对应到 TCP/IP 模型中，实际上是四层和三层）。

OSI引入了服务、接口、协议、分层的概念，TCP/IP借鉴了OSI的这些概念建立TCP/IP模型。

OSI先有模型，后有协议，先有标准，后进行实践；而TCP/IP则相反，先有协议和应用再提出了模型，且是参照的OSI模型。

OSI是一种理论下的模型，而TCP/IP已被广泛使用，成为网络互联事实上的标准。

有了 TCP/IP 模型后，在进行网络传输时，数据包就会按照协议栈，对上一层发来的数据进行逐层处理；然后封装上该层的协议头，再发送给下一层。

当然，网络包在每一层的处理逻辑，都取决于各层采用的网络协议。比如在应用层，一个提供 REST API 的应用，可以使用 HTTP 协议，把它需要传输的 JSON 数据封装到 HTTP 协议中，然后向下传递给 TCP 层。

而封装做的事情就很简单了，只是在原来的负载前后，增加固定格式的元数据，原始的负载数据并不会被修改。

比如，以通过 TCP 协议通信的网络包为例，通过下面这张图，我们可以看到，应用程序数据在每个层的封装格式。

这些新增的头部和尾部，增加了网络包的大小，但我们都知道，物理链路中并不能传输任意大小的数据包。网络接口配置的最大传输单元（MTU），就规定了最大的 IP 包大小。在我们最常用的以太网中，MTU 默认值是 1500（这也是 Linux 的默认值）。

一旦网络包超过 MTU 的大小，就会在网络层分片，以保证分片后的 IP 包不大于 MTU 值。显然，MTU 越大，需要的分包也就越少，自然，网络吞吐能力就越好。

理解了 TCP/IP 网络模型和网络包的封装原理后，你很容易能想到，Linux 内核中的网络栈，其实也类似于 TCP/IP 的四层结构。如下图所示，就是 Linux 通用 IP 网络栈的示意图：

我们从上到下来看这个网络栈，你可以发现，

这里我简单说一下网卡。网卡是发送和接收网络包的基本设备。在系统启动过程中，网卡通过内核中的网卡驱动程序注册到系统中。而在网络收发过程中，内核通过中断跟网卡进行交互。

再结合前面提到的 Linux 网络栈，可以看出，网络包的处理非常复杂。所以，网卡硬中断只处理最核心的网卡数据读取或发送，而协议栈中的大部分逻辑，都会放到软中断中处理。

我们先来看网络包的接收流程。

当一个网络帧到达网卡后，网卡会通过 DMA 方式，把这个网络包放到收包队列中；然后通过硬中断，告诉中断处理程序已经收到了网络包。

接着，网卡中断处理程序会为网络帧分配内核数据结构（sk_buff），并将其拷贝到 sk_buff 缓冲区中；然后再通过软中断，通知内核收到了新的网络帧。

接下来，内核协议栈从缓冲区中取出网络帧，并通过网络协议栈，从下到上逐层处理这个网络帧。比如，

最后，应用程序就可以使用 Socket 接口，读取到新接收到的数据了。

为了更清晰表示这个流程，我画了一张图，这张图的左半部分表示接收流程，而图中的粉色箭头则表示网络包的处理路径。

了解网络包的接收流程后，就很容易理解网络包的发送流程。网络包的发送流程就是上图的右半部分，很容易发现，网络包的发送方向，正好跟接收方向相反。

首先，应用程序调用 Socket API（比如 sendmsg）发送网络包。

由于这是一个系统调用，所以会陷入到内核态的套接字层中。套接字层会把数据包放到 Socket 发送缓冲区中。

接下来，网络协议栈从 Socket 发送缓冲区中，取出数据包；再按照 TCP/IP 栈，从上到下逐层处理。比如，传输层和网络层，分别为其增加 TCP 头和 IP 头，执行路由查找确认下一跳的 IP，并按照 MTU 大小进行分片。

分片后的网络包，再送到网络接口层，进行物理地址寻址，以找到下一跳的 MAC 地址。然后添加帧头和帧尾，放到发包队列中。这一切完成后，会有软中断通知驱动程序：发包队列中有新的网络帧需要发送。

最后，驱动程序通过 DMA ，从发包队列中读出网络帧，并通过物理网卡把它发送出去。

多台服务器通过网卡、交换机、路由器等网络设备连接到一起，构成了相互连接的网络。由于网络设备的异构性和网络协议的复杂性，国际标准化组织定义了一个七层的 OSI 网络模型，但是这个模型过于复杂，实际工作中的事实标准，是更为实用的 TCP/IP 模型。

TCP/IP 模型，把网络互联的框架，分为应用层、传输层、网络层、网络接口层等四层，这也是 Linux 网络栈最核心的构成部分。

我结合网络上查阅的资料和文章中的内容，总结了下网卡收发报文的过程，不知道是否正确：

当发送数据包时，与上述相反。链路层将数据包封装完毕后，放入网卡的DMA缓冲区，并调用系统硬中断，通知网卡从缓冲区读取并发送数据。

了解 Linux 网络的基本原理和收发流程后，你肯定迫不及待想知道，如何去观察网络的性能情况。具体而言，哪些指标可以用来衡量 Linux 的网络性能呢？

实际上，我们通常用带宽、吞吐量、延时、PPS（Packet Per Second）等指标衡量网络的性能。

除了这些指标，网络的可用性（网络能否正常通信）、并发连接数（TCP 连接数量）、丢包率（丢包百分比）、重传率（重新传输的网络包比例）等也是常用的性能指标。

分析网络问题的第一步，通常是查看网络接口的配置和状态。你可以使用 ifconfig 或者 ip 命令，来查看网络的配置。我个人更推荐使用 ip 工具，因为它提供了更丰富的功能和更易用的接口。

以网络接口 eth0 为例，你可以运行下面的两个命令，查看它的配置和状态：

你可以看到，ifconfig 和 ip 命令输出的指标基本相同，只是显示格式略微不同。比如，它们都包括了网络接口的状态标志、MTU 大小、IP、子网、MAC 地址以及网络包收发的统计信息。

第一，网络接口的状态标志。ifconfig 输出中的 RUNNING ，或 ip 输出中的 LOWER_UP ，都表示物理网络是连通的，即网卡已经连接到了交换机或者路由器中。如果你看不到它们，通常表示网线被拔掉了。

第二，MTU 的大小。MTU 默认大小是 1500，根据网络架构的不同（比如是否使用了 VXLAN 等叠加网络），你可能需要调大或者调小 MTU 的数值。

第三，网络接口的 IP 地址、子网以及 MAC 地址。这些都是保障网络功能正常工作所必需的，你需要确保配置正确。

第四，网络收发的字节数、包数、错误数以及丢包情况，特别是 TX 和 RX 部分的 errors、dropped、overruns、carrier 以及 collisions 等指标不为 0 时，通常表示出现了网络 I/O 问题。其中：

ifconfig 和 ip 只显示了网络接口收发数据包的统计信息，但在实际的性能问题中，网络协议栈中的统计信息，我们也必须关注。你可以用 netstat 或者 ss ，来查看套接字、网络栈、网络接口以及路由表的信息。

我个人更推荐，使用 ss 来查询网络的连接信息，因为它比 netstat 提供了更好的性能（速度更快）。

比如，你可以执行下面的命令，查询套接字信息：

netstat 和 ss 的输出也是类似的，都展示了套接字的状态、接收队列、发送队列、本地地址、远端地址、进程 PID 和进程名称等。

其中，接收队列（Recv-Q）和发送队列（Send-Q）需要你特别关注，它们通常应该是 0。当你发现它们不是 0 时，说明有网络包的堆积发生。当然还要注意，在不同套接字状态下，它们的含义不同。

当套接字处于连接状态（Established）时，

当套接字处于监听状态（Listening）时，

所谓全连接，是指服务器收到了客户端的 ACK，完成了 TCP 三次握手，然后就会把这个连接挪到全连接队列中。这些全连接中的套接字，还需要被 accept() 系统调用取走，服务器才可以开始真正处理客户端的请求。

与全连接队列相对应的，还有一个半连接队列。所谓半连接是指还没有完成 TCP 三次握手的连接，连接只进行了一半。服务器收到了客户端的 SYN 包后，就会把这个连接放到半连接队列中，然后再向客户端发送 SYN+ACK 包。

类似的，使用 netstat 或 ss ，也可以查看协议栈的信息：

这些协议栈的统计信息都很直观。ss 只显示已经连接、关闭、孤儿套接字等简要统计，而 netstat 则提供的是更详细的网络协议栈信息。

比如，上面 netstat 的输出示例，就展示了 TCP 协议的主动连接、被动连接、失败重试、发送和接收的分段数量等各种信息。

接下来，我们再来看看，如何查看系统当前的网络吞吐量和 PPS。在这里，我推荐使用我们的老朋友 sar，在前面的 CPU、内存和 I/O 模块中，我们已经多次用到它。

给 sar 增加 -n 参数就可以查看网络的统计信息，比如网络接口（DEV）、网络接口错误（EDEV）、TCP、UDP、ICMP 等等。执行下面的命令，你就可以得到网络接口统计信息：

这儿输出的指标比较多，我来简单解释下它们的含义。

其中，Bandwidth 可以用 ethtool 来查询，它的单位通常是 Gb/s 或者 Mb/s，不过注意这里小写字母 b ，表示比特而不是字节。我们通常提到的千兆网卡、万兆网卡等，单位也都是比特。如下你可以看到，我的 eth0 网卡就是一个千兆网卡：

其中，Bandwidth 可以用 ethtool 来查询，它的单位通常是 Gb/s 或者 Mb/s，不过注意这里小写字母 b ，表示比特而不是字节。我们通常提到的千兆网卡、万兆网卡等，单位也都是比特。如下你可以看到，我的 eth0 网卡就是一个千兆网卡：

我们通常使用带宽、吞吐量、延时等指标，来衡量网络的性能；相应的，你可以用 ifconfig、netstat、ss、sar、ping 等工具，来查看这些网络的性能指标。

小狗同学问到：老师，您好 ss —lntp 这个当session处于listening中 rec-q 确定是 syn的backlog吗？
A: Recv-Q为全连接队列当前使用了多少。中文资料里这个问题讲得最明白的文章： https://mp.weixin.qq.com/s/yH3PzGEFopbpA-jw4MythQ

看了源码发现，这个地方讲的有问题.关于ss输出中listen状态套接字的Recv-Q表示全连接队列当前使用了多少,也就是全连接队列的当前长度,而Send-Q表示全连接队列的最大长度

导航:首页 > 编程系统 > linux协议栈实现分析

linux协议栈实现分析

与linux协议栈实现分析相关的资料

友情链接