Linux 考古笔记

语言: CN / TW / HK

作者简介:

王建峰,对于技术方向(主要是嵌入式领域的OS方向的系统应用)感兴趣,最近在学习操作系统基础。同时也是某芯原厂的驱动工程师,主要是gpu领域的驱动软件。http://gitee.com/hinzer/blog

  • 1 概念介绍

    • 1.1 什么是操作系统?

    • 1.2 如何理解中断机制?

    • 1.3 如何理解系统定时?

    • 1.4 如何理解进程控制?

    • 1.5 如何理解内存管理?

    • 1.6 如何理解堆栈概念?

    • 1.7 内核在源码中的体现?

    • 1.8 如何理解系统调用?

    • 1.9 如何理解特权级?

  • 2 流程分析

    • 2.1 引导内核阶段

    • 2.2 内核启动阶段

    • 2.3 init 进程启动

    • 2.4 shell 命令执行

Linux0.11 考古笔记

最近读完《Linux 内核完全注释》和《品读 Linux0.11 核心代码》,大致理解下 Linux0.11 内核的全貌。在我理解这些属于计算机基础类的知识,所以在未来的工作场景不太可能会直接用到它们,如果用不到的话这些知识可能会随着时间的推进慢慢从我的记忆中消失,出于功利的角度我当然不希望学的东西过后就把它给忘记了,那岂不是白学了。

所以我希望能留下一些东西,趁着现在还有一点印象,我将找时间将这些知识重新梳理一遍,做成一份不完善的文档。做这件事情对我的好处:梳理的过程中可以加深对操作系统的理解;文档作为记忆的钥匙帮助我回忆这些知识(可能在未来的某个场景能用得上)。

学习像内核这样复杂的系统,我推测会经历几个重要的阶段:理解专业术语,掌握程序流程;理解设计理念,掌握程序思想;理解源码细节,掌握程序实现。目前大概在理解概念和理解设计思想这样的阶段,当然结合源码能促进我对设计者的理解,但应该还没有到达能实现的那个水平。现在最想做的事情是将内核诸多概念串成一个基本的图景,因此文档的侧重点在如何解决这个需求。

1 概念介绍

1.1 什么是操作系统?

这是一个容易引起歧义的概念,有一个比较狭隘的观点认为内核是操作系统,比如 Linux 内核;另一个比较泛在的观点是认为支持用户程序的基础软件,都可以理解为操作系统的一部分。

1.2 如何理解中断机制?

中断是一个过程:程序在执行中,被意外打断后转去处理这种突发状况,然后继续原先的执行。在介绍下中断的实现机制:从硬件的视角,在 80x86 组成的 PC 机中,采用了可编程中断控制芯片 8259A 进行中断源(产生中断信号的设备)管理,具体来说它支持编程(可进行初始化)和操作(可响应外部设备的中断请求)两种状态;从软件的视角,在 Linux0.11 构成的系统中,对中断信号的识别由一个 0 - 255 的数值(中断号)来完成,由一个叫做中断向量表的数据结构把中断向量(中断号)和中断处理程序做一个定向关联。

1.3 如何理解系统定时?

系统也由一个最小的时间单位,这个时间节拍就是系统运行的脉搏。从硬件的视角,PC 机使用可编程定时芯片 Intel 8253 时钟源;从软件的角度,在 Linux0.11 中设定这个定时芯片每隔 10ms 发出一个时钟中断信号,通过时钟中断处理程序,来累积系统滴答数、统计时间、轮转时间片等等。

1.4 如何理解进程控制?

程序是一个可执行的文件,而进程是一个执行中的程序实例。关于 Linux0.11 操作系统的进程设计,这里仅侧重理解几个比较重要的概念。

  • 分时技术:使得操作系统上同时运行多个进程,本质上是内核基于时间片进行进程调度;

  • 用户进程空间布局:包括代码区、数据区、堆栈区;

  • 进程隔离:系统隔离性包括进程与进程的隔离,使得进程只能执行进程自己的代码区和数据区和堆栈区;

  • 用户态和内核态:进程的运行时又分用户态和内核态,一般来说指用户态进程,如果进程执行执行系统调用接口会将进程状态短时间陷入内核态;

  • 进程通信:进程之间的通信也需要通过系统调用,就是在内核态中做;

1.5 如何理解内存管理?

为了高效的使用物理内存,Linux 内核有一套管理内存的方法。从硬件的视角,将物理内存按功能划分为不同的内存域,其中包括内核模块、高速缓冲区、虚拟盘、主内存区。从软件的视角,内核通过分段将进程逻辑地址变成CPU线性地址,再通过分页机制转换成物理内存地址,这样做的其中一个目的是让进程认为自己拥有独立的逻辑地址空间,达到空间的隔离性。

1.6 如何理解堆栈概念?

堆和栈是系统对内存的管理方式。从硬件的角度,堆栈段寄存器和堆栈指针寄存器中设定的值表示当前所使用的堆栈;从软件的角度, Linux0.11 系统中的堆栈包括有:系统初始化的临时堆栈、内核程序的使用堆栈、任务的内核态堆栈、任务的用户态堆栈。

1.7 内核在源码中的体现?

[email protected]:~/source/Linux-0.11$ tree -d  
.
├── boot
├── fs
├── include
│ ├── asm
│ ├── linux
│ └── sys
├── init
├── kernel
│ ├── blk_drv
│ ├── chr_drv
│ └── math
├── lib
├── mm
└── tools
└── bochs
└── bochsrc

1.8 如何理解系统调用?

系统调用是用户进程打开内核大门的钥匙,是内核层对外提供的一组访问内核的接口。

1.9 如何理解特权级?

特权模式支持操作系统的隔离性。从硬件的角度看,非特权级 ISA 允许用户态的进程执行普通权限的指令(比如加法减法指令,跳转指令)。特权级 ISA 允许内核态的进程执行特殊权限的指令(比如设置页表指令,关时钟中断指令)。从软件的角度,进程用户态是非特权模式,只有通过系统调用使进程暂时陷入内核态,让用户程序(非特权级)控制权转移到内核(特权级)。

2 流程分析

根据《品读 Linux0.11 核心代码》这个专栏,它是按照系统启动到运行的时间顺序结合 Linux0.11 源码来展开的,我根据专栏的内容进行二次整理。内容整体按照这个顺序:引导内核阶段、内核启动阶段、切换到用户态、用户程序运行、一个命令的执行。

2.1 引导内核阶段

1)BIOS 程序

机器上电后 CPU 自动进入实模式,开始从 0XFFF0 地址处自动执行固化在 ROM 中的程序,这段程序会进行系统自检并设置好中断向量,还会从硬盘引导扇区读程序到地址 0X7000 处并跳转到这个位置继续执行。

2)bootsect.s 程序

存放在硬盘引导扇区里的 bootsect 程序,是由 bootsect.s 源文件编译成的。在执行 bootsect 时,它首先将自身拷贝新的位置,然后读取磁盘其他扇区的内容。其中将 bootsect.s 搬到 0x9000 地址, setup.s 程序( 2~5 扇区)加载到 0x90200 地址,将 system 模块( 240 个扇区)加载到 0x10000 地址。最后跳转到 setup.s 程序继续执行。

3)setup.s 程序

setup.s 程序执行时,首先会通过 int 0x10 触发一个读磁盘的中断,通过 BIOS 的中断处理读取一些硬件参数到内存 0x9000 这个位置,然后将 system 模块重定位到 0x0000 地址,然后切换实模式到保护模式,最后跳转执行 system/head.s 程序。

4)head.s 程序

head.s 程序执行时,重新设置中断描述符表和全局描述符表,然后设置几个相关的段寄存器,然后启动内存管理的分页机制,最后跳转到 main 函数。

2.2 内核启动阶段

1)获取硬件参数并设置系统

2)系统初始化

3)新进程的诞生

2.3 init 进程启动

2.4 shell 命令执行

0)一条命令

[[email protected]] cat info.txt | wc -l  
3

1)敲击键盘

2)输出屏幕

3)shell 进程