10第1章计算机系统漫游 组织成了一个存储器层次结构,如图19所示。在这个层次结构中,从上至下,设备的访 问速度越来越慢、容量越来越大,并且每字节的造价也越来越便宜。寄存器文件在层次结 构中位于最顶部,也就是第0级或记为L0。这里我们展示的是三层高速缓存L1到L3, 占据存储器层次结构的第1层到第3层。主存在第4层,以此类推。 L0: 更小 寄存器 CPU寄存器保存来自高速缓存 更快 存储器的字 L1: L1高速缓存 (每字节) SRAM) L1高速缓存保存取自L2高速缓存 更贵的 的高速缓存行 L2: L2高速缓存 存储设备 SRAM) L2高速缓存保存取自L3高速缓存 的高速缓存行 L3: L3高速缓存 (SRAM) L3高速缓存保存取自主存 更大 主存 的高速缓存行 更慢 L4: DRAM) (每字节) 主存保存取自本地磁盘 的磁盘块 更便宜的 L5: 本地二级存储 (本地磁盘) 存储设备 本地磁盘保存取自远程网络 服务器上磁盘的文件 L6: 远程二级存储 (分布式文件系统,Wcb服务器) 图1-9一个存储器层次结构的示例 存储器层次结构的主要思想是上一层的存储器作为低一层存储器的高速缓存。因此, 寄存器文件就是L1的高速缓存,L1是L2的高速缓存,L2是L3的高速缓存,L3是主存 的高速缓存,而主存又是磁盘的高速缓存。在某些具有分布式文件系统的网络系统中,本 地磁盘就是存储在其他系统中磁盘上的数据的高速缓存。 正如可以运用不同的高速缓存的知识来提高程序性能一样,程序员同样可以利用对整 个存储器层次结构的理解来提高程序性能。第6章将更详细地讨论这个问题。 1.7操作系统管理硬件 让我们回到hello程序的例子。当shell加载和运行he1lo程序时,以及hello程序输 出自己的消息时,shell和hello程序都没有 应用程序 直接访问键盘、显示器、磁盘或者主存。取而 软件 操作系统 代之的是,它们依靠操作系统提供的服务。我 处理器 主存 IVO设备 硬件 们可以把操作系统看成是应用程序和硬件之间 插入的一层软件,如图1-10所示。所有应用 图1-10计算机系统的分层视图 程序对硬件的操作尝试都必须通过操作系统。 进程 操作系统有两个基本功能:(1)防止硬 虚拟内存 件被失控的应用程序滥用;(2)向应用程序 提供简单一致的机制来控制复杂而又通常大 文件 不相同的低级硬件设备。操作系统通过几个 基本的抽象概念(进程、虚拟内存和文件)来 处理器 主存 VO设备 实现这两个功能。如图1-11所示,文件是对 图1-11操作系统提供的抽象表示
第1章计算机系统漫游11 I/O设备的抽象表示,虚拟内存是对主存和磁盘I/O设备的抽象表示,进程则是对处理 器、主存和I/O设备的抽象表示。我们将依次讨论每种抽象表示。 旁注Unix、Posix和标准Unix规范 20世纪60年代是大型、复杂操作系统盛行的年代,比如IBM的OS/360和Honey- well的Multics系统。OS/360是历史上最成功的软件项目之一,而Multics虽然持续存 在了多年,却从来没有被广泛应用过。贝尔实验室曾经是Multics项目的最初参与者, 但是因为考虑到该项目的复杂性和缺乏进展而于1969年退出。鉴于Mutics项目不愉快 的经历,一群贝尔实验室的研究人员一Ken Thompson、Dennis Ritchie、Doug Mcll roy和Joe Ossanna,从I969年开始在DEC PDP-7计算机上完全用机器语言编写了一个 简单得多的操作系统。这个新系统中的很多思想,比如层次文件系统、作为用户级进程 的shell概念,都是来自于Multics,只不过在一个更小、更简单的程序包里实现。l970 年,Brian Kernighan给新系统命名为“Unix”,这也是一个双关语,暗指“Multics”的 复杂性。1973年用C重新编写其内核,1974年,Unix开始正式对外发布[93]。 贝尔实验室以慷慨的条件向学校提供源代码,所以Uix在大专院校里获得了很多 支持并得以持续发展。最有影响的工作发生在20世纪70年代晚期到80年代早期,在 美国加州大学伯克利分校,研究人员在一系列发布版本中增加了虚拟内存和Internet协 议,称为Unix4.xBSD(Berkeley Software Distribution)。与此同时,贝尔实验室也在 发布自己的版本,称为System V Unix。其他厂商的版本,比如Sun Microsystems的 Solaris系统,则是从这些原始的BSD和System V版本中衍生而来。 20世纪80年代中期,Uix厂商试图通过加入断的、往往不兼容的特性来使它们的 程序与众不同,麻烦也就随之而来了。为了阻止这种趋势,IEEE(电气和电子工程师协 会)开始努力标准化Unix的开发,后来由Richard Stallman命名为“Posix”。结果就得 到了一系列的标准,称作Posix标准。这套标准涵盖了很多方面,比如Uix系统调用 的C语言接口、shell程序和工具、线程及网络编程。最近,一个被称为“标准Unix规 范”的独立标准化工作已经与Posix一起创建了统一的Uix系统标准。这些标准化工 作的结果是Unix版本之间的差异已经基本消失。 1.7.1进程 像hello这样的程序在现代系统上运行时,操作系统会提供一种假象,就好像系统上只 有这个程序在运行。程序看上去是独占地使用处理器、主存和/O设备。处理器看上去就像 在不间断地一条接一条地执行程序中的指令,即该程序的代码和数据是系统内存中唯一的对 象。这些假象是通过进程的概念来实现的,进程是计算机科学中最重要和最成功的概念之一。 进程是操作系统对一个正在运行的程序的一种抽象。在一个系统上可以同时运行多个 进程,而每个进程都好像在独占地使用硬件。而并发运行,则是说一个进程的指令和另一 个进程的指令是交错执行的。在大多数系统中,需要运行的进程数是多于可以运行它们的 CPU个数的。传统系统在一个时刻只能执行一个程序,而先进的多核处理器同时能够执 行多个程序。无论是在单核还是多核系统中,一个CPU看上去都像是在并发地执行多个 进程,这是通过处理器在进程间切换来实现的。操作系统实现这种交错执行的机制称为上 下文切换。为了简化讨论,我们只考虑包含一个CPU的单处理器系统的情况。我们会在 1.9.2节中讨论多处理器系统
12第1章计算机系统漫游 操作系统保持跟踪进程运行所需的所有状态信息。这种状态,也就是上下文,包括许 多信息,比如PC和寄存器文件的当前值,以及主存的内容。在任何一个时刻,单处理器 系统都只能执行一个进程的代码。当操作系统决定要把控制权从当前进程转移到某个新进 程时,就会进行上下文切换,即保存当前进程的上下文、恢复新进程的上下文,然后将控 制权传递到新进程。新进程就会从它上次停止的地方开始。图1-12展示了示例he11o程 序运行场景的基本理念。 示例场景中有两个并发的进程:shell进程和hello进程。最开始,只有shell进程在 运行,即等待命令行上的输人。当我们让它运行hello程序时,shell通过调用一个专门 的函数,即系统调用,来执行我们的请求,系统调用会将控制权传递给操作系统。操作系 统保存shell进程的上下文,创建一个新的hello进程及其上下文,然后将控制权传给新 的hello进程。he11o进程终止后,操作系统恢复shell进程的上下文,并将控制权传回 给它,shell进程会继续等待下一个命令行输入。 如图1-l2所示,从一个进程到另一个进程的转换是由操作系统内核(kernel)管理的。 内核是操作系统代码常驻主存的部分。当应用程序需要操作系统的某些操作时,比如读写 文件,它就执行一条特殊的系统调用(system call)指令,将控制权传递给内核。然后内核 执行被请求的操作并返回应用程序。注意,内核不是一个独立的进程。相反,它是系统管 理全部进程所用代码和数据结构的集合。 时间 进程A 进程B 用户代码 read-- 内核代码 上下文切换 用户代码 磁盘中新-- 内核代码 上下文切换 从read返回-~ 用户代码 图1-12进程的上下文切换 实现进程这个抽象概念需要低级硬件和操作系统软件之间的紧密合作。我们将在第8 章中揭示这项工作的原理,以及应用程序是如何创建和控制它们的进程的。 1.7.2线程 尽管通常我们认为一个进程只有单一的控制流,但是在现代系统中,一个进程实际上 可以由多个称为线程的执行单元组成,每个线程都运行在进程的上下文中,并共享同样的 代码和全局数据。由于网络服务器中对并行处理的需求,线程成为越来越重要的编程模 型,因为多线程之间比多进程之间更容易共享数据,也因为线程一般来说都比进程更高 效。当有多处理器可用的时候,多线程也是一种使得程序可以运行得更快的方法,我们将 在1.9.2节中讨论这个问题。在第12章中,你将学习并发的基本概念,包括如何写线程 化的程序。 1.7.3虚拟内存 虚拟内存是一个抽象概念,它为每个进程提供了一个假象,即每个进程都在独占地使用 主存。每个进程看到的内存都是一致的,称为虚拟地址空间。图1-l3所示的是Liux进程的
第1章计算机系统漫游13 虚拟地址空间(其他Unix系统的设计也与此类似)。在Linux中,地址空间最上面的区域是 保留给操作系统中的代码和数据的,这对所有进程来说都是一样。地址空间的底部区域存放 用户进程定义的代码和数据。请注意,图中的地址是从下往上增大的。 内核虚拟内存 用户代码不可见的 用户栈 内存 (运行时创建的) 共享库的内存 映射区城 printfi函数 运行时堆 (在运行时由ma1loc创建的) 读写数据 从he11o可执行 文件加载进来的 只读的代码和数据 程序开始 0 图1-13进程的虚拟地址空间 每个进程看到的虚拟地址空间由大量准确定义的区构成,每个区都有专门的功能。在 本书的后续章节你将学到更多有关这些区的知识,但是先简单了解每一个区是非常有益 的。我们从最低的地址开始,逐步向上介绍。 ·程序代码和数据。对所有的进程来说,代码是从同一固定地址开始,紧接着的是和 。 C全局变量相对应的数据位置。代码和数据区是直接按照可执行目标文件的内容初 始化的,在示例中就是可执行文件hel1o。在第7章我们研究链接和加载时,你会 学习更多有关地址空间的内容。 ·堆。代码和数据区后紧随着的是运行时堆。代码和数据区在进程一开始运行时就被 指定了大小,与此不同,当调用像mal1oc和free这样的C标准库函数时,堆可 以在运行时动态地扩展和收缩。在第9章学习管理虚拟内存时,我们将更详细地研 究堆。 ·共享库。大约在地址空间的中间部分是一块用来存放像C标准库和数学库这样的共 享库的代码和数据的区域。共享库的概念非常强大,也相当难懂。在第7章介绍动 态链接时,将学习共享库是如何工作的。 ·栈。位于用户虚拟地址空间顶部的是用户栈,编译器用它来实现函数调用。和堆一 样,用户栈在程序执行期间可以动态地扩展和收缩。特别地,每次我们调用一个函 数时,栈就会增长;从一个函数返回时,栈就会收缩。在第3章中将学习编译器是 如何使用栈的。 ·内核虚拟内存。地址空间顶部的区域是为内核保留的。不允许应用程序读写这个区 域的内容或者直接调用内核代码定义的函数。相反,它们必须调用内核来执行这些 操作
14第1章计算机系统漫游 虚拟内存的运作需要硬件和操作系统软件之间精密复杂的交互,包括对处理器生成的每 个地址的硬件翻译。基本思想是把一个进程虚拟内存的内容存储在磁盘上,然后用主存作为 磁盘的高速缓存。第9章将解释它如何工作,以及为什么对现代系统的运行如此重要。 1.7.4文件 文件就是字节序列,仅此而已。每个I/O设备,包括磁盘、键盘、显示器,甚至网 络,都可以看成是文件。系统中的所有输入输出都是通过使用一小组称为UixI/O的系 统函数调用读写文件来实现的。 文件这个简单而精致的概念是非常强大的,因为它向应用程序提供了一个统一的视 图,来看待系统中可能含有的所有各式各样的I/O设备。例如,处理磁盘文件内容的应用 程序员可以非常幸福,因为他们无须了解具体的磁盘技术。进一步说,同一个程序可以在 使用不同磁盘技术的不同系统上运行。你将在第10章中学习Unix I/O。 旁注Linux项目 1991年8月,芬兰研究生Linus Torvalds谨慎地发布了一个新的类Unix的操作系 统内核,内容如下。 来自:torvalds(@klaava..Helsinki.FI(Linus Benedict Torvalds) 新闻组:comp.os.minix 主题:在minix中你最想看到什么? 摘要:关于我的新操作系统的小调查 时间:1991年8月25日20:57:08GMT 每个使用minix的朋友,你们好。 我正在做一个(免费的)用在386(486)AT上的操作系统(只是业余爱好,它不会像 GNU那样庞大和专业)。这个想法自4月份就开始酝酿,现在快要完成了。我希望得到 各位对miix的任何反馈意见,因为我的操作系统在某些方面与它相类似(其中包括相 同的文件系统的物理设计(因为某些实际的原因))。 我现在已经移植了bash(1.08)和gcc(1.40),并且看上去能运行。这意味着我需要 几个月的时间来让它变得更实用一些,并且,我想要知道大多数人想要什么特性。欢迎 任何建议,但是我无法保证我能实现它们。) Linus (torvaldsekruuna.helsinki.fi) 就像Torvalds所说的,他创建Linux的起,点是Minix,由Andrew S.Tanenbaum出 于教育目的开发的一个操作系统[113]。 接下来,如他们所说,这就成了历史。Liux逐渐发展成为一个技术和文化现象。 通过和GNU项目的力量结合,Liux项目发展成了一个完整的、符合Posix标准的 Uix操作系统的版本,包括内核和所有支撑的基础设施。从手持设备到大型计算机, Linux在范围如此广泛的计算机上得到了应用。IBM的一个工作组甚至把Linux移植到 了一块腕表中! 1.8系统之间利用网络通信 系统漫游至此,我们一直是把系统视为一个孤立的硬件和软件的集合体。实际上,现