在“进程控制三部曲”中,我们学习到了 fork 是三部曲的第一部,用于创建一个新进程。但是关于 fork 的更深入的一些的东西我们还没有涉及到,例如,fork 创建的新进程与调用进程之间的关系、父子进程的数据共享问题等。fork 是否可以无限制的调用?如果不行的话,最大限制是多少?另外,我们还将学习一个 fork 的变体 vfork。
1 fork 创建的新进程与调用进程之间的关系
UNIX 操作系统中的所有进程之间的关系呈现一个树形结构。除了进程 ID 为 0(swapper 进程)和 1(init 进程)的进程之外的其他进程,都会存在一个父进程。
fork 函数调用产生的新进程的父进程默认即为调用进程。fork 函数调用产生的父子进程各自的运行时间是不确定的。如果子进程先于父进程终止,这样没有什么问题。但,如果父进程先于子进程终止,那么子进程是不是就没有了父进程,进程树形结构就被破坏了?对于这个问题,UNIX 系统这么处理的:如果某个进程终止了,则将该进程的所有尚未结束的子进程的父进程设置为 init 进程(init 进程是绝不会终止的)。其操作过程大致为:在一个进程终止时,内核逐个检查所有活动进程(因为 UNIX 没有提供一个获取某个进程所有子进程的接口),如果是正在终止的进程的子进程,则将其父进程设置为 init 进程。
2 父子进程的数据共享问题
fork 函数创建的子进程会获得父进程的数据空间、堆和栈的副本。但是,大多数情况下,fork 之后都会紧接着调用 exec 执行新程序,从而覆盖了从父进程拷贝的这些副本,这就造成了内核做了很多无用功。
现在很多的实现都采用写时复制(Copy-On-Write,COW)技术。fork函数调用之后,父子进程共享这些区域,而且内核将这些区域的权限改为只读的。如果父、子进程中任何一个试图修改这些区域,则内核只为要修改的区域做一份拷贝给该进程。
下面我们来看一个共享数据的例子,
#include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <string.h> #include <errno.h> int glob = 0; int main(void) { int var; pid_t pid; var = 0; if ((pid = fork()) < 0) { printf("fork error: %s\n",strerror(errno)); exit(-1); } else if (pid == 0) { var++; glob++; printf(child: glob=%d,var=%d\n",glob,var); exit(0); } wait(NULL); printf(parent: glob=%d,255); line-height:1.5!important">var); exit(0); }
该程序在 fork 之后的父进程等待子进程结束,而子进程将整型变量glob 和 var 都加了 1. 编译该程序,生成并执行 forkdemo. 从下面的运行结果,我们看到子进程修改的 glob 和 var 变量对父进程没有任何影响。
lienhua34:demo$ gcc -o forkdemo forkdemo.c lienhua34:demo$ ./forkdemo child: glob=1,var=1 parent: glob=0,128); line-height:1.5!important">0
虽说子进程享用的是父进程的数据副本,子进程的修改对父进程没有任何影响。但有个比较特殊的情况:文件 I/O。fork 会将父进程的所有打开文件描述符都复制到子进程。父子进程中相同的文件描述符则共享同一个文件表项(关于文件描述符和文件表项的关系请参考文档“内核 I/O 数据结构”)。下面我们看一个例子,255); line-height:1.5!important">void) { pid_t pid; printf(before fork\n"); in child process\n"); exit(in parent process\n"); exit( 编译该程序,生成并执行文件 forkdemo,209); border:none!important">