文章目录

前言
一、操作系统加载过程
二、进程
总结

前言

回顾上文，操作系统是通过先描述再组织，进而管理软硬件资源的一款软件。那先组织再描述再组织的是什么呢？就是我们今天要讲的进程！

一、操作系统加载过程

操作系统是一款软件，那么它是如何加载到内存呢？其实，计算机在开机时早已做好准备，在你按下开机键的那一刻，BIOS（基本输入输出系统，英文： Basic Input Output System）芯片就开始启动，开始做准备工作，通电唤醒CPU，IO接口，内存等资源，有了CPU这一名大将，便可以接着加载硬件资源，比如：网卡，显卡，磁盘等。接着再找到操作系统的引导文件，借助引导文件，将操作系统从磁盘加载到内存中，接着操作系统就开始一顿乱杀。

BIOS，是计算机的一个在CPU运行的可执行程序，说白了就是一个引子，加载基本资源，然后把操作系统带到内存当中，并让其管理软硬件资源的功能。

二、进程

1.基本概念

再来想一个问题，那我们的qq是如何运行的呢？学到现在我们应该都知道可执行程序，也就是一个可以执行的文件，一般都在磁盘当中，那点击它之后，便在计算机系统中运行了起来，这之间需经过什么过程么？

可执行程序的数据在磁盘当中，要想运行，首先需要加载到内存当中，因为磁盘的运行速度很慢只有1ms左右，而内存的运行速度在100ns左右，能更好的适配CPU中寄存器10ns左右的速度, 然后操作系统该如何管理加载到内存的数据呢？不可能直接管理一大堆数据吧？那么多的程序要运行，数据该多大？这样操作系统不得累死，为了操作系统管理方便，于是便将需要进行管理的属性信息组织到一块，统一进行管理，那操作系统管理的属性信息就叫做PCB（process control block），在Linux下叫做task_struct。以下我们统称为task_struct。

这是task_struct的源码：供参考。

struct task_struct {
    
    
volatile long state;  //说明了该进程是否可以执行,还是可中断等信息
unsigned long flags;  //Flage 是进程号,在调用fork()时给出
intsigpending;   //进程上是否有待处理的信号
mm_segment_taddr_limit; //进程地址空间,区分内核进程与普通进程在内存存放的位置不同
                       //0-0xBFFFFFFF foruser-thead
                       //0-0xFFFFFFFF forkernel-thread
//调度标志,表示该进程是否需要重新调度,若非0,则当从内核态返回到用户态,会发生调度
volatilelong need_resched;
int lock_depth;  //锁深度
longnice;       //进程的基本时间片
//进程的调度策略,有三种,实时进程:SCHED_FIFO,SCHED_RR,分时进程:SCHED_OTHER
unsigned long policy;
struct mm_struct *mm; //进程内存管理信息
int processor;
//若进程不在任何CPU上运行, cpus_runnable 的值是0，否则是1这个值在运行队列被锁时更新
unsigned long cpus_runnable, cpus_allowed;
struct list_head run_list; //指向运行队列的指针
unsigned longsleep_time;  //进程的睡眠时间
//用于将系统中所有的进程连成一个双向循环链表,其根是init_task
struct task_struct *next_task, *prev_task;
struct mm_struct *active_mm;
struct list_headlocal_pages;       //指向本地页面      
unsigned int allocation_order, nr_local_pages;
struct linux_binfmt *binfmt;  //进程所运行的可执行文件的格式
int exit_code, exit_signal;
intpdeath_signal;    //父进程终止是向子进程发送的信号
unsigned longpersonality;
//Linux可以运行由其他UNIX操作系统生成的符合iBCS2标准的程序
intdid_exec:1; 
pid_tpid;    //进程标识符,用来代表一个进程
pid_tpgrp;   //进程组标识,表示进程所属的进程组
pid_t tty_old_pgrp;  //进程控制终端所在的组标识
pid_tsession;  //进程的会话标识
pid_t tgid;
intleader;     //表示进程是否为会话主管
struct task_struct*p_opptr,*p_pptr,*p_cptr,*p_ysptr,*p_osptr;
struct list_head thread_group;  //线程链表
struct task_struct*pidhash_next; //用于将进程链入HASH表
struct task_struct**pidhash_pprev;
wait_queue_head_t wait_chldexit;  //供wait4()使用
struct completion*vfork_done;  //供vfork()使用
unsigned long rt_priority; //实时优先级，用它计算实时进程调度时的weight值
 
//it_real_value，it_real_incr用于REAL定时器，单位为jiffies,系统根据it_real_value
//设置定时器的第一个终止时间.在定时器到期时，向进程发送SIGALRM信号，同时根据
//it_real_incr重置终止时间，it_prof_value，it_prof_incr用于Profile定时器，单位为jiffies。
//当进程运行时，不管在何种状态下，每个tick都使it_prof_value值减一，当减到0时，向进程发送
//信号SIGPROF，并根据it_prof_incr重置时间.
//it_virt_value，it_virt_value用于Virtual定时器，单位为jiffies。当进程运行时，不管在何种
//状态下，每个tick都使it_virt_value值减一当减到0时，向进程发送信号SIGVTALRM，根据
//it_virt_incr重置初值。
unsigned long it_real_value, it_prof_value, it_virt_value;
unsigned long it_real_incr, it_prof_incr, it_virt_value;
struct timer_listreal_timer;   //指向实时定时器的指针
struct tmstimes;     //记录进程消耗的时间
unsigned longstart_time;  //进程创建的时间
//记录进程在每个CPU上所消耗的用户态时间和核心态时间
longper_cpu_utime[NR_CPUS],per_cpu_stime[NR_CPUS]; 
//内存缺页和交换信息:
//min_flt, maj_flt累计进程的次缺页数（Copyon　Write页和匿名页）和主缺页数（从映射文件或交换
//设备读入的页面数）；nswap记录进程累计换出的页面数，即写到交换设备上的页面数。
//cmin_flt, cmaj_flt,cnswap记录本进程为祖先的所有子孙进程的累计次缺页数，主缺页数和换出页面数。
//在父进程回收终止的子进程时，父进程会将子进程的这些信息累计到自己结构的这些域中
unsignedlong min_flt, maj_flt, nswap, cmin_flt, cmaj_flt, cnswap;
int swappable:1; //表示进程的虚拟地址空间是否允许换出
//进程认证信息
//uid,gid为运行该进程的用户的用户标识符和组标识符，通常是进程创建者的uid，gid
//euid，egid为有效uid,gid
//fsuid，fsgid为文件系统uid,gid，这两个ID号通常与有效uid,gid相等，在检查对于文件
//系统的访问权限时使用他们。
//suid，sgid为备份uid,gid
uid_t uid,euid,suid,fsuid;
gid_t gid,egid,sgid,fsgid;
int ngroups; //记录进程在多少个用户组中
gid_t groups[NGROUPS]; //记录进程所在的组
//进程的权能，分别是有效位集合，继承位集合，允许位集合
kernel_cap_tcap_effective, cap_inheritable, cap_permitted;
int keep_capabilities:1;
struct user_struct *user;
struct rlimit rlim[RLIM_NLIMITS];  //与进程相关的资源限制信息
unsigned shortused_math;   //是否使用FPU
charcomm[16];   //进程正在运行的可执行文件名
 //文件系统信息
int link_count, total_link_count;
//NULL if no tty进程所在的控制终端，如果不需要控制终端，则该指针为空
struct tty_struct*tty;
unsigned int locks;
//进程间通信信息
struct sem_undo*semundo;  //进程在信号灯上的所有undo操作
struct sem_queue *semsleeping; //当进程因为信号灯操作而挂起时，他在该队列中记录等待的操作
//进程的CPU状态，切换时，要保存到停止进程的task_struct中
structthread_struct thread;
  //文件系统信息
struct fs_struct *fs;
  //打开文件信息
struct files_struct *files;
  //信号处理函数
spinlock_t sigmask_lock;
struct signal_struct *sig; //信号处理函数
sigset_t blocked;  //进程当前要阻塞的信号，每个信号对应一位
struct sigpendingpending;  //进程上是否有待处理的信号
unsigned long sas_ss_sp;
size_t sas_ss_size;
int (*notifier)(void *priv);
void *notifier_data;
sigset_t *notifier_mask;
u32 parent_exec_id;
u32 self_exec_id;
 
spinlock_t alloc_lock;
void *journal_info;
};

像这样一个进程信息，操作系统并不会进行直接管理，而是将这样的进程放到指定的内存区域，然后自己弄个结构体指针，通过指针找到对应的进程即可。

那如果有很多的进程呢？我们可以从task_struct的源码中寻找答案：

//用于将系统中所有的进程连成一个双向循环链表,其根是init_task
struct task_struct *next_task, *prev_task;

图解：
在这里插入图片描述

说明：这里的头尾相连省去了。

因此：操作系统的管理成本其实很低，只需要一个指针的大小，便可以管理所有存在内存中的task_struct。

那数据呢？有了task_struct你的信息和数据便也得到了管理，因为你的task_struct也会指向数据，方便对数据做更改和写入。

因此：进程等于 task_struct数据结构对象 + 代码和数据。

2.基本信息

①运行并观察进程

在vim上编辑如下代码：
在这里插入图片描述
然后运行此代码：

在这里插入图片描述

此时再开一个窗口会话，查看此进程的信息。

在这里插入图片描述
基本信息：

ps命令

ps ajx | less

可以通过上下翻来查看进程

ps aux --sort -pcpu | less
//将cpu占用资源进行排序
ps aux --sort -pmem | less
//将内存占用资源进行排序

查看进程的资源占用情况。

说明：一个进程只能有一个pid，一个可执行程序执行多次pid不同。

如何在进程里面查看pid与ppid呢？

介绍两个函数（系统调用接口）：getpid() 与 getppid()

举例代码
运行结果对比

可以看出是正确的pid与ppid
看父进程到底是什么

补充小知识点：kill -9 【进程id】可以杀掉进程。

那进程一般都存在哪呢？

在 Linux 下我们可以通过/proc（存的是内存级文件）目录中查看相关进程的信息，可以通过pid查看详细信息。

运行刚才我们写的代码：
通过pid查看进程的相关信息：

②创建子进程

函数：fork
返回值

看返回值，可能会感到奇怪——为啥fork（创建成功）能返回两个不同返回值？子进程的代码和数据怎么办？

下面我们一个一个解释，首先父子进程的代码共享，画出图是这样的：

在这里插入图片描述

那为啥代码可以共享呢？因为代码不可以被修改！

其次我们再解释fork的原理，fork是一个函数。

其功能是完成子进程的task_struct创建，并对子进程的数据进行初始化，让子进程指向父进程的代码，在其返回时其实是父进程与子进程执行同一块代码，但其身份不同所以返回两个返回值，父进程接收子进程的pid是为了管理子进程。因为是父进程把子进程创建出来的！

那数据是能够被修改的，总不可能使用同一块数据吧？是这样的。我们猜测是将数据拷贝出来一份给子进程使用，但是这样可能会导致资源浪费严重，万一子进程只修改一个数据呢？全部拷贝损耗有点大了！

还记得我们之前讲过一种技术吗？——写时拷贝（C++拷贝构造）。

当只进行访问时，我们使用同一块数据，但当对数据进行修改时，我们对数据再进行拷贝，这样极大地提升了对内存资源的使用效率。

那我们画出的完整的图应该是这样的：

在这里插入图片描述

再给出举例代码便于理解
运行结果

再来谈谈bash命令行，我们执行的命令一般都是bash的子进程，那bash里面是如何创建子进程的呢？肯定绕不过系统调用接口——fork。

总结一下：

父进程创建出子进程，并对子进程进行管理（fork对父进程返回子进程pid）.
父子进程代码共享。
数据当子进程进行只读时，共享，当子进程进行修改时会发生写时拷贝，从而进行修改拷贝之后的数据，因此数据可能共享，但共享部分的不同进程的访问权限不同！

③僵尸与孤儿进程（父子进程衍生出来的问题）

1. 僵尸进程（Zombie状态）

运行此代码：
不断用ps命名查看任务信息
总结：形成此进程的原理很简单，子进程在运行结束时，应该交由父进程进行管理释放，但父进程由于在忙着自己的事情，因此父进程腾不出手将子进程进行释放。
解决方法：此时我们是不能进行kill命令，杀掉此进程的，因为此进程是僵尸进程，算死过一次了，鞭尸并不管用，而应该杀掉父进程，这样子进程的资源就交由操作系统（init进程）进行管理释放。

2. 孤儿进程

运行此代码：
运行结果

此时我们用kill命令对父进程发送9号命令。
此时的运行结果：

可以看出子进程的父进程被干掉之后，变成了1号进程，那1号进程是谁呢？
用ps命令进行查看
可见这个命令是操作系统的进程。

那为什么需要操作系统来管呢？它的爷爷进程管不了吗？这就需要考虑我们之前的原因是父进程把子进程创建出来的，那释放资源的信息是放在父进程中的，爷爷进程咋进行管理？是管不了的！因此释放资源的操作是由父进程进行管理，要么就是操作系统亲自进行管理。

那为啥这个进程叫孤儿进程呢？因为创建它的进程，被干掉了，就相当于世上唯一的亲人没了，只能被操作系统进行领养，成了孤儿，就叫做孤儿进程。

3.基本状态

①操作系统的状态（统一）

在网上我们可能会看到各种层出不穷的状态:

像这样的：
在这里插入图片描述
这样的：

在这里插入图片描述
这样的：

还有很多，这一般都是教材上统一描述计算机系统的一些图解，但真正上我们用的并不多，下面我们从几个常用的状态来理解操作系统的状态~

1.运行态

毫无疑问，就是把进程放在CPU上跑，可是CPU又不是只跑一个进程，而是多个进程，因此操作系统该如何进行管理呢？

图解：
在这里插入图片描述
其实，每一个运行的进程，被放在了一个运行对列中排队，当该一个进程跑时，我们就把此进程放在CPU中跑，等跑一段时间再将此进程放下来换另一个对列，这个在CPU跑的时间段,我们称之为时间片。

听过函数栈帧的想必都知道，在计算机中代码的运行在底层都转换为了汇编指令的执行，一般都是使用的寄存器来执行这些指令，那我们常见的寄存器有哪些呢？

ebp：栈底寄存器
esp：栈顶寄存器
功能：维护当前正在使用的函数空间
eax：通用寄存器，保留临时数据，常用于返回值，也用于赋值。
ebx：通用寄存器，保留临时数据——通常是用于初始化用户栈
eip：指令寄存器，保存当前指令的下一条指令的地址，确保上一条指令能够继续运行下去。

这里我再强调一下，eip，也叫程序计数器，称为pc指针，其作用我举个具体场景进行分析。

#include <stdio.h>
int Add(int x, int y)
{
    
    
	int z = 0;
	z = x + y;
	return z;
}
int main()
{
    
    
	int a = 3;
	int b = 5;
	int ret = 0;
	ret = Add(a, b);
	printf("%d\n", ret);
	return 0;
}

调用函数的执行流：
在这里插入图片描述
可以看出，我们在调用函数时，跳转到了函数地址处所在的代码段，执行函数的代码，但执行完了，怎么返回呢？其实涉及到两个操作，第一个就是在call地址时，就把call指令的下一条指令进行了压栈操作，第二个就是在pop时，当执行ret返回命令时，会把压栈的地址再压入eip程序指针中，确保能执行到下一条指令。

到此我们提出来一个问题：当程序执行到一半，时间片到了，这该怎办呢？

是执行信息打包让进程带走，还是让CPU默默承受这一切？肯定是打包带走了，CPU才屁大一点地方，都给占用了，那进程还跑不跑了？

因此：task_struct中必然有一处是记录程序运行的信息的，就是为了下次再次运行时，能够恢复运行信息。

说明：CPU是ns级别的，换算成s是10^-9 次方，一般我们的进程放在CPU上运行10^-6 次方秒，这已经足以让CPU做大量的工作，一般情况下，我们肉眼是观察不到计算机在轮流执行着进程，如果观察到了，那未免这个操作系统设计的也太挫了。

这里涉及到计算机的运行设置：

并行：简单来说就是多个CPU跑多个程序。
并发：简单来说就是一个CPU跑多个程序。

2.阻塞态

当你的程序需要硬件设备资源时，这时会陷入阻塞状态。

一张图带你理解操作系统如何管理硬件资源：

在这里插入图片描述

这时我们应该就差不多清楚，当计算机程序陷入等待计算机资源时，这时进程就为阻塞状态。

3.挂起态

这个状态主要是为了解决阻塞态，会导致浪费内存资源的问题，因为在阻塞状态中，可能后面还会有一大堆的等待进程，进程的代码和数据并没有多大的用处，甚至还会浪费系统资源，因此为了提高内存的使用效率，可以将还没排上队的进程的代码和数据先放在磁盘中，等到这个进程了，再从磁盘中读取出来，接着进行使用。

因此操作系统的真实状态应该是：阻塞+挂起

②Linux系统的状态（实际）

在前面，我们其实已经说明了两种状态：僵尸状态和孤儿状态。

1.R状态

示例代码：
在这里插入图片描述

运行查看进程:

在这里插入图片描述

2.S状态

示例代码：
用ps命令查看进程信息

3.D状态

说明：无法提供场景进行实验，我们这里就详细解释一下。

D状态是一种比较深层次的睡眠状态，什么算比较深呢？也就是说操作系统都无法唤醒你，我们之前讲的S状态算是一种浅度睡眠，操作系统能进行杀死操作，而D状态操作系统是无法进行杀进程的，也就是说你给它发送kill -9 命令是不管用的！
为啥要这样做呢？因为当你在进行大量的磁盘写入状态时，你的进程是处于睡眠状态的，如果是浅度睡眠，也就是S状态，万一哪一天，系统资源不够，操作系统看你不顺眼，直接把你这个进程干掉了，你说你找谁说理去，操作系统只是在执行其应有的职责而已，这时为了解决这种问题，就有了D状态这一概念，在我写入磁盘文件不许操作系统的打扰，直到我写完了再说。

4.T状态

补充kill命令的几条信号：
在这里插入图片描述

9号：杀死进程。18号：继续进程。19号：停止进程。

举例代码：
在这里插入图片描述

观察流程:

在这里插入图片描述

有同学就问了，这个状态有什么用呢？
其实实验已经告诉我们了，在你想要单独查看进程时你可以将其它进程停止，这样之间的关系（比如父子关系）没有打破，还能更好的查看你想要查看的进程。

5.t状态

全名：trace stop(追踪停止状态)
举例代码：
观察流程：

说明：还有一个X状态（dead状态），一般是无法看到的，因为经过上面的实验可以得出，进程结束之后会变成僵尸状态，等待父进程进行资源回收。

4.优先级

①查看优先级

在命令行输入：

ps len | grep 【进程】

可查看到进程的优先级
在这里插入图片描述

pri：优先级

也可以通过top命令查看进程：

在这里插入图片描述

②修改优先级

说明：pri（new）= pri（old） + nice

注意：nice值是可以修改的但是区间在[-20,19],pid(old)一经设置便不可以被直接修改。
原因：调度器为了公平分配资源，禁止随意大量高频次的修改pri，这样在一定程度上会导致进程的饥饿问题（也就是有的进程可能分配到不足的CPU的资源），进而严重上会导致程序瘫痪。

pri修改优先级需要比较高的权限，因此普通用户只能nice往大了调，使优先级降低，root用户可以往大了也可以往小了进行调，不过范围还是再[-20,19]。

1.top

流程图：
在这里插入图片描述

2.nice

命令：

在运行开始前设置nice值

nice -n 【nice值】 【进程】

图解：

在这里插入图片描述

3.renice

命令：

在运行开始后设置renice

renice -n 【nice值】 【进程pid】

图解：
在这里插入图片描述

③基本结构

在这里插入图片描述

5.环境变量

环境变量是在加载过程中，系统自动配置的变量，具有全局属性。

①简单认识

1.PATH

bash命令的默认查找路径。

在这里插入图片描述

原因其实很简单，bash命令行的默认查找路径下没有当前路径。

如果要解决的话有两种办法，其一就是把可执行程序移到/user/bin路径下。
其二就是在默认路径上再加上我们的当前路径即可。

我们使用第二种方法：

在这里插入图片描述

可以证明：bash是从PATH命令行中查找的命令。
那如果我们一不小心将PATH覆盖呢？
不用担心,因为PATH是内存级的变量，在启动xshell时，系统会默认将环境变量加载到内存中，如果你覆盖了，只需重启xshell即可。

2.HOME

在这里插入图片描述

3.SHELL

在这里插入图片描述

查看当前我们使用的shell命令行

②常用的环境变量

env —— 查看所有的环境变量

③创建环境变量

命令

	export 【变量=初始值】
	将变量设置为环境变量。

实验流程：
结果：我们最开始设置的变量并不是环境变量，而是本地变量，之后我们用export将本地变量导出才有了环境变量。

④进程内使用环境变量

1.getenv

参数：环境变量——char* 类型
返回值: char*

普通用户：

root用户:
因此：便可以根据环境变量识别不同的用户名，从而设置不同的权限。

2.命令行参数

这是main函数的前两个参数：

int main(int argv, char* argv[])
{
    
    
	
	return 0;
}

顾名思义：就是打印出执行进程的命令

示例代码：
在这里插入图片描述

运行结果：

在这里插入图片描述

由此推出：argv是对传入的参数用空格进行分割，得到的字符串的个数。argc存放的就是分割过后的字符串。
引申出：可执行程序可以根据不同的选项从而实现不同的功能，这也是命令行的实现原理。

再来谈一下第二个参数的内存布局：

在这里插入图片描述
因此我们还可以这样进行使用：

int main(int argv, char* argv[])
{
    
    
	int i = 0;
	for(i = 0; argv[i]; i++)
	{
    
    
		printf("%s\n",argv[i]);
	}
	return 0;
}

3.环境变量参数

除了命令行参数，还存在着一个环境变量参数：

int main(int argv, char* argv[], char* env[])
{
    
    
	
	return 0;
}

示例代码：
在这里插入图片描述

命令行流程图：
在这里插入图片描述

总结：环境变量是能够被直接从父进程中继承下来的，并在创建子进程时放在进程中的environ中。
补充：本地变量是不能够被继承的，因此在子进程中是无法看到的。

但是我们可能会对此命令产生疑问：

在这里插入图片描述

其原因在于执行此命令时，bash并没有创建子进程，而是bash内部直接进行处理了，因此是可以打印出此本地变量的。这也被称之为内建命令。

这里再补充两点：

取消环境或者本地变量

unset 【变量】

打印本地变量与环境变量

set

总结

今天的分享就到这里了，如果觉得文章不错，点个赞鼓励一下吧！我们下篇文章再见！

【Linux进阶之路】进程（上）

文章目录

前言

一、操作系统加载过程

二、进程

1.基本概念

2.基本信息

①运行并观察进程

②创建子进程

③僵尸与孤儿进程（父子进程衍生出来的问题）

1. 僵尸进程（Zombie状态）

2. 孤儿进程

3.基本状态

①操作系统的状态（统一）

1.运行态

2.阻塞态

3.挂起态

②Linux系统的状态（实际）

1.R状态

2.S状态

3.D状态

4.T状态

5.t状态

4.优先级

①查看优先级

②修改优先级

1.top

2.nice

3.renice

③基本结构

5.环境变量

①简单认识

1.PATH

2.HOME

3.SHELL

②常用的环境变量

③创建环境变量

④进程内使用环境变量

1.getenv

2.命令行参数

3.环境变量参数

总结

猜你喜欢