system问题记录

sysytem实现原理:

为了更好的理解system()函数返回值,需要了解其执行过程,实际上system()函数执行了三步操作:

  1. fork一个子进程;
  2. 在子进程中调用exec函数去执行command;
  3. 在父进程中调用wait去等待子进程结束。 对于fork失败,system()函数返回-1。 如果exec执行成功,也即command顺利执行完毕,则返回command通过exit或return返回的值。 (注意,command顺利执行不代表执行成功,比如command:"rm debuglog.txt",不管文件存不存在该command都顺利执行了) 如果exec执行失败,也即command没有顺利执行,比如被信号中断,或者command命令根本不存在,system()函数返回127. 如果command为NULL,则system()函数返回非0值,一般为1.

分析:

system函数对返回值的处理,涉及3个阶段:

阶段1:创建子进程等准备工作。如果失败,返回-1。

阶段2:调用/bin/sh拉起shell脚本,如果拉起失败或者shell未正常执行结束(参见备注1),原因值被写入到status的低8~15比特位中。system的man中只说明了会写了127这个值,但实测发现还会写126等值。

阶段3:如果shell脚本正常执行结束,将shell返回值填到status的低8~15比特位中。

备注1:

只要能够调用到/bin/sh,并且执行shell过程中没有被其他信号异常中断,都算正常结束。

比如:不管shell脚本中返回什么原因值,是0还是非0,都算正常执行结束。即使shell脚本不存在或没有执行权限,也都算正常执行结束。

如果shell脚本执行过程中被强制kill掉等情况则算异常结束。

如何判断阶段2中,shell脚本是否正常执行结束呢?系统提供了宏:WIFEXITED(status)。如果WIFEXITED(status)为真,则说明正常结束。

如何取得阶段3中的shell返回值?你可以直接通过右移8bit来实现,但安全的做法是使用系统提供的宏:WEXITSTATUS(status)。

由于我们一般在shell脚本中会通过返回值判断本脚本是否正常执行,如果成功返回0,失败返回正数。

所以综上,判断一个system函数调用shell脚本是否正常结束的方法应该是如下3个条件同时成立:

(1)-1 != status

(2)WIFEXITED(status)为真

(3)0 == WEXITSTATUS(status)

因此,我们可以由下面代码判断命令是否正常执行并返回:

static bool system_command(const char* cmd) {
    pid_t status = 0;
    bool ret_value = false;
    status = system(cmd);
    
    if (-1 == status) {
        
	printf("system failed!");
    // 这里务必要把errno信输出或记入Log
    printf("cmd: %s\t error: %s", cmdstring, strerror(errno));
    } 
    else {
        if (WIFEXITED(status)) {
        //取得cmdstring执行结果 
        printf("normal termination, exit status = %d\n", WEXITSTATUS(status)); 
            if (0 == WEXITSTATUS(status)) {
                ret_value = true;
            } else {
                
                printf("System shell script failed:[%d]\n", WEXITSTATUS(status));
            }
        } else {
            
            printf("System status = [%d]\n", WEXITSTATUS(status));
        }
    }
    
    printf("System [%s] ok....", cmd);
    return ret_value;
}

项目中因使用了system()函数而造成了很严重的事故。现像是system()函数执行时会产生一个错误:“No child processes”。此时调用my_system()来执行system函数的功能(my_system函数中是使用popen()函数来实现的), 测试了一天,没有再次出现程序突然死掉的问题(修改前连续循环调用system()函数测试,每10次就会至少导致程序挂掉一次.连续不停顿的调用)。

popen替代system示例:

system函数错误返回-1 错误原因NO child processes

调用system函数执行一个shell命令,返回-1,错误提示no child processes 但system可以执行成功

原因是调用system之前有放置忽略SIGCHLD的语句

signal(SIGCHLD, SIG_IGN);

如果SIGCHLD信号行为被设置为SIG_IGN时,waitpid()函数有可能因为找不到子进程而报ECHILD错误。似乎我们找到了问题的解决方案:在调用system()函数前重新设置SIGCHLD信号为缺省值,即signal(SIGCHLD, SIG_DFL)。

解决办法 用pox_system()函数替代system(),只需要修改此处一个函数,其他调用处都不需要改。

typedef void (*sighandler_t)(int);  

int pox_system(const char *cmd_line)  

{  

 int ret = 0;  

sighandler_t old_handler;  

old_handler = signal(SIGCHLD, SIG_DFL);  

ret = system(cmd_line);  

signal(SIGCHLD, old_handler);  

return ret;  

}  

typedef void (*sighandler_t)(int);  

int pox_system(const char *cmd_line)  

{  

 int ret = 0;  

 sighandler_t old_handler;  

 old_handler = signal(SIGCHLD, SIG_DFL);  

ret = system(cmd_line);  

signal(SIGCHLD, old_handler);  

return ret;  

}  

SIG_DFL:默认信号处理程序
SIG_IGN:忽略信号的处理程序

猜你喜欢

转载自blog.csdn.net/qq_34738528/article/details/81810133