shellcode检测——libemu原理分析

一、简介

        libemu是一款用C语言实现的基于x86的shellcode检测的库。

        它可以支持:

                 1、解析x86指令、寄存器模拟、FPU模拟

                 2、静态分析、动态分析、Win32API hook

         使用libemu你可以:

                 1、判断一段字串是不是shellcode

                 2、可以用libemu得到指令执行流程图(类似于IDA等调试工具)

          libemu可以被用于IDS、蜜罐等安全产品中


二、使用

         下面是一个使用libemu的例子 

/*libemu test*/
#include <emu/emu.h>
#include <emu/emu_shellcode.h>
#include <emu/emu_memory.h>

struct emu *emu;

char shellcode[] =  
    	"\xbe\x1f\x5e\x89\x76\x09\x31\xc0\x88\x46\x08\x89\x46\x0d\xb0\x0b"  
    	"\x89\xf3\x8d\x4e\x09\x8d\x56\x0d\xcd\x80\x31\xdb\x89\xd8\x40\xcd"  
    	"\x80\xe8\xdc\xff\xff\xff\x2f\x62\x69\x6e\x2f\x6c\x73\x00\xc9\xc3"; 

int main()
{
	emu = emu_new();
	if ( emu_shellcode_test(emu, (uint8_t *)shellcode, 48) >= 0 )
        {
        	fprintf(stderr, "suspecting shellcode\n");
        }
	emu_free(emu);
	return 0;
}

           在上例中,执行过程中会打印 suspecting shellcode,表示这个是一段可以字符串,而实际上这段字符串是linux下的shellcode,完成的功能是在当前路径下执行“/bin/ls”。


三、实现原理

        libemu是基于对x86汇编语言的解析和模拟执行。和Bochs、qemu不同的是libemu只是模拟器,不是虚拟机。只能完成对内存和CPU的简单模拟,不能完全模拟执行。

3.1 一个基本假设

        libemu的一个基本假设是,如果字串是一段shellcode,那么其中一定包含”call”(0xe8)或者“fnstenv”(0xd9)指令(GetPC code)。

        这里边涉及到shellcode的编写技巧,在shellcode的编写一般都要进行地址定位,而地址定位就很难绕过call/ret或者类fnstenv的浮点数指令。比如说:

        一个例子:

jmp    0x2a                popl   %esi               movl   %esi,0x9(%esi)      movb   $0x0,0x8(%esi)      movl   $0x0,0xd(%esi)      movl   $0xb,%eax           movl   %esi,%ebx           leal   0x9(%esi),%ecx      leal   0xd(%esi),%edx    int    $0x80              movl   $0x1, %eax 
movl   $0x0, %ebx          int    $0x80              call   -0x2f               .string \"/bin/ksh\"  
         上边这段汇编实际上就是执行了两个系统调用exec和exit,但是这执行过程中需要把字符串"/bin/ksh"的地址传递给exec,但是这个地址在编写shellcode的时候是不知道的。

这里就是利用了"call"指令的特性:call的时候push eip(实际上就是call指令的下一条指令的地址入栈,在这个shellcode中就是符串"/bin/ksh"的地址),然后跳转到"popl %esi"指令处,执行之后就是把刚刚push进栈的地址,pop给了esi寄存器。

         

         另一个例子:编写shellcode的另外一个技巧—Delta offset。一个shellcode写好之后,其中的指令和数据的相对位置是固定的。那么该shellcode在shellcode开发机和被攻击的机器上的不同在于,shellcode的加载位置不同(eip不同)。如果把shellcode的所用到的地址都硬编码为开发机中实际的地址,那么理论上上只需要知道Delta offset,就可以计算出被攻击机器的地址。如下图:

                                                                                          
               这时问题就被转化为如何获得被攻击机器的eip的值,可以这样做:        
       call delta 
       delta: 
            pop ebp 
               或者:
       fpu_addr: 
       fnop 
       call GetPhAddr 
       sub ebp,fpu_addr 
       GetPhAddr: 
       sub esp,16 
       fnstenv [esp-12] 
       pop ebp 
       add esp,12 
       ret

3.2 三个基本动作:
       1、模拟memory,模拟CPU
               memory:模拟两级页表(写时复制)。
                         
               CPU:模拟寄存器、段、当前指令及其描述。
       
       2、静态分析

               是否是合法的x86汇编格式:

                          

              梳理指令流程:顺序执行,跳转,条件跳转, 得到令执行流程图。

              判断指令的数据地址有没有超出”shellcode”的控制范围。

        3、动态执行

               判断在指令执行时,该指令所用到的寄存器、内存地址的值,是不是由shellcode控制的。这里需要用到静态分析中得到的指令执行流程图。

3.3、判断是不是shellcode的标准:

         这个字符串,是否能够作为一段汇编语言动态执行?


四、伪代码

        emu_shellcode_test(XXX,uint8_t *data, uint16_t size
        {
	       if(data不包含“0xe8”和“0xd9”)
	       {	
                     this is safe ; 
                     return;    
               }
               从data开始找第一个合法的汇编语句,并进行静态分析;
	       if(静态分析出错)//语法错误或者数据不可控
	       {	
                     this is safe;
                     return;   
               }
	       进行动态分析;
	       if(data中的汇编可连续动态执行N步)
	       {	
                     this is suspecting shellcode;
                     return;   
               }
         }

五、局限性

          平台:只局限于X86

          性能:比较低,libemu自己提供的nids demo 吞吐为2Mbps

          误报漏报:shellcode中不一定会有"call"

          检测手段:libeum实际上并没有真正的检测攻击

          编码/加密:libemu对编码或加密的数据无能为力

              


猜你喜欢

转载自blog.csdn.net/sealyao/article/details/6708923