什么是opcode?
- opcode是PHP脚本编译后的中间语言(相似于Java语言的字节码–byte-code),是PHP引擎(Zend)执行的语言。
- PHP引擎在执行PHP脚本时会分为四步来进行:
扩展: 执行每个PHP脚本都会遵循上面的四个步骤,为了提高PHP脚本的执行速度可以使用一些cache(如APC)来缓存opcodes,这样每次脚本执行时就能减少前三步的消耗,从而提高执行速度。1、扫描、词法分析:将PHP代码转换为token(语言片段) 2、语法分析:将token转换为简单而有意义的表达式 3、编译:将所有表达式转换成opcodes 4、执行:顺序执行(通常为由上至下)opcodes,每次一条,从而实现脚本功能
- 学过编译原理使得对编译原理中的词法分析步骤有所了解,Lex就是一个词法分析的依据表。 Zend/zend_language_scanner.c会根据Zend/zend_language_scanner.l(Lex文件),来输入的 PHP代码进行词法分析,从而得到一个一个的“词”,PHP提供了一个函数叫token_get_all,这个函数就可以将一段PHP代码通过查询词法分析表翻译为Tokens。在这个Tokens中,源码中的字符串,字符,空格,都会原样返回。每个源代码中的字符,都会出现在相应的顺序处。而其他的比如标签,操作符,语句,都会被转换成一个包含俩部分的数组(类似于数组): Token 和ID (也就是在Zend内部的改Token的对应码,比如,T_ECHO,T_STRING),和源码中的原来的内容;
- 到了语法分析阶段,首先会丢弃Tokens Array中的多于的空格,然后将剩余的Tokens转换成一个一个的简单的表达式;
- 到了编译阶段,会把Tokens编译成一个个op_array, 每个op_arrayd包含如下5个部分:
1.Opcode数字的标识 指明了每个op_array的操作类型,比如add , echo 2.结果 存放Opcode结果 3.操作数1 给Opcode的操作数 4.操作数2 5.扩展值 1个整型用来区别被重载的操作符 如 <?php echo "hello world"; ?>会被编译为: * ZEND_ECHO 'Hello World' 另外操作数的作用是用来对变量进行处理的,如: <?php $a = 1; echo $a; ?> 编译后的opcode为: * ZEND_ASSIGN !0 1 把1赋值给!0 * ZEND_ECHO !0 输出!0 这里我们并没有看到$a这个变量,我们先来看一下操作数的组成: op_type: 为IS_CONST, IS_TMP_VAR, IS_VAR, IS_UNUSED, or IS_CV u: 一个联合体,根据op_type的不同,分别用不同的类型保存了这个操作数的值(const)或者左值(var) IS_CONST为一个值; IS_TMP_VAR是一个临时变量,保存一些op_array的结果,以便接下来的op_array使用, 这种的操作数的u保存着一个指向变量表的一个句柄(整数),这种操作数一般用“~”开头; “`~0`”表示变量表的0号未知的临时变量; IS_VAR 这种就是我们一般意义上的变量了,他们以$开头表示; IS_CV 编译器使用的一种cache机制,这种变量保存着被它引用的变量的地址; 当一个变量第一次被引用的时候,就会被CV起来,以后对这个变量的引用就不需要再次去 查找active符号表了,CV变量以!开头表示。 这么看来,$a被编译成了!0。
关于PHP中单引号和双引号的一些理解:
- 在PHP中字符串支持单引号和双引号的使用方式,也就是说下面两种使用字符串的方式都是正确的:
<?php echo "hello world!"; echo 'hello world!'; ?>
- 那么这两种方式有什么不同之处呢?在此之前,有说在PHP中处理字符串用单引号会快比双引号更快,那么如果存在变量替换的时候,是使用单引号连接快呢,还是双引号快呢?接下来就然我们来探究一下。以下内容从PHP的单引号和双引号处转载。
测试代码:
<?php
$single_quotes = 'This is a String';
$double_quotes = "This is a String";
echo $single_quotes;
echo $double_quotes;
$var = 'String';
$single_quotes_var = 'This is a '.$var;
$double_quotes_var = "This is a $var";
echo $single_quotes_var;
echo $double_quotes_var;
$var = 'This';
$single_quotes_var_pre = $var . ' is a String';
$double_quotes_var_pre = "$var is a String";
echo $single_quotes_var_pre;
echo $double_quotes_var_pre;
?>
接下来,让我们以前文章提到过的Opcodes生成器来看看,最终我们的这段代码是怎么被执行的:
Branch analysis from position: 0
Return found
filename: /home/xinchen/string.php
function name: (null)
number of ops: 24
compiled vars: !0 = $single_quotes, !1 = $double_quotes, !2 = $var, !3 = $single_quotes_var, !4 = $double_quotes_var, !5 = $single_quotes_var_pre, !6 = $double_quotes_var_pre
line # op fetch ext return operands
-------------------------------------------------------------------------------
2 0 ASSIGN !0, 'This+is+a+String'
3 1 ASSIGN !1, 'This+is+a+String'
4 2 ECHO !0
5 3 ECHO !1
7 4 ASSIGN !2, 'String'
8 5 CONCAT ~3 'This+is+a+', !2
6 ASSIGN !3, ~3
9 7 INIT_STRING ~5
8 ADD_STRING ~5 ~5, 'This+is+a+'
9 ADD_VAR ~5 ~5, !2
10 ASSIGN !4, ~5
11 11 ECHO !3
12 12 ECHO !4
14 13 ASSIGN !2, 'This'
16 14 CONCAT ~8 !2, '+is+a+String'
15 ASSIGN !5, ~8
17 16 INIT_STRING ~10
17 ADD_VAR ~10 ~10, !2
18 ADD_STRING ~10 ~10, '+is+a+String'
19 ASSIGN !6, ~10
19 20 ECHO !5
20 21 ECHO !6
22 22 RETURN 1
23* ZEND_HANDLE_EXCEPTION
- 注意第0到第3条op line, 可以看出在没有使用变量替换的情况下,双引号的和单引号所产生的Opcodes是一样的。再来看:第4到第12条, 可以发现,在使用变量替换的情况下,使用双引号和单引号所生成的Opcodes是不一样的,我们来分析双引号情况下的Opcodes:
7 INIT_STRING 初始化一个字符串变量,存放在~5临时变量中。
8 ADD_STRING 将第一部分字符串写入。
9 ADD_VAR 将变量替换的字符串写入。
注:这三条opcode在PHP7之后合并为了一条FAST_CONCAT语句
-
第16-28行同理。从这里我们可以发现,在使用双引号的情况下和使用单引号的情况下,同样的逻辑,所经历的执行确实不一样的(因为,Opcodes对于PHP来说就是最终的执行代码)。单单从生成的Opcods数量来说,就已经足以证明确实是使用单引号会快了。至于编译阶段,双引号和单引号的区别也是很大的, 我就举个数字来说明: 在扫描阶段, 对于双引号的词法规则有14条,而对于单引号,仅仅只有6条。单引号和双引号还有一个区别就是在单引号中的变量不会被识别,而在双引号中的变量可以被识别。
<?php $str = "world"; echo "hello {$str}"; //hello world echo 'hello {$str}'; //hello {$str} ?>
-
另外,对于不需要变量替换的纯字符串,因为在C/C++中,双引号才表示字符串,所以这种情况下,还是使用双引号的好。而对于W3C标准来说, HTML中的属性值应该是使用双引号来包含的 ,所以不要习惯了单引号,到处滥用。