#include <stdio.h>
#include "time.h"

#define N 1000000
#define M 1000

typedef struct
{
    int a[N];
}Node;

#define OUTCLOCK \
    printf("%d ",clock()-theClock); \
    theClock=clock();

int main()
{
    clock_t theClock=clock();
    Node *p=(Node *)malloc(sizeof(Node)*M);
    OUTCLOCK
    for(int i=0;i<M;i++)for(int j=0;j<N;j++)p[i].a[j]=i*j+1;
    OUTCLOCK
    for(int j=0;j<N;j++)for(int i=0;i<M;i++)p[i].a[j]=i*j+1;
    OUTCLOCK
    return 0;
}

运行结果：

0 2339 2234

单位是毫秒

2，大批量内存拷贝，用memcpy代替赋值语句

int main()
{
    clock_t theClock=clock();
    Node *p=(Node *)malloc(sizeof(Node)*M);
    int *p2=(int *)malloc(sizeof(int)*N*M);
    OUTCLOCK
    for(int i=0;i<M;i++)for(int j=0;j<N;j++)p2[i*N+j]=p[i].a[j];
    OUTCLOCK
    memcpy(p2,p, sizeof(int)*N*M);
    OUTCLOCK
    return 0;
}

运行结果：

0 2811 276

四，分支语句

1，多分支语句的顺序

形如如下的代码：

    if(con1)do1;
    else if(con2)do2;
    else if(con3)do3;
    else do4;

假设do语句里面没有continue、break、goto、return语句，那么这段代码的执行时间分为con判断时间、do语句时间两部分。

其中，无论这些分支如何调整顺序，都不影响do语句时间，所以只需要考虑con判断时间。

假设各个分支的命中概率分别为p1 p2 p3 p4，判断时间（单个con表达式的执行时间）分别为t1 t2 t3 t4

则con判断时间T=p1t1 + p2(t1+t2) + p3(t1+t2+t3) + p4(t1+t2+t3+t4)

显然当p1/t1 > p2/t2 > p3/t3 > p4/t4时，T取到最小值。

也就是说，命中率高的分支往前放，单个con表达式执行时间较长的往后放（这种比如con表达式包含了执行一个函数）

2，循环嵌套条件语句

如果循环里面有if语句，无论是对程序员还是对cpu来说，都是一个复杂的行为。

#include <stdio.h>
#include "time.h"

#define N 1000000
#define M 1000

int x[M],y[M];

#define OUTCLOCK \
    printf("%d ",clock()-theClock); \
    theClock=clock();

int main()
{
    for(int i=0;i<M;i++)x[i]=i*i,y[i]=i*i*i+i*3+1;
    int d,s=0;
    scanf("%d",&d);
    clock_t theClock=clock();
    for(int i=0;i<N;i++)for(int i=0;i<M;i++)if(x[i]==d)s+=y[i];
    OUTCLOCK
    for(int i=0;i<N;i++)for(int i=0;i<M;i++)s+=((x[i]==d)?y[i]:0);
    OUTCLOCK
    return 0;
}

运行结果：

250000
1770 1501

可此可见，让条件只控制数据不控制指令跳转，对于CPU来说是很友好的。

C语言代码效率

一，分析方法

二，分析难点

三，内存访问

1，二维数组的访问

2，大批量内存拷贝，用memcpy代替赋值语句

四，分支语句

1，多分支语句的顺序

2，循环嵌套条件语句

猜你喜欢