以下资料是我从别人的文章抽取出来的,我认为比较有利于理解。加上一点我的理解
接下来我们好好讨论一下内存对齐的作用
1.平台原因(移植原因):不是所有的硬件平台都能访问任意地址上的任意数据,某些硬件平台只能在某些地址处取某些特定类型的数据,否则抛出硬件异常
2.硬件原因:经过内存对齐之后,CPU的内存访问速度大大提升。具体原因接下来解释
图一:
我们普通程序员心中的内存印象,由一个个字节组成,但是CPU却不是这么看待的
图二:
cpu把内存当成是一块一块的,块的大小可以是2,4,8,16 个字节,因此CPU在读取内存的时候是一块一块进行读取的,块的大小称为(memory granularity)内存读取粒度。
我们再来看看为什么内存不对齐会影响读取速度?
假设CPU要读取一个4字节大小的数据到寄存器中(假设内存读取粒度是4),分两种情况讨论:
1.数据从0字节开始
2.数据从1字节开始
解析:当数据从0字节开始的时候,直接将0-3四个字节完全读取到寄存器,结算完成了。
当数据从1字节开始的时候,问题很复杂,首先先将前4个字节读到寄存器,并再次读取4-7字节的数据进寄存器,接着把0字节,4,6,7字节的数据剔除,最后合并1,2,3,4字节的数据进寄存器,对一个内存未对齐的寄存器进行了这么多额外操作,大大降低了CPU的性能。
但是这还属于乐观情况,上文提到内存对齐的作用之一是平台的移植原因,因为只有部分CPU肯干,其他部分CPU遇到未对齐边界就直接罢工了。
参考图片:
上面的两幅图已经说得很清楚了,如果不内存对齐会有什么后果。假如一个int类型的数,它一开始就存在0~3号内存中,由于我们的cpu是整块整块地进行数据读取,那么cpu就能直接将这块数据取出来。
那如果在1~4号呢,那么cpu就得先把两块内存取出来,将0~3号内存的1~3位取出来,然后再将4号的那一位取出来,存入寄存器中。这样子就影响了效率。那么我们干脆浪费空间,也要让cpu能够一次就取出来。这就是内存对齐。
接下来说说内存对齐的计算方法。
#include<iostream> using namespace std; struct A{ char a; int b; short c; }; struct B{ short c; char a; int b; }; int main(){ A x; B y; cout<<endl; int *u=(int *)&x.a; int *t=(int *)&y.a; x.a='a';x.b=1;x.c=1; y.a='a';y.b=1;y.c=1; cout<<u<<endl; cout<<&x.b<<endl; cout<<&x.c<<endl; cout<<&y.c<<endl; cout<<t<<endl; cout<<&y.b<<endl; cout<<"sizeof(A): " <<sizeof(A)<<endl; cout<<"sizeof(B): " <<sizeof(B)<<endl; return 0; }
以下是输出结果
我们以A为例子分析:
我在windows和Linux平台测试了,两个平台的#pragma pack()都应该是4。
对结构体的各成员来说,第一个成员位于偏移量为0的位置,之后的数据成员偏移量必须是 min(#pragma pack(),该数据成员自身长度) 的倍数。因为char为第一个成员,所以其偏移量为0,int为第二个成员,其偏移量为min(4,4)=4;在下面的图中,地址为4的倍数就是04了,所以int从这里开始。接着是short,偏移量为min(4,2)=2;偏移量为2的倍数的就是8,所以从08开始。由于结构没有成员了,那么也会凑够一个#pragma pack()。即一直到11这个位置。
假如你在short 后面加一个或者两个char,长度也仍然为12
以上内容来自 :https://www.cnblogs.com/jijiji/p/4854581.html