Cortex-M4之FPU

软件测试环境： CCS6.1.2

需要注意的是FPU单元是指的芯片上的一个独立于CPU处理的浮点运算单元，整个单元在大多数厂家的芯片中都是可以被使能和关闭的。相对于芯片，编译器也设置了相应的FPU功能开启/关闭的选项，在编译时需要告诉编译器是否开启FPU功能。编译器一旦开启FPU功能，在处理单精度浮点运算的语句时就会用带V-开头的汇编指令进行编译。如果编译器使能了FPU功能，而芯片未开启FPU单元，程序运行到浮点语句时就会出现异常。相反，如果编译器未使能FPU功能，芯片即使开启了FPU单元，程序还是会按照未使能FPU的代码进行处理。

开启FPU的方法：
首先，需要在编译器上开启FPU功能。CCS：默认为开启状态。可以在propertise——bulid——arm compiler——processor options 里的specify floating point support里配置，默认为FPv4SPD16 ，即开启状态。
其次，需要在代码里加上这两句 FPUEnable();FPULazyStackingEnable();（最好加在main函数入口处，具体原因我也不清楚。）

那面下面来讨论下这几种情况：
1.编译器未开启FPU，代码里配置了FPU。程序还是会按照未使能FPU的代码进行处理。
2.编译器开启FPU，代码里未配置FPU。如果代码中带有单精度浮点（注意是单精度）运算的代码，编译器就会使用带V的FPU单元汇编指令,无论芯片是否开启了FPU单元功能。除非用户在代码中关闭FPU功能（FPUDiable语句），那么程序执行就会出现错误，进入FaultISR；

所以我们平时写的程序只要用到了浮点运算，即使没有在代码中配置FPU，就如上面情况2所说的，默认是使用FPU功能的。。所以根本就不需要我们刻意去开启了。
还有一点要注意的是浮点运算单元只适用于单精度浮点（Float型）的运算，而对于double型就不管用。要是你语句中有 a=a*1.2这样的语句，这个1.2系统是默认定义为double型的，运算时按double型进行运算，再把结果转化成float，所以应写成 a=a*1.2f（将1.2定义为float型）才行。

a,b,c,d均为float型

这样一段代码用时12.8秒
for(i=0;i<500000;i++)
        {
                a=a+1234.56789;
                b=a*9876.54321/1234.56789;
                c=b/a;
                d=a*b*c*1.222;
}
而如果我将代码改成这样，用时1秒
for(i=0;i<500000;i++)
        {
                a=a+1234.56789f;
                b=a*9876.54321f/1234.56789f;
                c=b/a;
                d=a*b*c*1.222f;
        }

以上摘自：http://bbs.eeworld.com.cn/thread-451904-1-1.html

测试环境：MDK

浮点运算一直是定点CPU的难题，比如一个简单的1.1+1.1，定点CPU必须要按照IEEE-754标准的算法来完成运算，对于8位单片机来说已经完全是噩梦，对32为单片机来说也不会有多大改善。虽然将浮点数进行Q化处理能充分发挥32位单片机的运算性能，但是精度受到限制而不会太高。对于有FPU（浮点运算单元）的单片机或者CPU来说，浮点加法只是几条指令的事情。
现在又FPU或者硬件浮点运算能力的主要有高端DSP（比如TI F28335/C6000/DM6XX/OMAP等)，通用CPU（X87数学协处理器）和高级的ARM+DSP处理器等。
STM32-F4属于Cortex-M4F构架，这和M0、M3的最大不同就是多了一个F-float，即支持浮点指令集，因此在处理数**算时能比M0/M3高出数十倍甚至上百倍的性能，但是要充分发挥FPU的数学性能，还需要一些小小的设置：
1.编译控制选项：虽然STM32F4XX固件库的例程之system_stm32f4XXX.c文件中添加了对应的代码，但给用户评估使用的STM32F4-Discovery例程中却没有，因此MDK4.23编写浮点运算程序时，虽然编译器正确产生了V指令来进行浮点运算，但是因为system_stm32f4XXX.c文件没有启用FPU，因此CPU执行时只认为是遇到非法指令而跳转到HardFault_Handler()中断中原地踏步。因此要保证这个错误不发生，必须要在system_init()函数里面添加如下代码：
/* FPU settings ------------------------------------------------------------*/
#if (__FPU_PRESENT == 1) && (__FPU_USED == 1)
SCB->CPACR |= ((3UL << 10*2)|(3UL << 11*2)); /* set CP10 and CP11 Full Access */
#endif

因为这个选项是有条件编译控制的，因此需要在工程选项（Project->Options for target "XXXX"）中的C/C++选项卡的Define中加入如下的语句：__FPU_PRESENT=1,__FPU_USED =1。这样编译时就加入了启动FPU的代码，CPU也就能正确高效的使用FPU进行简单的加减乘除了。
但这还远远不够。对于复杂运算，比如三角函数，开方等运算，如果编程时还是使用math.h头文件，那是没法提升效率的：因为math.h头文件是针对所有ARM处理器的，其运算函数都是基于定点CPU和标准算法（IEEE-754），并没有预见使用FPU的情况，需要很多指令和复杂的过程才能完成运算，也就增加了运算时间。因此要充分发挥M4F的浮点功能，就需要使用固件库自带的arm_math.h，这个文件根据编译控制项（__FPU_USED == 1）来决定是使用那一种函数方法：如果没有使用FPU，那就调用keil的标准math.h头文件中定义的函数；如果使用了FPU，那就是用固件库自带的优化函数来解决问题。

以上摘自：http://bbs.21ic.com/icview-899766-1-1.html

猜你喜欢