CUDA算数运算

CUDA算数运算

原文见:https://blog.csdn.net/chinacodec/article/details/3899278

CUDA Stream processor 里的运算单元,基本上是一个浮点数的 fused multiply-add 单元,也就是说它可以进行一次乘法和一次加法,如下所示:

a = b * c + d;

compiler 会自动把适当的加法和乘法运算,结合成一个 fmad 指令。

除了浮点数的加法及乘法之外,整数的加法、位运算、比较、取最小值、取最大值、及以型态的转换(浮点数转整数或整数转浮点数)都是可以全速进行的。整数的乘法则无法全速进行,但 24 bits 的乘法则可以。在 CUDA 中可以利用内建的 __mul24 和 __umul24 函式来进行 24 bits 的整数乘法。

浮点数的除法是利用先取倒数,再相乘的方式计算,因此精确度并不能达到 IEEE 754 的规范(最大误差为 2 ulp)。内建的 __fdividef(x,y) 提供更快速的除法,和一般的除法有相同的精确度,但是在 2216 < y < 2218 时会得到错误的结果。

此外 CUDA 还提供了一些精确度较低的内部函数,包括 __expf、__logf、__sinf、__cosf、__powf 等等。这些函式的速度较快,但精确度不如标准的函式。详细的数据可以参考 CUDA Programming Guide 1.1 的 Appendix B。

根据上面的说法, 将C代码改成CUDA代码的时候,尽量用浮点的代码,这样效率会高点,测试了下CUDA SDK中测试dct的代码,确实是这样,使用float比使用short速度要稍微快点

猜你喜欢

转载自blog.csdn.net/fb_help/article/details/79954163