CUDA算数运算

其他 2018-05-25 21:01:25 阅读次数: 0

CUDA算数运算

原文见：https://blog.csdn.net/chinacodec/article/details/3899278

CUDA Stream processor 里的运算单元，基本上是一个浮点数的 fused multiply-add 单元，也就是说它可以进行一次乘法和一次加法，如下所示：

a = b * c + d;

compiler 会自动把适当的加法和乘法运算，结合成一个 fmad 指令。

除了浮点数的加法及乘法之外，整数的加法、位运算、比较、取最小值、取最大值、及以型态的转换（浮点数转整数或整数转浮点数）都是可以全速进行的。整数的乘法则无法全速进行，但 24 bits 的乘法则可以。在 CUDA 中可以利用内建的 __mul24 和 __umul24 函式来进行 24 bits 的整数乘法。

浮点数的除法是利用先取倒数，再相乘的方式计算，因此精确度并不能达到 IEEE 754 的规范（最大误差为 2 ulp）。内建的 __fdividef(x,y) 提供更快速的除法，和一般的除法有相同的精确度，但是在 2216 < y < 2218 时会得到错误的结果。

此外 CUDA 还提供了一些精确度较低的内部函数，包括 __expf、__logf、__sinf、__cosf、__powf 等等。这些函式的速度较快，但精确度不如标准的函式。详细的数据可以参考 CUDA Programming Guide 1.1 的 Appendix B。

根据上面的说法, 将C代码改成CUDA代码的时候,尽量用浮点的代码,这样效率会高点,测试了下CUDA SDK中测试dct的代码,确实是这样,使用float比使用short速度要稍微快点

猜你喜欢

转载自blog.csdn.net/fb_help/article/details/79954163

CUDA算数运算

算数运算

算数运算符

javascript算数运算

Python算数运算

指针的算数运算

# 算数运算符

Scala 进行算数运算

Python中的算数运算

Shell中的算数运算

数组的算数运算

算数运算——加号的多种

Python 算数运算

算数运算基本定理

Python算数运算符

Python的算数运算符

python 基础之算数运算

python 算数运算符

JavaScript 算数运算符

python：算数运算符

位运算数值交换

09 算数运算符

06算数运算符

指针的算数运算 --- C语言

OpenCV：03图像的算数运算

pandas中的数据运算与算数运算

CUDA（Ⅲ）：矢量求和运算

06-Python算数运算符

Java 基础之算数运算符

Java 基本算数运算符

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)