AMD高保真超分算法1.0解密

FSR 1.0是空间滤波算法,分成EASU和RCAS两部分。EASU是边缘适配的空间上采样(Edge Adaptive Spatial

Upsampling),RCAS是健壮对比度适配锐化(Robust Contrast Adaptive Sharpening),从CAS发展而来。

Lanczos 采样及多项式拟合

FSR 1.0 使用了 Lanczos2 函数:

acf51824a4155c2b242fded711f02841.png

a是Lanczos的核大小,蓝色是a=2,绿色是a=0.2时的曲线,a越小,变化越剧烈,高频滤波的效果越强

abe5b0a8be42fbadc9b7ec1586524860.png

FSR 1.0 EASU使用多项式进行拟合,省去了sin,平方根等耗时的计算:

17ce6fd4c48fc647aa70aa87a1aef182.png

其中 ω用来移动控制窗口大小。下图叠加了多项式和Lanczos2的图像,可以看到当 在0.3附近时,拟合效果较好。

2aff8e35253f9ea01091e321a98a06b9.png

扫描二维码关注公众号,回复: 16479501 查看本文章

EASU 算法主要流程

分析FsrEasuF()函数,可知EASU算法主要流程:

1606ad474a801b791487dd461005df27.png

  • 采样周围12个点,计算各点亮度

  • 以内部2x2的四个点为中心的'+'字型为单位,进行4次计算,使用双线性插值得到梯度和长度

  • 对梯度,长度等量做校准,为下一步做呗参数

  • 根据方向进行旋转,通过 计算Lanczos2函数的波形,得到权重

  • 权重和颜色的混合

纹理采样

采样12个点b,c,e,f,g,h,i,j,k,l,n,o, 形状如下:

6c1add7889d20fe66ddbe5ec77d2d223.png

算法的输入是屏幕空间整型坐标,进行中心对齐。p0,p1,p2,p3点是归一化的纹理空间坐标,在[0,1]之间,它们作为textureGather的输入坐标进行采样。由于每一次只采一个颜色通道,所以总共有4x3=12次textureGather调用。算法以f为假想的基准点,F为其左上角整数坐标点。(Vulkan纹理坐标t轴向下)

dfb69d5f7e02fc9b28ac8f1ab3b51d86.png

亮度的计算比较简单,使用 0.5 ∗ r + 0.5 ∗ b + g,突出绿色通道的作用,值域在 [0, 2]

计算特征

FsrEasuSetF()函数被调用四次,每一次处理一个'+'字型:

60ed44f74859b0c501f2912425ff2c45.png为了和代码保持一致,这里用s,t,u,v标记每次调用的中心2x2 quad的四个点之一:

s t

u v

wi∈[s,t,u,v]是中心点落在s,t,u,v四种情况下的权重,公式如下:

b41610416032bcd74fdf8210ee4ac9c9.png

它的分配方式是:

f01dc6ba29bcc9d1f429d57a6346908a.jpeg

每一次调用输入5个点的亮度值,使用a,b,c,d,e统一标记位置之间的相对关系如下:

13bc8d3bae27a3175fa8fe820f4a1f28.png

则方向矢量 dir 的计算仅使用水平和垂直相邻方向,不考虑对角线,+字型中心点也不参与计算:

c1f9c3cc57785b7ca9046ef1a065a3d7.png

以水平方向为例,考虑下三种亮度变化的情形,显然1型具有较强的方向性,而3型梯度变化过于剧烈,被忽略。

90fa4eb96cc6495782aad468fb2bb174.png

长度是个标量,单次调用的计算方式如下:

c7237a4306e816f8433277873a6a7292.png

838b71f93ad55d52002d8e9039c39e91.jpeg

经过四次FsrEasuSetF 函数调用,实际上 dir和l都做了双线性插值。

数值校准

特征F和Lanczos拟合多项式控制因子ω的映射关系

02bd4dd4fe985c8b2ff8ec175c7f6816.png

c2a9525da4592db92c024aa9b362e5d4.png

36028e011752aaab151fae637c5a1d0d.png

代码流程

b0aa35c116b4b6e899c7922d6a332e7f.png

b8d054b0f3256bda34e6716617cd8ef6.png

12点加权平均

FsrEasuTapF函数实现了每个点的颜色计算,累积起来就是12个点的加权平均。函数原型和一个典型的调用方式:

void FsrEasuTapF(

inout AF3 aC, // Accumulated color, with negative lobe.

inout AF1 aW, // Accumulated weight.

AF2 off,      // Pixel offset from resolve position to tap.

AF2 dir,      // Gradient direction.

AF2 len,      // Length.

AF1 lob,      // Negative lobe strength.

AF1 clp,      // Clipping point.

AF3 c)

af1345ca3e77331a190349e2501ff606.pngAF2 v;

v.x = (off.x * (dir.x)) + (off.y * dir.y);

v.y = (off.x * (-dir.y)) + (off.y * dir.x);

旋转公式:

3f62dceacdd0b821abd064c05166ad7d.png

52c3995c5c026bc89dd60880eb1eae49.png

41097df67aa414113a60dba7dcb163cc.png

d52ee5b8fd8044b7e1333a4298a3a8fb.png

34dfab26050ec8dcbdf2a4eade32b880.png

计算最终颜色

044ce950b5bd1867b455a304112b065f.png

EASU 总结

EASU实际上使用了统一的公式处理了边缘和非边缘像素。非边缘像素周边像素接近,加权平均;边缘像素变化较大,做高频滤波,使用Lanczos2函数,实际也是加权平均,只不过权值是负值。假设当前像素是P,P点对应输入图像的像素为Q,以上处理过程实际是这样一个抽象的加权平均算法:

c7691c041a4462bba88636d6f10d983b.png

其中W(Qi )的是Q点周围点的权值,使用Lanczos2拟合多项式计算,效果和Bicubic接近,但是性能较好,用了12个点(Bicublic 16个点)。

RCAS

在EASU放大后,RCAS做锐化,使用的模板为:

6cd7e2543a16c23a1f86e0922494264a.png

它是拉普拉斯算子的变种,这里w为负半轴权重。输出像素计算公式:

ecc167ce0589cfb79e3152bbf3e6d8aa.png

那么 w 如何计算? RCAS 根据周围像素的对比度来计算。

首先得到+字型的亮度最大值 M 和最小值 m,则 w 的公式为:

64225c7f8cc4cf7f3580e3d32fe9da25.png

其中Scale为上采样之后的分辨率与原分辨率的比值。

移植和优化

FSR 1 画质效果一般,但即便如此,移动端延迟也偏高,高帧率的游戏是不适用的,需要进行优化。这篇文章提到了不少的优化方向可供借鉴:

https://atyuwen.github.io/posts/optimizing-fsr/

可以找到代码 github 找到源码, 总结起来有以下几点:

  • 使用半精度

  • 减少纹理采样次数,考虑只采一个通道

  • 提前退出

  • 移除deringring

  • 计算四次 FsrEasuSetF 然后插值改成先插值输入再调用一次 FsrEasuSetF,减少大量计算

一文搞定Android VSync机制来龙去脉

一文了解Vulkan在移动端渲染中的带宽与同步

RTC在不同业务场景下的最佳音质实践

8982715499b9d582c514d30233fb795d.gif

长按关注内核工匠微信

Linux内核黑科技| 技术文章| 精选教程

猜你喜欢

转载自blog.csdn.net/feelabclihu/article/details/132242061