内容包括：

简述

Multi-GPU

可配置 - 最多4个GPU可高达6TFLOPs

BXS 系列 - 安全功能

性能、效率和光线追踪预告

C系列的4级光线追踪

IMG B 系列GPU

1 简述

自Imagination发布其A 系列 GPU IP已经有一年时间，该版本当时被公司称为15年来最重要的版本。新架构确实标志着该公司GPU IP的一些重大更新，并有望显著提升性能，以及实现强大的竞争力。自那之后，除了一系列内部丑闻之外，我们对公司的了解很少。直到今天宣布了新一代IP：B系列。

新的Imagination B系列是去年A系列GPU IP版本的改进版本，通过微体系结构改进进一步迭代，但最重要的是，通过全新的多GPU系统以及更高的性能将架构扩展到更高的性能水平，以及为其IP家族引入新的安全级别的BXS。

2 Multi-GPU

对于Imagination这样的IP供应商来说，当前的GPU IP市场异常艰难，这已经不是什么秘密了。作为Arm之外唯一的其他知名IP供应商，由于多种因素，该公司的客户数量一直在减少。一方面原因是ARM可以为客户提供CPU+GPU的商业优势，二是需求许可GPU IP的客户在减少。

苹果公司使用Imagination的架构授权来设计自有GPU，三星也选择AMD作为其GPU IP供应商，海思半导体也在设计自己的GPU，但是前途未卜。就移动SoC供应商而言，需要授权的GPU IP的产品所剩无几。

剩下的就是移动以外的市场，而Imagination正是在这里试图重新聚焦：高性能计算以及需要安全功能且利润丰厚的利基市场，例如汽车。

BXT

将IP从移动设备扩展到我们认为高性能的GPU是一项艰巨的任务，因为这会直接影响许多为低功耗GPU IP设计时需要做出的架构平衡选择。传统上，在绝对性能、性能可扩展性和电源效率之间始终是一个权衡，一般高性能GPU根本效率不高，而低功耗的移动GPU则无法扩展性能。

Imagination的新B系列IP通过引入一种旧的扩展性能的新方法解决了这个难题：多GPU。

与其增加和扩展单个GPU的性能，不如使用多GPU。此时用户首先想到的第一件事就是其与台式机领域的多GPU技术的相似之处（例如SLI或Crossfire）。这些技术由于与现代API和游戏引擎不兼容，近年来的支持技术日渐减少。

Imagination实现多GPU的方法与之前的实现不同，主要的区别在于GPU处理工作负载的方式。Imagination在B系列GPU中将工作负载模型由“推”的方式（GPU驱动将工作任务推送给GPU渲染）转变为“拉”的方式（GPU设备主动拿取工作任务来处理）。这是GPU工作任务的基本模式的改变，Imagination称之为分离设计。

在一组GPU中，其中一个作为主GPU（primary GPU）带有一个控制固件处理器用来分割任务（渲染帧），并将这些渲染帧分割成不同的Tile，这样其他的Slave GPU就可以将这些分割的任务“拉”自己的硬件上执行。这里的Tile是GPU基于图块的渲染机制的核心。这与典型的替代帧渲染（AFR）或拆分帧渲染（SFR）机制不同。单个GPU基于tile的渲染如何可以有可变的Tile 大小，在B系列的多GPU工作负载分配中也可能发生这种情况，单个帧的Tile大小变化在GPU组之间分布不均。

最重要的是，Imagination推出的这个新的多GPU系统对于高层API和软件工作负载是完全透明的，这意味着从软件角度来看，运行多GPU配置的系统只能看到一个大型GPU。这与当前的离散多GPU实现形成了鲜明的对比，这也是为什么Imagination的多GPU技术更加有趣的原因。

可扩展架构

从实现的角度来看，它使Imagination及其客户在配置选项方面有了许多新的灵活性。从Imagination的角度来看，他们不必设计一个大型且笨重的GPU实现，由于时序收敛和其他微体系结构扩展方面的考虑而可能需要做更多的工作，他们可以设计一个更高效的GPU –并允许客户简单地将其中的多个应用放下在SoC中。 Imagination声称这允许使用更高频率的GPU，并且该公司针对高端用例（例如云计算用途）计划1.5GHz左右的实现。

对于客户而言，这在灵活性方面也是一个巨大的胜利：不必等待Imagination提供与其实际性能目标相匹配的GPU实施，客户就有可能只选择一个“最佳”构建模块SoC的设计过程中，它们自己可以自行实施和扩展配置，从而具有更高的灵活性和更短的周转时间。尤其是如果客户要为多个性能目标设计多个SoC，那么他们只需使用Imagination的一种硬件设计就可以轻松实现这一目标。

我们将在下一页中详细介绍扩展比例，但是目前B系列多GPU支持最多扩展4个GPU。与一个较大的GPU相比，在SoC上放置多个GPU的另一个有趣的方面是它们不必彼此相邻甚至不相邻。由于它们是独立的设计模块，因此可以做一些奇怪的事情，例如在SoC设计的每个角落放置GPU。

SoC供应商的唯一要求是将GPU连接到SoC的标准AXI互连到内存，无论如何这都是必需的。供应商可能必须将其扩展为更大的MC（多核）配置，但他们可以根据设计要求做出自己的选择。实现多GPU设置的另一个要求只是GPU本身之间的次要连接：这只是几根电线，充当内核之间的中断线，以便它们可以自我同步–在两者之间没有实际的数据通信。

因此，该设计特别适合当今即将推出的多芯片硅设计。尽管目前的单片GPU设计很难以与CPU相同的方式分解为小芯片，但Imagination的分散式多GPU方法在多个小芯片上实现都没有问题，并且仍然可以作为软件的单个GPU出现。

计算密度

回到初始点，Imagination正在使用这种新的多GPU方法来针对以前该公司无法提供的更高性能的设计。他们指出，通过多GPU扩展，他们更高效的基于移动设备的GPU IP可以与Nvidia和AMD当前提供的其他产品（Imagination将其最大配置扩展到6TFLOP）在PCIe外形设计中竞争，同时提供70％的改进计算密度–公司定义为TFLOPs /mm²的度量标准。尽管该指标在性能方面相对没有意义，因为该性能的上限仍然受到架构和当前B系列多GPU实现的MC4最高扩展限制的很大限制。被许可人生产较小的芯片，这反过来可能会极具成本效益。

B系列

B系列涵盖了许多实际的GPU IP，并且该公司继续将其划分为不同的性能等级-BXT系列是旗舰GPU设计，BXM系列是更加平衡的中地GPU IP，BXE系列是该公司的最小，最高效的Vulkan兼容GPU IP。下面让我们更详细地介绍各种GPU实现…

3 可配置 - 最多4个GPU可高达6TFLOPs

从最小的GPU构建块开始，很高兴提醒自己Imagination GPU的外观-以下是去年A系列演示文稿中的内容：

A系列可扩展性

从根本上讲，新的B系列GPU微体系结构看起来与A系列非常相似。在微体系结构方面，Imagination指出，与A系列产品相比，我们通常应该期望性能或效率提高15％，两个GPU系列的构造块通常相同，除了一些更重要的功能（例如新的IMGIC）（Imagination Image Compression）实现，我们将稍后介绍。

XT GPU仍由新的SPU设计组成，其中包含新的功能更强大的TPU（纹理处理单元）以及新的128宽ALU设计，该设计可扩展到称为USC（统一阴影群集）的ALU群集中。

BXT-MC4

Imagination目前在BXT系列中实现的最高端硬件实现是BXT 32-1024，将其中四个集成在一起就可以创建MC4 GPU。在高达1.5GHz时钟速度的高性能实现中，此配置将提供高达6TFLOP的FP32计算能力。尽管这还不足以赶上Nvidia和AMD，但对于过去15年一直活跃于移动领域的第三方GPU IP供应商而言，这是一个重大飞跃。

BXM-MC4

该公司的BXM系列继续在体系结构上有所差异，因为其某些实现未使用XT系列的超宽ALU设计。例如，当BXM-8-256使用一个128宽的USC时，效率更高的BXM 4-64例如继续使用8XT系列的32宽的ALU。与较大的单个GPU实施相比，将四个BXM-4-64 GPU放在一起可以使您进入更高的性能层，并具有更好的面积和电源效率。

BXE-MC4

BXE系列中发现了多GPU方法最有趣的方面，这是Imagination最小的GPU IP，其纯粹致力于获得最佳的区域效率。到目前为止，虽然BXT和BXM系列GPU是作为“主要”内核提供的，但BXE既以主要GPU形式又以辅助GPU形式提供。此处的区别在于IP的辅助变体缺少固件处理器和几何处理，而是完全依赖于主GPU的几何吞吐量。 Imagination表示，这种配置将能够在极其微小的区域使用中提供相当高的计算和填充率功能。

PowerVR 硬件设计GPU对比

将不同的设计放到一张桌子中，我们看到Imagination只需8种不同的硬件设计即可创建RTL并进行物理设计和时序收敛。从从最低端面向区域的IP扩展到将在高端高端移动SoC中使用的IP，这已经是一个不错的组合。

PowerVR MC配置

Imagination及其客户获得的最大灵活性是，他们可以简单地采用上述硬件设计之一，并通过布置多个GPU来无缝扩展这些硬件设计。在低端，这会在计算能力方面产生一些非常有趣的重叠，但是在不同的区域效率选项下会提供不同的填充率功能。在高端，最大的优势是Imagination可以通过其最大的GPU配置将其处理能力提高四倍。 Imagination指出，对于BXT系列，他们不再创建比BXT-32-1024大的单一设计，因为与客户只是通过AXT-32-1024来简单地提高性能相比，投资回报将更小，并且涉及更复杂的计时工作。多核实施。

4 IMGIC-更好的帧缓冲区压缩

除了多GPU可扩展性之外，B系列的另一个重要功能是增加了一个全新的图像压缩算法，简称为IMGIC或Imagination图像压缩。

压缩是现代GPU不可或缺的一部分，因为否则设计将只是内存带宽不足。迄今为止，Imagination一直在使用PVRIC实现这一目标。 PVRIC的问题在于，它是一种相对缺乏竞争力的压缩格式，与Arm的AFBC等其他竞争技术相比，其数据压缩率不高。与同类的Arm GPU相比，这导致IMG GPU使用更多的带宽。

IMGIC是替代PVRIC的全新设计和重新设计的压缩算法。 Imagination称其为最先进的图像压缩技术，与以前的PVRIC设计相比，可节省大量带宽并具有更大的灵活性。在事物的灵活性方面，IMGIC现在可以处理单个像素，而不仅仅是较小的图块或像素组。

此外，新算法据说比PVRIC简化8倍，这意味着硬件实现也大大简化，并且在面积减少方面取得了显着进展。

新的实施方案为供应商提供了更多的扩展选择，将压缩率降低到有损25％，从而极大地节省了带宽。 SoC供应商可以使用它来缓解带宽不足的情况或QoS情况，在这些情况下，SoC上的其他IP应该具有优先权。

总体而言，与A系列和上一代Imagination GPU架构相比，B系列现在的带宽减少了35％，鉴于内存带宽是一个昂贵的问题，无论是在实际的硅片成本方面还是在生产成本方面，这都是相当大的改进。以及能源消耗。

5 BXS 系列 - 安全功能

除了针对更高性能的设计目标外，Imagination还把重点放在汽车和工业市场上。为了涵盖这些用例，Imagination今天还发布了新的“ BXS”系列GPU IP – S代表安全性。

新的GPU IP阵容反映了标准的BXT，BXM和BXE配置，但增加了对ISO 26262 / ASIL-B功能安全功能的支持。

Imagination推出了一项名为“拼贴区域保护”的新功能，该功能可将渲染帧上的渲染图块的可配置区域标记为安全关键，并且GPU可以检查其正确执行和渲染，从而使其达到ISO 26262认证。

TRP是从最小的BXE等效BXS GPU实现的（坦率地说，Imagination在这方面要比调用整个安全产品系列BXS更好），从而可以完成工作以实现故障检测。此外，Imagination通过对进出GPU的所有数据进行CRC检查来实现端到端数据完整性保护，从而进一步帮助IP达到安全要求。

TRP需要单个GPU来重复工作，这反过来又意味着系统性能下降。一种更注重性能的扩展方式是多GPU实现。

汽车设计中的多GPU配置还可以达到将GPU划分为多个独立工作负载的目的。在消费者实现中，您可以期望GPU大部分发挥作用，并作为主机的单个大型单元出现，而汽车用例也可以使多个GPU完全彼此独立地起作用。也可以混合使用GPU，例如4核实现可能具有3个分区，其中两个GPU协同工作以为诸如信息娱乐系统等要求更高的任务集中资源，而另外两个GPU则负责处理其他独立的工作量。

当然，Imagination还将继续在一个GPU中支持多达8个“超级通道”（来宾）的硬件虚拟化。因此，您可以将2核设计分成3个分区，如上图所示。

除了在BXS系列上增加安全关键功能外，汽车IP还对微体系结构进行了一些特定的增强，从而可以为汽车领域更独特的工作负载实现更好的性能扩展。这样的方面之一是几何形状，其中汽车供应商倾向于使用荒谬数量的三角形。 Imagination表示，他们已经对其设计进行了调整，以适应这些更苛刻的用例，再加上一些MSAA特定的优化，与常规的非汽车IP相比，这些汽车边缘案例的性能可提高60％。

性能、效率和光线追踪预告

总体而言，今天发布的B系列实际上非常令人兴奋。尽管与去年的A系列相比，实际的GPU微体系结构仅取得了很小的进步，但Imagination在多GPU方面的做法具有很大的创新性，与我们在过去的多GPU尝试中看到的不同。

新“拉”的方式的分散式GPU设计无疑具有极大的灵活性。它不会具有绝对完美的缩放比例，因为在某些极端情况下可能会出现瓶颈，但是Imagination期望平均而言缩放比例非常好。

据说B系列的性能提升+ 30％，这是通过微体系结构和物理设计的提升（约15％）实现的，其余的则是通过选择多核GPU配置的PPA优势实现的。

可能比GPU IP本身更重要的是Imagination表示他们已经实际上已经许可并交付了IP客户-这与上一代Imagination GPU IP公告形成了鲜明的对比，在该公告中，不仅在IP交付之前就进行了宣传，但提前完成。

业内消息人士称，目前Imagination GPU IP的主要需求驱动力是中国的高性能GPU市场，在中国，人们对美国和AMD和Nvidia等美国供应商脱节的本土设计显然存在着巨大的饥渴和需求。

如果这种向高性能计算的方向发展的想像力可以实现，那么Imagination仍有待观察。显然，鉴于我们从未见过公开认可的8XT，9XT，9XTP甚至A系列芯片，至少获得了像上述这样的有形设计肯定是一个很大的进步。

6 C系列的4级光线追踪

最后，Imagination还在戏弄他们未来的C系列架构，确认它将是具有完整光线追踪功能的设计。尽管Imagination在过去十年的大部分时间里都拥有Raytracing IP和功能强大的GPU，但Nvidia的RTX系列以及AMD将Raytracing包括在新一代游戏机以及RDNA2系列中，才使RT生态系统全面投入使用。 Imagination正在充分利用这种复兴，因为它淘汰了几年前被搁置的RT IP。

除了确认新的C系列将具有光线追踪功能外，Imagination还确认这将是使用公司最全面的功能实现的功能，包括BVH处理和硬件中的相干排序，该功能被公司称为“ 4级”。光线跟踪实施，这将比当前的Nvidia和AMD GPU在“第3级”上实现的功能更先进。

Imagination解释说，他们已经拥有这些功能很长时间了，在与客户讨论他们希望在未来IP中看到什么样的功能时，他们选择了全面实施，因为这样更好。面向未来的设计选择。

总体而言，Imagination似乎正在尝试将自己的产品多样化到除典型的低功耗GPU用例之外的市场。对于公司而言，未来几年肯定会很有趣，尤其是新的分布式多GPU方法将是值得关注的事情。

参考资料

Imagination Announces B-Series GPU IP: Scaling up with multi gpu

Imagination B-Series GPU介绍