参考：https://pytorch.org/get-started/pytorch-2.0/#ask-the-engineers-20-live-qa-series

总览

特性

faster
more pythonic
as dynamic as ever

torch.compile，部分零件由C++迁移到Python,加强torch.compile的新技术有TorchDynamo, AOTAutograd, PrimTorch and TorchInductor。

benchmarks 分成三类

HuggingFace Transformers46个模型
TIMM 61个模型
TorchBench 56个模型

精度：float32/Automatic Mixed Precision (AMP)

动机

第一：保持易用性，可编程性
第二：性能

致力：
1.高性能执行
2.内部python式
3.好的抽象用于分布式/Distributed,自动差分/Autodiff,数据加载/Data loading,加速器/Accelerators…

为什么会用C++:2017年建设Pytorch,计算上硬件加速快了15倍，内存快了2倍，所以把PyTorch内部部分转移到C++,导致它可编程性变差，也增加了代码贡献的障碍。

扫描二维码关注公众号，回复： 15240782 查看本文章

技术概述

Pytorch内部有好几个编译项目，

graph acquisition
graph lowering
graph compilation

Graph acquisition 是过去五年我们建立PyTorch编译器的一个挑战，我们建立了torch.jit.trace, TorchScript, FX tracing, Lazy Tensors 都没有实现目标，有些灵活但是慢，有些很快但是不够灵活，有些既不灵活也不慢。TorchScript 曾经很有前景，但是它需要你的代码和代码依赖的代码发生实质性变化，所以不是一个好的PyTorch用户启动器。

TorchDynamo：寻求图可靠和快速

今年开头我们开始致力于 TorchDynamo，一种使用CPython特性的框架验证API(the Frame Evaluation API).我们使用数据驱动验证了图捕获的有效性.用了七千个用Pytorch 写Github项目作为验证集，TorchDynamo在99%的时间内正确、安全地获取了图表，开销可以忽略不计-不需要对原始代码有任何改变。我们终于突破得到了易用性和速度

TorchInductor:使用运行定义的IR快速生成代码

受到用户编写高性能custom kernels（增加使用Triton语言）启发。我们也想要一个编译后端，它使用PyTorch相似的抽象，并且足够通用以支持 PyTorch 中的广泛功能。

TorchInductor 使用一个python式 define-by-run循环级别IR，在GPUS,CPU上的C++/OpenMP（单线程多线程并行实现的方法）自动化映射PyTorch模型到生成Triton代码。TorchInductor的核心循环级别IR包含了仅仅50个处理器，使用Python实现它，让它更容易和扩展性高。

AOTAutograd: 复用AutoGrad于超前图

如果要加速训练，不仅要捕捉用户级别的代码，也要捕捉反向传播。所以我们想再用,存在的久经考验的PyTorch autograd system,它可以提前帮我们捕捉到反向，所以可以前向和反向传递计算加速

PrimTorch: 稳定主要的operators

Pytorch有1200多个操作符，再PrimTorch项目里，我们定义一个更小，稳定的算子集合。PyTorch项目连续下降因为这些算子集合。我们目标是定义2种算子集合。

Prim算子，大概250个，很底层，需要重新融合在一起获取更好性能
ATen 算子，大概750个规范的算子，这些适用于已经在 ATen 级别集成的后端或无法编译以从较低级别的运算符集（如 Prim ops）恢复性能的后端。

用户体验

torch.compile函数，返回一个编译模型

compiled_model = torch.compile(model)

compiled_model保存对模型的引用，并将前向函数编译为更优化的版本。编译模型时，我们给几个knobs来调整它

def torch.compile(model: Callable,
  *,
  mode: Optional[str] = "default", #默认模式是尝试高效编译的预设，而不会花费太长时间进行编译或使用额外的内存。其他模式（如 reduce-overhead）可将框架开销减少更多，但会消耗少量的额外内存。Max-Autotune编译了很长时间，试图为您提供它可以生成的最快代码。
  dynamic: bool = False,# 指定是否启用Dynamic Shapes的代码路径。某些编译器优化不能应用于Dynamic Shapes的程序。明确说明是要使用dynamic Shapes还是static shapes的已编译程序,有助于编译器提供更好的优化代码
  fullgraph:bool = False, # 类似于Numba的nopython。它将整个程序编译成一个图形，或者给出一个错误来解释为什么它不能这样做。大多数用户不需要使用此模式。如果你非常注重性能，那么你就会尝试使用它。
  backend: Union[str, Callable] = "inductor", # 指定要使用的编译器后端。默认情况下，使用TorchInductor，但还有其他一些可用
  # advanced backend options go here as kwargs
  **kwargs
) -> torch._dynamo.NNOptimizedModule

在这里插入图片描述
编译经验，默认模式倾向传递最多的好处和易用性，compile模型如上图指明了得失

import torch
import torchvision.models as models

model = models.resnet18().cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
compiled_model = torch.compile(model)

x = torch.randn(16, 3, 224, 224).cuda()
optimizer.zero_grad()
out = compiled_model(x)
out.sum().backward()
optimizer.step()

模式

# API NOT FINAL
# default: optimizes for large models, low compile-time
#          and no extra memory usage
torch.compile(model)

# reduce-overhead: optimizes to reduce the framework overhead
#                and uses some extra memory. Helps speed up small models
torch.compile(model, mode="reduce-overhead")

# max-autotune: optimizes to produce the fastest model,
#               but takes a very long time to compile
torch.compile(model, mode="max-autotune")

读取和更新属性

# optimized_model works similar to model, feel free to access its attributes and modify them
optimized_model.conv1.weight.fill_(0.01)

# this change is reflected in model

序列化

可以序列化模型的字典（等价），但不能序列化编译的模型

torch.save(optimized_model.state_dict(), "foo.pt")
# both these lines of code do the same thing
torch.save(model.state_dict(), "foo.pt")

torch.save(optimized_model, "foo.pt") # Error
torch.save(model, "foo.pt")           # Works

推理和导出

生成一个编译模型后，真实模型部署前，使用热启动warm up步骤，缓解初始服务期间的延迟峰值

torch.export导出，该模式会仔细导出整个模型和保护基础结构，以用于需要保证和可预测延迟的环境。

# API Not Final
exported_model = torch._dynamo.export(model, input)
torch.save(exported_model, "foo.pt")

debugging问题

编译错误，很有可能是你代码有错。

使用The Minifier.工具，自动将问题减少至小片代码，你可以提交到GitHub上。

如果你的代码没有加速，使用torch._dynamo.explain工具可以解释哪一部分代码出现了 “graph breaks”。 “graph breaks”会阻碍编译器加速代码

Dynamic Shapes

PyTorch代码的共性就是都支持 dynamic shapes。允许模型接受不同大小的张量，而不会在每次形状更改时引起重新编译。

如今，对Dynamic Shapes 支持还很有限并且在进行种，会在稳定版全部集成。

在这里插入图片描述

分布式

与eager模式相比，DistributedDataParallel (DDP) ， FullyShardedDataParallel (FSDP) 两种wrapper在编译模型上提供了显著性能和内存利用。

DDP 依赖反向传播计算时AllReduce通信重叠，并将较小的 per-layer AllReduce操作分组到“buckets”中以提高效率。

由TorchDynamo编译的AOTAutograd函数在防止通信重叠(使用原生DDP编译时），但是通过为每个“bucket”编译单独的子图，并允许通信操作在子图外部和之间发生来恢复性能。编译模式下的 DDP 支持目前也需要 static_graph=False。

FSDP是Pytorch测试版，抽象级别更高，可以调整子模块，有更普遍的配置选项。有一定兼容性问题，之后会改善

模型

参考：https://pytorch.org/blog/Accelerating-Hugging-Face-and-TIMM-models/

Hugging Face models

从hugging face下载一个预训练模型，并优化

import torch
from transformers import BertTokenizer, BertModel
# Copy pasted from here https://huggingface.co/bert-base-uncased
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained("bert-base-uncased").to(device="cuda:0")
model = torch.compile(model) # This is the only line of code that we changed
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt').to(device="cuda:0")
output = model(**encoded_input)

在这里插入图片描述
再试一次，恢复

TIMM模型

import timm
import torch
model = timm.create_model('resnext101_32x8d', pretrained=True, num_classes=2)
opt_model = torch.compile(model, backend="inductor")
opt_model(torch.randn(64,3,7,7))

个人感想

1.一种技术进步可能依赖另一种技术。比如TorchDynamo实现了易用性和速度，依赖了CPython的特性
2.Pytorch框架背后站了大佬看好，huggface，等。强强联合，彼此成就
3.通过系统学习Pytorch，HuggingFace可以一定程度上补全知识框架，知道比如各种领域的经典模型有哪些，还有更为基础的底层知识（比如浮点对于速度的影响）

pytorch2.0 起步

总览

动机