pytorch2.0 起步

参考:https://pytorch.org/get-started/pytorch-2.0/#ask-the-engineers-20-live-qa-series

总览

特性

  • faster
  • more pythonic
  • as dynamic as ever

torch.compile,部分零件由C++迁移到Python,加强torch.compile的新技术有TorchDynamo, AOTAutograd, PrimTorch and TorchInductor。

benchmarks 分成三类

精度:float32/Automatic Mixed Precision (AMP)

动机

第一:保持易用性,可编程性
第二:性能

致力:
1.高性能执行
2.内部python式
3.好的抽象用于分布式/Distributed,自动差分/Autodiff,数据加载/Data loading,加速器/Accelerators…

为什么会用C++:2017年建设Pytorch,计算上硬件加速快了15倍,内存快了2倍,所以把PyTorch内部部分转移到C++,导致它可编程性变差,也增加了代码贡献的障碍。

扫描二维码关注公众号,回复: 15240782 查看本文章

技术概述

Pytorch内部有好几个编译项目,

  • graph acquisition
  • graph lowering
  • graph compilation

Graph acquisition 是过去五年我们建立PyTorch编译器的一个挑战,我们建立了torch.jit.trace, TorchScript, FX tracing, Lazy Tensors 都没有实现目标,有些灵活但是慢,有些很快但是不够灵活,有些既不灵活也不慢。TorchScript 曾经很有前景,但是它需要你的代码和代码依赖的代码发生实质性变化,所以不是一个好的PyTorch用户启动器。

TorchDynamo:寻求图可靠和快速

今年开头我们开始致力于 TorchDynamo,一种使用CPython特性的框架验证API(the Frame Evaluation API).我们使用数据驱动验证了图捕获的有效性.用了七千个用Pytorch 写Github项目作为验证集,TorchDynamo在99%的时间内正确、安全地获取了图表,开销可以忽略不计-不需要对原始代码有任何改变。我们终于突破得到了易用性和速度

TorchInductor:使用运行定义的IR快速生成代码

受到用户编写高性能custom kernels(增加使用Triton语言)启发。我们也想要一个编译后端,它使用PyTorch相似的抽象,并且足够通用以支持 PyTorch 中的广泛功能。

TorchInductor 使用一个python式 define-by-run循环级别IR,在GPUS,CPU上的C++/OpenMP(单线程多线程并行实现的方法) 自动化映射PyTorch模型到生成Triton代码。TorchInductor的核心循环级别IR包含了仅仅50个处理器,使用Python实现它,让它更容易和扩展性高。

AOTAutograd: 复用AutoGrad于超前图

如果要加速训练,不仅要捕捉用户级别的代码,也要捕捉反向传播。所以我们想再用,存在的久经考验的PyTorch autograd system,它可以提前帮我们捕捉到反向,所以可以前向和反向传递计算加速

PrimTorch: 稳定主要的operators

Pytorch有1200多个操作符,再PrimTorch项目里,我们定义一个更小,稳定的算子集合。PyTorch项目连续下降因为这些算子集合。我们目标是定义2种算子集合。

  • Prim算子,大概250个,很底层,需要重新融合在一起获取更好性能
  • ATen 算子,大概750个规范的算子,这些适用于已经在 ATen 级别集成的后端或无法编译以从较低级别的运算符集(如 Prim ops)恢复性能的后端。

用户体验

torch.compile函数,返回一个编译模型

compiled_model = torch.compile(model)

compiled_model保存对模型的引用,并将前向函数编译为更优化的版本。编译模型时,我们给几个knobs来调整它

def torch.compile(model: Callable,
  *,
  mode: Optional[str] = "default", #默认模式是尝试高效编译的预设,而不会花费太长时间进行编译或使用额外的内存。其他模式(如 reduce-overhead)可将框架开销减少更多,但会消耗少量的额外内存。Max-Autotune编译了很长时间,试图为您提供它可以生成的最快代码。
  dynamic: bool = False,# 指定是否启用Dynamic Shapes的代码路径。某些编译器优化不能应用于Dynamic Shapes的程序。明确说明是要使用dynamic Shapes还是static shapes的已编译程序,有助于编译器提供更好的优化代码
  fullgraph:bool = False, # 类似于Numba的nopython。它将整个程序编译成一个图形,或者给出一个错误来解释为什么它不能这样做。大多数用户不需要使用此模式。如果你非常注重性能,那么你就会尝试使用它。
  backend: Union[str, Callable] = "inductor", # 指定要使用的编译器后端。默认情况下,使用TorchInductor,但还有其他一些可用
  # advanced backend options go here as kwargs
  **kwargs
) -> torch._dynamo.NNOptimizedModule

在这里插入图片描述
编译经验,默认模式倾向传递最多的好处和易用性,compile模型如上图指明了得失

import torch
import torchvision.models as models

model = models.resnet18().cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
compiled_model = torch.compile(model)

x = torch.randn(16, 3, 224, 224).cuda()
optimizer.zero_grad()
out = compiled_model(x)
out.sum().backward()
optimizer.step()

模式

# API NOT FINAL
# default: optimizes for large models, low compile-time
#          and no extra memory usage
torch.compile(model)

# reduce-overhead: optimizes to reduce the framework overhead
#                and uses some extra memory. Helps speed up small models
torch.compile(model, mode="reduce-overhead")

# max-autotune: optimizes to produce the fastest model,
#               but takes a very long time to compile
torch.compile(model, mode="max-autotune")

读取和更新属性

# optimized_model works similar to model, feel free to access its attributes and modify them
optimized_model.conv1.weight.fill_(0.01)

# this change is reflected in model

序列化

可以序列化模型的字典(等价),但不能序列化编译的模型

torch.save(optimized_model.state_dict(), "foo.pt")
# both these lines of code do the same thing
torch.save(model.state_dict(), "foo.pt")

torch.save(optimized_model, "foo.pt") # Error
torch.save(model, "foo.pt")           # Works

推理和导出

生成一个编译模型后,真实模型部署前,使用热启动warm up步骤,缓解初始服务期间的延迟峰值

torch.export导出,该模式会仔细导出整个模型和保护基础结构,以用于需要保证和可预测延迟的环境。

# API Not Final
exported_model = torch._dynamo.export(model, input)
torch.save(exported_model, "foo.pt")

debugging问题

编译错误,很有可能是你代码有错。

使用The Minifier.工具,自动将问题减少至小片代码,你可以提交到GitHub上。

如果你的代码没有加速,使用torch._dynamo.explain工具可以解释哪一部分代码出现了 “graph breaks”。 “graph breaks”会阻碍编译器加速代码

Dynamic Shapes

PyTorch代码的共性就是都支持 dynamic shapes。允许模型接受不同大小的张量,而不会在每次形状更改时引起重新编译。

如今,对Dynamic Shapes 支持还很有限并且在进行种,会在稳定版全部集成。

在这里插入图片描述

分布式

与eager模式相比,DistributedDataParallel (DDP) , FullyShardedDataParallel (FSDP) 两种wrapper在编译模型上提供了显著性能和内存利用。

DDP 依赖反向传播计算时AllReduce通信重叠,并将较小的 per-layer AllReduce操作分组到“buckets”中以提高效率。

由TorchDynamo编译的AOTAutograd函数在防止通信重叠(使用原生DDP编译时),但是通过为每个“bucket”编译单独的子图,并允许通信操作在子图外部和之间发生来恢复性能。编译模式下的 DDP 支持目前也需要 static_graph=False。

FSDP是Pytorch测试版, 抽象级别更高,可以调整子模块,有更普遍的配置选项。有一定兼容性问题,之后会改善

模型

参考:https://pytorch.org/blog/Accelerating-Hugging-Face-and-TIMM-models/

Hugging Face models

从hugging face下载一个预训练模型,并优化

import torch
from transformers import BertTokenizer, BertModel
# Copy pasted from here https://huggingface.co/bert-base-uncased
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained("bert-base-uncased").to(device="cuda:0")
model = torch.compile(model) # This is the only line of code that we changed
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt').to(device="cuda:0")
output = model(**encoded_input)

在这里插入图片描述
再试一次,恢复
在这里插入图片描述

TIMM模型

import timm
import torch
model = timm.create_model('resnext101_32x8d', pretrained=True, num_classes=2)
opt_model = torch.compile(model, backend="inductor")
opt_model(torch.randn(64,3,7,7))

个人感想

1.一种技术进步可能依赖另一种技术。比如TorchDynamo实现了易用性和速度,依赖了CPython的特性
2.Pytorch框架背后站了大佬看好,huggface,等 。强强联合,彼此成就
3.通过系统学习Pytorch,HuggingFace可以一定程度上补全知识框架,知道比如各种领域的经典模型有哪些,还有更为基础的底层知识(比如浮点对于速度的影响)

猜你喜欢

转载自blog.csdn.net/weixin_38235865/article/details/130085600
今日推荐