《Python预训练视觉和大语言模型》书籍推荐

购书链接

京东:https://item.jd.com/14370145.html

在这里插入图片描述

作者简介

Emily Webber是AWS的首席ML专家解决方案架构师,专门从事大型语言和视觉模型的分布式训练。Emily在AWS社区广为人知,在YouTube上发布了由16个视频组成的SageMaker系列,视频播放量高达21.1万次。Emily曾在2019年伦敦人工智能大会上发表过主题演讲。

内容简介

●为预训练和微调寻找合适的用例和数据集

●使用定制的加速器和GPU,为大规模训练做好准备

●配置AWS和SageMaker环境,最大限度地提高性能

●根据模型和约束条件选择超参数

●使用多种并行方式分发模型和数据集

●利用作业重启、间歇性健康检查等方式避开陷阱

●定性和定量地评估模型

●部署模型,在运行时进行改进和监控
在这里插入图片描述

书籍目录

第1章“预训练基础模型简介”介绍当今许多人工智能和机器学习系统的支柱——基础模型;深入探究其创建过程(也称预训练),并分析提高模型准确性的竞争优势之所在;讨论支撑最先进模型的核心 Transformer 架构,如Stable Diffusion、BERT、Vision Transformer、CLIP、Flan-T5等;介绍用于解决各种用例的编码器和解码器框架。

第2章“数据集准备:第1部分”讨论数据集需要什么来启动一个有意义的预训练项目。该章是关于数据集准备的两个部分中的第1部分,会从业务指导着手,为基础建模寻找一个使数据变得有用的好用例,然后专注于数据集内容,使用定性和定量的方法将其与用于预训练其他顶级模型时使用的数据集进行比较。该章讲解如何使用缩放法则来确定数据集是否“足够大”且“足够好”,并在预训练时提高准确性;讨论偏差的识别和减少,以及多语言和多模态的解决方案。

第3章“模型准备”讲解如何选择最有用的模型作为预训练机制的基础,如何设置表示模型大小的参数、选择关键损失函数以及决定它们影响生产性能的方式,讲授如何结合缩放法则与数据集预期大小来设置用于指导实验的基础模型的大小范围。

第4章“云容器和云加速器”讲解如何将脚本容器化,并针对云加速器对其进行优化;介绍一系列用于基础模型的加速器,包括在整个机器学习生命周期中围绕成本和性能的权衡;讲解Amazon SageMaker和AWS的关键知识点,以便在加速器上训练模型、优化性能和解决常见问题。熟悉在AWS上使用加速器的读者可以跳过该章。

第5章“分布式基础知识”讲解用于大规模预训练和微调的分布式技术的概念基础。首先深入讲解机器学习的顶级分布式概念,特别是模型和数据并行;其次讲解如何将Amazon SageMaker与分布式软件集成,以便在尽可能多的GPU上运行作业;接着讲解如何为大规模训练优化模型和数据并行,特别是使用分片数据并行等技术;再讲解如何使用优化器状态分片(optimizer state sharding)、激活检查点(activation checkpointing)、编译(compilation)等高级技术来减少内存消耗;最后列举一些结合了上述所有概念的语言、视觉等方面的综合示例。

第6章“数据集准备:第2部分”讲解如何准备数据集,以便立即与所选择的模型一起使用;深入讲解数据加载器的概念,了解为什么它是训练大型模型时常见的错误源;介绍如何创建嵌入、使用词元分析器和其他方法为你首选的神经网络特征化原始数据——参照这些步骤,必能使用视觉和语言的方法准备整个数据集;讲解AWS和Amazon SageMaker上的数据优化,以便有效地将大大小小的数据集发送至训练集群。全章从训练循环开始倒推,逐步呈现大规模训练功能性深度神经网络需要的所有步骤。读者可以在该章的学习中跟随作者体验如何进行案例研究,一步步在SageMaker上展开10TB级的Stable Diffusion训练!

第7章“寻找合适的超参数”深入讲解控制顶级视觉和语言模型性能的关键超参数,如批量大小、学习率等。首先向新手概述超参数微调,并穿插讲解视觉和语言方面的关键示例;接下来,探讨基础模型中的超参数微调,间或介绍如今可能出现的情况和趋势;最后,讲解如何在Amazon SageMaker上寻找合适的超参数,在集群大小中采取增量步骤,并在此过程中更改每个超参数。

第8章“SageMaker的大规模训练”介绍Amazon SageMaker支持高度优化的分布式训练运行的主要特性和功能;讲解如何针对SageMaker训练优化脚本以及运用关键的可用性功能;讲解使用SageMaker进行分布式训练的后端优化,如GPU健康检查、弹性训练、检查点、脚本模型等。

第9章“高级训练概念”介绍大规模的高级训练概念,如评估吞吐量、计算每个设备的TFLOPS模型、编译,以及使用缩放法则来确定适宜的训练时长。承接第8章(在SageMaker上进行大规模训练),继续在该章介绍一些特别复杂和高深的技术,降低作业的总成本。更低的成本会直接转化为更高的模型性能,毕竟这意味着可在相同的预算下训练更长时间。

第10章“微调和评估”讲解如何在用例特定的数据集上微调模型,将其性能与现成的公共模型进行比较;深入讲解几个关于语言、文本以及两者之间一切事宜的示例;讲解如何思考和设计一个人机回环评估系统,包括使ChatGPT发挥作用的同一RLHF!第10章着重讲解更新模型的可训练权值,模拟学习但不更新权重的技术(如提示微调和标准检索增强生成)则需要参见第13章或第15章。

第11章“检查、减少和监控偏差”分析大视觉、语言和多模态模型主流的偏差识别和减少策略;从统计学以及如何以批判性方式影响人类的角度来阐释偏差的概念;帮助读者掌握在视觉和语言模型中量化和消除偏差的主流方法,最终具备制定监控策略的能力,并能在应用基础模型时减少各种形式的伤害。

第12章“如何部署模型”介绍部署模型的各种技术,包括实时端点、无服务、批量选项等——这些概念适用于众多计算环境,但《Python预训练视觉和大语言模型》将重点关注使用Amazon SageMaker中AWS的可用功能,讨论为什么在部署之前应该尝试缩小模型,介绍视觉和语言技术,介绍适用于不需要缩小模型场景的分布式托管技术,探讨可以帮助优化模型的端到端性能的模型服务技术和概念。

第13章“提示工程”深入研究一组称为提示工程的特殊技术,高屋建瓴地讲解这项技术,包括它与本书中讲解的其他基于学习的主题的相似之处和不同之处;探讨视觉和语言方面的例子,深入研究关键术语和成功指标。特别是,该章还涵盖了在不更新模型权重的情况下提高性能的所有提示和技巧。这意味着我们将模拟学习过程,而不必改变任何模型参数。这包括一些高级技术,如提示和前缀微调。

第14章“视觉和语言MLOps”讲解机器学习的操作和编排的核心概念,即大家熟知的MLOps,包括构建管道、持续集成和部署、通过环境进行推广等;深入探讨模型预测的监控和人机回环审核的选项;确定在MLOps管道中支持大型视觉和语言模型的独特方法。

第15章“预训练基础模型的未来趋势”通过指出全书所有相关主题的趋势来结束本书。探讨基础模型应用程序开发的趋势,如使用LangChain构建交互式对话应用程序,以及检索增强生成等技术,以减少LLM幻觉;探讨用生成模型来解决分类任务、人性化设计以及其他生成模式(如代码、音乐、产品文档、PowerPoints等);讨论SageMaker JumpStart Foundation Models、Amazon Bedrock、Amazon Titan和Amazon Code Whisperer等AWS产品,以及未来基础模型和预训练自身的最新趋势。