GPT背后的法术——LLM全面解构

自从 ChatGPT 向公众发布以来,法学硕士一直很热门。虽然大多数应用 AI 人员都知道如何使用 API,但可能缺乏对其“为何”起作用的数学理解。这是从数学角度全面解构一般的 LLM,特别是 Transformers。

注意:这是一个比平常更长的博客,作为一站式目的地来了解法学硕士如何工作以及为什么工作的秘诀。您可以轻松跳过您已经很好理解的部分。您可以跳过数学方程式,仍然能够理解很多东西。

热图显示词类受到的关注比例。

在最高层次上,占主导地位的神经转导模型,例如 GPT-4 和 Google Bard,主要基于基于 Transformer 和 Attention 的编码器-解码器架构。如果您需要了解 LLM,了解 Transformers 背后的内部工作原理和数学是基础。

在 Transformer 架构中,编码器采用令牌表示序列 (x1, …, xn) 并将其转换为相应的连续表示序列 (z1, …, zn),称为上下文向量。然后解码器获取上下文向量并生成一系列输出标记 (y1, …, ym)。输入序列 N 和输出序列 M 的长度不必相同。

美妙之处在于这些标记序列可以是任何东西。例如,它们可以是:

  • 构成句子的词
  • 构成旋律的音乐主题
  • 来自基因组的基序/等位基因
  • 图像中的像素
  • 股票市场的时间序列
  • 药物化学结构
  • 口语中的音素或语音
  • 表中的数据点
  • 用于控制界面的手势或脑电波。
  • 购物车或购买历史记录中的项目
  • 食谱或程序中的步骤
  • 用于蛋白质形成的多肽生物序列

像 Transformer 和 Attent

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/130034948