目录
一、什么是AI大模型
在过去1~2年的时间中,被各种AIGC、AGI、LLM、大模型、生成式AI等概念刷屏,包括:那么到底什么是AI大模型?
AI大模型的特点是训练数据量级大、参数量级大,这些模型通常具备较高的通用性,可以被应用于自然语言处理、图像识别、语音识别等领域。
二、AI大模型的关键概念
- 参数(Parameters):参数是机器学习模型中的变量,它们在训练过程中被调整以最小化损失函数。在AI大模型中,参数数量通常达到数十亿甚至数千亿,这些参数决定了模型的行为和性能。
- 预训练(Pre-training):预训练是指在大量无标签数据上训练模型的过程,目的是让模型学习通用的特征表示。预训练模型可以在后续的任务中通过微调来适应特定的应用。
- 微调(Fine-tuning):微调是在预训练模型的基础上,使用少量的标注数据进一步调整模型参数的过程,以提高模型在特定任务上的性能。
-
RAG(Retrieval-Augmented Generation,检索增强生成):RAG是一种结合了检索(Retrieval)和生成(Generation)的深度学习模型架构。
-
Prompt(提示词):Prompt是给定一个任务时,提供给AI模型的输入文本,它指导模型如何理解和响应特定的指令或问题。一般Prompt包括任务描述、输入数据、示例。
-
Token:是一个常用的术语,它指的是字符串的最小单元,通常用于表示单词、符号或子字符串。
-
Embedding:是指将变量或对象(如单词、短语或文档)映射到实数向量空间的过程。这些向量(也称为嵌入向量)捕捉了对象之间的相似性和差异性,使得机器学习算法可以在这些向量上执行操作,如计算距离或角度。
-
多模态(Multimodality):允许单个模型同时理解语言、图像、视频、音频等,并完成单模态模型无法完成的任务。
-
幻觉(Hallucination):指的是模型生成的内容与现实世界的事实或逻辑不符,即生成了虚假或不准确的信息。
-
深度学习(Deep Learning):深度学习是一种机器学习方法,它使用多层神经网络来学习数据的复杂模式。AI大模型通常基于深度学习架构,如卷积神经网络(CNNs)和Transformer模型。
-
零样本学习(Zero-Shot Learning):零样本学习是指模型在没有看到任何特定类别的样本的情况下,就能够识别或生成该类别的样本。这通常依赖于模型的泛化能力和对类别之间关系的推理。
-
少样本学习(Few-Shot Learning):少样本学习是指模型在只看到少量特定类别的样本后,就能够识别或生成该类别的新样本。这介于零样本学习和完全监督学习之间。
-
自注意力机制(Self-Attention Mechanism):自注意力机制是一种允许模型在处理序列数据时,计算序列中任意两个位置之间的依赖关系的技术。这种机制在Transformer模型中尤为重要,它使得模型能够捕捉长距离依赖。
三、常见的AI大模型
系统 | ChatGPT | Claude | PaLM2 | LLaMA | Qwen |
典型模型 | GPT-4o、GPT-o1 | Claude 3.5 | PaLM2 | Code-Llama、Llama-3 | Qwen2.5、Qwen-Long |
开发者 | OPEN AI | Anthropic | Meta | 阿里 | |
参数量 | 1750亿个参数 | Claude 2背后的模型是520亿参数 | 3400亿个参数 | 700亿参数 | 720亿参数 |
单次处理token上限 | 8192个(GPT-4) | 10万量级 | 未知 | 未知 | 128K |