五、AIGC大模型_01大模型基础知识 - 代码天地

五、AIGC大模型_01大模型基础知识

企业开发 2025-04-09 23:16:25 阅读次数: 0

1、基本概念

1.1 定义

目前，谈到大模型，通常都指的是大语言模型（LLMs，即：Large Language Models)

大语言模型是具有大规模参数和复杂计算结构的深度学习模型，通常由深度神经网络构建而成，参数量从数十亿到数千亿不等（甚至更多）

这些模型通过训练海量文本数据来学习语言的语法、语义和语境规则，从而能够生成自然语言文本或理解语言文本的含义

1.2 参数量的重要性

类脑设计视角：参数可以类比为脑细胞，脑细胞越多，模型的“智力”越强，能够处理更复杂的任务
数学视角：从函数的角度看，参数越多，模型能够映射的关系越复杂，从而更好地捕捉数据中的复杂模式

1.3 训练平台

硬件需求：训练大语言模型离不开高性能的GPU，通常需要数百甚至上千个GPU集群（一些大型模型的训练平台可能需要“万卡”级别的GPU支持）
工程挑战：除了硬件资源，训练大模型还需要高效的分布式训练框架和优化算法，以应对大规模数据和复杂模型结构带来的挑战

1.4 训练数据

预训练语料规模：大语言模型通常需要海量的文本数据进行预训练，例如：一些模型可能会使用18T（18万亿字节）级别的语料，相当于3600万本《红楼梦》的量级
数据质量与多样性：除了数据量，数据的质量和多样性也至关重要，高质量的数据可以提高模型的性能和泛化能力，而多样化的数据则有助于模型学习到更广泛的语言模式

1.5 训练时长

传统时长：过去，训练一个大语言模型可能需要3到6个月
当前进展：随着技术的进步，训练时长已经大幅缩短，现在可能只需要1到2个月（甚至更短），这主要得益于更高效的训练算法、硬件性能的提升以及分布式训练技术的发展

2、小模型时代与大模型时代的对比

小模型时代：
- 单一职责原则：每个模型通常针对一个特定的场景或任务进行设计和训练，例如：一个用于文本分类的模型、一个用于机器翻译的模型等，每个模型都有独立的数据集、训练过程、评估方法、部署方式和维护策略
- 系统架构：一个系统中可能挂载多个微服务，每个微服务对应一个或几个小模型（这种架构的优点是每个模型可以针对特定任务进行优化，但缺点是系统复杂度高，维护成本高，且难以实现跨任务的知识共享）
大模型时代：
- 大一统：一个系统中通常挂载一个大模型，通过指令遵循，大模型可以同时解决多种不同的问题，例如：同一个大语言模型可以用于文本生成、问答、翻译等多种自然语言处理任务
- 多模态大模型：除了单纯处理文本或图像等单一模态数据，大模型还可以发展为多模态大模型，这种模型能够同时处理文本、图像、音频等多种数据类型，实现对多模态信息的综合理解和分析

3、生成式人工智能与判别式人工智能

生成式人工智能与判别式人工智能是两种常见的人工智能建模方法，他们的区别如下：

生成式人工智能（Generative AI）
- 定义：生成式人工智能是指能够生成新的数据样本（如文本、图像、音频等）的人工智能模型，这些模型通过学习数据的分布，生成与训练数据相似但又不完全相同的新内容
- 特点：具有创作性和生成性，能够创造出全新的内容，例如：大语言模型可以根据用户输入的提示生成连贯的文本（随着生成式人工智能的发展，如何实现人机协同成为下一步的重点，人机协同是指人类与人工智能系统之间相互协作，共同完成任务，例如：在创意写作中，人类可以利用生成式人工智能提供的文本片段进行进一步的创作和编辑）
<

猜你喜欢

转载自blog.csdn.net/weixin_43767064/article/details/145581728

五、AIGC大模型_01大模型基础知识

五、AIGC大模型_08Agent基础知识

五、AIGC大模型_10多模态大语言模型基础知识与示例

五、AIGC大模型_04LLaMA-Factory基础知识与SFT实战

【大模型】二、大语言模型的基础知识

大模型入门0: 基础知识

五、AIGC大模型_02大模型学习重点

五、AIGC大模型_05模型的vLLM部署与LangChain调用

LLM大模型1_基础知识

【AI大模型】Prompt Engineering 基础知识与挑战

国产AIGC大模型汇总

AIGC 大模型实践总结

AIGC 大模型：实践与未来

五、AIGC大模型_07ChromaDB与RAG实战

五、AIGC大模型_03BERT论文与实战

AI大模型01：大模型应用开发基础

基于大模型的AIGC应用及技术要点

【AIGC】商汤SenseNova大模型“超市”

大模型与AIGC技术重大进展！

AIGC大模型与多模态的概念

【AIGC】baichuan-7B大模型

AIGC等大模型能力提升计划

《大模型AIGC系列课程》大纲

五、AIGC大模型_06第三方大模型云服务调用与RAG初识

【人工智能】大模型之编码器基础知识

LLM大模型从入门到精通（5）--LangChain基础知识入门

大模型 | 通俗理解RLHF基础知识以及完整流程

LLM大模型从入门到精通（1）--LLM基础知识介绍

五、AIGC大模型_09手动实现ReAct_Agent

大模型基础01：理论与技术的演进概述

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

更多

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)