TinyZero 开源项目教程

企业开发 2025-04-08 11:13:23 阅读次数: 0

TinyZero 开源项目教程

TinyZero Clean, minimal, accessible reproduction of DeepSeek R1-Zero 项目地址: https://gitcode.com/gh_mirrors/tin/TinyZero

1. 项目介绍

TinyZero 是 DeepSeek R1 Zero 的一个重现，专注于倒计时和乘法任务。该项目基于 veRL 构建，通过强化学习（RL），3B 基础语言模型发展出自验证和搜索能力。

2. 项目快速启动

环境准备

首先，创建一个新的虚拟环境并安装所需的依赖：

conda create -n zero python=3.9
conda activate zero
pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121
pip3 install vllm==0.6.3
pip3 install ray
pip install -e .
pip3 install flash-attn --no-build-isolation
pip install wandb IPython matplotlib

数据准备

对于倒计时任务，你需要准备相应的数据集：

python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}

模型训练

根据你的模型大小，选择相应的启动命令：

对于小于等于 1.5B 的模型：

export N_GPUS=1
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=1
export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

对于 3B+ 的模型：

export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

3. 应用案例和最佳实践

指导消融实验

项目还支持对 QWen-2.5-3B Instruct 进行指导消融实验。首先，你需要重新处理数据：

conda activate zero
python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}

然后，使用以下命令进行训练：

export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

4. 典型生态项目

目前，TinyZero 项目的生态系统中没有列出特定的典型项目。不过，该项目可以作为其他自然语言处理和强化学习研究的基石，为开发更复杂的模型提供起点。社区成员可以贡献自己的实现和改进，以丰富这个生态系统。

TinyZero Clean, minimal, accessible reproduction of DeepSeek R1-Zero 项目地址: https://gitcode.com/gh_mirrors/tin/TinyZero

猜你喜欢

转载自blog.csdn.net/gitblog_00088/article/details/146558109

TinyZero 开源项目教程

Zsh 开源项目教程

OrleansDashboard 开源项目教程

Pearcleaner 开源项目教程

Mockneat 开源项目教程

rocFFT 开源项目教程

Prometheus 开源项目教程

OEasyScreenshot 开源项目教程

IHMEHimmelI 开源项目教程

MateCat 开源项目教程

MetroFramework 开源项目教程

ViMbAdmin 开源项目教程

NetTopologySuite 开源项目教程

Frequensea 开源项目教程

The Forge 开源项目教程

Merb 开源项目教程

xJavaFxTool 开源项目教程

OpenCPU 开源项目教程

SimpleAudioIndexer 开源项目教程

Rygel 开源项目教程

SimpleInvoices 开源项目教程

Lobster 开源项目教程

ATTinyCore 开源项目教程

BluTuNode 开源项目教程

FluentIL 开源项目教程

OGCServer 开源项目教程

Logster 开源项目教程

Albumy 开源项目教程

JobX 开源项目教程

FreeFileSync 开源项目教程

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)