大模型——Easy Dataset大模型微调数据集神器

大模型——Easy Dataset大模型微调数据集神器

Easy Dataset 是一个专门为大模型(LLM)微调设计的开源工具,托管在 GitHub 上。它提供了一个简单易用的界面,让用户可以上传文件、自动分割内容、生成问题和答案,最终输出适合微调的结构化数据集。开发者 Conard Li 创建这个工具,目的是帮助用户将领域知识转化为高质量训练数据。它支持多种导出格式,比如 JSON 和 Alpaca,并且兼容所有遵循 OpenAI 格式的 LLM API。不管你是技术专家还是普通用户,这个工具都能让你轻松上手,快速完成数据集制作。

Easy Dataset:创建大模型微调数据集的简易工具-1

功能列表

  • 智能文档处理:上传 Markdown 文件后,工具会自动将其分割成小块内容。
  • 问题生成:根据分割后的文本,自动生成相关问题。
  • 答案生成:调用 LLM API 为每个问题生成详细答案。
  • <