DocETL 简介
DocETL[1] 是一个用于创建和执行数据处理流水线的工具,特别适合复杂文档处理任务。它提供了一个低代码、声明式的YAML界面来定义基于LLM的操作,以处理复杂数据。
适用于需要语义处理、复杂map-reduce任务、不确定如何表达任务以提高LLM准确性、处理长文档或需要验证标准的用户。
项目特点
主要特点
-
低代码操作:通过 YAML 接口简化操作定义。
-
LLM 驱动:利用大型语言模型提高任务执行的准确性和输出质量。
-
复杂数据处理:适合处理长文档和非结构化数据集。
-
自动重试机制:当验证失败时,任务可以自动重试。
使用场景
-
语义处理:对数据集合进行语义处理。
-
复杂任务映射:通过 map-reduce 表示复杂任务(例如,对文档进行映射,然后根据映射结果进行分组和归约)。
-
LLM 准确性最大化:不确定如何最好地表达任务以最大化 LLM 准确性时。
-
长文档处理:处理无法适应单个提示或对 LLM 推理过长文档。
项目使用
安装
前置条件
确保系统已安装 Python 3.10 或更高版本。可通过运行 python --version
检查 Python 版本。
安装步骤(从源代码)
-
克隆 DocETL 仓库:
git clone https://github.com/ucbepic/docetl.git
cd docetl
-
安装 Poetry(如果尚未安装):
pip install poetry
-
安装项目依赖:
poetry install
-
设置 OpenAI API 密钥: 在项目根目录创建
.env
文件,并添加你的 OpenAI API 密钥:
OPENAI_API_KEY=your_api_key_here
或者,在您的 shell 中设置 OPENAI_API_KEY
环境变量。
-
运行基本测试套件以确保一切正常(这将花费不到 0.01 美元的 OpenAI 费用):
make tests-basic
项目资源
-
官方文档[2]
-
DocETL 官网[3]
-
Discord 社区[4]
注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。
欢迎关注&点赞&在看,感谢你的阅读~
资源列表
[1]
Github地址: https://github.com/ucbepic/docetl
[2]
官方文档: https://ucbepic.github.io/docetl
[3]
DocETL 官网: https://docetl.org
[4]
Discord 社区: https://discord.gg/fHp7B2X3xx