BookSum 项目使用教程
booksum 项目地址: https://gitcode.com/gh_mirrors/bo/booksum
1. 项目的目录结构及介绍
BookSum 项目的目录结构如下:
booksum/
├── alignments/
├── misc/
├── scripts/
│ ├── data_collection/
│ ├── data_cleaning_scripts/
│ └── paragraph-level-summary-alignments/
├── CODEOWNERS
├── CODE_OF_CONDUCT.md
├── LICENSE.txt
├── README.md
├── SECURITY.md
└── requirements.txt
目录结构介绍
- alignments/: 包含数据对齐相关的文件。
- misc/: 包含一些杂项文件。
- scripts/: 包含项目的脚本文件,分为数据收集 (
data_collection/
)、数据清洗 (data_cleaning_scripts/
) 和段落级摘要对齐 (paragraph-level-summary-alignments/
) 三个子目录。 - CODEOWNERS: 定义了代码库的负责人。
- CODE_OF_CONDUCT.md: 项目的代码行为准则。
- LICENSE.txt: 项目的开源许可证文件。
- README.md: 项目的介绍和使用说明。
- SECURITY.md: 项目的安全相关说明。
- requirements.txt: 项目所需的依赖包列表。
2. 项目的启动文件介绍
BookSum 项目没有明确的“启动文件”,因为该项目主要是一个数据集和相关脚本的集合。不过,如果你想要开始使用该项目,可以参考以下步骤:
-
安装依赖: 首先,你需要安装项目所需的依赖包。可以通过以下命令安装:
pip install -r requirements.txt
-
数据收集: 如果你需要收集数据,可以运行
scripts/data_collection/
目录下的脚本。例如:cd scripts/data_collection/cliffnotes/ python get_summaries.py
-
数据清洗: 数据收集完成后,可以进行数据清洗。运行
scripts/data_cleaning_scripts/
目录下的脚本:cd scripts/data_cleaning_scripts/ python basic_clean.py
-
数据对齐: 最后,可以进行数据对齐操作。运行
scripts/paragraph-level-summary-alignments/
目录下的脚本:cd scripts/paragraph-level-summary-alignments/ python gather_data.py --matched_file /path/to/chapter_summary_aligned_[train/test/val]_split.jsonl --split_paragraphs
3. 项目的配置文件介绍
BookSum 项目没有明确的“配置文件”,但有一些重要的文件和脚本可以帮助你配置和使用项目:
-
requirements.txt: 列出了项目所需的 Python 依赖包。你可以通过
pip install -r requirements.txt
来安装这些依赖。 -
scripts/data_collection/get_summaries.py: 这个脚本用于从不同的数据源收集摘要数据。你可以根据需要修改脚本中的参数来配置数据收集过程。
-
scripts/data_cleaning_scripts/basic_clean.py: 这个脚本用于对收集到的数据进行基本的清洗操作。你可以根据需要修改脚本中的参数来配置数据清洗过程。
-
scripts/paragraph-level-summary-alignments/gather_data.py: 这个脚本用于生成段落级摘要对齐数据。你可以根据需要修改脚本中的参数来配置对齐过程。
通过这些文件和脚本,你可以根据自己的需求配置和使用 BookSum 项目。