BookSum 项目使用教程

BookSum 项目使用教程

booksum booksum 项目地址: https://gitcode.com/gh_mirrors/bo/booksum

1. 项目的目录结构及介绍

BookSum 项目的目录结构如下:

booksum/
├── alignments/
├── misc/
├── scripts/
│   ├── data_collection/
│   ├── data_cleaning_scripts/
│   └── paragraph-level-summary-alignments/
├── CODEOWNERS
├── CODE_OF_CONDUCT.md
├── LICENSE.txt
├── README.md
├── SECURITY.md
└── requirements.txt

目录结构介绍

  • alignments/: 包含数据对齐相关的文件。
  • misc/: 包含一些杂项文件。
  • scripts/: 包含项目的脚本文件,分为数据收集 (data_collection/)、数据清洗 (data_cleaning_scripts/) 和段落级摘要对齐 (paragraph-level-summary-alignments/) 三个子目录。
  • CODEOWNERS: 定义了代码库的负责人。
  • CODE_OF_CONDUCT.md: 项目的代码行为准则。
  • LICENSE.txt: 项目的开源许可证文件。
  • README.md: 项目的介绍和使用说明。
  • SECURITY.md: 项目的安全相关说明。
  • requirements.txt: 项目所需的依赖包列表。

2. 项目的启动文件介绍

BookSum 项目没有明确的“启动文件”,因为该项目主要是一个数据集和相关脚本的集合。不过,如果你想要开始使用该项目,可以参考以下步骤:

  1. 安装依赖: 首先,你需要安装项目所需的依赖包。可以通过以下命令安装:

    pip install -r requirements.txt
    
  2. 数据收集: 如果你需要收集数据,可以运行 scripts/data_collection/ 目录下的脚本。例如:

    cd scripts/data_collection/cliffnotes/
    python get_summaries.py
    
  3. 数据清洗: 数据收集完成后,可以进行数据清洗。运行 scripts/data_cleaning_scripts/ 目录下的脚本:

    cd scripts/data_cleaning_scripts/
    python basic_clean.py
    
  4. 数据对齐: 最后,可以进行数据对齐操作。运行 scripts/paragraph-level-summary-alignments/ 目录下的脚本:

    cd scripts/paragraph-level-summary-alignments/
    python gather_data.py --matched_file /path/to/chapter_summary_aligned_[train/test/val]_split.jsonl --split_paragraphs
    

3. 项目的配置文件介绍

BookSum 项目没有明确的“配置文件”,但有一些重要的文件和脚本可以帮助你配置和使用项目:

  • requirements.txt: 列出了项目所需的 Python 依赖包。你可以通过 pip install -r requirements.txt 来安装这些依赖。

  • scripts/data_collection/get_summaries.py: 这个脚本用于从不同的数据源收集摘要数据。你可以根据需要修改脚本中的参数来配置数据收集过程。

  • scripts/data_cleaning_scripts/basic_clean.py: 这个脚本用于对收集到的数据进行基本的清洗操作。你可以根据需要修改脚本中的参数来配置数据清洗过程。

  • scripts/paragraph-level-summary-alignments/gather_data.py: 这个脚本用于生成段落级摘要对齐数据。你可以根据需要修改脚本中的参数来配置对齐过程。

通过这些文件和脚本,你可以根据自己的需求配置和使用 BookSum 项目。

booksum booksum 项目地址: https://gitcode.com/gh_mirrors/bo/booksum

猜你喜欢

转载自blog.csdn.net/gitblog_00828/article/details/142583141