Lipreading using Temporal Convolutional Networks 项目教程

Lipreading using Temporal Convolutional Networks 项目教程

Lipreading_using_Temporal_Convolutional_Networks Lipreading_using_Temporal_Convolutional_Networks 项目地址: https://gitcode.com/gh_mirrors/li/Lipreading_using_Temporal_Convolutional_Networks

1. 项目目录结构及介绍

Lipreading_using_Temporal_Convolutional_Networks/
├── configs/
├── data/
├── datasets/
├── doc/
├── labels/
├── landmarks/
├── legacy_preprocessing/
├── lipreading/
├── models/
├── preprocessing/
├── train_logs/
├── .gitignore
├── LICENSE
├── README.md
├── main.py
├── requirements.txt

目录结构介绍

  • configs/: 存放项目的配置文件。
  • data/: 存放项目的数据文件。
  • datasets/: 存放数据集文件。
  • doc/: 存放项目的文档文件。
  • labels/: 存放标签文件。
  • landmarks/: 存放面部特征点文件。
  • legacy_preprocessing/: 存放旧版本的预处理脚本。
  • lipreading/: 存放与唇读相关的代码文件。
  • models/: 存放预训练模型文件。
  • preprocessing/: 存放预处理脚本。
  • train_logs/: 存放训练日志文件。
  • .gitignore: Git忽略文件。
  • LICENSE: 项目许可证文件。
  • README.md: 项目说明文件。
  • main.py: 项目的主启动文件。
  • requirements.txt: 项目依赖的Python包列表。

2. 项目的启动文件介绍

main.py

main.py 是项目的启动文件,负责训练、测试和提取特征。以下是该文件的主要功能:

  • 训练模型: 通过指定不同的配置文件和数据路径,可以训练视觉或音频模型。
  • 测试模型: 评估训练好的模型在测试集上的性能。
  • 提取特征: 从预处理后的数据中提取特征向量。

使用示例

# 训练视觉模型
CUDA_VISIBLE_DEVICES=0 python main.py --modality video \
    --config-path <MODEL-JSON-PATH> \
    --annonation-direc <ANNONATION-DIRECTORY> \
    --data-dir <MOUTH-ROIS-DIRECTORY>

# 测试视觉模型
CUDA_VISIBLE_DEVICES=0 python main.py --modality video \
    --config-path <MODEL-JSON-PATH> \
    --model-path <MODEL-PATH> \
    --data-dir <MOUTH-ROIS-DIRECTORY> \
    --test

3. 项目的配置文件介绍

configs/ 目录

configs/ 目录下存放了项目的配置文件,这些配置文件用于定义模型的超参数、数据路径等。

配置文件示例

{
    "modality": "video",
    "batch_size": 32,
    "learning_rate": 0.001,
    "num_epochs": 50,
    "data_dir": "datasets/visual_data/",
    "model_path": "models/resnet18_dctcn_video.pth"
}

配置文件参数说明

  • modality: 指定模型的类型,可以是 videoaudio
  • batch_size: 批处理大小。
  • learning_rate: 学习率。
  • num_epochs: 训练的轮数。
  • data_dir: 数据路径。
  • model_path: 模型路径。

通过这些配置文件,用户可以灵活地调整模型的训练参数,以适应不同的任务需求。

Lipreading_using_Temporal_Convolutional_Networks Lipreading_using_Temporal_Convolutional_Networks 项目地址: https://gitcode.com/gh_mirrors/li/Lipreading_using_Temporal_Convolutional_Networks

猜你喜欢

转载自blog.csdn.net/gitblog_01016/article/details/142843130