Lipreading using Temporal Convolutional Networks 项目教程
1. 项目目录结构及介绍
Lipreading_using_Temporal_Convolutional_Networks/
├── configs/
├── data/
├── datasets/
├── doc/
├── labels/
├── landmarks/
├── legacy_preprocessing/
├── lipreading/
├── models/
├── preprocessing/
├── train_logs/
├── .gitignore
├── LICENSE
├── README.md
├── main.py
├── requirements.txt
目录结构介绍
- configs/: 存放项目的配置文件。
- data/: 存放项目的数据文件。
- datasets/: 存放数据集文件。
- doc/: 存放项目的文档文件。
- labels/: 存放标签文件。
- landmarks/: 存放面部特征点文件。
- legacy_preprocessing/: 存放旧版本的预处理脚本。
- lipreading/: 存放与唇读相关的代码文件。
- models/: 存放预训练模型文件。
- preprocessing/: 存放预处理脚本。
- train_logs/: 存放训练日志文件。
- .gitignore: Git忽略文件。
- LICENSE: 项目许可证文件。
- README.md: 项目说明文件。
- main.py: 项目的主启动文件。
- requirements.txt: 项目依赖的Python包列表。
2. 项目的启动文件介绍
main.py
main.py
是项目的启动文件,负责训练、测试和提取特征。以下是该文件的主要功能:
- 训练模型: 通过指定不同的配置文件和数据路径,可以训练视觉或音频模型。
- 测试模型: 评估训练好的模型在测试集上的性能。
- 提取特征: 从预处理后的数据中提取特征向量。
使用示例
# 训练视觉模型
CUDA_VISIBLE_DEVICES=0 python main.py --modality video \
--config-path <MODEL-JSON-PATH> \
--annonation-direc <ANNONATION-DIRECTORY> \
--data-dir <MOUTH-ROIS-DIRECTORY>
# 测试视觉模型
CUDA_VISIBLE_DEVICES=0 python main.py --modality video \
--config-path <MODEL-JSON-PATH> \
--model-path <MODEL-PATH> \
--data-dir <MOUTH-ROIS-DIRECTORY> \
--test
3. 项目的配置文件介绍
configs/
目录
configs/
目录下存放了项目的配置文件,这些配置文件用于定义模型的超参数、数据路径等。
配置文件示例
{
"modality": "video",
"batch_size": 32,
"learning_rate": 0.001,
"num_epochs": 50,
"data_dir": "datasets/visual_data/",
"model_path": "models/resnet18_dctcn_video.pth"
}
配置文件参数说明
- modality: 指定模型的类型,可以是
video
或audio
。 - batch_size: 批处理大小。
- learning_rate: 学习率。
- num_epochs: 训练的轮数。
- data_dir: 数据路径。
- model_path: 模型路径。
通过这些配置文件,用户可以灵活地调整模型的训练参数,以适应不同的任务需求。