官方Baseline学习
再来回顾一下,该问题背景基于 天池Better Synth多模态大模型数据合成挑战赛,详细可以参考该链接。
简而言之,本背景基于图片数据方面,在合成与清洗图文数据中提高多模态大模型的图片理解能力。
基于 Mini-Gemini 模型进行训练,只关注于预训练(模态间对齐)阶段的数据合成与清洗,指令微调阶段为固定数据集。选用 MGM-2B 规模的模型作为模型。
小题外话
官方提供了相应的Baseline:
通过了基本的数据准备、下载,数据的环境配置后(下载需要等待一段时间)。
下面我们基于官方的Baseline,学习一下其中的内容:
数据合成
利用 Data-juicer(详见官方链接),我们可以快速调用blip模型合成数据:
dataset_path: input/pretrain_stage_1_10k/mgm_pretrain_stage_1_10k.jsonl
export_path: output/image_captioning_output/res_10k.jsonl
# np: 1
process:
- image_captioning_mapper:
hf_img2seq: '/root/autodl-tmp/better_synth_baseline_autoDL/models/goldsj/blip2-opt-2___7b' # You can replace this path to a local downloaded HF model
keep_original_sample: false # we only need the recaptioned captions
其中,np设置>1支持并行处理,定义的常数取决于CPU和GPU的配置,process中的 image_captioning_mapper 就是 caption 的相关算子(官方定义)。
训练
我们只看官方可供修改的部分地方:
############################################################################
########################### Editable Part Begins ###########################
############################################################################
# exp meta information
EXP_NAME=default
PRETRAIN_DATASET=../input/pretrain_stage_1/mgm_pretrain_stage_1.jsonl
PRETRAIN_DATASET_IMAGE_PATH=../input/pr