基于天池Better Synth多模态大模型数据合成挑战赛的多模态大模型数据合成(2) [Datawhale AI 夏令营]


官方Baseline学习

再来回顾一下,该问题背景基于 天池Better Synth多模态大模型数据合成挑战赛,详细可以参考该链接。
简而言之,本背景基于图片数据方面,在合成与清洗图文数据中提高多模态大模型的图片理解能力。
基于 Mini-Gemini 模型进行训练,只关注于预训练(模态间对齐)阶段的数据合成与清洗,指令微调阶段为固定数据集。选用 MGM-2B 规模的模型作为模型。

小题外话

官方提供了相应的Baseline:
通过了基本的数据准备、下载,数据的环境配置后(下载需要等待一段时间)。

下面我们基于官方的Baseline,学习一下其中的内容:

数据合成

利用 Data-juicer(详见官方链接),我们可以快速调用blip模型合成数据:

dataset_path: input/pretrain_stage_1_10k/mgm_pretrain_stage_1_10k.jsonl
export_path: output/image_captioning_output/res_10k.jsonl

# np: 1
process:
  - image_captioning_mapper:
      hf_img2seq: '/root/autodl-tmp/better_synth_baseline_autoDL/models/goldsj/blip2-opt-2___7b'  # You can replace this path to a local downloaded HF model
      keep_original_sample: false  # we only need the recaptioned captions

其中,np设置>1支持并行处理,定义的常数取决于CPU和GPU的配置,process中的 image_captioning_mapper 就是 caption 的相关算子(官方定义)。

训练

我们只看官方可供修改的部分地方:

############################################################################
########################### Editable Part Begins ###########################
############################################################################
# exp meta information
EXP_NAME=default
PRETRAIN_DATASET=../input/pretrain_stage_1/mgm_pretrain_stage_1.jsonl
PRETRAIN_DATASET_IMAGE_PATH=../input/pr