一、总括

二、数据集输入（token）

1、生成

由cogdata生成二进制数据集（生成token）

cogdata用法：GitHub - Sleepychord/cogdata: A light-weight data management system for large-scale pretraining

2、token

text通过SentencePiece模型生成text token；image通过一个离散化的AE(Auto-Encoder)转换为image token。

token作用在于将text和image变成尽量意义独立的小块，便于后面映射到token空间（类似于词向量的表达阿巴阿巴），而在这里对于image的意义就更大了，因为把一张大的图变成多个小块，减轻了后续网络的计算量。

3、data and label

因为是从左到右预测，比如说第一个token输入得到预测的第二个token再与目标的第二个token进行比对得到loss（所以labels比tokens延后一位）

下面的代码在pretrain_gpt2.py中（其中的labels为比对target；tokens为输入的token数据）

def get_batch(data_iterator, args, timers):#获取该batch的数据
    # Items and their type.
    keys = ['text', 'loss_mask']
    datatype = torch.int64

    # Broadcast data.
    timers('data loader').start()
    if data_iterator is not None:
        data = next(data_iterator)
    else:
        data = None
    timers('data loader').stop()

    data_b = mpu.broadcast_data(keys, data, datatype)
    # Unpack.解压数据
    tokens_ = data_b['text'].long()
    loss_mask = data_b['loss_mask'].float()#这个loss mask应该是服务于继续训练的那种吧（如果一开始训练应该为None）
    labels = tokens_[:, 1:].contiguous()#目标
    loss_mask = loss_mask[:, 1:].contiguous()
    tokens = tokens_[:, :-1].contiguous()#输入token
    #因为是从左到右预测，比如说第一个token输入得到预测的第二个token再与目标的第二个token进行比对得到loss（所以labels比tokens延后一位）
    attention_mask = None

    # Get the masks and postition ids.获得位置编码，attention mask 和 loss mask
    attention_mask, loss_mask, position_ids = get_masks_and_position_ids(
        tokens,
        loss_mask=loss_mask,
        attention_mask=attention_mask,
        args=args
        )
    # Convert转为半精度
    if args.fp16:
        attention_mask = attention_mask.half()

    return tokens, labels, loss_mask, attention_mask, position_ids