95. BERT预训练数据代码

为了预训练之前实现的BERT模型,我们需要以理想的格式生成数据集,以便于两个预训练任务:遮蔽语言模型和下一句预测。一方面,最初的BERT模型是在两个庞大的图书语料库和英语维基百科的合集上预训练的,但它很难吸引这本书的大多数读者。另一方面,现成的预训练BERT模型可能不适合医学等特定领域的应用。因此,在定制的数据集上对BERT进行预训练变得越来越流行。为了方便BERT预训练的演示,我们使用了较小的语料库WikiText-2

与用于预训练word2vec的PTB数据集相比,WikiText-2(1)保留了原来的标点符号,适合于下一句预测;(2)保留了原来的大小写和数字;(3)大了一倍以上。

import os
import random
import torch
from d2l import torch as d2l

WikiText-2数据集中,每行代表一个段落,其中在任意标点符号及其前面的词元之间插入空格。保留至少有两句话的段落。为了简单起见,我们仅使用句号作为分隔符来拆分句子。我们将更复杂的句子拆分技术的讨论留在本节末尾的练习中。

d2l.DATA_HUB['wikitext-2'] = (
    'https://s3.amazonaws.com/research.metamind.io/wikitext/'
    'wikitext-2-v1.zip', '3c914d17d80b1459be871a5039ac23e752a53cbe')

def _read_wiki(data_dir):
    file_name = os.path.join(data_dir, 'wiki.train.tokens')
    with open(file_name, 'r') as f:
      # readlines(),是把一个文档的每一行(包含行前的空格,行末加一个\n),
      # 作为列表的一个元素,存储在一个list中。每一个行作为list的一个元素。
        lines = f.readlines()
      # 所以lines是一个数组,每一个元素是原始文本中的一行,原始文本多少行,lines的长度就为多少

    # .strip()去除字符串两侧的空格以及特殊字符
    # 大写字母转换为小写字母
    # for line in lines 拿到每一行,如果这一行至少有两句话,这一行保留
    # 保留下来这一行后,使用'.'进行分割成多个数组,如果2个点,就分成3个数组
    paragraphs = [line.strip().lower().split(' . ')
                  for line in lines if len(line.split(' . ')) >= 2]
    # 所以paragraphs是一个list,并且包含多个数组,
    # 一个数组中是由多个字符串组成的,各个字符串是一句话
    # 如paragraphs[0]是['hello world','you are good','I like you','How are you']

	# 使用shuffle来打乱每一段
    random.shuffle(paragraphs)
    return paragraphs

1.为预训练任务定义辅助函数

在下文中,我们首先为BERT的两个预训练任务实现辅助函数。这些辅助函数将在稍后将原始文本语料库转换为理想格式的数据集时调用,以预训练BERT。

1. 1生成下一句预测任务的数据

_get_next_sentence函数生成二分类任务的训练样本。

def _get_next_sentence(sentence, next_sentence, paragraphs):
    # paragraphs 包括多个句子列表(paragraph),而paragraph包含多个词元列表
    # 因为传入的next_sentence就是sentence的下一个句子
    # 所以如果正好随机数小于0.5,直接把is_next置为true即可
    # 如果随机数大于等于0.5,那么再把next_sentence随机抽取,并且is_next置为false
    if random.random() < 0.5:
        is_next = True
    else:
        # paragraphs是三重列表的嵌套
        # random.choice随机抽取,先从paragraphs中随机抽取一个list(一段/多个句子)
        # 再从多个句子中中随机抽取一个句子(词元列表)如:['hi','what','is','it']
        next_sentence = random.choice(random.choice(paragraphs))
        is_next = False
    return sentence, next_sentence, is_next

下面的函数通过调用_get_next_sentence函数从输入paragraph生成用于下一句预测的训练样本。这里paragraph是句子列表,其中每个句子都是词元列表。自变量max_len指定预训练期间的BERT输入序列的最大长度。

def _get_nsp_data_from_paragraph(paragraph, paragraphs, vocab, max_len):
    # paragraph 是一个句子列表,包含多个句子,其中每个句子都是词元列表,举例如下:
    # [['hello','world'],['you','are','good'],['hi','what','is','it']]
    # paragraphs 则包括多个句子列表,也就是整片文章

    # nsp_data_from_paragraph表示从文章中随机抽取用于nsp任务的句子
    nsp_data_from_paragraph = []

    # paragraph是句子列表,假设句子列表中有3个句子
    # 则i的范围是[0,2),也就是[0,1],因为不要对最后一个句子去判断nsp
    for i in range(len(paragraph) - 1):
        # is_next表示tokens_b是否是tokens_a的下一句
        # tokens_a和tokens_b都是词元列表
        tokens_a, tokens_b, is_next = _get_next_sentence(
            paragraph[i], paragraph[i + 1], paragraphs)
        # 需要考虑一对句子中的1个'<cls>'词元和2个'<sep>'词元
        # 如果大于指定的最大长度,则进入下一次循环,continue后面的代码不执行
        if len(tokens_a) + len(tokens_b) + 3 > max_len:
            continue
        # 把tokens_a和tokens_b拼起来,并且得到segment embedding
        # tokens和segments都是一个一维向量,长度为:len(tokens_a) + len(tokens_b) + 3
        tokens, segments = d2l.get_tokens_and_segments(tokens_a, tokens_b)

        # nsp_data_from_paragraph 是由多个对象组成的list,其中一个对象包括:
        # tokens:形如,['<cls>','hi','I','am','fine','<sep>','I','like','it','<sep']
        # segments:形如[0,0,0,0,0,0,1,1,1,1]
        # is_next:就是一个bool值,如false
        nsp_data_from_paragraph.append((tokens, segments, is_next))
    return nsp_data_from_paragraph

1.2 生成遮蔽语言模型任务的数据

为了从BERT输入序列生成遮蔽语言模型的训练样本,我们定义了以下_replace_mlm_tokens函数。在其输入中,tokens是表示BERT输入序列的词元的列表,candidate_pred_positions是不包括特殊词元的BERT输入序列的词元索引的列表(特殊词元在遮蔽语言模型任务中不被预测),以及num_mlm_preds指示预测的数量(选择15%要预测的随机词元)。

定义遮蔽语言模型任务之后,在每个预测位置,输入可以由特殊的“掩码”词元或随机词元替换,或者保持不变。最后,该函数返回可能替换后的输入词元、发生预测的词元索引和这些预测的标签。

def _replace_mlm_tokens(tokens, candidate_pred_positions, num_mlm_preds,
                        vocab):
    # tokens是表示BERT输入序列的词元的列表,如:
    # ['<cls>','hi','I','am','fine','<sep>','I','like','it','<sep']

    # candidate_pred_positions 是不包括特殊词元的BERT输入序列的词元索引的列表
    # 如:[1,2,3,4,6,7,8]

    # num_mlm_preds 表示 要预测的词元的数量,如10*0.15 = 1.5=2

    # 为遮蔽语言模型的输入创建新的词元副本,其中输入可能包含替换的“<mask>”或随机词元
    # mlm_input_tokens和tokens是一样,前者是后者的副本
    mlm_input_tokens = [token for token in tokens]

    # pred_positions_and_labels:预测的位置以及对应的label
    pred_positions_and_labels = []

    # 把词元列表打乱,也就是把tokens中除特殊词元外的对应的索引打乱,
    # 如,可以变成:[4,6,8,1,2,3,7]
    # 打乱后用于在遮蔽语言模型任务中获取15%的随机词元进行预测
    random.shuffle(candidate_pred_positions)

    for mlm_pred_position in candidate_pred_positions:
      # mlm_pred_position:拿到[4,6,8,1,2,3,7]中的每一个元素,第一次循环是:4
        if len(pred_positions_and_labels) >= num_mlm_preds:
          # 如果预测的数量多于规定的预测数量(2),直接break,跳出循环
            break

        masked_token = None # 初始化masked_token 为none
        # 80%的时间:将词替换为“<mask>”词元
        if random.random() < 0.8: 
            masked_token = '<mask>'
        else:
            # 10%的时间:保持词不变
            if random.random() < 0.5:
                masked_token = tokens[mlm_pred_position]
            # 10%的时间:用随机词替换该词
            else:
                # vocab.idx_to_token是这个vocab中,一个索引对应一个词
                # 从所有索引中随机取一个,也就相当于词表中随机取一个词
                masked_token = random.choice(vocab.idx_to_token)
        
        # 把当前索引对应的token赋值为 masked_token,
        # 如果是第一次循环,那就是mlm_input_tokens[4] = 'fine',
        # 这个 'fine'会根据概率变成对应的 masked_token
        mlm_input_tokens[mlm_pred_position] = masked_token
        # append 预测的位置以及这个位置对应的token
        pred_positions_and_labels.append(
            (mlm_pred_position, tokens[mlm_pred_position]))
        
    # 返回(经过对原始序列处理后的)包含“<mask>”或随机词元的序列 以及
    # 所有要预测的位置(“<mask>”或随机词元的位置)和对应token
    return mlm_input_tokens, pred_positions_and_labels

通过调用前述的_replace_mlm_tokens函数,以下函数将BERT输入序列(tokens)作为输入,并返回输入词元的索引(可能的词元替换之后)、发生预测的词元索引以及这些预测的标签索引。

def _get_mlm_data_from_tokens(tokens, vocab):
    # 传入的tokens形如:['<cls>','hi','I','am','fine','<sep>','I','like','it','<sep>']
    # 是经过把两个句子拼接在一起处理的

    candidate_pred_positions = [] # 候选的预测位置

    # tokens是一个字符串列表
    for i, token in enumerate(tokens):
        # 在遮蔽语言模型任务中不会预测特殊词元
        if token in ['<cls>', '<sep>']: # 如果输入特殊词元,略过,进入下一次循环
            continue

        # 如果不属于特殊词元,则把索引(位置)append到候选的预测位置这一数组中
        # candidate_pred_positions:不包括特殊词元的序列中其他词元的索引
        # 如:[1,2,3,4,6,7,8]
        candidate_pred_positions.append(i)

    # 遮蔽语言模型任务中预测15%的随机词元
    # num_mlm_preds:预测的数量,round表示四舍五入
    # 预测的数量=输入序列的长度*0.15,就来表示0.15的概率
    # 如果长度很小,那么至少也要预测一个位置
    num_mlm_preds = max(1, round(len(tokens) * 0.15)) # 假设这里为10*0.15=1.5=2

    # 向_replace_mlm_tokens函数,传入字符串列表,候选位置(除特殊词元外所有词元的位置索引),
    # 以及 预测的数量,还有词表vocab
    # 得到了 mlm_input_tokens:经过mask处理的tokens,形如:
    # ['<cls>','hi','I','am','<mask>','<sep>','<mask>','like','it','<sep>']
    # 以及pred_positions_and_labels:一个列表,包含多个对象,对象形如{预测的位置,对应的原本token},
    # 在这里,举例为:[{4,'fine'},{6,'I'}]
    mlm_input_tokens, pred_positions_and_labels = _replace_mlm_tokens(
        tokens, candidate_pred_positions, num_mlm_preds, vocab)
    
    # 按位置(索引)正向排序,从小到大排序
    # 排序后为:[{4,'fine'},{6,'I'}]
    pred_positions_and_labels = sorted(pred_positions_and_labels,
                                       key=lambda x: x[0])
    
    # 拿到排序后的索引,这个索引是 要进行预测的位置,组成数组,如:[4,6]
    pred_positions = [v[0] for v in pred_positions_and_labels]

    # 拿到要预测的位置对应的token,也组成数组,如:['fine','I']
    mlm_pred_labels = [v[1] for v in pred_positions_and_labels]

    # 返回 1. 经过mask处理后的tokens中,每一个词元在原词表中对应的索引
    # 返回 2. 要预测的所有词的位置索引,如:[4,6]
    # 返回 3. 在预测位置上原本的token 在原词表的索引,如'fine'和'I'在vocab中的索引
    return vocab[mlm_input_tokens], pred_positions, vocab[mlm_pred_labels]

2 将文本转换为预训练数据集

现在我们几乎准备好为BERT预训练定制一个Dataset类。在此之前,我们仍然需要定义辅助函数_pad_bert_inputs来将特殊的“< mask>”词元附加到输入。它的参数examples包含来自两个预训练任务的辅助函数_get_nsp_data_from_paragraph_get_mlm_data_from_tokens的输出。

def _pad_bert_inputs(examples, max_len, vocab):
    # examples是一个数组,假设一个example是:
    # ([2,100,7,8,1,3,1,10,9,3],[4,6],[200,7],[0,0,0,0,0,0,1,1,1,1],false)

    # max_num_mlm_preds:最大预测的数量,是15%的概率
    max_num_mlm_preds = round(max_len * 0.15)

    all_token_ids, all_segments, valid_lens,  = [], [], []
    all_pred_positions, all_mlm_weights, all_mlm_labels = [], [], []
    nsp_labels = []
    for (token_ids, pred_positions, mlm_pred_label_ids, segments,
         is_next) in examples: 
        # examples 是两个预训练任务的输出

        # 句子长度没到max_len,需要进行pad,然后把pad的id也存入all_token_ids
        # vocab['<pad>']假设为0,那么就是在[2,100,7,8,1,3,1,10,9,3]数组后加0
        all_token_ids.append(torch.tensor(token_ids + [vocab['<pad>']] * (
            max_len - len(token_ids)), dtype=torch.long))
        
        # 句子长度没到max_len,也需要吧segments填充,
        # 举例就是往[0,0,0,0,0,0,1,1,1,1]这个数组后加0
        all_segments.append(torch.tensor(segments + [0] * (
            max_len - len(segments)), dtype=torch.long))
        
        # valid_lens不包括'<pad>'的计数
        # valid_lens记录每个经过两个预训练任务后的输出序列的有效长度
        valid_lens.append(torch.tensor(len(token_ids), dtype=torch.float32))

        # 如果预测数量小于最大预测数量(15%的概率),也要填充
        # 举例,就是对[4,6]数组进行加0填充
        all_pred_positions.append(torch.tensor(pred_positions + [0] * (
            max_num_mlm_preds - len(pred_positions)), dtype=torch.long))
        
        # 填充词元的预测将通过乘以0权重在损失中过滤掉,不是填充词元的预测则是乘以1保留权重
        # mlm_pred_label_ids是[200,7]就是'fine'和'I'在vocab中对应的索引
        all_mlm_weights.append(
            torch.tensor([1.0] * len(mlm_pred_label_ids) + [0.0] * (
                max_num_mlm_preds - len(pred_positions)),
                dtype=torch.float32))
        
        # 预测位置对应的原始的token的索引放入all_mlm_labels数组中,
        #  mlm_pred_label_ids是[200,7]就是'fine'和'I'在vocab中对应的索引
        # 如果没有达到最大预测数量 则用0填补
        all_mlm_labels.append(torch.tensor(mlm_pred_label_ids + [0] * (
            max_num_mlm_preds - len(mlm_pred_label_ids)), dtype=torch.long))
        
        # 序列对应的is_next放入nsp_labels数组中,这里举例is_next:false
        nsp_labels.append(torch.tensor(is_next, dtype=torch.long))
    return (all_token_ids, all_segments, valid_lens, all_pred_positions,
            all_mlm_weights, all_mlm_labels, nsp_labels)

将用于生成两个预训练任务的训练样本的辅助函数和用于填充输入的辅助函数放在一起,我们定义以下_WikiTextDataset类为用于预训练BERT的WikiText-2数据集。通过实现__getitem__函数,我们可以任意访问WikiText-2语料库的一对句子生成的预训练样本(遮蔽语言模型和下一句预测)样本。

最初的BERT模型使用词表大小为30000的WordPiece嵌入。为简单起见,我们使用d2l.tokenize函数进行词元化。出现次数少于5次的不频繁词元将被过滤掉。

class _WikiTextDataset(torch.utils.data.Dataset):
    # paragraphs 是一个list,其中还包含很多个list,其中一个list是由多个字符串组成,
    # 也就是说 paragraphs[i]是由多个字符串组成的list,一个字符串是一句话
    # 是:['hello world','you are good','I like you','How are you']
    def __init__(self, paragraphs, max_len):
        # 而输出paragraphs[i]是代表段落的句子列表,其中每个句子都是词元列表
        # for paragraph in paragraphs,取出一个段落(list)
        # 再对这个段落中的元素进行词元化,也就把每个句子弄成一个词元列表,如下:
        # [['hello','world'],['you','are','good'],['I','like','you'],['How','are','you']]
        # 上面这是paragraphs[i]的形式,是一个二位数组,
        # 那么paragraphs由很多paragraphs[i]组成,则是一个三维数组
        paragraphs = [d2l.tokenize(
            paragraph, token='word') for paragraph in paragraphs]
        
        # sentences是一个list,并且包含了多个list,每个list是一个经过tokenize的list,
        # 如:['you','are','good']
        sentences = [sentence for paragraph in paragraphs
                     for sentence in paragraph]
        
        # 通过d2l.Vocab这一函数来构建词表,也就是一个词元对应一个索引,
        # 并且 也要为 reserved_tokens 编上索引
        # min_freq=5表示:过滤掉出现次数小于5的词元
        self.vocab = d2l.Vocab(sentences, min_freq=5, reserved_tokens=[
            '<pad>', '<mask>', '<cls>', '<sep>'])
        # 获取下一句子预测任务的数据
        examples = []
        for paragraph in paragraphs:
            # paragraph是一个二维数组,形如:[['hello','world'],['you','are','good']]
            # paragraphs则是一个三维数组,包含多个上面形状的二维数组
            # 把 用与nsp任务的数据 追加到 examples中
            examples.extend(_get_nsp_data_from_paragraph(
                paragraph, paragraphs, self.vocab, max_len))
            
        # 获取遮蔽语言模型任务的数据
        # 拿到 examples中的tokens,这个tokens是经过处理的,变成了形如:
        # ['<cls>','hi','I','am','fine','<sep>','I','like','it','<sep>']
        # 向_get_mlm_data_from_tokens 传入参数后返回的是:
        # ([mask后的句子所有词元对应vocab的索引],[4,6],[fine对应vocab的索引,I对应vocab的索引],
        #  segments,is_next)
        examples = [(_get_mlm_data_from_tokens(tokens, self.vocab)
                      + (segments, is_next))
                     for tokens, segments, is_next in examples]
          
        # 填充输入
        # examples是由多个元组组成的list,其中一个元组如下:
        # ([mask后的句子所有词元对应vocab的索引],[4,6],[fine对应vocab的索引,I对应vocab的索引],
        # segments,is_next)
        # 我随意假设为([2,100,7,8,1,3,1,10,9,3],[4,6],[200,7],[0,0,0,0,0,0,1,1,1,1],false)
        # ps:上面随意假设,把 '<mask>', '<cls>', '<sep>'假设为了1,2,3
        # 把examples传入 _pad_bert_inputs函数
        # 返回进行了填充之后的各种属性
        (self.all_token_ids, self.all_segments, self.valid_lens,
         self.all_pred_positions, self.all_mlm_weights,
         self.all_mlm_labels, self.nsp_labels) = _pad_bert_inputs(
            examples, max_len, self.vocab)

    def __getitem__(self, idx):
        return (self.all_token_ids[idx], self.all_segments[idx],
                self.valid_lens[idx], self.all_pred_positions[idx],
                self.all_mlm_weights[idx], self.all_mlm_labels[idx],
                self.nsp_labels[idx])

    def __len__(self):
        return len(self.all_token_ids)

通过使用_read_wiki函数_WikiTextDataset类,我们定义了下面的load_data_wiki来下载并生成WikiText-2数据集,并从中生成预训练样本。

torch.utils.data.DataLoader之简易理解(小白进)

def load_data_wiki(batch_size, max_len):
    """加载WikiText-2数据集"""
    num_workers = d2l.get_dataloader_workers()
    data_dir = d2l.download_extract('wikitext-2', 'wikitext-2')
    paragraphs = _read_wiki(data_dir)
    train_set = _WikiTextDataset(paragraphs, max_len)
    # torch.utils.data.DataLoader 的作用:从train_set中每次抛出一批数据
    # 批量大小为batch_size,shuffle=True是代表随机选出数据
    # train_iter就是一个迭代器,总能不停地拿到一个批量的数据
    train_iter = torch.utils.data.DataLoader(train_set, batch_size,
                                        shuffle=True, num_workers=num_workers)
    return train_iter, train_set.vocab

将批量大小设置为512,将BERT输入序列的最大长度设置为64,我们打印出小批量的BERT预训练样本的形状。注意,在每个BERT输入序列中,为遮蔽语言模型任务预测 10 ( 64×0.15 )个位置。

batch_size, max_len = 512, 64
train_iter, vocab = load_data_wiki(batch_size, max_len)

for (tokens_X, segments_X, valid_lens_x, pred_positions_X, mlm_weights_X,
     mlm_Y, nsp_y) in train_iter:
    # tokens_X.shape是(512,64):一次取512个句子,一个句子长度为64,不够就pad
    # segments_X.shape和一样,且同理
    # valid_lens_x.shape长度为512,因为512个句子就有512个有效长度
    # pred_positions_X.shape 是(512,10):
    # 因为max(1,64*0.15)=10,所以每个句子的预测位置为10
    # mlm_weights_X.shape的形状为(512,10),因为预测位置为10,那么mlm权重列数维就为10
    # mlm_Y.shape:形状为(512,10),因为对应于每个句子那10个预测位置的label
    # nsp_y.shape的形状是512,因为一个句子只用一个bool值来表示是否为相邻句子
    print(tokens_X.shape, segments_X.shape, valid_lens_x.shape,
          pred_positions_X.shape, mlm_weights_X.shape, mlm_Y.shape,
          nsp_y.shape)
    # 进行一次循环就break,所以也就只打印一个批量的数据的形状
    break

运行结果:

在这里插入图片描述

最后,我们来看一下词量。即使在过滤掉不频繁的词元之后,它仍然比PTB数据集的大两倍以上。

len(vocab)

运行结果:

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_47505105/article/details/128805260
今日推荐