[nlp] tokenizer加速:fast_tokenizer=True

   fast_tokenizer 是一个布尔值参数,用于指定是否使用快速的 tokenizer。在某些情况下,使用快速的 tokenizer 可以加快模型训练和推理速度。如果 fast_tokenizer 参数为 True,则会使用快速的 tokenizer;否则,将使用默认的 tokenizer。

        快速的 tokenizer 通常使用一些技巧来减少 tokenization 过程中的计算量,以便更快地处理文本数据。其中一种常见的技巧是使用字典或哈希表来存储单词,而不是使用字符串。这样可以避免在字符串中搜索和替换子字符串的操作,从而提高 tokenization 的速度。

        另外,快速的 tokenizer 还可以使用一些预处理技术,例如将单词转换为其基本形式(即去掉后缀或前缀),或者将多个连续的空格或标点符号合并为一个空格或标点符号。

        总之,快速的 tokenizer 通过使用一些优化技巧和预处理技术来减少计算量,从而提高 tokenization 的速度。

tokenizer = load_hf_tokenizer(args.model_name_or_path_baseline, fast_tokenizer=True)
def load_hf_tokenizer(model_name_or_path, fast_tokenizer=True):
    if os.path.exists(model_name_or_path):
        # Locally tokenizer loading has some issue, so we need to forc

猜你喜欢

转载自blog.csdn.net/Trance95/article/details/131917849
NLP