Huggingface обрабатывает данные, чтобы исключить выбросы

При использовании метода карты для чтения данных обнаруживается ненормальное значение и сообщается об ошибке

input = dataset['train'].map(lambda x: llama_tokenizer(x["instruction"], truncation=True),batch_size=1000)

Первый шаг — проверка данных об ошибках.

n = -1
for i in dataset['train']:
    n+=1
    try:
        llama_tokenizer(i["instruction"])
    except:
        print(n)

Второй шаг печатает аномальные данные

dataset['train'][19475]

Третий шаг - отфильтровать через фильтр

dataset = dataset.filter(lambda x: x["instruction"] !=None)

рекомендация

отblog.csdn.net/qq_18555105/article/details/130291508