Huggingface обрабатывает данные, чтобы исключить выбросы
При использовании метода карты для чтения данных обнаруживается ненормальное значение и сообщается об ошибке
input = dataset['train'].map(lambda x: llama_tokenizer(x["instruction"], truncation=True),batch_size=1000)
Первый шаг — проверка данных об ошибках.
n = -1
for i in dataset['train']:
n+=1
try:
llama_tokenizer(i["instruction"])
except:
print(n)
Второй шаг печатает аномальные данные
dataset['train'][19475]
Третий шаг - отфильтровать через фильтр
dataset = dataset.filter(lambda x: x["instruction"] !=None)