如何从 Hugging Face 下载并配置 Fashion MNIST 数据集(Parquet 格式)

在这篇文章中,我将分享如何从 Hugging Face 上下载 Fashion MNIST 数据集,并将其配置到本地项目中,尤其是当下载的数据是 Parquet 格式时。我们将使用 Hugging Face 的 datasets 库来进行数据集的加载与处理。

背景介绍

Fashion MNIST 是一个流行的图像分类数据集,包含 Zalando 的服装图片。这个数据集经常被用来替代经典的 MNIST 手写数字数据集,作为机器学习和深度学习模型的测试用例。该数据集可以通过 Hugging Face 提供的 datasets 库轻松获取和使用。

在本教程中,我们将:

  1. 安装必要的库。
  2. 从 Hugging Face 下载数据集。
  3. 处理 Parquet 格式的数据,并将其加载到 Python 中进行使用。

步骤一:安装必要的库

我们需要安装 Hugging Face 的 datasets 库以及支持 Parquet 格式的 pyarrow 库。请确保在你的 Python 环境中安装这些依赖。

在终端或命令提示符中运行以下命令:

pip install datasets
pip install pyarrow

datasets 库是 Hugging Face 提供的一个强大的工具,它支持加载、处理和存储多种格式的数据集。pyarrow 库则帮助我们处理 Parquet 格式的数据。

步骤二:从 Hugging Face 下载数据集

在 Hugging Face 的 Fashion MNIST 数据集页面 上,可以找到该数据集并下载其 Parquet 格式的版本。下载完成后,将数据集存储在你项目的文件夹中。

我将数据集下载到本地路径 D:/fashion_mnist 文件夹中,确保这个路径下包含多个 .parquet 文件。

步骤三:加载数据集

在下载完成后,我们可以通过 datasets 库来加载这个 Parquet 格式的数据集。你只需要在 Python 脚本中使用如下代码:

from datasets import load_dataset

# 加载文件夹内的所有 parquet 文件
dataset = load_dataset("parquet", data_files="D:/fashion_mnist/*.parquet")

# 检查数据集的结构
print(dataset)

在这里,data_files 参数指向了我下载的 .parquet 数据集文件夹路径,即 D:/学习资料/code_tst/DALLE2-pytorch-main/fashion_mnist,并使用了通配符 *.parquet 来匹配所有的 .parquet 文件。

输出示例

当加载成功时,你将看到类似这样的输出:

DatasetDict({
    
    
    train: Dataset({
    
    
        features: ['image', 'label'],
        num_rows: 60000
    })
    test: Dataset({
    
    
        features: ['image', 'label'],
        num_rows: 10000
    })
})

这意味着数据集已经成功加载,并可以直接用于模型训练和评估。

常见问题

1. FileNotFoundError: Unable to find ‘*.parquet’

如果你遇到类似这样的错误,可能是因为路径或者文件格式不正确。请确保数据集的路径是正确的,并且文件名中包含 .parquet 扩展名。你可以使用绝对路径或相对路径,确保路径指向正确的数据集文件夹。

2. pyarrow 安装问题

在安装 pyarrow 时,可能会出现兼容性问题。请确保你使用的是最新版本的 pipwheel,可以通过以下命令升级:

pip install --upgrade pip wheel

总结

通过使用 Hugging Face 提供的 datasets 库,我们可以轻松下载并处理 Fashion MNIST 数据集,即便数据集是以 Parquet 格式存储的。本文展示了如何下载、配置和加载该数据集,并为后续的机器学习任务提供数据准备。

希望这篇文章对你有帮助,欢迎大家留言讨论!

猜你喜欢

转载自blog.csdn.net/weixin_41496173/article/details/143204295