如何从 Hugging Face 下载并配置 Fashion MNIST 数据集（Parquet 格式）

在这篇文章中，我将分享如何从 Hugging Face 上下载 Fashion MNIST 数据集，并将其配置到本地项目中，尤其是当下载的数据是 Parquet 格式时。我们将使用 Hugging Face 的 datasets 库来进行数据集的加载与处理。

背景介绍

Fashion MNIST 是一个流行的图像分类数据集，包含 Zalando 的服装图片。这个数据集经常被用来替代经典的 MNIST 手写数字数据集，作为机器学习和深度学习模型的测试用例。该数据集可以通过 Hugging Face 提供的 datasets 库轻松获取和使用。

在本教程中，我们将：

安装必要的库。
从 Hugging Face 下载数据集。
处理 Parquet 格式的数据，并将其加载到 Python 中进行使用。

步骤一：安装必要的库

我们需要安装 Hugging Face 的 datasets 库以及支持 Parquet 格式的 pyarrow 库。请确保在你的 Python 环境中安装这些依赖。

在终端或命令提示符中运行以下命令：

pip install datasets
pip install pyarrow

datasets 库是 Hugging Face 提供的一个强大的工具，它支持加载、处理和存储多种格式的数据集。pyarrow 库则帮助我们处理 Parquet 格式的数据。

步骤二：从 Hugging Face 下载数据集

在 Hugging Face 的 Fashion MNIST 数据集页面上，可以找到该数据集并下载其 Parquet 格式的版本。下载完成后，将数据集存储在你项目的文件夹中。

我将数据集下载到本地路径 D:/fashion_mnist 文件夹中，确保这个路径下包含多个 .parquet 文件。

步骤三：加载数据集

在下载完成后，我们可以通过 datasets 库来加载这个 Parquet 格式的数据集。你只需要在 Python 脚本中使用如下代码：

from datasets import load_dataset

# 加载文件夹内的所有 parquet 文件
dataset = load_dataset("parquet", data_files="D:/fashion_mnist/*.parquet")

# 检查数据集的结构
print(dataset)

在这里，data_files 参数指向了我下载的 .parquet 数据集文件夹路径，即 D:/学习资料/code_tst/DALLE2-pytorch-main/fashion_mnist，并使用了通配符 *.parquet 来匹配所有的 .parquet 文件。

输出示例

当加载成功时，你将看到类似这样的输出：

DatasetDict({
    
    
    train: Dataset({
    
    
        features: ['image', 'label'],
        num_rows: 60000
    })
    test: Dataset({
    
    
        features: ['image', 'label'],
        num_rows: 10000
    })
})

这意味着数据集已经成功加载，并可以直接用于模型训练和评估。

常见问题

1. FileNotFoundError: Unable to find ‘*.parquet’

如果你遇到类似这样的错误，可能是因为路径或者文件格式不正确。请确保数据集的路径是正确的，并且文件名中包含 .parquet 扩展名。你可以使用绝对路径或相对路径，确保路径指向正确的数据集文件夹。

2. `pyarrow` 安装问题

在安装 pyarrow 时，可能会出现兼容性问题。请确保你使用的是最新版本的 pip 和 wheel，可以通过以下命令升级：

pip install --upgrade pip wheel

总结

通过使用 Hugging Face 提供的 datasets 库，我们可以轻松下载并处理 Fashion MNIST 数据集，即便数据集是以 Parquet 格式存储的。本文展示了如何下载、配置和加载该数据集，并为后续的机器学习任务提供数据准备。

希望这篇文章对你有帮助，欢迎大家留言讨论！