theme: github
使用 Google 的 Gemma 模型对 SQL 数据库进行自然语言查询。在本指南您将了解如何利用 Google Gemma 模型的强大功能,使用自然语言查询 SQL 数据库。本教程将逐步引导您设置一个功能强大、直观且用户友好的 SQL 查询系统。
开始之前
在正式微调训练之前,需要先完成下面的工作。
1. 训练数据集
https://huggingface.co/datasets/b-mc2/sql-create-context 本数据集其中包含 78,577 个自然语言查询、SQL CREATE TABLE 语句和使用 CREATE 语句作为上下文回答问题的 SQL 查询示例。
2. Google Colab
借助 Colaboratory(简称 Colab),您可在浏览器中编写和执行 Python 代码,并且:
- 无需任何配置
- 免费使用 GPU
- 轻松共享 https://colab.research.google.com/ 其免费的环境使用的Google Colab T4的硬件配置
3. Huggingface Access Token
并且要在Google Colab的秘钥管理位置添加秘钥,名称为HF_TOKEN,以供代码访问Huggingface使用。
4. Google Gemma 模型
2024年2月21日,Google发布了最新的开放模型Gemma。是其为推动AI创新的开发者和研究者社区而构建的。Gemma 模型与Gemini共享技术和基础设施组件。并且其设计以 Google人工智能原则 为核心。
Google Gemma 的两个版本:
- 20 亿个参数:该版本非常适合资源有限的用户,并且仍然能够执行许多任务。
- 70 亿个参数:该版本提供更好的性能,但需要更多的资源来运行。
基于Google Colab 的T4机型的硬件配置,本次模型训练使用Gemma-2B模型。
在Huggingface上使用该模型,需进入Huggingface 找到Gemma-2B
模型,同意相关协议和完成授权。完成以上操作以后会得到下图的提示信息。