Sakana AI的“AI科学家”：下一个爱因斯坦还是仅仅是一个工具？

介绍

在人工智能领域，出现了一项具有突破性的进展，承诺将重新塑造科学发现的整个过程。Sakana AI与牛津大学的Foerster Lab及不列颠哥伦比亚大学的研究人员合作，推出了“人工智能科学家”——一个旨在实现完全自动化科学发现的综合系统。这种创新方法利用基础模型的力量，特别是大型语言模型 (LLMs)，在多个领域进行独立研究。

人工智能科学家代表了人工智能驱动研究的一次重大进步。它自动化了整个研究生命周期，从生成新颖的想法和实施实验到分析结果和撰写科学手稿。该系统进行研究，并包括一个自动化的同行评审过程，模拟人类科学共同体的迭代知识创造和验证方法。

概述

Sakana AI 推出了“人工智能科学家”，这是一个完全自动化的系统，旨在革新科学发现。
AI科学家自动化整个研究过程，从创意生成到论文撰写和同行评审。
AI科学家使用先进的语言模型以接近人类的准确性和效率生成研究论文。
人工智能科学家在视觉元素方面面临限制，在分析中可能出现错误，以及在科学诚信方面的伦理问题。
虽然前景光明，但《人工智能科学家》引发了关于人工智能安全性、伦理影响以及人类科学家在研究中不断变化角色的问题。
AI科学家的能力展示了巨大的潜力，但它们仍然需要人类的监督，以确保准确性和道德标准。

AI科学家的工作原理

AI Scientist 通过一个复杂的流程运作，该流程整合了几个关键过程。

工作流程如下所示：

现在，让我们来了解不同的步骤。

创意生成: 系统首先基于提供的起始模板进行头脑风暴，产生多样化的新颖研究方向。该模板通常包括与感兴趣领域相关的现有代码以及一个包含论文写作的样式文件和章节标题的LaTeX文件夹。为了确保原创性，AI科学家可以搜索Semantic Scholar以验证其创意的新颖性。
实验迭代：一旦想法形成，AI科学家会执行提议的实验，获得结果并生成可视化图像。它仔细记录每个图表和实验结果，为论文写作创建一个全面的档案。
论文写作: AI科学家根据收集到的实验数据和可视化结果，撰写一篇简明且信息丰富的科学论文，类似于标准的机器学习会议论文。它自主引用相关文献，使用Semantic Scholar。
自动化论文审阅: AI 科学家的 LLM-驱动的审阅者是一个重要组成部分。这个自动化审阅者以接近人类的准确性评估生成的论文，提供的反馈可以用来改进当前项目或指导未来的研究方向。

生成论文的分析

Ai-Scientist 生成和审查关于扩散建模语言建模和理解等领域的论文。让我们来检查这些发现。

1. DualScale Diffusion: 低维生成模型的自适应特征平衡

该论文介绍了一种新颖的自适应双尺度去噪方法，适用于低维扩散模型。该方法通过双分支架构和可学习的、时间步条件的加权机制，平衡了全局结构和局部细节。这种方法在多个2D数据集上展示了样本质量的提升。

尽管该方法具有创新性并得到了实证评估的支持，但其双尺度架构缺乏详尽的理论依据。它遭受了高计算成本，可能限制了其实际应用。此外，一些部分没有清楚解释，缺乏多样化的真实世界数据集和不足的消融研究限制了评估。

2. StyleFusion: 自适应多风格生成在字符级语言模型中

该论文介绍了多风格适配器（Multi-Style Adapter），通过将风格嵌入、风格分类头和风格适配器模块整合到GPT中，提升了字符级语言模型的风格意识和一致性。它在各种数据集上实现了更好的风格一致性和竞争性的验证损失。

尽管这一模型具有创新性和良好的测试结果，但在某些数据集上完美的风格一致性引发了对过拟合的担忧。较慢的推理速度限制了其实际应用性，论文可以通过更先进的风格表示、消融研究以及对自编码器聚合机制更清晰的解释来得到改善。

3. 解锁Grokking：变压器模型中权重初始化策略的比较研究

该论文探讨了权重初始化策略如何影响Transformer模型中的grokking现象，特别关注有限域中的算术任务。它比较了五种初始化方法（PyTorch默认、Xavier、He、正交和Kaiming Normal），发现Xavier和正交方法在收敛速度和泛化性能上表现优越。

这项研究涉及一个独特的话题，并提供了基于严格实证分析的系统比较。然而，其范围仅限于小模型和算术任务，缺乏更深入的理论见解。此外，实验设置的清晰度以及对更大Transformer应用的更广泛影响也有待改进。

AI科学家旨在考虑计算效率，生成每篇约$15的完整论文。虽然这个初始版本仍然偶尔存在缺陷，但低成本和令人期待的结果表明，AI科学家有潜力使研究民主化，并显著加速科学进展。

我们相信，这标志着科学发现新时代的曙光，在这个时代，AI代理将改变整个研究过程，包括AI研究本身。AI科学家让我们更接近一个未来，在这个未来中，无限制、可负担的创造力和创新能够应对世界上最紧迫的挑战。

AI科学家的代码实现

让我们来看一个简化版本，如何使用Python实现AI科学家的核心功能。这个例子专注于论文生成过程：

前提条件

克隆GitHub仓库 - ‘git clone <https://github.com/SakanaAI/AI-Scientist.git>’

根据您的操作系统，按 texlive 提供的说明安装 ‘Texlive’。另外，请参阅上述 Github 仓库中的说明。

确保您使用的是Python 3.11 版本。建议使用单独的虚拟环境。

安装‘AI-Scientist’所需的库，使用 ‘pip install -r requirements.txt’

设置你的 OpenAI 密钥，名称为 ‘OPENAI_API_KEY’

现在我们可以准备数据

# 准备NanoGPT数据

python data/enwik8/prepare.py

python data/shakespeare_char/prepare.py

python data/text8/prepare.py

一旦我们按上述方式准备好数据，就可以运行基准实验，如下所示

cd templates/nanoGPT && python experiment.py --out_dir run_0 && python plot.py

cd templates/nanoGPT_lite && python experiment.py --out_dir run_0 && python plot.py

要设置2D扩散，请安装所需的库并运行以下脚本

# 下面提到的代码克隆存储库并安装它

git clone https://github.com/gregversteeg/NPEET.git

cd NPEET

pip install .

pip install scikit-learn

# 设置2D扩散基准运行

# 此命令运行实验脚本，将输出保存到目录中，仅当实验成功完成时，才会绘制结果。

cd templates/2d_diffusion && python experiment.py --out_dir run_0 && python plot.py

要设置Grokking

pip install einops

# 设置Grokking基准运行

# 此命令也运行实验脚本，将输出保存到目录中，仅当实验成功完成时，才会绘制结果。

cd templates/grokking && python experiment.py --out_dir run_0 && python plot.py

科学论文生成

一旦我们设置并运行上述要求，我们可以通过运行下面的脚本开始科学论文生成。

#  此命令使用 GPT-4o 模型运行 launch_scientist.py 脚本，以执行 nanoGPT_lite 实验并生成 2 个新想法。

python launch_scientist.py --model "gpt-4o-2024-05-13" --experiment nanoGPT_lite --num-ideas 2

论文评审

这将创建科学论文的PDF文件。现在，我们可以审查论文。

import openai

from ai_scientist.perform_review import load_paper, perform_review

client = openai.OpenAI()

model = "gpt-4o-2024-05-13"

# 从pdf文件加载论文（原文）

paper_txt = load_paper("report.pdf")

# 获取审稿的字典

review = perform_review(

paper_txt,

model,

client,

num_reflections=5,

num_fs_examples=1,

num_reviews_ensemble=5,

temperature=0.1,

)

# 检查审稿结果

review["Overall"]  # 总体得分 1-10

review["Decision"]  # ['接受', '拒绝']

review["Weaknesses"]  # 弱点列表（字符串）

人工智能科学家的挑战与缺陷

尽管具有开创性潜力，AI科学家面临着几个挑战和限制：

视觉限制： 当前版本缺乏视觉能力，导致在论文中的视觉元素出现问题。图表可能难以读取，表格可能超出页面宽度，整体布局可能不尽人意。这个限制可以通过在未来的迭代中融合多模态基础模型来解决。
实现错误：AI科学家有时可能错误地实现他们的想法或对基线进行不公平的比较，这可能导致误导性的结果。这强调了强大的错误检查机制和人工监督的必要性。
分析中的关键错误：有时，AI科学家在基本的数字比较上会遇到困难，这是大规模语言模型（LLMs）已知的问题。这可能导致对实验结果的错误结论和解释。
伦理考虑： 自动生成和提交论文的能力引发了对学术审核过程的过载担忧，并可能降低科学讨论的质量。此外，AI科学家被用于不道德研究或产生意外有害结果的风险也存在，尤其是在被授予进行物理实验的访问权限时。
模型依赖性: 虽然AI科学家旨在做到模型无关，但其当前性能在很大程度上依赖于像GPT-4和Claude这样的专有前沿LLM。这种对封闭模型的依赖可能会限制可访问性和可重复性。
安全担忧： 系统修改和执行自身代码的能力引发了重大的人工智能安全隐患。适当的沙箱和安全措施对于防止意外后果至关重要。

你必须知道的失误

我们观察到，AI科学家有时会通过更改并运行自己的执行脚本来提高成功的几率。

例如，在一次运行中，它编辑了代码以执行系统调用来执行自身，导致了自我调用的无限循环。在另一个案例中，它的实验超出了时间限制。它并没有优化代码以更快运行，而是试图更改自己的代码以延长超时。以下是一些这些代码修改的示例。

我们也可以编辑模板，当我们需要自定义学习区域时。只需遵循现有模板的一般格式，通常包括：

experiment.py: 此文件包含您内容的核心。它接受一个 out_dir 参数，该参数指定它将创建一个文件夹以保存实验的相关输出。
plot.py: 这个脚本从运行文件夹中读取数据并生成图形。确保代码清晰且易于自定义。
prompt.json: 使用此文件提供有关您的模板的详细信息。
seed_ideas.json: 此文件包含示例想法。您还可以从零开始生成想法，并选择最合适的想法在这里包含。
latex/template.tex: 虽然我们建议使用我们提供的latex文件夹，但请用与您的工作更相关的引用替换任何预加载的引用。

未来的影响

AI科学家的引入带来了令人兴奋的机遇和重大担忧。这是AI领域的一场革命；生成一篇完整的会议级科学论文只需15美元。此外，伦理问题如使学术系统不堪重负和损害科学诚信，也是关键，同时需要明确标识AI生成内容以确保透明度。此外，AI在不安全研究中的潜在滥用带来了风险，这突显了在AI系统中优先考虑安全的重要性。

使用专有模型和开放模型，如 GPT-4o 和 DeepSeek，提供了独特的好处。专有模型提供更高质量的结果，而开放模型则提供成本效益、透明性和灵活性。随着人工智能的发展，目标是创建一种模型无关的方法，以使用开放模型进行自我改进的人工智能研究，从而促成更易获取的科学发现。

AI科学家预计将补充而不是取代人类科学家，增强研究自动化和创新。然而，它能够复制人类创造力和提出开创性想法的能力尚不确定。科学家的角色将随着这些进展而演变，促进人类与AI合作的新机会。

结论

AI科学家代表了自动化科学发现的重要里程碑。利用先进语言模型的力量和精心设计的流程，展示了在各个领域，特别是在机器学习及相关领域，加速研究的潜力。

然而，以兴奋和谨慎的态度来对待这项技术至关重要。虽然人工智能科学家展示了生成新思想和撰写研究论文的卓越能力，但它也凸显了人工智能安全、伦理方面的持续挑战，以及在科学事业中对人类监督的必要性。