我要投稿

AI Scientist：世界上第一位 AI 科学家智能体！！（AI研究员 & 本地安装 & 撰写论文)

发布日期：2024-08-17 06:47:35 浏览次数： 2372 作者：AI进修生

你是否希望自己撰写关于机器学习或其他主题的研究论文，比如这样的内容？

那么这个工具AI Scientist可以帮助你。

这是世界上第一个用于自动化科学研究和开放式探索的AI系统，你只需运行它，它就会为你生成一篇完整的论文，文末会附上部署视频教程链接~

该公司致力于开发受自然系统启发的AI模型，比如鱼群和蜂群。旨在利用多个较小的模型协同工作，类似于自然界的群体活动。

AI Scientist 从 创意生成到编写代码、运行实验、总结结果，再到撰写整篇论文和进行同行评审。

我们可以看到AI科学家的概架构图：

首先，AI科学家会构思一组想法，然后评估这些想法的新颖性，检查它们是否有新的创意，以及是否已经被探讨过。

接下来，基于最近的自动代码生成技术，AI科学家编辑代码库以实现这些新算法。

然后，AI科学家运行实验，收集结果，包括数值数据和视觉摘要，并撰写科学报告，解释和上下文化这些结果。

最后，AI科学家基于顶级机器学习会议的标准生成自动化的同行评审，这个评审帮助完善当前项目，并为未来的开放式创意提供反馈。

这就使得AI科学家能够通过连续反馈循环，不断改进其研究成果。

当与最强大的LLM结合时，AI科学家能够生成论文，并被自动评审员评为在顶级机器学习会议上“弱接受”的水平。

但我个人最大的疑问是，这些论文的质量如何？？

他们在研究中使用的一个模型是Claude Sonnet 3.5，他们发现该模型在生成论文方面表现最佳，有几篇论文的得分甚至超过了顶级机器学习会议的接受门槛。

不过，根据提供的信息，AI科学家生成的论文包含了一些潜在的新见解，但整体质量参差不齐。

举例来说，一篇关于低维数据的扩散模型的论文在样本质量和分布匹配方面显示了显著改进；另一篇论文提出了一种新颖的双专家去噪架构，表现出性能改进。

这些是他们在项目页面上分享的一些示例，AI Scientist从摘要到结论到参考文献，全部写成了科学格式的论文。

▲ 双尺度扩散：低维生成模型的自适应特征平衡

▲ 通过 Q-Learning 实现 Transformers 的自适应学习率

▲ 解锁 Grokking：Transformer 模型中权重初始化策略的比较研究

总体而言，这些论文被评定为中等质量，类似于早期机器学习研究人员的作品，他们能够正确执行想法，但可能缺乏深厚的背景知识。

虽然这些论文并不代表可以发表的新知识，但它们可以作为人类研究人员的起点或灵感来源。

这个AI科学家目前没有视觉能力，因此无法修复论文中的视觉问题或读取图表。

生成的图表有时难以读取，表格有时会超出页面宽度，页面布局往往不理想。但添加多模态基础模型可以解决这个问题。

部署教程

概览

AI Scientist（AI科学家）是一个旨在通过大型语言模型（LLMs）来自动化科学研究和开放式发现的综合系统。该系统可以自动生成研究想法、运行实验、撰写论文，甚至进行同行评审。这一系统能够独立操作，可能会通过降低生产科学工作所需的成本和努力，来促进研究的普及。

主要特点：

• 自动化研究过程：从想法生成到实验执行，再到论文写作，全部由AI完成。
• 模拟同行评审：系统还能对生成的论文进行评审，以评估其质量。
• 基于模板：AI Scientist 使用可定制的模板来处理不同的研究任务。

生成的示例论文：

以下是一些示例论文的主题：

• 低维生成模型的自适应特征平衡。
• 使用基于网格的噪声自适应增强扩散模型。
• 在扩散模型中通过双专家去噪提高模式捕获能力。

安装与设置：

要安装和设置该环境，您需要：

1. 创建 Conda 环境：

conda create -n ai_scientist python=3.11
conda activate ai_scientist

2. 安装所需的包：

pip install anthropic aider-chat backoff openai
pip install matplotlib pypdf pymupdf4llm
pip install torch numpy transformers datasets tiktoken wandb tqdm

3. 安装 LaTeX：
```
sudo apt-get install texlive-full
```

4. 设置 API 密钥：提供不同模型的 API 密钥：

export OPENAI_API_KEY="你的密钥"
export S2_API_KEY="你的密钥"

5. 准备 NanoGPT 数据：

python data/enwik8/prepare.py
python data/shakespeare_char/prepare.py
python data/text8/prepare.py

运行实验：

您可以使用不同的模型和模板运行实验。示例命令如下：

python launch_scientist.py --model "gpt-4o-2024-05-13" --experiment nanoGPT_lite --num-ideas 2
python launch_scientist.py --model "claude-3-5-sonnet-20240620" --experiment nanoGPT_lite --num-ideas 2

获取由 LLM 生成的论文评审：

您还可以为论文生成评审：

import openai
from ai_scientist.perform_review import load_paper, perform_review

client = openai.OpenAI()
model = "gpt-4o-2024-05-13"
paper_txt = load_paper("report.pdf")
review = perform_review(
    paper_txt,
    model,
    client,
    num_reflections=5,
    num_fs_examples=1,
    num_reviews_ensemble=5,
    temperature=0.1,
)