微信扫码
与创始人交个朋友
我要投稿
Sakana AI 是一家专注于将自然启发的想法应用于创建新的基础模型的研究团队。他们正在开发一种可以自动生成具有用户指定应用领域特定能力的基础模型的技术。在这个报告中,他们介绍了一种名为 “模型合并进化” 的方法,这种方法使用进化技术有效地发现了将不同的模型从数百万个开源模型中合并成具有新能力的新模型的最佳方法。他们已经成功地创建了一个日文大语言模型和一个日文视觉语言模型,这两个模型在各自的领域取得了最佳成绩。他们的方法还可以扩展到图像生成扩散模型。
以下是详细介绍
Sakana AI 的核心研究重点是应用进化和集体智慧等受自然启发的思想来创建新的基础模型。我们目前正在开发利用进化的技术,目标是自动开发具有适合用户指定应用领域的特殊能力的基础模型。我们的目标不仅仅是训练任何特定的个体模型。我们希望创造一种机器来自动化为我们生成基础模型!
作为实现这一目标的第一步,我们很高兴发布报告《模型合并配方的进化优化》[1]。
我们引入了模型进化合并,这是一种通用方法,它使用进化技术来有效地发现从具有不同功能的不同开源模型的浩瀚海洋中组合不同模型的最佳方法。截至撰写本文时,Hugging Face拥有超过 50 万个具有数十种不同模式的模型,原则上可以将这些模型组合起来形成具有新功能的新模型!通过利用现有开放模型的大量集体智慧,我们的方法能够自动创建具有用户指定的所需功能的新基础模型。
我们发现我们的方法能够自动发现新的方法来合并来自截然不同的领域(例如非英语语言和数学,或非英语语言和视觉)的不同模型,以对人类专家来说可能困难的非平凡方式发现自己。
为了测试我们的方法效果,我们测试了几个模型,以自动为我们进化出能够进行数学推理的日语大语言模型(LLM)和日语视觉语言模型(VLM)。
令人惊讶的是,我们发现这两个模型在多个 LLM 和 Vision 基准上都取得了最先进的结果,但没有经过明确优化以擅长这些基准!
特别是,我们进化的日语数学LLM,一个7B参数模型,在大量其他日语LLM基准上取得了顶级性能,甚至超过了之前一些SOTA 70B参数日语LLM的性能!相信我们的实验性日语数学LLM足以成为通用的日语LLM。
我们改进的日语 VLM 能够非常好地处理特定文化的内容,并且在日语来源的日语图像描述对数据集上进行测试时也取得了最佳结果。
大语言模型(EvoLLM-JP)
视觉语言模型 ( EvoVLM-JP )
我们很高兴在Hugging Face和GitHub上发布 2 个最先进的日语基础模型 EvoLLM-JP 和 EvoVLM-JP (EvoSDXL-JP 即将推出),作为研究人员,我们感到惊讶的是,该方法能够自动生成新的基础模型,而不需要任何基于梯度的训练,因此需要相对较少的计算资源。原则上,我们可以采用基于梯度的反向传播来进一步提高性能,但此版本的目的是表明,即使没有反向传播,我们仍然可以发展最先进的基础模型,挑战当前昂贵模型的范式发展。
通过组合现有模型的部分来创建新的基础模型的可视化。进化方法是自动发现有效但不直观的模型组合方法的关键因素。
人类的智慧不是基于单个智慧存在,而是基于集体智慧。就个人而言,我们实际上并不那么聪明或有能力。我们的社会和经济体系建立在由具有不同专业和专长的不同个人组成的广泛机构的基础上。这种巨大的集体智慧塑造了我们作为个体的身份,我们每个人都遵循自己的人生道路,成为独特的个体,反过来,又为成为我们作为一个物种不断扩大的集体智慧的一部分做出贡献。
我们相信,人工智能的发展将遵循类似的、集体的道路。人工智能的未来将不会由一个需要巨大能量来训练、运行和维护的单一、庞大、全知的人工智能系统组成,而是由大量小型人工智能系统组成——每个系统都有自己的利基和专长,与彼此之间,开发出更新的人工智能系统来填补特定的利基市场。
事实上,我们已经注意到开源人工智能生态系统的一个有希望的趋势。开源基础模型很容易在数百个不同的方向上进行扩展和微调,以产生在自己的领域中表现出色的新模型。不出所料,Open LLM 排行榜上表现最好的模型大多不再是 LLaMA 或 Mistral 等原始开放基础模型,而是对现有模型进行微调或合并的模型。此外,不同模态的开放模型正在被组合并调整为视觉语言模型(VLM),它可以与端到端 VLM 模型相媲美,同时只需要一小部分计算来进行训练。
我们所目睹的是一个由研究人员、黑客、爱好者和艺术家组成的大型社区,他们通过在专门的数据集上微调现有模型或将现有模型合并在一起,以自己的方式开发新的基础模型。这不仅导致了大量专业高性能模型的爆炸式增长,而且还导致了一种新的炼金术或模型合并黑术的发展。
模型合并是一种有效的炼金术!
模型合并的成功艺术通常纯粹基于热情的模型黑客的经验和直觉,事实上,目前的Open LLM 排行榜以合并模式为主。令人惊讶的是,合并模型不需要任何额外的训练就可以工作,这使得它非常具有成本效益(根本不需要 GPU!),许多人、研究人员、黑客和爱好者都在尝试用这种方法来创建适合他们目的的最佳模型。如果您想了解有关模型合并的更多信息,我们建议您阅读Maxime Labonne撰写的这篇文章。
模型合并显示出巨大的前景,并使模型构建向大量参与者民主化。然而,它可能是一种“黑魔法”,严重依赖直觉和领域知识。然而,人类的直觉有其局限性。随着开放模型和任务的日益多样化,我们需要更系统的方法。
使用进化算法进行自动化设计并不是什么新鲜事。Evolution 已成功应用于设计空间天线、平面图、建筑以及更坚固、更轻的航天器部件。
在这项工作中,我们应用进化设计的概念来进化新的基础模型。通过连续几代(甚至多达数百代),进化还将产生自然选择的新基础模型,以便在用户指定的特定应用领域中表现良好。
在我们的技术报告中,我们介绍了进化合并模型,这是一种通用的进化方法,用于发现组合不同模型的最佳方法。该方法结合了两种不同的方法:(1)合并数据流空间(层)中的模型,以及(2)合并参数空间(权重)中的模型。
数据流空间: 第一种方法是通过进化来发现不同模型各层的最佳组合以形成新模型。在模型合并社区中,直觉和启发法用于确定一个模型的哪些层如何以及如何与另一个模型的层组合。但是您可以看到这个问题如何具有一个组合大的搜索空间,最适合通过进化等优化算法进行搜索。下面是这种方法的一个示例:
合并数据流空间(层)中的模型
参数空间: 第二种方法是发展混合多个模型权重的新方法。混合不同模型的权重以形成新模型的方法有无数种,更不用说混合的每一层原则上可以使用不同的混合比例。这就是可以应用进化方法来有效地找到新颖的混合策略来组合多个模型的权重的地方。两种不同模型的混合权重的高级说明:
合并参数空间中的模型(权重)
数据流空间和参数空间方法也可以组合在一起,以发展新的基础模型,这可能需要通过发展来发现特定的架构创新:
合并数据流空间和参数空间中的模型
鉴于社区通过人类直觉和反复试验结合现有模型来生成高性能模型已经取得了很大进展,我们希望看到像进化这样的自动化方法可以通过寻找新方法来结合广阔的开放海洋——源基础模型,特别是在相距较远的领域,例如数学和非英语语言,或视觉和非英语语言。事实上,当我们开始修改模型合并空间时,我们尝试手动将日语模型与数学和推理基础模型合并,但未能找到合并这些来自不同领域的模型的好方法。当我们尝试使用进化来帮助找到更好的模型合并方法时,我们才发现这项技术有多么强大!
通过我们的实验,我们能够创建具有以前不存在的新的新兴组合功能的新开放模型。现在,我们将讨论使用这种自动化方法生成的两个新模型的结果:一个日语数学 LLM 和一个日语 VLM,它们都是使用这种方法发展而来的。除了将日语模型与其他模型相结合的技术挑战之外,看到进化如何帮助改变现有的基础模型并将其功能带入不同的文化也是令人满意的。
到目前为止,我们已经提出了进化算法的一种新颖应用来自动创建新的基础模型。我们的方法在参数空间(权重)和数据流空间(层)中运行,允许优化超出单个模型的权重。
大语言模型(EvoLLM-JP)
视觉语言模型 ( EvoVLM-JP )
图像生成模型 ( EvoSDXL-JP )
我们首先着手发展一个可以用日语解决数学问题的LLM。尽管存在专门针对日语的语言模型和专门针对数学的语言模型,但没有擅长解决日语数学问题的模型。因此,为了构建这样的模型,我们使用进化算法来合并日语LLM(Shisa-Gamma)和数学特定LLM(WizardMath 和 Abel)。
在我们的实验中,我们允许进化过程持续几百代,只有最适应的模型(在日语数学训练集上在群体中得分最高的模型)才能生存下来,以重新填充下一代。我们的最终模型是 100-150 代进化中表现最好的模型(评估训练集)。然后在测试集上对该模型进行一次评估。
为了衡量性能,我们使用了MGSM 数据集的日语评估集的正确答案百分比,MGSM 数据集是著名的GSM8K数据集的多语言版本。对于使用进化算法的优化,构建了不同的日语数据集并用于防止过度训练和高估(更多详细信息,请参阅论文)。以下是评估结果。
比较LLM用日语解决数学问题的表现,MGSM-JA 列显示正确答案的百分比。模型1-3为原始模型,模型4-6为优化后的合并模型。模型 7-10 是用于比较的现有高性能LLM的分数。
上表报告了演变后的 LLM 模型的结果。模型 4 在参数空间中进行了优化,模型 6 使用模型 4 在数据流空间中进行了进一步优化。这些模型的正确响应率明显高于三个源模型的正确响应率。根据我们的经验,个人手动将日语LLM与数学LLM结合起来非常困难。但经过几代人的努力,进化论能够有效地找到一种将日语LLM与数学LLM结合起来的方法,成功地构建了一个兼具日语和数学能力的模型。
此外,我们使用日语 lm-evaluation-harness 基准套件不仅评估数学能力,还评估一般日语能力。令人惊讶的是,我们发现这些模型在一些与数学无关的任务上也取得了高分。值得注意的是,它们没有经过明确优化以在这些基准测试中表现良好。
LLM的日语整体能力比较,其中Avg栏是9个任务得分的平均值,数值越高,整体能力越高。
上表概述了 lm-evaluation-harness 评估的结果,其中 Avg 列代表九项任务的平均分数,这是广泛使用的总体日语语言能力指标。特别是,7B EvoLLM-JP 在该指标上获得了非常高的分数。它超过了所有参数小于70B的日语LLM的分数,甚至超过了之前的70B SOTA日语LLM分数,考虑到它是一个只有7B参数的LLM,这个分数非常高。
当我们将进化应用于基础模型时,这种偶然性是我们探索中常见的反复出现的主题。正如我们稍后所看到的,进化算法自然地“只想工作”。即使在实验的早期阶段,当我们尝试将该方法应用于 VLM 和扩散模型等其他领域时,我们也能够获得成功的结果。
基于这些评估结果,我们认为我们的实验性日语数学LLM足够优秀,可以用作通用的日语LLM,因此我们决定将其作为EvoLLM-JP向公众发布。更多信息请参考我们的Hugging Face和GitHub。
我们的模型可以产生有趣的例子,例如能够执行需要特定日语文化知识的数学问题,或者用关西方言讲日语笑话,我们已在本文的日语版本中列出了它们。
进化算法不仅可以发现合并仅处理文本的LLM的新方法,还可以进化为不同目的创建的不同架构的模型。例如,我们通过应用进化模型合并生成了日语视觉语言模型(VLM)。
在构建日语 VLM 时,我们使用了流行的开源 VLM (LLaVa-1.6-Mistral-7B) 和功能强大的日语 LLM (Shisa Gamma 7B v1),看看我们是否可以发展出功能强大的日语 VLM。据我们所知,这是合并 VLM 和 LLM 的第一次努力,在这里,我们证明进化算法可以在合并的成功中发挥重要作用。以下是评估结果。
VLM 性能比较。使用两个数据集来衡量 VLM 为日语图像相关问题提供准确答案的能力。数字越高表示性能越高。(注意:日语稳定的 VLM 使用 VA-VG-VQA-500 进行训练,因此无法在此数据集上进行评估。)
JA-VG-VQA-500 和 JA-VLM-Bench-In-the-Wild 都是图像问答的基准。分数越高,用日语回答的描述越准确。有趣的是,我们的模型不仅能够获得比其所基于的英语 VLM LLaVa-1.6-Mistral-7B 更高的分数,而且还比现有的日语 VLM JSVLM 获得更高的分数。
以下是我们创建的 EvoVLM-JP 答案的示例。两种基线模型经常给出错误的答案,而 EvoVLM-JP 给出正确的答案。有趣的是,将日语LLM与英语VLM合并不仅增强了模型的日语读写能力,还使其获得了有关日语的知识。该模型已在Hugging Face和GitHub上发布,并附有日语 Hugging Face演示。
大多数其他型号将输出绿色作为答案,但 EvoVLM-JP 响应为蓝色。绿色在技术上并没有错,但在日本习惯中,交通灯的“允许行驶”被描述为“蓝色灯”。如果您正在学习日语,或者刚刚搬到日本,这就是那些奇怪的例子之一!
正如人们所猜测的那样,进化也可以自动发现合并不同扩散模型的方法!
EvoSDXL-JP 4步扩散示例使用日语原生提示,例如:
「味噌ラーメン、最高品质の浮世絵、葛饰北斎、江戸时代。」
(“味噌拉面,最高品质的浮世绘,葛饰北斋,江户时代。” )
当将进化模型合并方法应用于不同的图像生成扩散模型时,我们也已经取得了有希望的结果。特别是,我们能够发展出支持日语的 SDXL 模型,这些模型经过优化,只需四个扩散步骤即可执行推理,从而使生成速度非常快。这些结果目前尚未包含在我们的论文中,但将包含在后续版本中,敬请期待!
在论文中,我们报告了利用进化来自动化基础模型生产的一些初步进展。虽然这里介绍的技术具有广泛的适用性,但作为扎根于日本的人工智能实验室,我们希望首先应用这些方法为日语生产一流的基础人工智能模型。但我们认为,在探索这项技术的全部功能方面,我们只是触及了表面,我们相信这只是令人兴奋的长期发展的开始!
作为人工智能实验室,我们的主要重点不仅仅是训练单个基础模型。相反,我们目前正在神经进化、集体智慧和基础模型的交叉领域着手一个非常有前途的研究方向。我们非常感谢日本政府通过NEDO 补助金提供的支持,这将使我们能够在日本最新的国家 GPU 超级计算集群上扩展我们的想法和实验。
我们预计人工智能发展将出现一个日益增长的趋势:通过结合现有模型来发展具有意想不到能力的新模型。当我们考虑到从头开始训练大规模基础模型的成本飙升时,这一点尤其令人兴奋。通过利用多样化基础模型的庞大开源生态系统,政府机构和企业等大型组织可以探索更具成本效益的演进方法。这使我们能够在投入大量资源来构建完全定制的模型(如果确实需要的话)之前更快地开发早期基础模型。它本质上是从我们已有的资源中获得更多,为更快的创新周期铺平道路。
参考:
1、https://arxiv.org/abs/2403.13187
2、https://sakana.ai/evolutionary-model-merge/?ref=blog.arcee.ai
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19