我要投稿

使用Argo Workflows微调大语言模型

发布日期：2025-03-23 10:39:19 浏览次数： 2461 作者：阿里云云原生

在大语言模型上微调的挑战

Cloud Native

微调就是将特定的领域数据赋予到基础的大模型中进行特定的调优。为什么要这样做呢，这是因为基础的大语言模型的设计较为通用，像一颗未经雕琢的宝石/百科全书，能够给我们比较通用全面的回答，当面对一些特定领域的问题，比如金融，健康等领域，回答不够精细化。通过微调，可以让模型在特定领域达到出类拔萃的效果。比较典型的基础大模型，比如 Deepseek R1、Qwen、Chart GPT 3。典型的调优过的模型比如 DeepSeek-Finance、SciBERT 等。

那微调时面对挑战的是什么。第一个是需要管理非常多类型的异构资源，包括 CPU、GPU、DPU 等。

并且微调的过程也是非常昂贵。单次调优可能花费数万元。第二是流程复杂：有多个阶段，需要数据准备，训练、评估等多个阶段，并且可能有非常庞大的参数、海量的流程同时需要管理。如果说没有一个高效的管理工具，那会导致我们的结果成本高，可信度低，事倍功半。

为什么使用 Argo Workflows

Cloud Native

Argo Workflows 来自于 Argo 项目，Argo 项目由一系列高效的工具集组成，包括 Argo Workflows、Argo CD、Events、Rollout。

提供在 Kubernetes 任务管理、应用分发、事件、灰度策略等能力。Argo 社区也是 CNCF 最活跃的社区之一，在过去一年，超过 850 的贡献者，排名第三，仅次于 Kubernetes、和 Opentelemetry。

Argo Workflows 是 Argo Projects 的核心项目，也是它第一个项目。主要的场景包括 Machine Learning Pipelines，大规模数据处理、基础设施的自动化、以及 CI/CD 等。右边是他的一个控制 UI。Argo Workflows 使用的场景非常广泛、尤其在 AI/ML Pipeline 领域。

Argo Workflows 不仅自身在 MLOps 的场景应用广泛，有大量的终端用户使用。并且能够支持了大量的流行的 AI 工具中的任务编排，比如 Kubeflow Pipelines、Metaflow、Numaflow 等。有超过 8k 家的公司使用 Argo 或者基于 Argo 的任务管理之上的ML工具。

可以说 Argo Workflows 已经成为了一个在 Kubernetes 上编排 AI/ML 任务的核心组件。

那为什么 Argo Workflows 在 AI/Fine-tuning 领域受到这么多的欢迎，主要原因包括：直接构建在 Kubernetes 之上，一个任务就是一个 Kubnertes 容器。扩展性强，可以并行启动数千个任务。模板机制，标准化可重复性。丰富的重试机制，有效地提高任务容错率。良好的可观测性。使用起来非常简易。支持 YAML/Python 语言，让研究员和运维工程师都能很快的上手。

案例：使用 Argo Workflows

基于 DeepSeek 进行 Finetune

Cloud Native

首先看一下 Workflow 的定义，它被设计成一个 Kubernetes CRD，一个 Workflow 主要由两个部分组成，一部分是任务之间的逻辑关系，可以是串行的step、或者复杂的 DAG，也可以是循环等等。

另一部分是 template，包含 image、command、resource 等定义，跟 container 的定义比较像，代表一个任务。这是一个工作流示例。

Fine-tuning LLM 的流程一般至少包含几个部分。

首先是数据准备。需要从 HuggingFace 上下载数据集或者使用自己的数据集合，然后进行源数据的清洗，token 化等。第二是选择 Base Model，可以是基础的 DeepSeek-R1，或者是 DeepSeek-R1 在其他大模型上蒸馏出来的一些小模型。

第三是进行训练：可以选择是部分参数微调还是全参数微调整。消耗的时间和资源都不一样。最后是进行模型评估。可以进行人工评估或者是参数评估。根据这些基础材料我们准备我们的模型微调工作流。

将微调的流程整理成为上边的一个流程。首先是数据准备阶段，选用 haggface 上一个传统中医的数据集。

选用 DeepSeek-R1-Distill-Qwen-7B 的 4 bit 的模型。接下来是 tokennization 和 Prompt_Style，我们的提示词是您是一个传统中医专家。

Train 阶段使用 LoRA 技术，进行部分微调。最后会进行并行推理来比较在基础模型和微调过的模型上做一个比较。提的问题一个经典问题，久咳不止怎么办。

通过使用Python语言构建并提交上述的工作流，即可在 Argo-Server 控制台获取到如上的工作流，代码也已经分享到上述的链接(https://github.com/AliyunContainerService/argo-workflow-examples/tree/main/fine-tune-with-argo)，可以非常容易的进行复现。运行过程中可以随时重启、观测整个工作流的运行状况。流程执行完成后，可以看到在 fine-tune 之后，能够看到模型的回答更接近我们的预想的方向。

总结与展望

Cloud Native

总的来讲使用这种方式，有以下一些优点：

节省成本。细粒度的控制任务。提高效率。当编写完这样一个流程之后，全程是自动化的，并且失败也可以自动重试。

容易扩展：根据参数的不同容易扩展到不同的模型、数据集。

可重复：容易进行版本控制，运行状态的复现定位。

构建完成这样的标准流程之后，之后还可以基于 Argo Workflows 做什么来让我们的工作流运行的更高效呢。

1）基于 Argo Workflows 实现自动化 CI/CD、和 Argo Events 集成，构建事件驱动的全自动化工作流，提升整体的研发效率。

2）和 Spark、Ray、Pytorch 等数据处理、AI框架相结合，构建统一的数据处理、机器学习训练 Pipeline 平台，让一套架构服务于不同的团队。

最后，敬请期待 4 月 1 号即将到来的 Kubecon CloudNativeCon Europe & ArgoCon 大会，全球 Argo 项目维护者、开发者及用户将汇聚一堂，深度交流最佳实践。关注 Argo，与开源社区深度互动，汲取 Argo 专家及最终用户的一线经验，探索尖端技术动向。作为项目维护者，我也将会分享 Argo Workflows 社区的最新动态。