我要投稿

值得一看的大模型最新综述：兼看多语种大模型微调数据集Aya

发布日期：2024-04-11 07:29:48 浏览次数： 2265 作者：老刘说NLP

今天是2024年2月14日，星期三，农历初五，开市大吉，祝大家新年快乐。

作短暂歇息之后，我们来看看一些有趣的工作，一个是一个新的大模型综述《Large Language Models: A Survey》里面的图挺漂亮的，读下来会很有收获。

另一个是多语种微调数据集Aya《Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning》，这对多语种能力的大模型能力训练有直接收益。

里面有十多张图很有趣，分享出来，供大家一起参考。

一、值得一看的新大模型综述，细节可多研究

一个新的大模型综述《Large Language Models: A Survey》，https://arxiv.org/abs/2402.06196，整个工作在模块设计上逻辑性不错，里面的图挺漂亮的，读下来会很有收获。

1、关于大模型的能力项的分类

当前，有很大一个方向是在探索大模型的能力边界，大模型所具备的能力，可以细分为基本能力Basic，包括知识理解能力World knowledge、理解能力Comprehension、多语种能力Multilingual、代码能力Coding；

也包括涌现能力Emerging，包括指令遵循能力Instruction following、推理能力Reasoning、fewshot能力In-context learning；

也包括增强后的能力Augmented，包括用户互动interacting with users、自我改良Self-improvement以及工具使用Tool utilization

2、关于当前主流大模型的分类

关于大模型的分类，目前已经有很多，从不同角度上作分类，例如基座模型、微调哦行、参数量量级分为小型、中型、大型，权限上是私有还是公有。

如下表所示，包括Encoder-Only、Decoder-only、Encoder-Decoder，也出现了很多大模型家族以及系列大模型，其中对应的tokens数量，训练数据集、参数量等。

例如，GPT Family(GPT-3、CODEX、WebGPT等)、LLaMA Family(LLaMA1、LLaMA2等)、PaLM Family(PaLM-2、Med-PaLM 2)

3、关于大规模参数量对fewshot的影响

GPT-3表明，大型模型对上下文信息的利用效率越来越高。在一项要求模型从单词中移除随机符号的简单任务中，无论是有自然语言任务描述还是没有自然语言任务描述，它都显示了上下文学习性能。

4、关于人类反馈学习RLHF的实现流程

人类反馈学习是当前chatgpt得以强大的重要隐私，我们依旧可以从sft\rm\ppo三个阶段进行回顾，十分经典。

另外，最新的强化，已经从ppo，逐步演化到dpo，可以关注这方面的进展。DPO优化人类偏好，同时避免强化学习。利用人类反馈对语言模型进行微调的现有方法，首先将奖励模型与提示数据集和人类对成对回答的偏好进行拟合，然后使用RL来找到使所学奖励最大化的策略。相比之下，DPO通过一个简单的分类目标直接优化最能满足偏好的策略，而不需要明确的奖励函数或RL。

5、关于当前代表性的大模型框架演变时间线

当前大模型演化已经经历了快速发展的过程，从2017年的bert到2023年的mixtral，可以拉一个时间线出来。

6、关于大模型研发过程中的不同部件

大模型研发是个pipeline很长的过程，可以进一步细分为Data Cleaning、Tokenizations、Positional Encoding、LLM Architectures、Model Pre-training、Fine-tuning and Instruction Tuning、Alignment、Decoding Strategies、Cost-Effective Training/Inference, Adaptation & Compression等，每一处细分细节，都是可以掌握和深挖的点。

7、关于当前大模型不同的位置编码

当前位置编码问题，在长文本建模中尤为重要，目前包括绝对位置编码Absolute Positional Embeddings、相对位置编码Relative Positional Embeddings、旋转位置编码Rotary Positional Embedding以及相对位置偏置Relative Positional Bias等。

8、关于大模型预训练数据的处理

Macrodata Refinement的后续阶段删除了CommonCrawl中近90%的原始文件，先后经过了去重、去噪等多项步骤。

9、关于当前大模型评估数据集

大模型性能评估是个大问题，当前出现了很多针对不同能力项的评估基准，例如测试代码能力的Humaneval，mbpp，测试数学能力的GSM8K以及MATH等，其评估指标计算方式，评估官方代码，官方榜单也值得关注。

10、关于大模型的应用及增强范式

关于大模型应用，是当前落地阶段最关注的话题，其中涉及到大模型的局限性LLM limitations(主要体现在幻觉Hallucination以及引申出来的一系列度量标准)、关于大模型的prompt工程(主要体现在Prompt Design and Engineering，涉及到Chain of Thought、Tree of Thought、 Self-Consistency、 Automatic Prompt Engineering等)，

当前，也包括信息检索增强(Augmenting LLMs through external knowledge-RAG，涉及到检索器、检索工具(如langchain, lammaindex)以及问答中的prompt设计)，也包括如何通过agent调用外部工具进行处理，如何使用知识图谱进行检索。

11、关于大模型Agent的论述

例如，HuggingGPT是一个典型的Agent框架，其利用大模型对huggingface上的一些api进行调用，从而完成特定场景下的应用。

一个典型的agent架构，包括外部知识、AI Agent、Utility、policy以及Action Executor模块

12、关于大模型结构的趋势

Switch Transformer encoder block，也就是当前MOE的常用架构，关于这块可以看看老刘之前的写过的一些文章。

13、关于模型量化加速与蒸馏

当前怎么在低资源下训练、使用大模型是一个很有趣的工作，最早的lora以及当前模型自蒸馏受到广泛关注。

将单个模型（实际上是多个模型）的知识提炼成较小模型的方法，通过这种方法创建更小的模型，可以获得更小的模型尺寸，甚至可以在边缘设备上使用，典型的过程如下图所示。