我要投稿

加拿大Cohere 大模型Aya 23-8B/35B技术报告-23种语言开放权重推进多语言发展

发布日期：2024-05-27 21:13:40 浏览次数： 2769 作者：苏哲管理咨询

Viraat Aryabumi[1][2], John Dang1, Dwarak Talupuru2,Saurabh Dash1, David Cairuz2, Hangyu Lin2, Bharat Venkitesh2,Madeline Smith1, Kelly Marchisio2, Sebastian Ruder2, Acyr Locatelli2, Julia Kreutzer1, Nick Frosst2, Phil Blunsom2,Marzieh Fadaee1, Ahmet Üstün*1, and Sara Hooker1 1Cohere For AI，2Cohere

通讯作者： Viraat Aryabumi <viraat@cohere.com >， Ahmet Üstün <ahmet@cohere.com>， Sara Hooker sarahooker@cohere.com，Cohere AI Head

编译者注：不同语种一词多义复杂度不同，特别是东亚语种有象形文字及句法的中文与日文。我们看到中英翻译的大模型运用在神经网络并不顺畅。目前美国的大语言模型训练中文语料数据集不足是事实（不仅中文，包括日文、韩文、印地语、阿拉伯语等），两款尺寸8B/35B因此针对非英语语种开放向量相似度权重是一种有效探索。Cohere与OpenAI，Mistral竞争的策略产品尺寸从头到尾就是面向企业服务市场包括咨询行业如麦肯锡、银行金融保险、航空运输等商业转化快的垂直行业。重点23种语言包括：阿拉伯语、捷克语、德语、希腊语、英语、西班牙语、波斯语、法语、希伯来语、印地语、印尼语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、土耳其语、乌克兰语、越南语、中文（简体/繁体）。‍‍‍‍‍‍‍‍‍‍‍

摘要：本技术报告介绍了 Aya 23，这是一个多语言语言模型系列。Aya 23 建立在最近发布的 Aya 模型之上 [Üstün et al.，2024 年]，专注于将高性能预训练模型与最近发布的 Aya 集合配对 [Singh et al.，2024]。其结果是一个强大的多语言大型语言模型，服务于 23 种语言，将最先进的语言建模功能扩展到世界上大约一半的人口。Aya 模型涵盖了 101 种语言，而 23 种是深度与广度的实验，探索了在预训练期间为更少的语言分配更多容量的影响。Aya 23 在涵盖的语言方面优于以前的大规模多语言模型（如 Aya 101），以及广泛使用的模型（如 Gemma、Mistral 和 Mistral）在广泛的判别和生成任务上。我们发布了 8B 和 35B 模型的开放权重，作为我们扩大多语言进步访问的持续承诺的一部分。

Aya-23-8B:https://huggingface.co/CohereForAI/aya-23-8B

Aya-23-35B:https://huggingface.co/CohereForAI/aya-23-35B

1前言

2预训练模型

3指令微调

3.1数据混合

3.2训练细节

4多语言评估

4.1模型对比

5结果

5.1判别性任务

5.2多语言数学推理

5.3生成任务

5.4模拟胜率和人工评估

5.5安全性、毒性和偏倚

6结论

6.1局限性

7致谢

8参考

A AYA 23 种语言模型家族

1 前言

在这项工作中，我们介绍了 Aya 23，这是一个多语言指令调优语言模型系列，支持 23 种语言，基于 Cohere 的命令模型1 (Command model)和 Aya 多语言指令集合 [Singh et al.，2024]。迄今为止，大型语言建模的大部分进展都是以英语为中心的，导致模型在少数语言之外表现不佳。这可能导致预训练中未包含的语言的模型性能出现悬崖式增长 [Schwartz et al.，2022 年; Kotek 等人。，2023 年; Khandelwal 等人。，2023 年; Vashishtha 等人。，2023 年; Khondaker 等人。

图 1：涵盖 Aya 23 模型的 8 个数据集中 5 个任务类别的多语言基准测试结果，与大规模多语言 Aya-101-13B 和广泛使用的类似大小的开放权重模型（如 Bacterian-X-7B、Gemma-1.1-7B-it、Mistral-7B-Inst-v0.2 和Mixtral-8x7B-Inst）进行了比较。

2023]，为所有用户引入安全漏洞，[Yong et al.， 2023a;Nasr 等人，2023 年;Li 等人，2023b;Lukas 等人，2023 年;邓等人，2023 年]，以及由于英语以外的几代版本的高延迟，技术成本的差距越来越大 [Held 等人，2023 年;Durmus 等人，2023 年;尼古拉斯和巴蒂亚，2023 年;Ojo 等人，2023 年;Ahia 等人，2023 年]。多语言努力，包括发布 Aya 101 [Üstün et al.， 2024]、BLOOMZ 到英语和中文等一流公民语言。开发强大的多语言模型的两个主要障碍是（1）缺乏强大的多语言预训练模型，以及（2）缺乏涵盖多种语言的教学式训练数据。

图 2：Aya 23 模型在 10 种语言中的平均胜率（%）与广泛使用的类似尺寸的开放权重模型相比。

2023] 和 mT0 [Muennighoff 等人。2023] Aya-23-8B 与 Aya-101 模型在扩展 Aya-23-8B 与为世界提供现代自然语言处理 Gemma-1.1-7B-it 技术方面取得了长足的进步。然而，Mistral-7B-Inst-v0.2Aya-23-8B 与混合-8x7b-Inst.rela-Aya-23-35B 相比仍有很大的改进空间Aya计划的^{^[3]}创建是为了通过创建和发布最大的多语言教学式数据集来解决上述数据稀缺问题 [Singh et al.，2024 年]。

至今，以及 Aya 101 模型 [Üstün et al.，2024]。Aya 101 是大规模多语言语言建模向前迈出的一步，创建了101 种语言最先进的教学微调 LLM。然而，Aya 101 必然是建立在 mT5 之上的 [Xue et al.，2020] 预训练基础模型，因为它是为数不多的在 101 种语言上训练的预训练模型之一。鉴于 LLM 技术自 2019 年发布以来的快速发展，mT5 相对过时。

它的主要局限性是：

1）过时的知识：由于几年前进行了预训练，mT5对于最近发生的事件的交互没有那么有用。

2）性能不足：与mT5发布时相比，现在有许多更强大的型号，例如Command R+^{^[4]}，Command^{^[5]} R，Llama系列[Touvron et al.，2023年a;b]，Mistral模型[江等人。，2023 年; 2024] 和 Gemma 模型 [Gemma-Team， 2024]。

此外，Aya 101 是一个 130 亿参数（13B）的模型，专为广度而设计，将覆盖范围扩大到之前具有 101 种语言的模型的近两倍。由于有据可查的多语言诅咒 [Arivazhagan et al.，2019 年; Conneau 等人。，2019 年; Pfeiffer 等人。，2022]，由于需要如此广泛地共享模型容量，因此尝试为如此广泛的语言提供服务的模型在任何给定语言上的生成性能通常都落后于专用于服务于更集中的子集的模型。对于 Aya 23，我们平衡了广度和深度，探索了在预训练期间为更少的语言（23 种语言）分配更多容量的影响，减轻了“诅咒”，并导致比原始Aya 101 和广泛使用的模型（如 Gemma [Gemma-Team，2024]、Mistral [江等人）获得巨大收益。， 2023] 和 Mixtral [江等人。，2024] 为相应的 23 种语言。

在本技术报告中，我们按照 Üstün 等人 提出的综合多语言评估框架评估了 Aya 23 模型的性能。[2024].在我们的评估中，我们重点关注新 Aya 模型系列涵盖的 23 种语言。这 23 种语言是：阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和 越南语。我们选择的语言是为了与Command R的预训练中出现的语言保持一致，因为在预训练后引入新语言是已知的困难[Zhao et al.， 2024年; Yong 等人。， 2023b]。

我们发布了两种模型大小的 Aya 23：80 亿（8B）和 350 亿（35B）参数。Aya-23-35B 在所有评估任务和涵盖的语言中都取得了最高的结果，而 Aya-23-8B 展示了 一流的 多语言性能，鉴于超过 13B 参数的模型大小限制了模型在消费级硬件上的可用性，这一点至关重要。我们注意到，相对于 Aya 101，Aya 23 在辨别性任务方面提高了 14%，生成性任务提高了 20%，多语言 MMLU 提高了 41.6%。此外，与 Aya 101 相比，Aya 23 的多语言数学推理能力提高了 6.6 倍。穿过 Aya 101、Mistral 和 Gemma，我们报告了人类注释者和LLM 作为法官的比较的混合。在所有比较中，Aya-23-8B 和 Aya-23-35B 始终是首选。通过发布 Aya 23 模型系列的权重，我们希望使研究人员和从业者能够推进多语言模型和应用。

2 预训练模型

Aya 23模型系列基于 Cohere Command 系列模型，该系列使用包含来自 23 种语言的文本的数据混合进行预训练。特别是，Aya-23-35B 是 Cohere Command R 的进一步微调版本。对于预训练模型，标准仅解码器Transformer 架构与以下设置一起使用：

1.并行注意力层和 FFN 层：类似于 PALM-2 [Anil et al.， 2023] 我们使用并行块架构，在不损害模型质量的情况下显着提高训练效率，尤其是在张量并行（TP）设置中。

2.SwiGLU 激活：我们发现 SwiGLU [Shazeer， 2020] 具有更高的下游性能。

曼斯比其他激活。与非 SwiGLU 激活函数相比，我们缩放了 FFN 层的维度，以保留大致相同数量的可训练参数。

3.无偏倚：与 PALM2 类似 [Anil et al.， 2023]，我们去除了密集层的所有偏差，以提高训练稳定性。

4.RoPE：我们使用旋转位置嵌入 [Su et al.， 2021] 以提供更好的长上下文外推。此外，与其他相对位置编码方法（如 ALiBi）相比，它还在短上下文长度上实现了更好的下游任务性能 [Press et al.， 2021]。

5.分词器：我们使用大小为 256k 的 BPE 分词器。我们执行NFC规范化，并将数字拆分为单独的令牌。分词器在我们的预训练数据集的子集上进行训练，这些数据集经过平衡，以确保跨语言的高效表示。

6.分组查询注意力（GQA）：Aya-23-8B 使用分组查询注意力 [Joshua Ainslie， 2023]，其中每个 KV 头共享多个 Q 头以减少推理时间内存占用。

表 1：Aya 23 模型系列的架构参数

所有基本模型都使用 Fax [Yoo et al.，2022]，TPU v4 芯片上基于 Jax 的分布式训练框架 [Jouppi et al.，2023]。并行策略的组合用于确保高训练吞吐量。我们将可用的器件网格拆分为数据并建模并行子网格。模型参数和优化器状态在模型子网格上分片，并沿数据子网格进行复制。这通过限制保存模型分片和优化器状态的芯片数量，避免了在前向和后向传递期间增加通信成本。所有关键架构参数均参考表 1。

3 指令微调

3.1 数据混合

我们采用 Üstün 等人描述的多语言教学数据。[2024] 用于对预训练模型进行微调。鉴于多语言教学数据的稀缺性，这些微调数据集结合了一系列方法来提高数据的可用性。这包括依靠广泛的努力来聚合和修剪多语言模板和难以找到的由流利的各种语言使用者策划的人类注释。此外，它还扩展到数据增强策略，例如机器翻译和利用合成数据生成与翻译相结合。

我们在下面简要介绍每个来源：

1.多语言模板：我们使用结构化文本将特定的 NLP 数据集转换为指令和响应对。这组数据包括来自xP3x 数据集等的样本。，2024]，数据来源收集[Longpre et al.，2023b]和Aya系列[Singh et al.，2024]。最终的集合包括 55.7M 个示例，其中包括零样本和少样本，涵盖 23 种语言和 161 个不同的数据集 [Üstün et al.，2024]。

表 2：Aya-23 型号的聊天格式的提示完成对示例。该格式允许指示角色（用户、聊天机器人）和轮次划定。

1.人类注释：Aya 数据集 [Singh et al.， 2024] 共有 204K 个由母语人士以 65 种语言编写的人工策划的提示-响应对。我们针对我们训练的 23 种语言过滤这些数据，得出 55K 个样本。

2翻译数据：我们使用 Aya 集合的翻译子集 [Singh et al.， 2024]，其中广泛使用的英语教学数据集的开源翻译 [Longpre et al.， 2023b] 针对我们训练的语言进行了过滤。该系列包括 HotpotQA [Yang et al.，2018] 和 Flan-CoT 子混合物 [Longpre et al.， 2023a]。对于每个数据集，我们随机抽取每种语言的最多3,000 个实例的子集，以保持实例级多样性。我们将这些数据过滤到我们训练的 23 种语言中，从而产生1.1M 个示例的子集。

3.合成数据：我们构建了类似于 Üstün 等人的合成微调数据。[2024] 使用来自 ShareGPT^{^[6]}和 Dolly-15k 的人工注释提示 [Conover et al.，2023b]。^{^[7]}与 Üstün 等人不同。 [2024]，我们使用 Cohere 的Command R+ 为所有 23 种语言的翻译后的 ShareGPT 和 Dolly 提示原生生成多语言响应，从而产生1.63M 个示例。我们注意到，Cohere 的使用条款7 禁止对模型生成进行训练。但是，我们收到了这些版本的 Aya 模型的特殊例外。Aya微调组合强调可用的受监督数据集，并具有自我报告的商业许可。我们使用来自数据来源倡议的过滤工具[Longpre et al.， 2023b]，以确保适当的出处。

3.2 训练细节

对于指令微调，我们使用 8192 上下文长度在启用数据打包的情况下对 13,200 个更新步骤的基本模型进行微调，对应于大约 10.5M 的训练样本。我们使用Adam优化器[Kingma&Ba，2014]，具有余弦调度学习率，峰值LR 为 6×10−4，期末 LR 为 6×10−5 ，批量大小为 64。对于所有训练运行，我们使用 TPUv4 和多达 128 个Pod 切片。

表3：考虑评估的数据集。看不见的任务是指完全排除在训练之外的任务，其中包括 4 个判别任务。此外，我们将多语言 MMLU 作为看不见的数据集。看到的任务是指执行监督训练并保留实例（验证和测试拆分）进行评估的生成任务。我们将评估语言限制为 24 种语言中包含的语言，除了前 3 个数据集（XWinograd、XCOPA、XStoryCloze）之外，我们使用所有可用语言。

与其他指令调优模型类似 [Gemini Team et al.，2024]，用于指令调谐 Aya 23 的示例使用特殊标记进行格式化，以包含额外信息（示例如表 2 所示）。该格式允许指示角色（用户、聊天机器人）和轮次划定。这种格式在指令调整和推理过程中都使用。虽然可以在不使用格式的情况下获得连贯的生成，但如果没有格式，生成质量会受到影响。虽然我们使用聊天格式，但该模型是单轮指令跟踪模型，并且没有针对聊天模式使用进行明确优化。

4 多语言评估

为了衡量我们模型的性能，我们遵循 Üstün 等人引入的综合评估框架。[2024].与 Üstün 等人不同。 [2024]，我们使用 eval-harness [Gao et al.，2023] 评估判别性任务、多语言 MMLU 和 MGSM 的所有模型。^{^[8]}这包括评估以下方面的性能：

1.完全看不见的判别任务：我们在 XWinograd [Muennighoff et al.， 2023]， XCOPA [Ponti et al.， 2020]和XStoryCloze [Lin et al.， 2021]。^{^[9]}我们使用零样本评估。请注意，这些评估任务是完全不可见的，并且训练组合中没有来自相同任务类别的数据集。

2.通用语言理解：我们使用多语言MMLU [Dac Lai et al.， 2023]，其中在训练（5 次评估）期间看不到数据集，以评估 Aya 模型的一般语言理解。该数据集是英语 MMLU [Hendrycks et al.， 2020] 使用ChatGPT 翻译成 31 种语言。原始英文 MMLU 包含 13,062 个问题，包括 57 个不同的任务，涵盖广泛的主题，包括 STEM、人文和社会科学。我们使用 Aya 23 模型涵盖的 14 种语言进行评估。

3.多语言数学推理：我们使用多语言小学数学（MGSM）基准 [Shi et al.，2023] 来评估多语言数学推理。MGSM 由 GSM8K 基准测试中的 250 个问题组成 [Cobbe et al.，2021 年]，它们被人工翻译成 10 种语言。我们选择了 Aya 23 模型涵盖的 MGSM 语言子集。我们使用带有答案的问题，然后是相同语言（native_cot）的 CoT 提示（5-shot）和严格匹配分数作为 Shi 等人的评估指标。 [2023].

4.生成任务：我们在 FLORES-200 上评估机器翻译和摘要中的模型性能 [NLLB-Team et al.， 2022] 和XLSum [Hasan et al.， 2021] 分别。对于 FLORES，我们使用所有 21 种语言（X ↔ 英语），对于XLSum，我们根据 Aya 23 型号的语言覆盖范围使用 15 种语言。

5.偏好评估：我们使用（1）推车机器翻译测试集 Singh 等人，通过人工和 LLM 模拟评估来评估模型的开放式生成能力。 [2024] 这是来自 Dolly-15k 数据集的 200 个实例的保留测试集 [Conover et al.， 2023b] 翻译成 101 种语言。该测试集由多个注释者策划，以避免包含任何特定文化或地理参考，旨在最大限度地减少需要特定文化或地理知识的性能估计。我们还评估了（2）推车人类编辑的测试集 Singh 等人。[2024] 包括 6 种语言（法语、西班牙语、塞尔维亚语、俄语、阿拉伯语、印地语）的 dolly-machine 翻译测试集的改进版本，由专业有偿人工注释员进行后期编辑，以纠正任何可能的翻译问题。

对于开放式评估，我们依赖于 LLM 模拟的胜率和人工评估。我们在下面简要介绍每个协议：

1.LLM 模拟的胜率：与 Üstün 等人一致。 [2024] 和其他近期作品 [Rafailov et al.，2023 年; 杜波依斯等人。，2023 年; Kim等人。，2023]，我们使用 GPT-4^{^[10]}作为代理法官。我们测量了Aya 23 模型与 Aya 101、Gemma1.1-7b-it 和 Mixtral-8x7b-Instruct-v0.1 在 10 种语言（英语、中文、土耳其语、西班牙语、俄语、印地语、法语以及阿拉伯语、日语、葡萄牙语）上的成对胜率。我们使用与 Üstün 等人指定的相同的提示来引出 GPT-4 偏好。 [2024].对于有 dolly-human 编辑覆盖范围的语言，我们默认使用这些提示，因为它们是由专业注释者针对翻译引起的问题进行编辑的。

2.人工评估偏好：我们要求五种语言（俄语、印地语、法语、西班牙语、英语）的有偿专业注释者分别为 dolly-human 编辑的测试集和原始英语 Dolly 测试提示选择他们喜欢的模型完成。注释设置（评分器、说明）与 Üstün 等人使用的设置相同。[2024].每对世代评级一次;领带（“两者都坏”或“都好”）是允许的，但不鼓励。

3.安全性、毒性和偏见：我们在多语言AdvBench的对抗性提示下评估模型生成的安全性[Yong et al.， 2023a] 基准代表了多个角度的伤害，例如犯罪、人身伤害和错误信息。GPT-4 被用作 120 个测试提示的有害性自动评估器。GPT-4 用于该评估的可靠性此前已由 Üstün 等人证实。[2024].此外，我们使用 Üstün 等人的多语言身份描述提示来衡量毒性和对身份群体的偏见。[2024].我们对每个提示的 k=25 模型完成进行采样，并使用 Perspective API 评估它们的毒性。^{^[11]}

4.1 模型对比

我们根据多个开源大规模多语言模型进行评估，以确保进行全面的评估。我们根据架构、规模、基本模型类型和语言覆盖范围来选择模型。所选模型涵盖一系列尺寸（7B 至 46B）、基本模型（mT5、Llama、Gemma、Mistral）、语言和训练制度（SFT 和偏好调整）。

各型号详情如下：

1.Aya-101-13B [Üstün et al.， 2024] 是一个 13B 参数 mT5 模型 [Muennighoff et al.， 2023] 在 xP3x 上微调 [Üstün 等人。， 2024]， Aya collection [Singh et al.， 2024]，数据来源收集 [Longpre et al.，2023b] 和 ShareGPT-Command [Üstün et al.， 2024] 用于 101 种语言。Aya 101 是最先进的大规模多语言教学调整 LLM，在我们的比较中涵盖了最多的语言。

2.Bactrian-X-7B [Li et al.， 2023a] 是 LLaMA-7B 模型 [Touvron et al.， 2023a] 在 Bactrian-X 数据集上进行了微调，该数据集包含 52 种语言的 3.4M 对指令和响应。该数据集是通过翻译羊驼自动构建的 [Taori et al.， 2023] 和 Dolly [Conover et al.， 2023a] 数据集，使用 Google 翻译 API。

3.Mistral-7B-Instruct-v0.2 [江 et al.， 2023] 是 Mistral-7B 预训练模型的开源 instruct 微调版本。该模型在 HuggingFace 存储库中公开提供的指令数据集上进行训练。

4.Gemma-1.1-7B-it [Gemma-Team， 2024] 是一个 7B 参数指令微调模型，使用 Gemini 模型的架构、数据和训练配方进行训练 [Gemini-Team et al.， 2024] 在 6T 数据标记上，这些数据来自主要是英语的Web 文档、数学和代码。除了监督微调外，该模型还使用 RLHF 对从人类注释者那里收集的偏好对进行进一步微调。

5.Mixtral-8x7B-Instruct-v0.1 [江 et al.， 2024] 是一个稀疏的混合专家模型，具有 46.7B 的总参数（每个代币的活动 12.9B 参数），使用 DPO [Rafailov et al.，2023]。该模型支持五种语言：英语、法语、意大利语、德语和西班牙语。

我们不会将我们的模型与 mT0 进行比较 [Muennighoff et al.， 2023] 和 Okapi [Dac Lai et al.，2023] 模型，因为它们已被证明明显优于 Aya-101-13B 模型 [Üstün et al.，2024]，我们确实将其作为大规模多语言 LLM 中最先进的基线代表进行了比较。我们注意到，我们评估的一些模型（如 Mistral 和 Gemma）并没有明确声称支持多种语言，但在实践中，相对于明确的多语言模型（如 mT0）而言，它们被多语言用户大量使用。，2023] 和结果报告为 XCOPA、XStoryCloze 和 XWinoGrad 所有语言的平均零样本性能。

BLOOMZ [Dac Lai等人，2023 年]。此外，我们还发现，这些模型在许多多语言任务中取得了相当大的性能，如我们的评估所示结果。

表4：区分性看不见（保留）任务评估

5 结果

5.1 判别性任务

由于所有判别性任务在训练期间都是看不见的，因此我们在评估期间测量零样本表现。对于这些任务，我们使用评估数据集中可用的所有语言。在表 4 中，我们报告了 XCOPA、XStoryCloze 和 XWinoGrad 在所有语言中的平均分数，以及所有任务的总体平均值。我们观察到，在所有任务中，Aya-23-35B的表现优于所有基线，平均为70.8%。相对于其他同等尺寸的大型型号，Aya-23-35B 的性能也优于 Mixtral-8x7B-Instruct-v0.1（70.8 对 68.8）。

就模型大小而言，Aya-23-8B 在同类产品中取得了最好的分数，平均得分为 67.6，而排名第二的模型Gemma-1.1-7B-it 的平均得分为 66。Aya-23-8B 的性能也优于 Bactrian-X-7B、Mixtral-7B-Inst-v0.2 和 Aya-101-13B。^{^[12]}

与包括Aya-101-13B在内的其他型号相比，Aya-23-8B和Aya-23-35B表现出的显著性能改进，凸显了高质量预训练基础模型的重要性，并强调使用较小的语言集，通过避免多语言的诅咒来实现强大的性能。，2019]。

5.1.1多语言 MMLU

表 5 显示了多语言 MMLU [Hendrycks et al.， 2020] 14 种语言上所有模型的结果，这是多语言 MMLU 语言的一个子集 [Dac Lai et al.， 2023] 被 Aya 23 模型覆盖。我们使用遵循英国 MMLU 基准的 5 次评估[Beeching et al.， 2023]。与零射击看不见的任务类似，Aya-23-8B在可比的“较小”任务中总体表现最好。

表 5：14 种语言的 Aya 23 型号和 Aya 101、Bactrian-X、Gemma-7B、Mistral-7B 和 Mixtral-8x7B 的多语言MMLU（5 次样本）结果。

表 6：基线和 Aya 模型的多语言小学数学基准（MGSM）结果。我们使用带有答案的问题，然后是与数据集相同的语言（native_cot）的 CoT 提示（5-样本），并使用严格匹配分数作为评估指标。

模型，在所有语言中的平均准确率为 48.2%，在同类语言的 14 种语言中，有 11 种语言得分最高。在更大的模型规模上，Aya-23-35B的平均性能优于Mixtral-8x7B（58.2对57.1）。在这里，Mixtral 在资源相对较高的语言中表现稍好，然而，特别是对于阿拉伯语、印地语和越南语等非欧洲语言，Aya-23-35B 的得分明显更高，这 3 种语言的准确率分别提高了 12.1%、10.0% 和 6.5%。

5.2 多语言数学推理

在 MGSM 上，Aya 23 模型的表现优于所有同类基线，表明跨语言的数学推理能力很强。Aya-23-8B 在 7 种语言中的平均得分为 36.6，而 Gemma-1.1-7b 的得分为 34.0，是同类产品中第二好的型号。值得注意的是，与 Aya-101-13B 相比，Aya-23-8B 的性能提高了 4.5 倍（36.6 对 8.1），再次显示了高质量预训练模型的显着影响。对于较大比例的模型，Aya-23-35B 的得分为 53.7 分，而 50.2 分优于 Mixtral-8x7B-Instruct-v0.1。在查看单个语言分数时，Aya 23 模型在每种语言上的表现都优于最强的同类模型，除了 Aya-23-8B 的法语和俄语以及 Aya-23-35B 的日语。

5.3 生成任务

表 7 显示了翻译（FLORES）和多语种摘要（XLSum）的结果。对于 FLORES，我们使用所有 23 种语言与英语配对（X↔EN）。对于 XLSum，我们使用 15 种语言。

表 7：基线和 Aya 模型的翻译（FLORES）和多语言摘要（XLSum）结果。对于XLSUM，我们评估Aya 23中包含的15种语言的模型，对于FLORES，我们使用所有22种语言和英语。

可用并由 Aya 23 型号覆盖。在本次评估中，Aya 23 模型的成绩明显高于其他具有类似尺寸的模型。Aya-23-8B 的平均 spBleu 得分为 37.2，比第二好的型号 Aya-101-13B 高出 4 分。在XLSum中，Aya-23-8B和Aya-101-13B与RougeL的平均得分为27.5分相当，比第二名的Gemma-1.1高出14.5分。

对于大尺寸模型，Aya-23-35B在翻译方面比Mixtral-8x7B高出7.8 spBleu（40.4 vs 32.6），在汇总方面比Mixtral-8x7B高出23.8 spBleu（30.9 vs 7.1）。我们发现，尽管上下文是目标语言，但 Mistral-7B 和 Mixtral-8x7B 都倾向于对提示生成英语响应，导致多语言摘要性能不佳。

5.4 模拟胜率和人工评估

GPT-4胜率。我们使用 GPT-4 作为评委进行自动模型排名，比较来自 dolly-human 编辑和 dolly-machine 翻译的 200 个保留提示的生成 [Singh et al.，2024]。如图 1 所示，Aya 23 模型在所有语言中的平均胜率高于同类中最强的基线模型。Aya-23-8B 优于 Aya-101-13B、Mistral-7B-Instruct-v0.2 和 Gemma-1.1-7B-it，平均胜率分别为 82.4%、65.2% 和 65.0%。Aya-23-35B 优于 Mixtral-8x7B-Instruct-v0.1，平均胜率为 60.9%。图3 显示了 10 种语言的胜率，与类似规模的最强模型相比。Aya 23 模型在所有语言中均比所有同类基线模型都具有更高的胜率，但 Aya-23-8B 的 Mistral-7B-Instruct-v0.2 英语和 Aya-23-35B 的 Mixtral-8x7B-Instruct-0.1 的英语/法语/西班牙语除外。特别是对于土耳其语、印地语和日语等非欧洲语言，Aya 24 模型的表现明显优于比较模型：Aya-23-8B 在 Mistal-7B 的比赛中分别以 81.5%、87.5% 和 76.0% 的比例获胜，而 Aya-24-35B 在 Mixtral-8x7B 的比赛中分别以 78.0%、84.5% 和 75.0% 的概率获胜。

最后，在包含类似指令微调混合的模型中，在所有 10 种语言中，Aya-23-8B 都比 Aya-101-13B 更受欢迎，这表明更强大的预训练模型具有重大影响。

图 3：10 种语言的 LLM 作为法官评估（胜率%），将 Aya-23 模型与 10 种语言的类似大小模型进行比较。我们使用 gpt-4-turbo 作为评委 LLM 进行这些评估。

表8：每对模型之间成对比较的人工评估结果（胜率百分比）。其余百分比为平局。相应的较高平均胜率是粗体的。

人类评价表 8 显示了人类偏好评级产生的胜率，将 Aya 23 模型与 Aya-101-13B 进行了比较。我们观察到，使用更强的预训练模型，Aya 23 系列模型在所有评估语言上始终优于基于 mT5 的 Aya-101-13B。特别是，Aya-23-8B尽管尺寸较小，但在跨语言的平均50.8%的提示中战胜了Aya-101-13B。此外，Aya-23-35B 对Aya-101-13B 的胜率为 57.6%。

我们注意到，已经使用Aya 23的中间检查点进行了人工评估

图 4：Aya 模型（101：Aya-101、23-8B：Aya-23-8B、23-35B：Aya-2335B）世代的毒性分析，当提示性别、种族和宗教等身份群体的句子时。

由于这些评估需要时间和成本，因此在最终完成模型训练之前进行建模。根据 GPT4 的胜率和我们的内部比较，我们预计最终的 Aya 23 模型与 Aya-101-13B 的胜率会更高。

表 9：多语言 AdvBench 结果：由 GPT-4 判断的有害响应百分比。越低越好。

5.5 安全性、毒性和偏倚

安全表 9 报告了 GPT-4 判断的 6 种语言的多语言 AdvBench 的 120 个对抗性测试拆分提示的有害模型完成的百分比。

将 Aya 23 模型与之前在 [Üstün et al.，2024]，我们发现所有语言的有害反应率都较低，平均至少降低了一半。Aya-23-35B模型的更大容量进一步有助于降低反应的危害性，特别是对于阿拉伯语和意大利语，这可能是由于改进了跨语言转移的有益效果。在质量方面，我们注意到，特别是拒绝响应比 Aya-101-13B 模型更雄辩、更多样化、更详细，这反映了上述评估的发电质量的提高。

需要注意的是，这三个模型在多语言微调阶段都没有经过任何有针对性的安全调整，除了从 Command R+ 合成生成的示例中学习附带的安全示例。因此，这些分数反映了 AdvBench 中捕获的特定安全案例仍需要多少对齐，而不是它们已经对齐了多少。

毒性和偏倚

图 4 显示了预期的最大毒性和毒性概率 1.种族群体（男性）

图 5：Aya-101、Aya-23-7B 和 Aya-23-35B 世代的透视 API 毒性评分，给定种族身份群体的英语输入提示。

身份组描述提示的模型完成。我们观察到，与Aya-101-13B模型相比，两种Aya 23模型通常具有较低的预期最大毒性和较低的毒性概率。除英语外，所有语言都是如此，新的 Aya 23 型号的毒性略高。进一步检查英国几代人，图 5 详细说明了不同种族群体和性别描述的毒性。我们注意到，Aya 23 模型倾向于产生描述亚洲人、拉丁裔的毒性较小的世代，但对黑人和白人产生有毒描述的机会要高得多，尤其是对女性而言。

6 结论

虽然近年来语言技术取得了长足的进步，但这种进步主要集中在英语中。鉴于跨文化交际对广泛的社会、经济和政治活动越来越重要，越来越有必要将这一进展扩大到其他语言，以便语言技术能够更好地反映世界的现实，并更有效地促进世界更公平的发展。我们推出了一个新的多语言模型系列 Aya 23，以推进我们使用多语言技术为多语言世界赋能的使命。我们广泛的评估表明，这些模型在广泛的多语言基准测试和人工评估中具有高性能。通过发布这些模型权重，我们希望这项工作将有助于进一步推进这一关键任务的未来研究。

6.1 局限性

虽然 Aya 23 极大地提高了所选 23 种语言子集的性能，并且覆盖范围比大多数开放权重版本要全面得多，但我们认识到，这个子集只是世界语言多样性的一小部分; 在世界上大约 7,000 种语言中 [ETH， 2023]，其中只有一半是以任何书面形式捕获的 [Adda et al.， 2016]。在这一半中，只有几百个被收录在互联网上的机器可读语料库中[Adda et al.， 2016]。需要做更多的工作来同时提高覆盖率和性能。

此外，重要的是要承认，这些模型所涵盖的语言仍然局限于预训练期间出现的语言，特别偏向于世界某些地区流行的语言。具体而言，培训前覆盖面低估了亚洲和非洲使用的语言。这种限制是一个需要持续努力和关注的关键领域。作为更广泛的 Aya 计划的一部分，我们的目标是解决这一差距并提高语言包容性^{^[13]}，并专注于这些代表性不足的语言。

在原来的Aya模型奠定的基础之上，该模型优先考虑广度，未来的工作将集中在提高这些剩余语言的覆盖范围和性能上。这包括开发量身定制的语言模型，改进数据收集和表示，以及解决任何文化和语言上的细微差别，以确保所有人都能获得公平有效的语言技术。

7 致谢

我们感谢 Hugging Face 团队帮助我们发布公开重量级，包括 Younes Belkada、Matthew Carrigan、Lysandre Debut、Clémentine Fourrier、Nathan Habib、Quentin Lhoest、Omar Sanseviero、Daniel van Strien 和Arthur Zucker。我们感谢 Aakanksha 分享他们的 FLORES 和 XLSum 评估代码，并感谢 Zheng-Xin Yong 的毒性评估。

感谢支持本项目各个方面的同事：Linus Chui、Manoj Govindassamy、Yina Moe-Lange、Morgan Norman、Shubham Shukla。

8 参考

民族志。 https://www.ethnologue.com/insights/how-many-languages/， 2023 年。访问时间：2023-06-17。

吉尔斯·阿达、塞巴斯蒂安·斯蒂克、马丁·阿达-德克尔、奥黛特·安布鲁、洛朗·贝萨西尔、大卫·布拉雄、海伦娜·博诺-梅纳德、皮埃尔·戈达尔、法蒂玛·哈姆拉维、德米特里·伊迪亚托夫、盖伊-诺埃尔·库阿拉塔、洛里·拉梅尔、伊曼纽尔-莫塞利·马卡索、安妮·里亚兰、马克·范德维尔德、弗朗索瓦·伊冯和萨宾·泽尔比安。打破不成文的语言障碍：灯泡项目。 Procedia 计算机科学，81：8–14,2016。国际标准刊号：ISSN 1877-0509。doi：https://doi.org/10.1016/j.procs.2016.0

4.023. URLhttps://www.sciencedirect.com/science/article/pii/S1877050916300370。 SLTU-2016 第五届资源贫乏语言口语技术研讨会 2016 年 5 月 9 日至 12 日，印度尼西亚日惹。

Orevaoghene Ahia、Sachin Kumar、Hila Gonen、Jungo Kasai、David R. Mortensen、Noah A. Smith 和Yulia Tsvetkov。所有语言的成本都一样吗？商业语言模型时代的代币化，2023 年。

罗汉·阿尼尔、安德鲁·戴、奥尔罕·菲拉特、梅尔文·约翰逊、德米特里·莱皮欣、亚历山大·帕索斯、西亚马克·沙克里、伊曼纽尔·塔罗帕、佩奇·贝利、陈志峰、朱志峰、乔纳森·克拉克、洛朗·艾尔·沙菲、黄艳萍、凯西·迈尔-赫尔斯特恩、高拉夫·米什拉、埃里卡·莫雷拉、马克·奥默尼克、凯文·罗宾逊、塞巴斯蒂安·鲁德、郑毅、肖克凡、徐元忠、张玉静、古斯塔沃·埃尔南德斯·阿布雷戈、安俊焕、雅各布·奥斯汀、保罗·巴勒姆、扬·博塔、詹姆斯·布拉德伯里、悉达多·梵天、凯文·布鲁克斯、米歇尔·卡塔斯塔、郑勇、科林·切里、克里斯托弗·乔奎特-朱、阿坎沙·乔杜里、克莱门特·克里皮、沙奇·戴夫、穆斯塔法·德加尼、苏尼帕·德夫、雅各布·德夫林、马克·迪亚兹、杜楠、伊桑·戴尔、弗拉德·范伯格、冯方晓宇、弗拉德·费恩伯、马库斯·弗雷塔格、泽维尔·加西亚、塞巴斯蒂安·格尔曼、卢卡斯·冈萨雷斯、盖伊Gur-Ari， Steven Hand， Hadi Hashemi， Le Hou， Joshua Howland，Andrea 胡， Jeffrey Hui， Jeremy Hurwitz， Michael Isard， Abe Ittycheriah， Matthew Jagielski， Wenhao Jia， Kathleen Kenealy， Maxim Krikun， Sneha Kudugunta， Chang Lan， Katherine Lee， Benjamin Lee， Eric Li， Music Li， Wei Li， YaGuang Li， Jian Li， Hyeontaek Lim， Hanzhao Lin， Zhongtao Liu，Frederick Liu， Marcello Maggioni， Aroma Mahendru，约书亚·梅内斯、韦丹特·米斯拉、梅萨姆·穆萨勒姆、扎卡里·纳多、约翰·纳姆、埃里克·倪、安德鲁·尼斯特罗姆、艾丽西亚·帕里什、玛丽·佩拉特、马丁·波拉切克、亚历克斯·波洛佐夫、莱纳·波普、乔思源、艾米莉·赖夫、布莱恩·里希特、帕克·莱利、亚历克斯·卡斯特罗·罗斯、奥尔科·罗伊、布伦南·萨埃塔、拉杰库马尔·塞缪尔、蕾妮·谢尔比、安布罗斯·斯隆、丹尼尔·斯米尔科夫、大卫·所以，Daniel Sohn， Simon Tokumine， Dasha Valter， Vijay Vasudevan， Kiran Vodrahalli， Xuezhi Wang， Pidong Wang， Zirui Wang， Tao Wang， John Wieting， Yuhuai Wu， Kelvin Xu， Yunhan Xu，

薛琳婷、尹鹏程、俞佳慧、张乔、郑志强、郑策、周伟康、丹尼周、斯拉夫·彼得罗夫、吴永辉。Palm 2 技术报告。arXiv，abs/2305.10403,2023 年。

Naveen Arivazhagan， Ankur Bapna， Orhan Firat， Dmitry Lepikhin， Melvin Johnson， Maxim Krikun，Mia Xu Chen， Yuan Cao， George Foster， Colin Cherry， et al. 野外大规模多语言神经机器翻译：发现和挑战. arXiv 预印本 arXiv：1907.05019， 2019.爱德华·比钦、克莱门汀·富里尔、内森·哈比卜、谢恩·韩、内森·兰伯特、纳兹宁·拉贾尼、奥马尔·桑塞维罗、刘易斯·坦斯托尔和托马斯·沃尔夫。打开 llm 排行榜。 https_：huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard，2023 年。

Karl Cobbe、Vineet Kosaraju、Mohammad Bavarian、Mark Chen、Heewoo Jun、Lukasz Kaiser、Matthias Plappert、Jerry Tworek、Jacob Hilton、Reiichiro Nakano 等。 arXiv 预印本 arXiv：2110.14168， 2021.

亚历克西斯·康诺、纪尧姆·兰普尔、鲁蒂·里诺特、阿迪娜·威廉姆斯、塞缪尔·鲍曼、霍尔格·施温克和维塞林·斯托亚诺夫。Xnli：评估跨语言句子表示。第2475-2485页，2018年10月至11月。doi： 10.18653/v1/D18-1269.网址 https://aclanthology.org/D18-1269。

亚历克西斯·康诺、卡蒂凯·坎德尔瓦尔、纳曼·戈亚尔、维什拉夫·乔杜里、纪尧姆·温泽克、弗朗西斯科·古兹曼、爱德华·格雷夫、迈尔·奥特、卢克·泽特勒莫耶和维塞林·斯托亚诺夫。大规模的无监督跨语言表示学习。第8440–8451 页，2019 年 7 月。doi： 10.18653/v1/2020.acl-main.747.URL https://aclanthology.org/2020.acl-main.747。

Mike Conover， Matt Hayes， Ankit Mathur， Xiangrui Meng， Jianwei Xie， Jun Wan， Sam Shah， Ali Ghodsi， Patrick Wendell， Matei Zaharia， et al. Free dolly：推出世界上第一个真正开放的指令调优法LLMs。 Databricks，2023a。

迈克·康诺弗、马特·海耶斯、安基特·马图尔、谢建伟、万俊、山姆·沙阿、阿里·戈西、帕特里克·温德尔、马泰·扎哈里亚和雷诺德·辛。Free Dolly：推出世界上第一个真正开放的指令调优 llm，2023b。 URL https://www.databricks.com/blog/2023/04/12/dolly-f irst-open-commercially-viable-instruction-tuned-llm。

Viet Dac Lai、Chien Van Nguyen、Nghia Trung Ngo、Thuat Nguyen、Franck Dernoncourt、Ryan A Rossi 和Thien Huu Nguyen。Okapi：多种语言的指令调整大型语言模型，从人类反馈中强化学习。 arXiv 电子版画，第 arXiv–2307 页，2023 年。

邓岳，张文轩，潘新诺嘉林，和冰立东.大型语言模型中的多语言越狱挑战。 arXiv 预印本 arXiv：2310.06474， 2023.

Yann Dubois、Xuechen Li、Rohan Taori、Tianyi Zhang、Ishaan Gulrajani、Jimmy Ba、Carlos Guestrin、Percy Liang 和 Tatsunori B Hashimoto。Alpacafarm：一个从人类反馈中学习的方法的模拟框架。 arXiv 预印本 arXiv：2305.14387， 2023.

Esin Durmus、Karina Nyugen、Thomas I. Liao、Nicholas Schiefer、Amanda Askell、Anton Bakhtin、Carol Chen、Zac Hatfield-Dodds、Danny Hernandez、Nicholas Joseph、Liane Lovitt、Sam McCandlish、Orowa Sikder、Alex Tamkin、Janel Thamkul、Jared Kaplan、Jack Clark 和 Deep Ganguli。衡量语言模型中主观全球意见的表示。arXiv，abs/2306.16388,2023 年。

Leo Gao， Jonathan Tow， Baber Abbasi， Stella Biderman， Sid Black， Anthony DiPofi， Charles Foster， Laurence Golding， Jeffrey Hsu， Alain Le Noac'h， Haonan Li， Kyle McDonell， NiklasMuennighoff、Chris Ociepa、Jason Phang、Laria Reynolds、Hailey Schoelkopf、Aviya Skowron、Lintang Sutawika、Eric Tang、Anish Thite、Ben Wang、Kevin Wang 和 Andy Zou。用于少样本语言模型评估的框架。12 2023.doi： 10.5281/zenodo.10256836.网址 https_：zenodo.org/records/10256836。

Gemini-Team, Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut,Johan Schalkwyk, Andrew M. Dai, Anja Hauth, Katie Millican, David Silver, Melvin Johnson, Ioannis Antonoglou, Julian Schrittwieser, Amelia Glaese, Jilin Chen, Emily Pitler, Timothy Lillicrap, Angeliki Lazaridou, Orhan Firat, James Molloy, Michael Isard, Paul R. Barham, Tom Hennigan, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, Ryan Doherty, Eli Collins, Clemens Meyer, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Jack Krawczyk, Cosmo Du, Ed Chi, Heng-Tze Cheng, Eric Ni, Purvi Shah, Patrick Kane, Betty Chan, Manaal Faruqui, Aliaksei Severyn, Hanzhao Lin, YaGuang Li, Yong Cheng, Abe Ittycheriah, Mahdis Mahdieh, Mia Chen, Pei Sun, Dustin Tran, Sumit Bagri, Balaji Lakshminarayanan, Jeremiah Liu, Andras Orban, Fabian Güra, Hao Zhou, Xinying Song, Aurelien Boffy, Harish Ganapathy, Steven Zheng, HyunJeong Choe, Ágoston Weisz, Tao Zhu, Yifeng Lu, Siddharth Gopal, Jarrod Kahn, Maciej Kula, Jeff Pitman, Rushin Shah, Emanuel Taropa, Majd Al Merey, Martin Baeuml, Zhifeng Chen, Laurent El Shafey, Yujing Zhang, Olcan Sercinoglu, George Tucker, Enrique Piqueras, Maxim Krikun, Iain Barr, Nikolay Savinov, Ivo Danihelka, Becca Roelofs, Anaïs White, Anders Andreassen, Tamara von Glehn, Lakshman Yagati, Mehran Kazemi, Lucas Gonzalez, Misha Khalman, Jakub Sygnowski, Alexandre Frechette, Charlotte Smith, Laura Culp, Lev Proleev, Yi Luan, Xi Chen, James Lottes, Nathan Schucher, Federico Lebron, Alban Rrustemi, Natalie Clay, Phil Crone, Tomas Kocisky, Jeffrey Zhao, Bartek Perz, Dian Yu, Heidi Howard, Adam Bloniarz, Jack W. Rae, Han Lu, Laurent Sifre, Marcello Maggioni, Fred Alcober, Dan Garrette, Megan Barnes, Shantanu Thakoor, Jacob Austin, Gabriel Barth-Maron, William Wong, Rishabh Joshi, Rahma Chaabouni, Deeni Fatiha, Arun Ahuja, Gaurav Singh Tomar, Evan Senter, Martin Chadwick, Ilya Kornakov, Nithya Attaluri, Iñaki Iturrate, Ruibo Liu, Yunxuan Li, Sarah Cogan, Jeremy Chen, Chao Jia, Chenjie Gu, Qiao Zhang, Jordan Grimstad, Ale Jakse Hartman, Xavier Garcia, Thanumalayan Sankaranarayana Pillai, Jacob Devlin, Michael Laskin, Diego de Las Casas, Dasha Valter, Connie Tao, Lorenzo Blanco, Adrià Puigdomènech Badia, David Reitter, Mianna Chen, Jenny Brennan, Clara Rivera, Sergey Brin, Shariq Iqbal, Gabriela Surita, Jane Labanowski, Abhi Rao, Stephanie Winkler, Emilio Parisotto, Yiming Gu, Kate Olszewska, Ravi Addanki, Antoine Miech, Annie Louis, Denis Teplyashin, Geoff Brown, Elliot Catt, Jan Balaguer, Jackie Xiang, Pidong Wang, Zoe Ashwood, Anton Briukhov, Albert Webson, Sanjay Ganapathy, Smit Sanghavi, Ajay Kannan, Ming-Wei Chang, Axel Stjerngren, Josip Djolonga, Yuting Sun, Ankur Bapna, Matthew Aitchison, Pedram Pejman, Henryk Michalewski, Tianhe Yu, Cindy Wang, Juliette Love, Junwhan Ahn, Dawn Bloxwich, Kehang Han, Peter Humphreys, Thibault Sellam, James Bradbury, Varun Godbole, Sina Samangooei, Bogdan Damoc, Alex Kaskasoli, Sébastien M. R. Arnold, Vijay Vasudevan, Shubham Agrawal, Jason Riesa, Dmitry Lepikhin, Richard Tanburn, Srivatsan Srinivasan, Hyeontaek Lim, Sarah Hodkinson, Pranav Shyam, Johan Ferret, Steven Hand, Ankush Garg, Tom Le Paine, Jian Li, Yujia Li, Minh Giang, Alexander Neitz, Zaheer Abbas, Sarah York, Machel Reid, Elizabeth Cole, Aakanksha Chowdhery, Dipanjan Das, Dominika Rogozińska, Vitaliy Nikolaev, Pablo Sprechmann, Zachary Nado, Lukas Zilka, Flavien Prost, Luheng He, Marianne Monteiro, Gaurav Mishra, Chris Welty, Josh Newlan, Dawei Jia, Miltiadis Allamanis, Clara Huiyi Hu, Raoul de Liedekerke, Justin Gilmer, Carl Saroufim, Shruti Rijhwani, Shaobo Hou, Disha Shrivastava, Anirudh Baddepudi, Alex Goldin, Adnan Ozturel, Albin Cassirer, Yunhan Xu, Daniel Sohn, Devendra Sachan, Reinald Kim Amplayo, Craig Swanson, Dessie Petrova, Shashi Narayan, Arthur Guez, Siddhartha Brahma, Jessica Landon, Miteyan Patel, Ruizhe Zhao, Kevin Villela, Luyu Wang, Wenhao Jia,Matthew Rahtz, Mai Giménez, Legg Yeung, James Keeling, Petko Georgiev, Diana Mincu, Boxi Wu, Salem Haykal, Rachel Saputro, Kiran Vodrahalli, James Qin, Zeynep Cankara, Abhanshu Sharma, Nick Fernando, Will Hawkins, Behnam Neyshabur, Solomon Kim, Adrian Hutter, Priyanka Agrawal, Alex Castro-Ros, George van den Driessche, Tao Wang, Fan Yang, Shuo yiin Chang, Paul Komarek, Ross McIlroy, Mario Lučić, Guodong Zhang, Wael Farhan, Michael Sharman, Paul Natsev, Paul Michel, Yamini Bansal, Siyuan Qiao, Kris Cao, Siamak Shakeri, Christina Butterfield, Justin Chung, Paul Kishan Rubenstein, Shivani Agrawal, Arthur Mensch, Kedar Soparkar, Karel Lenc, Timothy Chung, Aedan Pope, Loren Maggiore, Jackie Kay, Priya Jhakra, Shibo Wang, Joshua Maynez, Mary Phuong, Taylor Tobin, Andrea Tacchetti, Maja Trebacz, Kevin Robinson, Yash Katariya, Sebastian Riedel, Paige Bailey, Kefan Xiao, Nimesh Ghelani, Lora Aroyo, Ambrose Slone, Neil Houlsby, Xuehan Xiong, Zhen Yang, Elena Gribovskaya, Jonas Adler, Mateo Wirth, Lisa Lee, Music Li, Thais Kagohara, Jay Pavagadhi, Sophie Bridgers, Anna Bortsova, Sanjay Ghemawat, Zafarali Ahmed, Tianqi Liu, Richard Powell, Vijay Bolina, Mariko Iinuma, Polina Zablotskaia, James Besley, Da-Woon Chung, Timothy Dozat, Ramona Comanescu, Xiance Si, Jeremy Greer, Guolong Su, Martin Polacek, Raphaël Lopez Kaufman, Simon Tokumine, Hexiang Hu, Elena Buchatskaya, Yingjie Miao, Mohamed Elhawaty, Aditya Siddhant, Nenad Tomasev, Jinwei Xing, Christina Greer, Helen Miller, Shereen Ashraf, Aurko Roy, Zizhao Zhang, Ada Ma, Angelos Filos, Milos Besta, Rory Blevins, Ted Klimenko, Chih-Kuan Yeh, Soravit Changpinyo, Jiaqi Mu, Oscar Chang, Mantas Pajarskas, Carrie Muir, Vered Cohen, Charline Le Lan, Krishna Haridasan, Amit Marathe, Steven Hansen, Sholto Douglas, Rajkumar Samuel, Mingqiu Wang, Sophia Austin, Chang Lan, Jiepu Jiang, Justin Chiu, Jaime Alonso Lorenzo, Lars Lowe Sjösund, Sébastien Cevey, Zach Gleicher, Thi Avrahami, Anudhyan Boral, Hansa Srinivasan, Vittorio Selo, Rhys May, Konstantinos Aisopos, Léonard Hussenot, Livio Baldini Soares, Kate Baumli, Michael B. Chang, Adrià Recasens, Ben Caine, Alexander Pritzel, Filip Pavetic, Fabio Pardo, Anita Gergely, Justin Frye, Vinay Ramasesh, Dan Horgan, Kartikeya Badola, Nora Kassner, Subhrajit Roy, Ethan Dyer, Víctor Campos Campos, Alex Tomala, Yunhao Tang, Dalia El Badawy, Elspeth White, Basil Mustafa, Oran Lang, Abhishek Jindal, Sharad Vikram, Zhitao Gong, Sergi Caelles, Ross Hemsley, Gregory Thornton, Fangxiaoyu Feng, Wojciech Stokowiec, Ce Zheng, Phoebe Thacker, Çağlar Ünlü, Zhishuai Zhang, Mohammad Saleh, James Svensson, Max Bileschi, Piyush Patil, Ankesh Anand, Roman Ring, Katerina Tsihlas, Arpi Vezer, Marco Selvi, Toby Shevlane, Mikel Rodriguez, Tom Kwiatkowski, Samira Daruki, Keran Rong, Allan Dafoe, Nicholas FitzGerald, Keren Gu-Lemberg, Mina Khan, Lisa Anne Hendricks, Marie Pellat, Vladimir Feinberg, James Cobon-Kerr, Tara Sainath, Maribeth Rauh, Sayed Hadi Hashemi, Richard Ives, Yana Hasson, Eric Noland, Yuan Cao, Nathan Byrd, Le Hou, Qingze Wang, Thibault Sottiaux, Michela Paganini, Jean-Baptiste Lespiau, Alexandre Moufarek, Samer Hassan, Kaushik Shivakumar, Joost van Amersfoort, Amol Mandhane, Pratik Joshi, Anirudh Goyal, Matthew Tung, Andrew Brock, Hannah Sheahan, Vedant Misra, Cheng Li, Nemanja Rakićević, Mostafa Dehghani, Fangyu Liu, Sid Mittal, Junhyuk Oh, Seb Noury, Eren Sezener, Fantine Huot, Matthew Lamm, Nicola De Cao, Charlie Chen, Sidharth Mudgal, Romina Stella, Kevin Brooks, Gautam Vasudevan, Chenxi Liu, Mainak Chain, Nivedita Melinkeri, Aaron Cohen, Venus Wang, Kristie Seymore, Sergey Zubkov, Rahul Goel, Summer Yue, Sai Krishnakumaran, Brian Albert, Nate Hurley, Motoki Sano, Anhad Mohananey, Jonah Joughin, Egor Filonov, Tomasz Kępa, Yomna Eldawy, Jiawern Lim, Rahul Rishi, Shirin Badiezadegan, Taylor Bos, Jerry Chang, Sanil Jain, Sri Gayatri Sundara Padmanabhan, Subha Puttagunta, Kalpesh Krishna, Leslie Baker, Norbert Kalb, Vamsi Bedapudi, Adam Kurzrok, Shuntong Lei, Anthony Yu, Oren Litvin, Xiang Zhou, Zhichun Wu, Sam Sobell, Andrea Siciliano, Alan Papir, Robby Neale, Jonas Bragagnolo, Tej Toor, Tina Chen, Valentin Anklin, Feiran Wang, Richie Feng, Milad Gholami, Kevin Ling, Lijuan Liu, Jules Walter, Hamid Moghaddam, Arun Kishore, Jakub Adamek, Tyler Mercado, Jonathan Mallinson, Siddhinita Wandekar, Stephen Cagle, Eran Ofek, Guillermo Garrido, Clemens Lombriser, Maksim Mukha, Botu Sun, Hafeezul Rahman Mohammad, Josip Matak, Yadi Qian, Vikas Peswani, Pawel Janus, Quan Yuan, Leif Schelin, Oana David, Ankur Garg, Yifan He, Oleksii Duzhyi, Anton Älgmyr, Timothée Lottaz, Qi Li, Vikas Yadav, Luyao Xu, Alex Chinien, Rakesh Shivanna, Aleksandr Chuklin, Josie Li, Carrie Spadine, Travis Wolfe, Kareem Mohamed, Subhabrata Das, Zihang Dai, Kyle He, Daniel von Dincklage, Shyam Upadhyay, Akanksha Maurya, Luyan Chi, Sebastian Krause, Khalid Salama, Pam G Rabinovitch, Pavan Kumar Reddy M, Aarush Selvan, Mikhail Dektiarev, Golnaz Ghiasi, Erdem Guven, Himanshu Gupta, Boyi Liu, Deepak Sharma, Idan Heimlich Shtacher, Shachi Paul, Oscar Akerlund, François-Xavier Aubet, Terry Huang, Chen Zhu, Eric Zhu, Elico Teixeira, Matthew Fritze, Francesco Bertolini, LianaEleonora Marinescu, Martin Bölle, Dominik Paulus, Khyatti Gupta, Tejasi Latkar, Max Chang, Jason Sanders, Roopa Wilson, Xuewei Wu, Yi-Xuan Tan, Lam Nguyen Thiet, Tulsee Doshi, Sid Lall, Swaroop Mishra, Wanming Chen, Thang Luong, Seth Benjamin, Jasmine Lee, Ewa Andrejczuk, Dominik Rabiej, Vipul Ranjan, Krzysztof Styrc, Pengcheng Yin, Jon Simon, Malcolm Rose Harriott, Mudit Bansal, Alexei Robsky, Geoff Bacon, David Greene, Daniil Mirylenka, Chen Zhou, Obaid Sarvana, Abhimanyu Goyal, Samuel Andermatt, Patrick Siegler, Ben Horn, Assaf Israel, Francesco Pongetti, Chih-Wei "Louis" Chen, Marco Selvatici, Pedro Silva, Kathie Wang, Jackson Tolins, Kelvin Guu, Roey Yogev, Xiaochen Cai, Alessandro Agostini, Maulik Shah, Hung Nguyen, Noah Ó Donnaile, Sébastien Pereira, Linda Friso, Adam Stambler, Adam Kurzrok, Chenkai Kuang, Yan Romanikhin, Mark Geller, ZJ Yan, Kane Jang, Cheng-Chun Lee, Wojciech Fica, Eric Malmi, Qijun Tan, Dan Banica, Daniel Balle, Ryan Pham, Yanping Huang, Diana Avram, Hongzhi Shi, Jasjot Singh, Chris Hidey, Niharika Ahuja, Pranab Saxena, Dan Dooley, Srividya Pranavi Potharaju, Eileen O’Neill, Anand Gokulchandran, Ryan Foley, Kai Zhao, Mike Dusenberry, Yuan Liu, Pulkit Mehta, Ragha Kotikalapudi, Chalence Safranek-Shrader, Andrew Goodman, Joshua Kessinger, Eran Globen, Prateek Kolhar, Chris Gorgolewski, Ali Ibrahim, Yang Song, Ali Eichenbaum, Thomas Brovelli, Sahitya Potluri, Preethi Lahoti, Cip Baetu, Ali Ghorbani, Charles Chen, Andy Crawford, Shalini Pal, Mukund Sridhar, Petru Gurita, Asier Mujika, Igor Petrovski, Pierre-Louis Cedoz, Chenmei Li, Shiyuan Chen, Niccolò Dal Santo, Siddharth Goyal, Jitesh Punjabi, Karthik Kappaganthu, Chester Kwak, Pallavi LV, Sarmishta Velury, Himadri Choudhury, Jamie Hall, Premal Shah, Ricardo Figueira, Matt Thomas, Minjie Lu, Ting Zhou, Chintu Kumar, Thomas Jurdi, Sharat Chikkerur, Yenai Ma, Adams Yu, Soo Kwak, Victor Ähdel, Sujeevan Rajayogam, Travis Choma, Fei Liu, Aditya Barua, Colin Ji, Ji Ho Park, Vincent Hellendoorn, Alex Bailey, Taylan Bilal, Huanjie Zhou, Mehrdad Khatir, Charles Sutton, Wojciech Rzadkowski, Fiona Macintosh, Konstantin Shagin, Paul Medina, Chen Liang, Jinjing Zhou, Pararth Shah, Yingying Bi, Attila Dankovics, Shipra Banga, Sabine Lehmann, Marissa Bredesen,Zifan Lin, John Eric Hoffmann, Jonathan Lai, Raynald Chung, Kai Yang, Nihal Balani, Arthur Bražinskas, Andrei Sozanschi, Matthew Hayes, Héctor Fernández Alcalde, Peter Makarov, Will Chen, Antonio Stella, Liselotte Snijders, Michael Mandl, Ante Kärrman, Paweł Nowak, Xinyi Wu, Alex Dyck, Krishnan Vaidyanathan, Raghavender R, Jessica Mallet, Mitch Rudominer, Eric Johnston, Sushil Mittal, Akhil Udathu, Janara Christensen, Vishal Verma, Zach Irving, Andreas Santucci, Gamaleldin Elsayed, Elnaz Davoodi, Marin Georgiev, Ian Tenney, Nan Hua, Geoffrey Cideron, Edouard Leurent, Mahmoud Alnahlawi, Ionut Georgescu, Nan Wei, Ivy Zheng, Dylan Scandinaro, Heinrich Jiang, Jasper Snoek, Mukund Sundararajan, Xuezhi Wang, Zack Ontiveros, Itay Karo, Jeremy Cole, Vinu Rajashekhar, Lara Tumeh, Eyal Ben-David, Rishub Jain, Jonathan Uesato, Romina Datta, Oskar Bunyan, Shimu Wu, John Zhang, Piotr Stanczyk, Ye Zhang, DavidSteiner, Subhajit Naskar, Michael Azzam, Matthew Johnson, Adam Paszke, Chung-Cheng Chiu, Jaume Sanchez Elias, Afroz Mohiuddin, Faizan Muhammad, Jin Miao, Andrew Lee, Nino Vieillard, Jane Park, Jiageng Zhang, Jeff Stanway, Drew Garmon, Abhijit Karmarkar, Zhe Dong, Jong Lee, Aviral Kumar, Luowei Zhou, Jonathan Evens, William Isaac, Geoffrey Irving, Edward Loper, Michael Fink, Isha Arkatkar, Nanxin Chen, Izhak Shafran, Ivan Petrychenko, Zhe Chen, Johnson Jia, Anselm Levskaya, Zhenkai Zhu, Peter Grabowski, Yu Mao, Alberto Magni, Kaisheng Yao, Javier Snaider, Norman Casagrande, Evan Palmer, Paul Suganthan, Alfonso Castaño, Irene Giannoumis, Wooyeol Kim, Mikołaj Rybiński, Ashwin Sreevatsa, Jennifer Prendki, David Soergel, Adrian Goedeckemeyer, Willi Gierke, Mohsen Jafari, Meenu Gaba, Jeremy Wiesner, Diana Gage Wright, Yawen Wei, Harsha Vashisht, Yana Kulizhskaya, Jay Hoover, Maigo Le, Lu Li, Chimezie Iwuanyanwu, Lu Liu, Kevin Ramirez, Andrey Khorlin, Albert Cui, Tian LIN, Marcus Wu, Ricardo Aguilar, Keith Pallo, Abhishek Chakladar, Ginger Perng, Elena Allica Abellan, Mingyang Zhang, Ishita Dasgupta, Nate Kushman, Ivo Penchev, Alena Repina, Xihui Wu, Tom van der Weide, Priya Ponnapalli, Caroline Kaplan, Jiri Simsa, Shuangfeng Li, Olivier Dousse, Fan Yang, Jeff Piper, Nathan Ie, Rama Pasumarthi, Nathan Lintz, Anitha Vijayakumar, Daniel Andor, Pedro Valenzuela, Minnie Lui, Cosmin Paduraru, Daiyi Peng, Katherine Lee, Shuyuan Zhang, Somer Greene, Duc Dung Nguyen, Paula Kurylowicz, Cassidy Hardin, Lucas Dixon, Lili Janzer, Kiam Choo, Ziqiang Feng, Biao Zhang, Achintya Singhal, Dayou Du, Dan McKinnon, Natasha Antropova, Tolga Bolukbasi, Orgad Keller, David Reid, Daniel Finchelstein, Maria Abi Raad, Remi Crocker, Peter Hawkins, Robert Dadashi, Colin Gaffney, Ken Franko, Anna Bulanova, Rémi Leblond, Shirley Chung, Harry Askham, Luis C. Cobo, Kelvin Xu, Felix Fischer, Jun Xu, Christina Sorokin, Chris Alberti, Chu-Cheng Lin, Colin Evans, Alek Dimitriev, Hannah Forbes, Dylan Banarse, Zora Tung, Mark Omernick, Colton Bishop, Rachel Sterneck, Rohan Jain, Jiawei Xia, Ehsan Amid, Francesco Piccinno, Xingyu Wang, Praseem Banzal, Daniel J. Mankowitz, Alex Polozov, Victoria Krakovna, Sasha Brown, MohammadHossein Bateni, Dennis Duan, Vlad Firoiu, Meghana Thotakuri, Tom Natan, Matthieu Geist, Ser tan Girgin, Hui Li, Jiayu Ye, Ofir Roval, Reiko Tojo, Michael Kwong, James Lee-Thorp, Christopher Yew, Danila Sinopalnikov, Sabela Ramos, John Mellor, Abhishek Sharma, Kathy Wu, David Miller, Nicolas Sonnerat, Denis Vnukov, Rory Greig, Jennifer Beattie, Emily Caveness, Libin Bai, Julian Eisenschlos, Alex Korchemniy, Tomy Tsai, Mimi Jasarevic, Weize Kong, Phuong Dao, Zeyu Zheng, Frederick Liu, Fan Yang, Rui Zhu, Tian Huey Teh, Jason Sanmiya, Evgeny Gladchenko, Nejc Trdin, Daniel Toyama, Evan Rosen, Sasan Tavakkol, Linting Xue, Chen Elkind, Oliver Woodman, John Carpenter, George Papamakarios, Rupert Kemp, Sushant Kafle, Tanya Grunina, Rishika Sinha, Alice Talbert, Diane Wu, Denese Owusu-Afriyie, Cosmo Du, Chloe Thornton, Jordi PontTuset, Pradyumna Narayana, Jing Li, Saaber Fatehi, John Wieting, Omar Ajmeri, Benigno Uria,Yeongil Ko, Laura Knight, Amélie Héliou, Ning Niu, Shane Gu, Chenxi Pang, Yeqing Li, Nir Levine, Ariel Stolovich, Rebeca Santamaria-Fernandez, Sonam Goenka, Wenny Yustalim, Robin Strudel, Ali Elqursh, Charlie Deck, Hyo Lee, Zonglin Li, Kyle Levin, Raphael Hoffmann, Dan Holtmann-Rice, Olivier Bachem, Sho Arora, Christy Koh, Soheil Hassas Yeganeh, Siim Põder, Mukarram Tariq, Yanhua Sun, Lucian Ionita, Mojtaba Seyedhosseini, Pouya Tafti, Zhiyu Liu, Anmol Gulati, Jasmine Liu, Xinyu Ye, Bart Chrzaszcz, Lily Wang, Nikhil Sethi, Tianrun Li, Ben Brown, Shreya Singh, Wei Fan, Aaron Parisi, Joe Stanton, Vinod Koverkathu, Christopher A. Choquette-Choo, Yunjie Li, TJ Lu, Abe Ittycheriah, Prakash Shroff, Mani Varadarajan, Sanaz Bahargam, Rob Willoughby, David Gaddy, Guillaume Desjardins, Marco Cornero, Brona Robenek, Bhavishya Mittal, Ben Albrecht, Ashish Shenoy, Fedor Moiseev, Henrik Jacobsson, Alireza Ghaffarkhah, Morgane Rivière, Alanna Walton, Clément Crepy, Alicia Parrish, Zongwei Zhou, Clement Farabet, Carey Radebaugh, Praveen Srinivasan, Claudia van der Salm, Andreas Fidjeland, Salvatore Scellato, Eri Latorre-Chimoto, Hanna Klimczak-Plucińska, David Bridson, Dario de Cesare, Tom Hudson, Piermaria Mendolicchio, Lexi Walker, Alex Morris, MatthewMauger, Alexey Guseynov, Alison Reid, Seth Odoom, Lucia Loher, Victor Cotruta, Madhavi Yenugula, Dominik Grewe, Anastasia Petrushkina, Tom Duerig, Antonio Sanchez, Steve Yadlowsky, Amy Shen, Amir Globerson, Lynette Webb, Sahil Dua, Dong Li, Surya Bhupatiraju, Dan Hurt, Haroon Qureshi, Ananth Agarwal, Tomer Shani, Matan Eyal, Anuj Khare, Shreyas Rammohan Belle, Lei Wang, Chetan Tekur, Mihir Sanjay Kale, Jinliang Wei, Ruoxin Sang, Brennan Saeta, Tyler Liechty, Yi Sun, Yao Zhao, Stephan Lee, Pandu Nayak, Doug Fritz, Manish Reddy Vuyyuru, John Aslanides, Nidhi Vyas, Martin Wicke, Xiao Ma, Evgenii Eltyshev, Nina Martin, Hardie Cate, James Manyika, Keyvan Amiri, Yelin Kim, Xi Xiong, Kai Kang, Florian Luisier, Nilesh Tripuraneni, David Madras, Mandy Guo, Austin Waters, Oliver Wang, Joshua Ainslie, Jason Baldridge, Han Zhang, Garima Pruthi, Jakob Bauer, Feng Yang, Riham Mansour, Jason Gelman, Yang Xu, George Polovets, Ji Liu, Honglong Cai, Warren Chen, XiangHai Sheng, Emily Xue, Sherjil Ozair, Christof Angermueller, Xiaowei Li, Anoop Sinha, Weiren Wang, Julia Wiesinger, Emmanouil Koukoumidis, Yuan Tian, Anand Iyer, Madhu Gurumurthy, Mark Goldenson, Parashar Shah, MK Blake, Hongkun Yu, Anthony Urbanowicz, Jennimaria Palomaki, Chrisantha Fernando, Ken Durden, Harsh Mehta, Nikola Momchev, Elahe Rahimtoroghi, Maria Georgaki, Amit Raul, Sebastian Ruder, Morgan Redshaw, Jinhyuk Lee, Denny Zhou, Komal Jalan, Dinghua Li, Blake Hechtman, Parker Schuh, Milad Nasr, Kieran Milan, Vladimir Mikulik, Juliana Franco, Tim Green, Nam Nguyen, Joe Kelley, Aroma Mahendru, Andrea Hu, Joshua Howland, Ben Vargas, Jeffrey Hui, Kshitij Bansal, Vikram Rao, Rakesh Ghiya, Emma Wang,Ke Ye, Jean Michel Sarr, Melanie Moranski Preston, Madeleine Elish, Steve Li, Aakash Kaku,Jigar Gupta, Ice Pasupat, Da-Cheng Juan, Milan Someswar, Tejvi M., Xinyun Chen, Aida Amini, Alex Fabrikant, Eric Chu, Xuanyi Dong, Amruta Muthal, Senaka Buthpitiya, Sarthak Jauhari, Nan Hua, Urvashi Khandelwal, Ayal Hitron, Jie Ren, Larissa Rinaldi, Shahar Drath, Avigail Dabush, Nan-Jiang Jiang, Harshal Godhia, Uli Sachs, Anthony Chen, Yicheng Fan, Hagai Taitelbaum, Hila Noga, Zhuyun Dai, James Wang, Chen Liang, Jenny Hamer, Chun-Sung Ferng, Chenel Elkind, Aviel Atias, Paulina Lee, Vít Listík, Mathias Carlen, Jan van de Kerkhof, Marcin Pikus, Krunoslav Zaher, Paul Müller, Sasha Zykova, Richard Stefanec, Vitaly Gatsko, Christoph Hirnschall, Ashwin Sethi, Xingyu Federico Xu, Chetan Ahuja, Beth Tsai, Anca Stefanoiu, Bo Feng, Keshav Dhandhania, Manish Katyal, Akshay Gupta, Atharva Parulekar, Divya Pitta, Jing Zhao, Vivaan Bhatia, Yashodha Bhavnani, Omar Alhadlaq, Xiaolin Li, Peter Danenberg, Dennis Tu, Alex Pine, Vera Filippova, Abhipso Ghosh, Ben Limonchik, Bhargava Urala, Chaitanya Krishna Lanka, Derik Clive, Yi Sun, Edward Li, Hao Wu, Kevin Hongtongsak, Ianna Li, Kalind Thakkar, Kuanysh Omarov, Kushal Majmundar, Michael Alverson, Michael Kucharski, Mohak Patel, Mudit Jain, Maksim Zabelin, Paolo Pelagatti, Rohan Kohli, Saurabh Kumar, Joseph Kim, Swetha Sankar, Vineet Shah, Lakshmi Ramachandruni, Xiangkai Zeng, Ben Bariach, Laura Weidinger, Amar Subramanya, Sissie Hsiao, Demis Hassabis, Koray Kavukcuoglu, Adam Sadovsky, Quoc Le, Trevor Strohman, Yonghui Wu, Slav Petrov, Jeffrey Dean, and Oriol Vinyals. Gemini: A family of highly capable multimodal models, 2024.

Gemma Gemini Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, et al. Gemma: Open models based on gemini research and technology.arXiv preprint arXiv:2403.08295, 2024.

Gemma-Team. Gemma: Open models based on gemini research and technology, 2024.

Naman Goyal, Cynthia Gao, Vishrav Chaudhary, Peng-Jen Chen, Guillaume Wenzek, Da Ju, Sanjana Krishnan, Marc’Aurelio Ranzato, Francisco Guzman, and Angela Fan. The flores-101 evaluation benchmark for low-resource and multilingual machine translation.arXiv, abs/2106.03193, 2021.

Tahmid Hasan, Abhik Bhattacharjee, Md Saiful Islam, Kazi Samin, Yuan-Fang Li, Yong-Bin Kang, M. Sohel Rahman, and Rifat Shahriyar. XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages. pp. 4693–4703, August 2021. doi: 10.48550/arXiv.2106.13822. URLhttps://aclanthology.org/2021.findings-acl.413.

William Held, Camille Harris, Michael Best, and Diyi Yang. A material lens on coloniality in nlp.arXiv, abs/2311.08391, 2023.

Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. InInternational Conference on Learning Representations, 2020.

Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, and William El Sayed. Mistral 7b, 2023.

Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, and William El Sayed. Mixtral of experts.arXiv, abs/2401.04088, 2024.

Michiel de Jong Yury Zemlyanskiy Federico Lebrón Sumit Sanghai Joshua Ainslie, James Lee-Thorp. Gqa: Training generalized multi-query transformer models from multi-head checkpoints, 2023.

Norman P. Jouppi, George Kurian, Sheng Li, Peter Ma, Rahul Nagarajan, Lifeng Nai, Nishant Patil, Suvinay Subramanian, Andy Swing, Brian Towles, Cliff Young, Xiang Zhou, Zongwei Zhou, and David Patterson. Tpu v4: An optically reconfigurable supercomputer for machine learning with hardware support for embeddings, 2023.

Khyati Khandelwal, Manuel Tonneau, Andrew M. Bean, Hannah Rose Kirk, and Scott A. Hale. Casteist but not racist? quantifying disparities in large language model bias between india and the west.ArXiv, abs/2309.08573, 2023. URL https://api.semanticscholar.org/CorpusID:262013517.

Md Tawkat Islam Khondaker, Abdul Waheed, El Moatez Billah Nagoudi, and Muhammad Abdul-Mageed. Gptaraeval: A comprehensive evaluation of chatgpt on arabic nlp.arXiv, abs/2305.14976, 2023.

Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, et al. Prometheus: Inducing fine-grained evaluation capability in language models.arXiv preprint arXiv:2310.08491, 2023.

Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980, 2014.

Hadas Kotek, Rikker Dockum, and David Q. Sun. Gender bias and stereotypes in large language models.Proceedings of The ACM Collective Intelligence Conference, 2023. URLhttps://api. semanticscholar.org/CorpusID:261276445.

Haonan Li, Fajri Koto, Minghao Wu, Alham Fikri Aji, and Timothy Baldwin. Bactrian-x: Multilingual replicable instruction-following models with low-rank adaptation.arXiv, abs/2305.15011, 2023a.

Haoran Li, Yulin Chen, Jinglong Luo, Yan Kang, Xiaojin Zhang, Qi Hu, Chunkit Chan, and Yangqiu Song. Privacy in large language models: Attacks, defenses and future directions.ArXiv, abs/2310.10383, 2023b. URL https://api.semanticscholar.org/CorpusID:264145758.

Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O’Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, and Xian Li. Few-shot learning with multilingual language models.arXiv, abs/2112.10668, 2021.

Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, and Adam Roberts. The flan collection: Designing data and methods for effective instruction tuning.arXiv, abs/2301.13688, 2023a.

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, et al. The data provenance initiative: A large scale audit of dataset licensing & attribution in ai.arXiv preprint arXiv:2310.16787, 2023b. Nils Lukas, A. Salem, Robert Sim, Shruti Tople, Lukas Wutschitz, and Santiago Zanella-B’eguelin. Analyzing leakage of personally identifiable information in language models. 2023 IEEE Symposium on Security and Privacy (SP), pp. 346–363, 2023. URL https://api.semanticscholar. org/CorpusID:256459554.

Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, TevenLe Scao, M Saiful Bari, Sheng Shen, Zheng Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, Zaid Alyafeai, Albert Webson, Edward Raff, and Colin Raffel. Crosslingual generalization through multitask finetuning. In Anna Rogers, Jordan Boyd-Graber, and Naoaki Okazaki (eds.),Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 15991– 16111, Toronto, Canada, July 2023. Association for Computational Linguistics. doi: 10.18653/v 1/2023.acl-long.891. URL https://aclanthology.org/2023.acl-long.891.

Milad Nasr, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr, and Katherine Lee. Scalable extraction of training data from (production) language models.arXiv, abs/2311.17035, 2023.

Gabriel Nicholas and Aliya Bhatia. Lost in translation: Large language models in non-english content analysis.arXiv, abs/2306.07377, 2023.

NLLB-Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov,Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, and Jeff Wang. No language left behind: Scaling human-centered machine translation. 2022.

Jessica Ojo, Kelechi Ogueji, Pontus Stenetorp, and David I. Adelani. How good are large language models on african languages?arXiv, abs/2311.07978, 2023.

Jonas Pfeiffer, Naman Goyal, Xi Lin, Xian Li, James Cross, Sebastian Riedel, and Mikel Artetxe. Lifting the curse of multilinguality by pre-training modular transformers. InProceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 3479–3495, Seattle, United States, July 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.naacl-main.255. URL https://aclantholo gy.org/2022.naacl-main.255.

Edoardo Maria Ponti, Goran Glavaš, Olga Majewska, Qianchu Liu, Ivan Vulić, and Anna Korhonen. Xcopa: A multilingual dataset for causal commonsense reasoning. pp. 2362–2376, November 2020. doi: 10.18653/v1/2020.emnlp-main.185. URLhttps://aclanthology.org/2020.emnlp-main.185.

Ofir Press, Noah A. Smith, and Mike Lewis. Train short, test long: Attention with linear biases enables input length extrapolation.CoRR, abs/2108.12409, 2021. URL https://arxiv.org/ab s/2108.12409.

Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D Manning, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model.arXiv preprint arXiv:2305.18290, 2023.

Reva Schwartz, Apostol Vassilev, Kristen Greene, Lori Perine, Andrew Burt, Patrick Hall, et al. Towards a standard for identifying and managing bias in artificial intelligence.NIST special publication, 1270(10.6028), 2022.

Noam Shazeer. GLU variants improve transformer.CoRR, abs/2002.05202, 2020. URL https_://arxiv.org/abs/2002.05202.

Freda Shi, Mirac Suzgun, Markus Freitag, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, Yi Tay, Sebastian Ruder, Denny Zhou, Dipanjan Das, and Jason Wei. Language models are multilingual chain-of-thought reasoners. InThe Eleventh International^{Conference on Learning Representations}, 2023. URL https://openreview.net/forum?id=fR3w GCk-IXp.

Shivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann,Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, and Sara Hooker. Aya dataset: An open-access collection for multilingual instruction tuning.arXiv preprint arXiv:2402.06619, 2024.

Jianlin Su, Yu Lu, Shengfeng Pan, Bo Wen, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding.CoRR, abs/2104.09864, 2021. URL https://arxiv.org/abs/ 2104.09864.

Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B Hashimoto. Stanford alpaca: An instruction-following llama model. 2023.

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models.arXiv, abs/2302.13971, 2023a.

Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. Llama 2: Open foundation and fine-tuned chat models.arXiv, abs/2307.09288, 2023b.Aniket Vashishtha, Kabir Ahuja, and Sunayana Sitaram. On evaluating and mitigating gender biases in multilingual settings.arXiv, abs/2307.01503, 2023.

Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, and Colin Raffel. mt5: A massively multilingual pre-trained text-to-text transformer. pp. 483–498, June 2020. doi: 10.18653/v1/2021.naacl-main.41. URLhttps://aclanthology.org/2021.naacl-main.41.

Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, and Christopher D. Manning. HotpotQA: A dataset for diverse, explainable multi-hop question

answering. InConference on Empirical Methods in Natural Language Processing (EMNLP), pp. 2369–2380, Brussels, Belgium, October-November 2018. Association for Computational Linguistics. doi: 10.18653/v1/D18-1259. URL https://aclanthology.org/D18-1259.

Zheng-Xin Yong, Cristina Menghini, and Stephen H. Bach. Low-resource languages jailbreak GPT4.arXiv, abs/2310.02446, 2023a.

Zheng Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri Aji, David Ifeoluwa Adelani, Khalid Almubarak, M Saiful Bari, Lintang Sutawika, Jungo Kasai, Ahmed Baruwa, Genta Winata, Stella Biderman, Edward Raff, Dragomir Radev, and Vassilina Nikoulina. BLOOM+1: Adding language support to BLOOM for zero-shot prompting. InProceedings of the 61st An-nual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 11682–11703, Toronto, Canada, July 2023b. Association for Computational Linguistics. doi: 10.18653/v1/2023.acl-long.653. URL https://aclanthology.org/2023.acl-long.653.

Joanna Yoo, Kuba Perlin, Siddhartha Rao Kamalakara, and João G. M. Araújo. Scalable training of language models using jax pjit and tpuv4, 2022.

Jun Zhao, Zhihao Zhang, Luhui Gao, Qi Zhang, Tao Gui, and Xuanjing Huang. Llama beyond english: An empirical study on language capability transfer.arXiv, abs/2401.01055, 2024.

Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D’souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, and Sara Hooker. Aya model: An instruction finetuned open-access multilingual language model, 2024.