我要投稿

Codestral 22B 如何引领 AI 代码生成的潮流

发布日期：2024-06-23 06:14:43 浏览次数： 3040

作者：数智笔记

微信搜一搜，关注“数智笔记”

Codestral 22B 如何引领 AI 代码生成的潮流

引言

人工智能已经彻底改变了许多领域，代码生成也不例外。在软件开发中，团队利用AI模型来自动化和增强编码任务，减少开发人员所需的时间和精力。他们在庞大的数据集上训练这些AI模型，涵盖了许多编程语言，使得这些模型能够在不同的编码环境中提供帮助。AI在代码生成中的一个主要功能是预测和完成代码片段，从而有助于开发过程。像 Mistral AI 的 Codestral、CodeLlama 和 DeepSeek Coder 这样的AI模型专门设计用于这些任务。

这些AI模型可以生成代码、编写测试、完成部分代码，甚至填补现有代码段的中间部分。这些功能使得AI工具对于寻求工作效率和准确性的现代开发人员来说是不可或缺的。将AI整合到编码中可以加快开发速度，减少错误，从而产生更加健壮的软件解决方案。本文将介绍 Mistral AI 最新的开发成果，Codestral。

性能指标的重要性

性能指标在评估AI模型在代码生成中的有效性方面起着关键作用。这些指标提供了模型生成准确和功能性代码能力的可量化度量。用于评估性能的关键基准包括 HumanEval、MBPP、CruxEval、RepoBench 和 Spider。这些基准测试代码生成的各个方面，包括模型处理不同编程语言的能力以及完成长期存储库级任务的能力。

例如，Codestral 22B 在这些基准上的表现突显了其在生成Python和SQL代码等其他语言方面的优势。该模型广泛的上下文窗口（32k tokens）使其在需要长期理解和完成的任务中胜过竞争对手。像 HumanEval 这样的指标评估了模型为问题生成正确代码解决方案的能力，而 RepoBench 评估了模型在存储库级代码完成中的表现。准确的性能指标对开发人员在选择合适的人工智能工具时至关重要。它们可以揭示模型在各种条件和任务下的表现，确保开发人员可以依赖这些工具进行高质量的代码生成。了解和比较这些指标可以帮助开发人员做出明智的决策，从而实现更有效和高效的编码工作流程。

Mistral AI: Codestral 22B

Mistral AI 开发了 Codestral 22B，这是一种先进的开放式生成式人工智能模型，专门设计用于代码生成任务。Mistral AI 公司推出了这个模型，作为其赋予开发人员权力和民主化编码倡议的一部分。该公司创建了其第一个代码模型，以帮助开发人员通过共享指令和完成 API 端点高效地编写和交互代码。为了提供一个不仅精通代码生成，而且在理解英语方面也表现出色的工具，Codestral 的开发需求推动了其开发，使其适用于为软件开发人员设计先进的人工智能应用程序。

主要特点和功能

Codestral 22B 拥有几个关键特点，使其脱颖而出于其他代码生成模型之上。这些特点确保开发人员可以在各种编码环境和项目中利用该模型的能力，显著提高他们的生产力并减少错误。

上下文窗口

Codestral 22B 的一个显著特点是其广泛的 32k 令牌上下文窗口，与其竞争对手相比显著更大，例如 CodeLlama 70B、DeepSeek Coder 33B 和 Llama 3 70B，它们分别提供 4k、16k 和 8k 令牌的上下文窗口。这个大的上下文窗口使 Codestral 能够在更长的代码序列中保持连贯性和上下文，特别适用于需要全面理解大型代码库的任务。这种能力对于长距离存储库级别的代码完成至关重要，正如其在 RepoBench 基准测试中的卓越表现所证明的那样。

语言熟练度

Codestral 22B 在涵盖 80 多种编程语言的多样化数据集上进行了训练。这个广泛的语言基础包括流行的语言，如 Python、Java、C、C++、JavaScript 和 Bash，以及更具体的语言，如 Swift 和 Fortran。这种广泛的训练使 Codestral 能够在各种编码环境中帮助开发人员，使其成为各种项目的多功能工具。它在多种语言上的熟练度确保它可以生成高质量的代码，无论使用的是哪种语言。

填充中间机制

Codestral 22B 的另一个显著特点是其填充中间 (FIM) 机制。这个机制允许模型通过生成缺失部分来准确完成部分代码段。它可以完成编码函数、编写测试，并填补代码中的任何空白，从而节省开发人员大量的时间和精力。这个特点增强了编码效率，有助于减少错误和漏洞的风险，使编码过程更加流畅和可靠。

性能亮点

Codestral 22B 在代码生成模型的性能和延迟空间中树立了新的标准。它在各种基准测试中表现优异，显示出其有效处理复杂编码任务的能力。在 Python 的 HumanEval 基准测试中，Codestral 实现了令人印象深刻的通过率，展示了其生成功能性和准确代码的能力。它还在 MBPP 清洁通过和 CruxEval 的 Python 输出预测中表现出色，进一步巩固了其作为顶尖模型的地位。

除了其 Python 的能力外，Codestral 的性能还在使用 Spider 基准测试的 SQL 中进行了评估，结果也显示出色。此外，它在多个 HumanEval 基准测试中进行了测试，涵盖了 C++、Bash、Java、PHP、TypeScript 和 C# 等多种语言，始终取得高分。它在 Python、JavaScript 和 Java 中的填充中间性能尤为显著，优于 DeepSeek Coder 33B 等模型。

这些性能亮点突显了 Codestral 22B 在各种语言和基准测试中生成高质量代码的能力，使其成为开发人员寻求提高编码生产力和准确性的宝贵工具。

Comparative Analysis

AI驱动的代码生成中，基准测试是评估模型性能的关键指标。对Codestral 22B、CodeLlama 70B、DeepSeek Coder 33B和Llama 3 70B进行了评估，以确定它们在生成准确高效代码方面的有效性。这些基准测试包括HumanEval、MBPP、CruxEval-O、RepoBench和Spider for SQL。此外，还在多种编程语言（如C++、Bash、Java、PHP、Typescript和C#）上对模型进行了HumanEval测试，以提供全面的性能概述。

Python性能

Python仍然是编码和人工智能开发中最重要的语言之一。评估Python中代码生成模型的性能，可以清晰地展现它们的实用性和效率。

HumanEval

HumanEval是一个旨在通过评估AI模型解决人类编写的编程问题的能力来测试代码生成能力的基准测试。Codestral 22B在HumanEval上表现出色，通过率达到81.1%，展示了其在生成准确的Python代码方面的高效能。相比之下，CodeLlama 70B达到了67.1%的通过率，DeepSeek Coder 33B达到了77.4%，Llama 3 70B达到了76.2%。这表明Codestral 22B在处理Python编程任务方面比其竞争对手更有效。

MBPP

MBPP（多基准编程问题）基准测试评估模型解决多样化和经过清理的编程问题的能力。Codestral 22B在MBPP中表现出78.2%的成功率，略低于得分80.2%的DeepSeek Coder 33B。CodeLlama 70B和Llama 3 70B分别显示出70.8%和76.7%的竞争力。Codestral在MBPP中的良好表现反映了其在多样化数据集上的强大训练。

CruxEval-O

CruxEval-O是一个用于评估模型准确预测Python输出能力的基准测试。Codestral 22B达到了51.3%的通过率，表明其在输出预测方面表现出色。CodeLlama 70B得分47.3%，而DeepSeek Coder 33B和Llama 3 70B分别得分49.5%和26.0%。这表明Codestral 22B在预测Python输出方面优于其他模型。

RepoBench

RepoBench评估长期存储库级代码完成。具有32k上下文窗口的Codestral 22B在此项任务中表现显著，完成率达34.0%。而CodeLlama 70B、DeepSeek Coder 33B和Llama 3 70B的完成率分别为11.4%、28.4%和18.4%。Codestral 22B更大的上下文窗口为其完成长期代码生成任务提供了明显优势。

SQL基准测试：Spider

Spider基准测试评估SQL生成能力。Codestral 22B在Spider中取得了63.5%的成功率，超过了竞争对手。CodeLlama 70B得分37.0%，DeepSeek Coder 33B得分60.0%，Llama 3 70B得分67.1%。这表明Codestral 22B在SQL代码生成方面表现出色，使其成为数据库管理和查询生成的多功能工具。

通过分析这些基准测试，显而易见，Codestral 22B在Python中表现出色，并在各种编程语言中具有竞争力，使其成为开发人员多功能而强大的工具。

如何访问Codestral？

您可以按照以下简单步骤使用Codestral。

使用聊天窗口

1. 创建账户访问此链接https://chat.mistral.ai/chat并创建您的账户。![img](https://cdn.analyticsvidhya.com/wp-content/uploads/2024/05/Screenshot-329.png)
2. 选择模型您将在屏幕上看到一个类似聊天窗口的界面。如果仔细观察，您会发现在提示框下方有一个下拉菜单，您可以在其中选择要使用的模型。在这里，我们将选择Codestral。
3. 提供提示第3步：选择Codestral后，您就可以提供您的提示了。

使用Codestral API

Codestral 22B提供了一个共享指令和完成API端点，允许开发人员以编程方式与模型进行交互。此API使开发人员能够在其应用程序和工作流程中利用模型的能力。

在本节中，我们将演示如何使用Codestral API为scikit-learn中的线性回归模型生成代码，以及使用填充中间机制完成句子。首先，您需要生成 API 密钥。要做到这一点，请在 https://console.mistral.ai/codestral 创建一个帐户，并在 Codestral 部分生成您的 API 密钥。

由于它正在逐步推出，您可能无法立即使用它。

代码实现

import requests
import json
# 用您实际的 API 密钥替换
API_KEY = userdata.get('Codestral_token')
# 您想要访问的端点
url = "https://codestral.mistral.ai/v1/chat/completions"
# 您想要发送的数据
data = {
   "model": "codestral-latest",
   "messages": [
       {"role": "user", "content": "使用 scikit learn 编写带有缩放的线性回归模型的代码，您可以从 sklearn 库中选择糖尿病数据集。"}
   ]
}
# 请求的标头
headers = {
   "Authorization": f"Bearer {API_KEY}",
   "Content-Type": "application/json"
}
# 进行 POST 请求
response = requests.post(url, data=json.dumps(data), headers=headers)
# 打印响应
print(response.json()['choices'][0]['message']['content'])

输出:

我在 Colab Notebook 上使用 API 生成了一些关于 Codestral 的响应，您可以参考一下。使用 API，我生成了一个完全可运行的回归模型代码，您只需在输出中做一些小的更改后就可以直接运行。

结论

Mistral AI 的 Codestral 22B 是 AI 驱动的代码生成中的一个关键工具，展现出在多个基准测试中的出色性能，如 HumanEval、MBPP、CruxEval-O、RepoBench 和 Spider。其 32k 令牌的大上下文窗口和对超过 80 种编程语言（包括 Python、Java、C++ 等）的精通使其脱颖而出。该模型先进的填充中间机制以及对流行开发环境（如 VSCode、JetBrains、LlamaIndex 和 LangChain）的无缝集成增强了其可用性和效率。

开发者社区的积极反馈凸显了其对提高生产力、减少错误和简化编码工作流程的影响。随着 AI 的不断发展，Codestral 22B 的全面功能和强大性能使其成为开发人员优化编码实践、应对复杂软件开发挑战的不可或缺的资产。