我要投稿

BigCodeBench：评估大型语言模型在解决实际且具有挑战性的编程任务上的表现

发布日期：2024-08-06 21:18:58 浏览次数： 2522

作者：Halo咯咯

微信搜一搜，关注“Halo咯咯”

01。

概述

BigCodeBench 是一套易于使用的代码生成基准测试，它包含了实用且具有挑战性的编程任务。它旨在更真实的环境中评估大型语言模型（LLMs）的真正编程能力。该基准测试设计用于类似 HumanEval 的函数级代码生成任务，但包含了更为复杂的指令和多样化的函数调用。为了便于在 BigCodeBench 上对 LLMs 进行评估，我们提供了这个名为 bigcodebench 的 Python 包，其中包含了数据集、生成脚本和评估脚本。该包构建在 EvalPlus 框架之上，这是一个灵活且可扩展的代码生成任务评估框架。

02。

BigCodeBench优势

BigCodeBench 专注于评估 LLM4Code 在多样函数调用和复杂指令下的表现，特点包括：

✨ 精确评估与排名：通过排行榜查看经过严格评估前后的 LLM 最新排名。
✨ 预生成样本：BigCodeBench 通过开源多种模型生成的 LLM 代码样本，加速了代码智能研究——无需重新运行成本高昂的基准测试！

03。

与EvalPlus的区别

BigCodeBench 继承了 EvalPlus 框架的设计，该框架是一个灵活且可扩展的代码生成任务评估框架。然而，BigCodeBench 具有以下不同之处：

执行环境：BigCodeBench 的执行环境相较于 EvalPlus 约束更少，以支持具有多样化库依赖的任务。
测试评估：BigCodeBench 依赖于 unittest 来评估生成的代码，这更适合于 BigCodeBench 中的测试框架。

04。

工作原理

BigCodeBench 为每个任务提供了复杂且以用户为中心的指导，包括清晰的功能描述、输入/输出格式、错误处理以及经过验证的交互示例。该平台避免使用逐步任务指导，相信有能力的 LLMs 应该能够从用户的角度以开放式的方式理解和解决任务。通过测试用例来验证特定功能。

# We elaborate the above task with some test cases:
# Requirements SetUpimport unittestfrom unittest.mock import patchimport http.clientimport sslimport socket
# Start the testclass TestCases(unittest.TestCase):
# Mock the successful connection and assess the response content@patch('http.client.HTTPSConnection')def test_response_content(self, mock_conn):""" Test the content of the response. """mock_conn.return_value.getresponse.return_value.read.return_value = b'Expected Content'result = task_func('www.example.com', 443, '/content/path')self.assertEqual(result, 'Expected Content')
# Mock the failed connection and assess the error handling@patch('socket.create_connection')@patch('http.client.HTTPSConnection')def test_ssl_handshake_error_handling(self, mock_conn, mock_socket):""" Test handling of SSL handshake errors. """mock_socket.side_effect = ssl.SSLError('SSL handshake failed')with self.assertRaises(ssl.SSLError):task_func('badssl.com', 443, '/test/path')
# More test cases...

BigCodeBench 中的任务广泛采用了流行库中的多样化函数调用。不对 LLMs 可使用的函数调用加以限制，而是期待它们能够恰当选择功能并灵活组合，以应对各项任务。测试用例被构建为测试框架，旨在运行时检验程序预期的行为表现。

在评估 LLM 性能方面，采用了 Pass@1 方法结合贪婪解码策略，通过精心挑选的测试用例来测定首次生成代码片段正确解决问题的比例。这一方法与 HumanEval 和 MBPP 等基准测试相契合。为了应对 LLMs 在处理长代码提示时可能存在的忽略问题，通过在 Pass@1 评估阶段补充必要的设置（如导入语句、全局常量），这种评估方式被称为校准后的 Pass@1。

为了深入理解实现的复杂性以及工具使用的多样性，BigCodeBench 与包括 APPS、DS-1000、ODEX、APIBench、MBPP、NumpyEval、PandasEval、HumanEval 和 TorchDataEval 等代表性基准测试中的任务进行了比较。结果显示，BigCodeBench 在实现全面功能方面需要更复杂的推理和问题解决能力。

如图中所示的任务，主要目标场景是代码补全（标记为 BigCodeBench-Complete），在此场景中，LLMs 需要根据文档字符串中详细的指令完成函数的实现。然而，考虑到下游应用，例如多轮对话，用户可能会以更会话化、更简洁的方式描述需求。这正是经过指令调整的 LLMs 显示出优势的地方，因为它们被训练以遵循自然语言指令并相应生成代码片段。为了测试模型是否真正理解人类的意图并将其转化为代码，我们创建了 BigCodeBench-Instruct，这是一个更具挑战性的 BigCodeBench 变体，旨在评估经过指令调整的 LLMs。

BigCodeBench 通过一个系统的“人机协作流程”来确保任务的质量。该流程以 ODEX 作为“种子数据集”，它包含了简短但实际的人类意图和来自 Stack Overflow 的相应 Python 单行代码。利用 GPT-4 将这些单行代码扩展为全面的函数级任务。

接下来，20 名具有超过 5 年 Python 编程经验的人类专家自愿在基于执行的沙盒中指导 GPT-4。他们持续指导 GPT-4 完善合成的任务并添加测试用例。然后，在本地环境中检查这些任务和测试用例，在其他 LLMs 上进行预评估，并由另外 7 名人类专家交叉检查以确保其质量。

为了确认整体质量，作者选取任务样本给 11 名人类专家解决，实现了平均 97% 的人类表现水平。

05。

BigCodeBench排行榜

有趣的是，观察到像 GPT-4 这样的经过指令调整的大型语言模型（LLMs）在 BigCodeBench-Complete 的长提示中可能会省略必要的导入语句，导致因缺少模块和常量而任务失败。这种行为被称为“模型懒惰”，在社区中有所讨论。

与人类的表现相比，LLMs 在 BigCodeBench-Complete 上的表现显著较低，而在 BigCodeBench-Instruct 上的表现甚至更低。最佳模型（GPT-4o）在 BigCodeBench-Complete 上的校准 Pass@1 达到了 61.1%，在 BigCodeBench-Instruct 上达到了 51.1%。此外，封闭和开放的 LLMs 之间存在显著的性能差距。

虽然 Pass@1 是衡量整体性能的一个好指标，但它不足以详细到可以直接比较模型。受 Chatbot Arena 的启发，我们在 BigCodeBench-Complete 上使用 Elo 评分来对模型进行排名。这种方法最初用于国际象棋，根据比赛表现对选手进行排名。我们将其适应于编程任务，将每个任务视为一场比赛，每个模型视为一个选手。Elo 评分的更新基于比赛结果和预期，使用任务级别的校准 Pass@1（0% 或 100%），并排除平局。从初始 Elo 评分 1000 开始，我们使用最大似然估计并自举 500 次迭代来获得最终得分。我们发现 GPT-4o 以较大优势超越其他模型，DeepSeekCoder-V2 位于第二梯队。

为了帮助社区了解每个任务上的模型性能，我们跟踪解决率，以校准 Pass@1 来衡量。在 BigCodeBench-Complete 上，有 149 个任务所有模型都未能解决，而有 6 个任务被完全解决。对于 BigCodeBench-Instruct，有 278 个任务仍未解决，14 个任务被所有模型完全解决。大量未解决的任务和少量完全解决的任务表明，BigCodeBench 对 LLMs 来说是一个具有挑战性的基准测试。

06。

快速开始

BigCodeBench 通过提供一个简单易用的评价框架，使社区能够轻松访问，该框架可以通过 PyPI 下载。评价框架的原型基于 EvalPlus，用于 HumanEval+ 和 MBPP+ 基准测试。然而，由于基准测试任务比 EvalPlus 拥有更多样的库依赖，因此构建了一个资源限制较少的执行环境，并将其适配到 BigCodeBench 的测试框架中的 unittest。

为了便于评估，BigCodeBench 提供了预先构建的 Docker 镜像，用于代码生成和代码执行。请访问我们的 GitHub 仓库，以获取有关如何使用评价框架的更多详细信息。

开始之前，请先设置环境：

# Install to use bigcodebench.evaluatepip install bigcodebench --upgrade# If you want to use the evaluate locally, you need to install the requirementspip install -I -r https://raw.githubusercontent.com/bigcode-project/bigcodebench/main/Requirements/requirements-eval.txt
# Install to use bigcodebench.generate# You are strongly recommended to install the generate dependencies in a separate environmentpip install bigcodebench[generate] --upgrade

建议使用flash-attn来生成代码示例。

pip install -U flash-attn

要从模型生成代码示例，可以使用以下命令：

bigcodebench.generate \--model [model_name] \--subset [complete|instruct] \--greedy \--bs [bs] \--temperature [temp] \--n_samples [n_samples] \--resume \--backend [vllm|hf|openai|mistral|anthropic|google] \--tp [gpu_number] \[--trust_remote_code] \[--base_url [base_url]]

生成的代码样本将存储在一个名为 [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples].jsonl 的文件中。或者，可以使用以下命令来利用我们预先构建的 Docker 镜像来生成代码样本：

# If you are using GPUsdocker run --gpus '"device=$CUDA_VISIBLE_DEVICES"' -v $(pwd):/app -t bigcodebench/bigcodebench-generate:latest \--model [model_name] \ --subset [complete|instruct] \[--greedy] \--bs [bs] \ --temperature [temp] \--n_samples [n_samples] \--resume \--backend [vllm|hf|openai|mistral|anthropic|google] \--tp [gpu_number]
# ...Or if you are using CPUsdocker run -v $(pwd):/app -t bigcodebench/bigcodebench-generate:latest \--model [model_name] \ --subset [complete|instruct] \[--greedy] \--bs [bs] \ --temperature [temp] \--n_samples [n_samples] \--resume \--backend [vllm|hf|openai|mistral|anthropic|google]

# If you wish to use gated or private HuggingFace models and datasetsdocker run -e HUGGING_FACE_HUB_TOKEN=$token -v $(pwd):/app -t bigcodebench/bigcodebench-generate:latest # omit other arguments4
# Similarly, to use other backends that require authenticationdocker run -e OPENAI_API_KEY=$OPENAI_API_KEY -v $(pwd):/app -t bigcodebench/bigcodebench-generate:latest # omit other argumentsdocker run -e GOOGLE_API_KEY=$OPENAI_API_KEY -v $(pwd):/app -t bigcodebench/bigcodebench-generate:latest # omit other argumentsdocker run -e ANTHROPIC_KEY=$ANTHROPIC_KEY -v $(pwd):/app -t bigcodebench/bigcodebench-generate:latest # omit other arguments

LLM 生成的文本可能无法包含自然语言行或不完整的额外代码的可编译代码。我们提供了一个名为 bigcodebench.sanitize 的工具来清理代码：

# ? If you want to get the calibrated results:bigcodebench.sanitize --samples samples.jsonl --calibrate# Sanitized code will be produced to `samples-sanitized-calibrated.jsonl`
# ? If you want to get the original results:bigcodebench.sanitize --samples samples.jsonl# Sanitized code will be produced to `samples-sanitized.jsonl`
# ? If you are storing codes in directories:bigcodebench.sanitize --samples /path/to/vicuna-[??]b_temp_[??]# Sanitized code will be produced to `/path/to/vicuna-[??]b_temp_[??]-sanitized`

强烈建议您使用沙箱，例如docker：

# Mount the current directory to the containerdocker run -v $(pwd):/app bigcodebench/bigcodebench-evaluate:latest --subset [complete|instruct] --samples samples-sanitized-calibrated# ...Or locally ⚠️bigcodebench.evaluate --subset [complete|instruct] --samples samples-sanitized-calibrated# ...If the ground truth is working locally (due to some flaky tests)bigcodebench.evaluate --subset [complete|instruct] --samples samples-sanitized-calibrated --no-gt

07。

下一步计划

BigCodeBench团队分享了一个长期路线图，旨在克服 BigCodeBench 的局限，并与社区携手实现持续发展。目标是为社区提供最开放、可靠和可扩展的评估工具，以深入理解大型语言模型（LLMs）在编程方面的根本能力，并精确定位释放其潜力的途径。具体来说，计划对 BigCodeBench 以下几个方面进行增强：

多语言支持：目前，BigCodeBench 仅支持 Python 语言，并且难以扩展至其他编程语言。鉴于函数调用通常与特定语言绑定，在非 Python 语言中寻找具有相同功能的包或库存在挑战。
严谨性：尽管 BigCodeBench 在真实解决方案上实现了高测试覆盖率，但这并不足以保证所有由 LLMs 生成的代码解决方案都能正确地根据现有测试用例进行评估。先前的研究如 EvalPlus 尝试通过利用 LLM 和变异策略来增加输入输出对，以扩展有限的测试用例。然而，将 EvalPlus 适配到 BigCodeBench 的测试框架中面临挑战。EvalPlus 着重于输入输出断言，而 BigCodeBench 中的大多数测试框架在运行时检查预期程序行为时需要进行非平凡的配置（例如，模拟补丁）。
泛化能力：关键问题在于模型对未见工具和任务的泛化能力如何。目前，BigCodeBench 覆盖了常用库和日常编程任务。在基准测试中使用新兴库如 transformers 和 langchain 对模型进行评估将更具吸引力。
演化性：库可能会变得过时或更新，这意味着模型训练所用的源代码数据将持续演变。模型可能不会记忆已弃用的库版本的函数调用，这对于任何依赖工具的编程基准测试来说，要正确评估模型能力而不进行定期更新是一个挑战。另一个相关问题是，由于训练数据的演变，测试集可能会受到污染。
交互性：近期的研究兴趣集中在将 LLMs 作为代理的概念上，这被视为通向人工通用智能的一条路径。具体来说，LLMs 将在一个较少约束的沙盒环境中运行，它们可以与网络浏览器和终端等应用程序进行交互。这种环境有助于发掘自我调试和自我反思等能力。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业