我要投稿

微软开源的统一大模型评估框架

发布日期：2024-04-11 23:37:14 浏览次数： 2212 来源：GitHub精选

背景介绍

在自然语言处理 (NLP) 领域，大型语言模型（如 GPT-4、BERT 等）已经被广泛的应用。然而，如何快速、有效的评估这些大型语言模型的性能并不是一个容易的问题。存在以下几个挑战：第一，公开的评估方法过于分散，导致研究者在不同的库、框架中反复切换；第二，缺少全面并且可扩展的工具库去实现从构建模型、加载数据集到评估模型性能的一站式服务；第三，缺乏对模型生成样本复杂性的动态控制。

今天要给大家推荐一个 GitHub 开源项目 microsoft/promptbench，该项目在 GitHub 有超过 1.4k Star，用一句话介绍该项目就是：“A unified evaluation framework for large language models”。

项目介绍

PromptBench 是一个统一的大型语言模型评估框架，由微软开源。该项目使用 Pytorch 构建，提供用户友好的 API，方便研究人员进行语言模型的评估。主要包含以下几个特点：

• 快速评估模型性能：PromptBench 提供了一个友好的接口，用于快速构建模型，加载数据集，并进行性能评估。
• 提供各种Prompt Engineering 方法：包括 Few-shot Chain-of-Thought、Emotion Prompt、Expert Prompting 等。
• 集成 adversarial prompts：PromptBench 集成了一种广泛应用的攻击技巧 (https://arxiv.org/abs/2306.04528)，研究人员可以模拟模型的黑盒 adversarial prompt 攻击，并评估其鲁棒性。
• 动态评估以减轻潜在的测试数据污染：该项目还集成了动态评估框架 DyVal，可以实现对生成样本复杂性的动态控制。

如何使用

项目已经提供 Python 的 pip 安装方式，只需要执行一行命令即可：pip install promptbench。此外，你也可以通过 Github 克隆项目进行本地安装和使用。安装后，你可以直接在代码中引入 promptbench 包进行使用。例如：

import promptbench as pb

项目在使用文档中提供了详细的例子，包括如何在已有的基准上评估模型，如何测试不同的提示技术的效果，如何使用 DyVal 进行评估等等。

以下是该项目 Star 趋势图（代表项目的活跃程度）：

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

一文带你了解大模型——智能体（Agent）

2024-05-28

更改ollama模型存储路径

2024-04-25

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

大模型+安全实践之春天何时到来？

2024-12-25

还在吐槽 o1 降智？OpenAI最新提示指南来了！试试看？

2024-12-25

大模型的泡沫什么时候破灭？

2024-12-24

除了混合搜索，RAG 还需要哪些基础设施能力？

2024-12-24

大模型时代的软件工程教育，路在何方？

2024-12-24

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

2024-12-24

如何从头建立一个通用AI智能体应用？

2024-12-22

构建行业RAG应用系统：金融、财务、保险、医疗等行业该怎么做？

2024-12-21

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

背景介绍

项目介绍

如何使用

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

万字长文解析：大模型需要怎样的硬件算力

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

一文带你了解大模型——智能体（Agent）

更改ollama模型存储路径

最强 GPT 免费使用！GPT4O 开启多模态新时代！

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

本地部署大模型？看这篇就够了，Ollama 部署和实战

全面对比dify、coze、streamlit、chainlit

大家都在问

大模型+安全实践之春天何时到来？

还在吐槽 o1 降智？OpenAI最新提示指南来了！试试看？

大模型的泡沫什么时候破灭？

除了混合搜索，RAG 还需要哪些基础设施能力？

大模型时代的软件工程教育，路在何方？

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

如何从头建立一个通用AI智能体应用？

构建行业RAG应用系统：金融、财务、保险、医疗等行业该怎么做？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

背景介绍

项目介绍

如何使用

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

万字长文解析：大模型需要怎样的硬件算力

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

一文带你了解大模型——智能体（Agent）

更改ollama模型存储路径

最强 GPT 免费使用！GPT4O 开启多模态新时代！

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

本地部署大模型？看这篇就够了，Ollama 部署和实战

全面对比dify、coze、streamlit、chainlit

大家都在问

大模型+安全实践之春天何时到来？

还在吐槽 o1 降智？OpenAI最新提示指南来了！试试看？

大模型的泡沫什么时候破灭？

除了混合搜索，RAG 还需要哪些基础设施能力？

大模型时代的软件工程教育，路在何方？

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

如何从头建立一个通用AI智能体应用？

构建行业RAG应用系统：金融、财务、保险、医疗等行业该怎么做？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示