我要投稿

难倒吴恩达的LLM评估，有解吗？

发布日期：2024-07-10 15:34:28 浏览次数： 2215 作者：AI小智

❝
在人工智能领域，评估模型性能和输出质量一直是一个重要且复杂的问题。随着大规模语言模型（LLM）的广泛应用，如何有效评估这些模型的输出变得尤为关键。本文将探讨吴恩达来信中提出的LLM-as-a-Judge的困境，并介绍LangSmith和OpenAI在这一领域的前沿研究和解决方案。

吴恩达提出LLM-as-a-Judge的几点困境

吴恩达老师提出了大语言模型评估的两种主要类型

是非性评估（具备明确的非对即错的响应）
质量性评估（结果只存在好坏程度的标准）

基于以上两类的评估类型，吴恩达提出了使用如下几点困境。

创建用于测量LLM的有标记的测试集成本高昂

在评估LLM性能时，创建一个有标记的测试集是非常必要的。然而，手动标记数据集不仅耗时，而且成本高昂。这对资源有限的团队来说是一个巨大的挑战。

人类专家来评估改进不切实际，高级的LLM评估改进可靠性不够

虽然人类专家可以提供高质量的评估，但在实际操作中，这种方法并不可行。主要原因是专家资源稀缺且昂贵。另一方面，使用高级的LLM进行评估虽然可以降低成本，但其评估结果存在噪声，导致其可靠性仍然存在问题。

实施评估产生的额外token成本及时间成本

每次评估都需要额外消耗大量的计算资源，特别是在处理大规模数据时。这不仅增加了时间成本，还带来了额外的token成本。这对需要频繁评估的团队来说是一个不小的负担。

LangSmith的工程化解法

LangSmith以few-shot和持续于人类对齐作为其理论根基提出了一个新颖的工程化解决方案。即将人类对 LLM-as-a-Judge 输出的纠正存储为 few-shot 示例，然后在未来的迭代中将其反馈到提示中。

其实现的的具体逻辑如下：

基于few-shot提升评估正确率

首先，LangSmith提出了一种基于few-shot学习的方法来提升LLM评估的正确率。通过将少量示例作为输入，模型可以更好地理解评估标准，从而提高评估的准确性。

使用反馈收集作为一种程序化地将LLM评估与人类偏好对齐

其次，LangSmith还引入了反馈收集机制，通过程序化地将LLM评估与人类偏好对齐。具体来说，用户可以对LLM的评估进行修正，这些修正将作为示例反馈给模型，以便在未来的评估中参考。

LangSmith自动化反馈收集流程，并自动化实现持续改进

为了简化操作，LangSmith实现了自动化反馈收集流程。用户在应用中对评估结果进行修正后，这些修正将自动存储并用于未来的评估。这种持续改进的机制使得评估过程更加高效和准确。

OpenAI的前沿研究-CriticGPT

OpenAI也一直在探索LLM评估的新方法。他们开发了一种名为CriticGPT的模型，旨在让AI成为更严苛的评判者，其思路是训练一个专门挑错的模型：

训练模型识别错误

OpenAI让人类标注员在ChatGPT生成的代码里故意植入一些微妙的bug。
标注员扮演代码审查员的角色，写下他们对这些bug的评论。
用这些数据来训练CriticGPT，让它学会如何发现和指出代码中的问题。

对抗训练提升模型能力

在训练过程中，标注员会插入一些隐蔽的bug，并验证这些bug是否能够骗过当前版本的CriticGPT。通过这种方法，CriticGPT被迫不断进化，以便发现越来越隐蔽的问题。

强制采样束搜索（FSBS）

CriticGPT使用了一种称为强制采样束搜索（FSBS）的技术，这种技术可以在生成评论时保持全面性，同时减少“幻觉”和“鸡蛋里挑骨头”现象。这使得CriticGPT能够生成更为准确和有用的评论。

具体来说，FSBS会强制模型生成多个不同的评论片段，用奖励模型对这些片段进行评分，最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子，可以在评论的全面性和准确性之间找到最佳平衡点，既不会错过重要问题，又不会过度挑剔。

结论

评估大规模语言模型的输出质量是一个复杂且重要的任务。LLM-as-a-Judge概念虽然有其困境，但通过LangSmith和OpenAI的前沿研究，我们看到了有效解决这些问题的希望。

LangSmith通过few-shot学习和自动化反馈收集机制，显著提升了评估的准确性和效率。
OpenAI的CriticGPT则通过不断进化和创新技术，帮助人类标注员更好地识别和纠正错误。

这些进展不仅推动了AI评估技术的发展，也为未来的AI应用提供了坚实的基础。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-18

前沿导读 | 基于大模型智能体的出行行为模拟

2025-04-18

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

AI 重要概念科普与热门技术解析

2025-04-18

我对于AI领域商业模式的思考

2025-04-18

大模型落地的六大核心模式总览

2025-04-17

Agent 要被吃进大模型了

2025-04-17

OpenAI：发布 Codex 与收购 Windsurf

2025-04-17

布局“记忆”：AI厂商暗战个性化赛道

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

LLM中的Token和Embedding到底是啥？

2025-04-16

探秘 LLM Agents：ReAct 框架藏着哪些惊喜？

2025-04-13

MCP、Function Calling 有什么区别？与 AI Agent 有什么关系？

2025-04-13

有了MCP，还需要深入研究Agent吗？

2025-04-13

大模型备案详解：哪些企业需要备案？如何高效准备？

2025-04-12

一夜之间，所有AI都会“说普通话”！谷歌A2A协议到底有多猛？

2025-04-12

谁是MCP 的 AI 好搭档？

2025-04-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部