微信扫码
与创始人交个朋友
我要投稿
这是一场关于如何最大化地提高大型语言模型性能的分享。John Allard和Colin分别介绍了不同的技术,包括提示工程、检索增强生成(RAG)和微调等,以及如何将这些技术应用到实际问题中。
John首先介绍了自己在OpenAI微调产品团队的工作,并提到了微调的一些进展,如函数调用数据的微调、持续微调和平台内全UI微调。他还提到了与不同规模的开发者合作的经验,以及他们如何使用LLM解决各种问题。
Colin接着讨论了优化LLM的难点,包括难以从噪声中分离信号、性能难以衡量以及难以确定解决问题的方法。他强调了建立问题框架的重要性,并介绍了用于解决问题的工具。
演讲中提到,优化LLM性能并不总是线性的,有时需要结合使用提示工程、RAG和微调。提示工程是开始的好地方,可以快速测试和学习。RAG允许模型访问特定领域的内容,而微调则可以强化模型遵循一致指令的能力。
客户需求1:
客户需求2:
解决方案:
1. 首先,我们用最简单的方法,比如余弦相似性,寻找类似问题的SQL查询,进行问题相似性搜索。
我们测试了不同的嵌入和提示工程,但结果不太好。后来,我们意识到不同的数据库模式对问题的答案可能完全不同。
2. 所以针对一个问题进行相似性搜索意义不大,但用预设答案进行搜索可能效果更好。
我们使用预设的文档嵌入,生成一个假设的SQL查询进行相似性搜索,性能大大提升。对于这个特定问题,我们尝试了上下文检索,通过简单过滤将问题按难度排名,只带回同等难度的例子,这带来了改进。
我们还尝试了一些先进技术,比如链式推理,让系统识别列、表,最后构建查询。但我们决定采用更简单的方法进行自我一致性检查,让系统构建查询并运行,出错时给出提示,再次尝试。
3. 我们从69%开始,然后添加了一些示例,得到了几个改进点,这表明RAG可以进一步改进。
我们尝试这个问题,看到性能提升了3%,然后使用答案,假设的文档嵌入使我们进一步提升了5%。
4. 我们决定试试微调,看能否更进一步。先建立了我们的基线,与上一张幻灯片里的69%基线一样,使用简单的提示工程技术。
然后,用简单的提示工程对GPT-4进行微调,结果模型准确率提升到接近82%。
1. 我们隔着一条鸿沟远远地观望,我们会以为某件事情很简单
2. 但是当我们建立好评测标准、样本集合,并且实践之后,才会发现有很多原先没考虑到的问题。
3. 当我们解决一个问题之后,会发现指标提高一点(也可能证明不可行),这个过程不是线性的,没有一帆风顺的情况。都是启发式地,碰到问题,然后解决问题。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-26
GraphRAG和轻量级LightRAG技术及应用案例深度解析
2024-12-26
使用 Markdown 和 Gemini 为 RAG 解锁 PDF
2024-12-26
长文 | RAG的实战指南及探索之路
2024-12-26
2024年,百万上下文依然没有杀死RAG
2024-12-26
在推荐、RAG等业务中,如何完成亿级向量的快速检索?
2024-12-25
RAG 工程实践优化点及方法总结
2024-12-25
强化 RAG 应用:生成式 AI 返回准确率提升的高效策略与实践
2024-12-25
RAG开发中,如何用Milvus 2.5 BM25算法实现混合搜索
2024-07-18
2024-05-05
2024-06-20
2024-09-04
2024-05-19
2024-07-09
2024-07-09
2024-07-07
2024-06-13
2024-07-07
2024-12-26
2024-12-24
2024-12-21
2024-12-14
2024-12-01
2024-11-27
2024-11-25
2024-11-06