AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


LLMs Ops 最近关注的几个工具
发布日期:2024-09-09 22:51:34 浏览次数: 1679 来源:Aloea的技术自留地




1
前言

新的AI业务立项了,基于上年AI项目的痛点寻找一批可以快速上手建设产品的工具和服务。原则上是优先开源,一方面是节省成本,包括金钱和人员精力上,另一方面团队去摸一下具体的流程未来才好去评估和采买商用方案。


上年的AI团购助手(解决wx团购的文本整理订单的场景)中我们是完全纯代码实现提示逻辑链路和标准评估,遇到的痛点包括:


  1. 数据集采用飞书文档维护

    1. 数据集的打标和字段更新等费时间,好在总数据量也就几百条,但已经明显占用人力了

    1. 产品、运营、研发间靠口头同步

  2. 提示词+模型的版本管理

    1. 我们的 Log 是完全代码化的,去看测试结果和比对提示词费眼睛,说白了可视化对于审查的价值和很大的

    1. 主要靠代码约束,研发忘记改就是忘了,比如明明修改了提示词但测试数据结果有两个3.2.2版本

  3. 大模型切换不方便导致意愿不强

    1. 其实在去年的时候带来的问题不大,因为市面上商用场景 GPT35 就是性价比最顶的,没有质疑。到今年的情况已经完全不一样了,能看到越来越多切到 Claude 去,包括我们考虑国内的合规审批,要横向对比国内几家的模型。

    1. 每个想测试的模型都要研发接入一遍挺费精力的,结果还是先看圈子里大家怎么说,真的有人顶顶夸才拿来跑一跑。

  4. 评估标准自动化测试

    1. 同样 log 的问题,虽然是做了 summary 的输出,仔细对比 case 还是要回到原始数据集文本里去。比如一版修改后导致17行数据错了,同时18行数据错了,一开始我们是不确定这一版是哪一类型的出错变多了哪一类型的又变少了,后续通过不断对错误类型的定义,完善自动化测试中对错误的分类统计。这一块之前是采用硬编码思路的,放现在我会交给AI做分类,总之是很需要工具化的。

    1. 每次跑一批效果评估测试(50条)数据一个模型大概要十分钟,跑大测试集(200条)数据在半小时,意味着提示工程师调几个case测一下就得等着,头脑处于一种奇怪的异步状态,要不就干脆摸摸鱼等结果返回再继续。

  5. 对于响应延迟和成本的跟踪和评估

    1. 成本跟踪反正肯定是要有的,商业项目总是要算利润率的

    1. 这一块是之前没有的,之前因为 Azure 的服务慢及中间结果的不可靠性,产品流程上是配合技术侧把多部链路拆成独立的用户界面了,说白了中间过程暴露给用户进行修正,即使这样单步也常常在2秒以上。不过这个场景下用户愿意用,只能说我们觉得不够好。现在技术上 Workflow 也有了一定的成熟度,对于每个步骤的时间和成本跟踪对比就很重要了,尤其在 to C 的场景上,用户没什么耐心的情况下,技术和交互都要去考虑优化这块。



另外一些新的可能的需求包括:

  1. 低代码的方式创建和管理AI应用,更多赋能公司内的其他团队

  2. 不同RAG方案的支持

  3. Tool 的丰富性和扩展性



2
LangSmith

https://smith.langchain.com/


主要是一个专注于大型语言模型应用的调试、测试和监控的平台。帮助开发者将 LLM 应用从原型阶段过渡到生产环境,特别是在需要高可靠性和性能的企业级应用中。

  • 提供快速调试新链、代理或工具集的能力。

  • 允许用户评估不同提示和语言模型的效果。

  • 支持在数据集上多次运行给定链,确保质量标准。

  • 捕获使用痕迹,生成洞察。

  • 提供执行复杂推理任务的跟踪能力。

  • 支持批量数据测试与评估。

  • 包含 LangSmith Hub,用于共享和发现优秀的提示模板。


商业协议:未开源



3
Langfuse

https://github.com/langfuse/langfuse


主要是一个监控和分析平台,它提供了可观察性、分析技术、实时监控和优化能力,帮助开发者和运维团队更高效地管理和维护他们的应用。它的核心功能包括:

  • 核心追踪(Core Tracing):详细检查和分析链式应用的每一步。

  • 成本追踪:理解应用的成本和 Token 使用情况,并可以按用户、功能等进行细分。

  • 仪表板:提供应用随时间变化的概览,包括统计和图表。

  • 评估:对新进入的追踪进行全面配置的评估。

  • 数据集:添加追踪到数据集,并准备针对他们的“黄金数据”进行测试。



4
Dify

https://github.com/langgenius/dify


主要是一个大型语言模型(LLM)应用低代码开发平台,它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用,可以作为企业级的 LLM 网关,实现中心化管理。

  • 可视化工作流:通过拖放界面快速创建 AI 应用。

  • 模型支持:支持数百个模型,包括 GPT、Mistral、Llama3 等。

  • 提示词 IDE:直观的界面,用于制作提示词、比较模型性能,并使用附加功能如文本转语音来增强应用。

  • 检索增强生成(RAG)引擎:涵盖从文档提取到检索的所有内容,支持从多种文档格式中提取文本。

  • AI 智能体框架:使用 LLM 函数调用或 ReAct 定义 AI 智能体,并集成预构建或自定义工具。

  • 后端即服务:为所有功能提供相应的 API,方便集成到现有业务逻辑中。

  • 云服务和自托管选项:提供零设置的云服务,同时也支持在任何环境中快速设置的自托管版本


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询