微信扫码
与创始人交个朋友
我要投稿
人工智能正在改变世界,它取得重大进展的一个领域是生成模型,特别是在 GPT-3 和 Transformer 模型等大型语言模型 (LLM) 领域。然而,尽管这些模型令人印象深刻,但管理、监控和理解它们的行为和输出仍然是一个挑战。LLMOps 是一个专注于 LLM 管理和部署的新领域,其中一个关键方面是 LLM 可观察性。
什么是LLM可观察性?
LLM 可观察性(LLM Observability)是指从 LLM 的外部输出中理解、监控和推断其内部状态的能力。它涵盖多个领域,包括模型健康监控、性能跟踪、调试以及评估模型公平性和安全性。
在 LLMOps 的背景下,LLM 可观察性至关重要。LLM 很复杂,而且可能是不可预测的,产生的输出范围从无害到潜在有害或有偏见。因此,必须拥有正确的工具和方法来在训练、测试和部署后实时观察和理解这些模型的行为。
LLM 可观测性解决方案的预期功能
模型表现监控:可观测性解决方案应该能够实时跟踪和监控 LLM 的表现。这包括跟踪准确度、精确度、召回率和 F1 分数等指标,以及更具体的指标,例如语言模型中的困惑度或标记成本。
模型健康状况监控:解决方案应该能够监控模型的整体健康状况,识别模型行为中的异常或潜在问题模式并发出警报。
调试和错误跟踪:如果出现问题,解决方案应提供调试和错误跟踪功能,帮助开发人员识别、跟踪和修复问题。
公平性、偏见和安全性评估:考虑到人工智能中可能存在偏见和道德问题,任何可观测性解决方案都应包含评估公平性和安全性的功能,有助于确保模型的输出公正且符合道德规范。
可解释性:LLM 通常可能是“黑匣子”,产生没有明确推理的输出。良好的可观察性解决方案应有助于使模型的决策过程更加透明,从而深入了解产生特定输出的原因。
与现有 LLMOps 工具集成:最后,该解决方案应该能够与现有 LLMOps 工具和工作流程集成,从模型开发和训练到部署和维护。
LLM 可观测性是生成 AI 的 LLMOps 的一个重要方面。它提供了有效管理、部署和维护大型语言模型所需的可见性和控制,确保它们按预期执行、没有偏见并且使用安全。
开源 LLM 监控工具和平台
Azure OpenAI Logger
https://github.com/aavetis/azure-openai-logger
适用于 Azure OpenAI 实例的“Batteries included”日志记录解决方案。
Deepchecks
https://github.com/deepchecks/deepchecks
机器学习模型和数据的持续验证测试。Deepchecks 是一个 Python 包,用于以最小的努力全面验证你的机器学习模型和数据。
Evidently
https://github.com/evidentlyai/evidently
评估和监控机器学习模型从验证到生产的整个过程。
Giskard
https://github.com/Giskard-AI/giskard
专用于机器学习模型的测试框架。仅用 4 行代码就可以检测偏差风险、性能问题和错误。
whylogs
https://github.com/whylabs/whylogs
数据记录的开放标准。
lunary
https://github.com/lunary-ai/lunary
LLM 的生产工具包。可观察性、及时管理和评估。
openllmetry
https://github.com/traceloop/openllmetry
基于 OpenTelemetry 的 LLM 应用程序的开源监控工具。
phoenix(Arize AI)
https://github.com/Arize-ai/phoenix
AI 监控和评估:在 notebook 中评估、排除故障并微调你的 LLM、CV 和 NLP 模型。
langfuse
https://github.com/langfuse/langfuse
开源LLM工程平台。可观察性、指标、评估、提示管理 SDK + Typescript、Python 集成。
LangKit
https://github.com/whylabs/langkit
用于监控 LLM 的开源工具包。从提示和响应中提取信号,确保安全。功能包括文本质量、相关性指标和情感分析。LLM 可观察性的综合工具。
agentops
https://github.com/AgentOps-AI/agentops
用于 agent 评估和监控的 Python SDK。
pezzo
https://github.com/pezzolabs/pezzo
开源、开发人员优先的 LLMOps 平台旨在简化提示设计、版本管理、即时交付、协作、故障排除、可观察性等。
Fiddler AI
https://github.com/fiddler-labs/fiddler-auditor
评估、监控、分析和改进从预生产到生产的机器学习和生成模型。将更多 ML 和 LLM 投入生产,并监控 ML 和 LLM 指标,例如幻觉、PII 和毒性。
OmniLog
https://github.com/Theodo-UK/OmniLog
LLM 提示的可观察性工具。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-04-26
2024-08-13