我要投稿

开源 LLM 监控工具和平台

发布日期：2024-04-19 06:44:40 浏览次数： 2770 作者：PyTorch研习社

人工智能正在改变世界，它取得重大进展的一个领域是生成模型，特别是在 GPT-3 和 Transformer 模型等大型语言模型 (LLM) 领域。然而，尽管这些模型令人印象深刻，但管理、监控和理解它们的行为和输出仍然是一个挑战。LLMOps 是一个专注于 LLM 管理和部署的新领域，其中一个关键方面是 LLM 可观察性。

什么是LLM可观察性？

LLM 可观察性（LLM Observability）是指从 LLM 的外部输出中理解、监控和推断其内部状态的能力。它涵盖多个领域，包括模型健康监控、性能跟踪、调试以及评估模型公平性和安全性。

在 LLMOps 的背景下，LLM 可观察性至关重要。LLM 很复杂，而且可能是不可预测的，产生的输出范围从无害到潜在有害或有偏见。因此，必须拥有正确的工具和方法来在训练、测试和部署后实时观察和理解这些模型的行为。

LLM 可观测性解决方案的预期功能

模型表现监控：可观测性解决方案应该能够实时跟踪和监控 LLM 的表现。这包括跟踪准确度、精确度、召回率和 F1 分数等指标，以及更具体的指标，例如语言模型中的困惑度或标记成本。

模型健康状况监控：解决方案应该能够监控模型的整体健康状况，识别模型行为中的异常或潜在问题模式并发出警报。

调试和错误跟踪：如果出现问题，解决方案应提供调试和错误跟踪功能，帮助开发人员识别、跟踪和修复问题。

公平性、偏见和安全性评估：考虑到人工智能中可能存在偏见和道德问题，任何可观测性解决方案都应包含评估公平性和安全性的功能，有助于确保模型的输出公正且符合道德规范。

可解释性：LLM 通常可能是“黑匣子”，产生没有明确推理的输出。良好的可观察性解决方案应有助于使模型的决策过程更加透明，从而深入了解产生特定输出的原因。

与现有 LLMOps 工具集成：最后，该解决方案应该能够与现有 LLMOps 工具和工作流程集成，从模型开发和训练到部署和维护。

LLM 可观测性是生成 AI 的 LLMOps 的一个重要方面。它提供了有效管理、部署和维护大型语言模型所需的可见性和控制，确保它们按预期执行、没有偏见并且使用安全。

开源 LLM 监控工具和平台

Azure OpenAI Logger

https://github.com/aavetis/azure-openai-logger

适用于 Azure OpenAI 实例的“Batteries included”日志记录解决方案。
Deepchecks

https://github.com/deepchecks/deepchecks

机器学习模型和数据的持续验证测试。Deepchecks 是一个 Python 包，用于以最小的努力全面验证你的机器学习模型和数据。
Evidently

https://github.com/evidentlyai/evidently

评估和监控机器学习模型从验证到生产的整个过程。
Giskard

https://github.com/Giskard-AI/giskard

专用于机器学习模型的测试框架。仅用 4 行代码就可以检测偏差风险、性能问题和错误。
whylogs

https://github.com/whylabs/whylogs

数据记录的开放标准。
lunary

https://github.com/lunary-ai/lunary

LLM 的生产工具包。可观察性、及时管理和评估。
openllmetry

https://github.com/traceloop/openllmetry

基于 OpenTelemetry 的 LLM 应用程序的开源监控工具。
phoenix(Arize AI)

https://github.com/Arize-ai/phoenix

AI 监控和评估：在 notebook 中评估、排除故障并微调你的 LLM、CV 和 NLP 模型。
langfuse

https://github.com/langfuse/langfuse

开源LLM工程平台。可观察性、指标、评估、提示管理 SDK + Typescript、Python 集成。
LangKit

https://github.com/whylabs/langkit

用于监控 LLM 的开源工具包。从提示和响应中提取信号，确保安全。功能包括文本质量、相关性指标和情感分析。LLM 可观察性的综合工具。
agentops

https://github.com/AgentOps-AI/agentops

用于 agent 评估和监控的 Python SDK。
pezzo

https://github.com/pezzolabs/pezzo

开源、开发人员优先的 LLMOps 平台旨在简化提示设计、版本管理、即时交付、协作、故障排除、可观察性等。
Fiddler AI

https://github.com/fiddler-labs/fiddler-auditor

评估、监控、分析和改进从预生产到生产的机器学习和生成模型。将更多 ML 和 LLM 投入生产，并监控 ML 和 LLM 指标，例如幻觉、PII 和毒性。
OmniLog

https://github.com/Theodo-UK/OmniLog

LLM 提示的可观察性工具。