📊

最佳可观测性 Top 20

精选 20 个最受欢迎的开源可观测性项目，按 GitHub Stars 排名。

Kong

43.4k Stars

云原生 API 和 AI 网关，支持 LLM 请求路由、速率限制、负载均衡和可观测性，是 AI Agent 应用的关键基础设施。

observabilityapiagentlua

Prompt Optimizer

28.6k Stars

一款 AI 提示词优化工具，帮助用户编写更高质量的提示词，从而获得更好的 AI 输出效果。

prompt-engineeringevaluationllmtypescript

Langfuse

27.0k Stars

Langfuse 是开源 LLM 可观测性平台，支持 trace、评估、提示词版本管理与成本分析。

observabilitytracingllmanalytics

MLflow

25.9k Stars

MLflow 是开源 AI 工程平台，为 Agent 和 LLM 应用提供调试、评估、监控和优化能力，支持模型与数据访问管理。

mlflowllmopsevaluationobservability

Promptfoo

21.2k Stars

Promptfoo 是面向 LLM 应用与 Agent 的评测与回归测试工具，可批量比较提示词、工具调用结果与模型输出，适合为 Agent 工作流建立持续评测基线。

evaluationtestingpromptstypescript

12 Factor Agents

19.8k Stars

探讨构建生产级 LLM 驱动软件的核心原则，总结出使智能体应用达到生产可用标准的十二个关键要素。

agentframeworkevaluationobservability

Opik

19.3k Stars

Opik 是一个开源的 LLM 应用可观测性平台，提供 Agent 追踪、评估测试、提示词实验管理等功能，帮助开发者监控和优化 AI Agent 系统。

observabilityllm-evaluationtracingprompt-testing

Agents Towards Production

19.1k Stars

端到端的代码优先教程，教授如何构建生产级 GenAI 智能体，涵盖从原型到企业级部署的完整流程。

agentframeworkevaluationobservability

OpenAI Evals

18.4k Stars

OpenAI 推出的 LLM 评估框架，提供标准化的基准测试注册表和工具集，用于系统评估大语言模型和 LLM 系统的性能表现。

llm-evaluationbenchmarkevalsred-teaming

RagaAI Catalyst

16.2k Stars

RagaAI Catalyst 是面向 Agent AI 的可观测性、监控与评估框架，支持 Agent/LLM/工具链追踪、多 Agent 系统调试及自托管仪表盘分析。

observabilitytracingevaluationagent-monitoring

DeepEval

15.3k Stars

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。

llmevaluationtestingrag

Ragas

13.9k Stars

Ragas 是一个用于评估 RAG（检索增强生成）系统的框架。提供多种评估指标，包括忠实度、答案相关性、上下文精确度等，帮助开发者优化 RAG 应用性能。

ragevaluationllmtesting

LM Evaluation Harness

12.5k Stars

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

llm-evaluationbenchmarkevaluation-frameworklanguage-model

Kubeshark

11.9k Stars

基于 eBPF 的 Kubernetes 网络可观测性工具，支持 L4/L7 流量索引和完整 K8s 上下文分析，可通过 MCP 协议为 AI Agent 提供网络诊断能力。

observabilitydevopsmcptools

TensorZero

11.4k Stars

TensorZero 是面向 LLM 应用与 Agent 系统的开源推理网关和优化平台，强调高性能推理、实验评测、路由控制与生产级观测能力。

gatewayinferenceevaluationrust

Crucix

9.7k Stars

Crucix 是一个个人情报智能体，持续监控多个数据源，当检测到重要变化时主动通知用户，帮助用户实时掌握信息动态。

agentautomationmonitoringjavascript

Arize Phoenix

9.6k Stars

Phoenix 是面向 LLM 与 Agent 应用的开源观测与评估工具，支持在线追踪与离线诊断。

observabilityevaltracingrag

BAML

8.2k Stars

BAML 是一个 AI 提示工程框架，通过类型安全的提示定义、自动测试、版本管理和多模型支持，将工程化实践引入 LLM 提示开发流程。

prompt-engineeringtype-safellm-testingprompt-management

Garak

7.8k Stars

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

llm-securityvulnerability-scannerllm-evaluationred-teaming

Evidently

7.5k Stars

Evidently 是一个开源 ML 和 LLM 可观测性框架，提供 100+ 评估指标，用于测试、监控和评估 AI 驱动的系统。

observabilityevaluationmonitoringml-ops

Agent 评估LLM 评测自动化测试

Agent 评估与测试体系：从单轮评分到端到端流水线

大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。

AI Agent可观测性链路追踪

Agent 可观测性体系构建：从链路追踪到自动评估

系统讲解 Agent 可观测性的三大支柱——链路追踪、指标监控和自动评估，帮你构建生产级 Agent 监控体系。

Langfuse可观测性Tracing

Agent 可观测性落地手册：用 Langfuse 做全链路追踪

结合真实落地经验，介绍如何用 Langfuse 搭建 Agent 追踪、评估与成本分析闭环。