📊

可观测性

Agent 监控和调试工具

🏆 查看排行榜

108 个项目

Kong

43.7k · Lua

活跃

云原生 API 和 AI 网关，支持 LLM 请求路由、速率限制、负载均衡和可观测性，是 AI Agent 应用的关键基础设施。

observabilityapiagent +2

Prompt Optimizer

31.6k · TypeScript

活跃

一款 AI 提示词优化工具，帮助用户编写更高质量的提示词，从而获得更好的 AI 输出效果。

prompt-engineeringevaluationllm +2

Langfuse

30.2k · TypeScript

活跃

开源 LLM 可观测性平台，提供追踪、评估、提示管理和数据集管理功能，支持 LangChain、OpenAI、Anthropic 等主流框架的集成。

observabilitytracingllm-evaluation +2

Langfuse

30.2k · TypeScript

活跃

开源 LLM 可观测平台，跟踪、评估、提示管理一体化。项目生态活跃，社区支持完善。

langfuseobservabilitytracing +1

Langfuse

30.2k · TypeScript

活跃

Langfuse 是开源 LLM 可观测性平台，支持 trace、评估、提示词版本管理与成本分析。

observabilitytracingllm +1

MLflow

26.8k · Python

活跃

MLflow 是开源 AI 工程平台，为 Agent 和 LLM 应用提供调试、评估、监控和优化能力，支持模型与数据访问管理。

mlflowllmopsevaluation +2

12 Factor Agents

23.9k · TypeScript

不活跃

探讨构建生产级 LLM 驱动软件的核心原则，总结出使智能体应用达到生产可用标准的十二个关键要素。

agentframeworkevaluation +2

Promptfoo

22.8k · TypeScript

活跃

LLM prompt 测试与红队一体化 CLI 工具。项目生态活跃，社区支持完善。

promptfootestingred-team +1

Promptfoo

22.8k · TypeScript

活跃

LLM 提示和 Agent 测试评估工具，用于测试提示词、Agent 和 RAG 管道，内置红队测试和安全评估功能。

testingevaluationred-teaming +2

Promptfoo

22.8k · TypeScript

活跃

Promptfoo 是面向 LLM 应用与 Agent 的评测与回归测试工具，可批量比较提示词、工具调用结果与模型输出，适合为 Agent 工作流建立持续评测基线。

evaluationtestingprompts +1

Agents Towards Production

20.9k · Jupyter Notebook

活跃

端到端的代码优先教程，教授如何构建生产级 GenAI 智能体，涵盖从原型到企业级部署的完整流程。

agentframeworkevaluation +2

Opik

20.2k · Python

活跃

Opik 是一个开源的 LLM 应用可观测性平台，提供 Agent 追踪、评估测试、提示词实验管理等功能，帮助开发者监控和优化 AI Agent 系统。

observabilityllm-evaluationtracing +2

openobserve

19.6k · TypeScript

活跃

OpenObserve 是面向日志、指标、追踪、LLM 可观测性的开源平台，单二进制部署，是 Agent 与 RAG 系统的高性价比数据后端。

observabilitylogsmetrics +2

OpenAI Evals

18.8k · Python

正常

OpenAI 推出的 LLM 评估框架，提供标准化的基准测试注册表和工具集，用于系统评估大语言模型和 LLM 系统的性能表现。

llm-evaluationbenchmarkevals +2

ccusage

16.7k · Rust

活跃

ccusage 是一个用于分析编码 Agent CLI Token 使用量和成本的轻量工具，通过读取本地数据帮助开发者监控和优化 LLM API 消费。

token-usagecost-analysiscli +2

DeepEval

16.6k · Python

活跃

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。

llmevaluationtesting +1

RagaAI Catalyst

16.1k · Python

不活跃

RagaAI Catalyst 是面向 Agent AI 的可观测性、监控与评估框架，支持 Agent/LLM/工具链追踪、多 Agent 系统调试及自托管仪表盘分析。

observabilitytracingevaluation +2

Ragas

14.6k · Python

不活跃

Ragas 是一个用于评估 RAG（检索增强生成）系统的框架。提供多种评估指标，包括忠实度、答案相关性、上下文精确度等，帮助开发者优化 RAG 应用性能。

ragevaluationllm +1

OpenMetadata

14.4k · TypeScript

活跃

OpenMetadata 是面向数据和 AI 的统一元数据平台，提供数据资产发现、血缘、治理与 Agent 上下文检索能力。

observabilitymetadatadata-governance +2

LM Evaluation Harness

13.1k · Python

活跃

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

llm-evaluationbenchmarkevaluation-framework +2

Kubeshark

12.0k · Go

活跃

基于 eBPF 的 Kubernetes 网络可观测性工具，支持 L4/L7 流量索引和完整 K8s 上下文分析，可通过 MCP 协议为 AI Agent 提供网络诊断能力。

observabilitydevopsmcp +2

TensorZero

11.7k · Rust

活跃

TensorZero 是开源 LLMOps 平台，统一 LLM 网关、可观测性、评估、优化与 A/B 测试，专为生产 Agent 设计。

observabilityllmllm-gateway +2

TensorZero

11.7k · Rust

活跃

TensorZero 是面向 LLM 应用与 Agent 系统的开源推理网关和优化平台，强调高性能推理、实验评测、路由控制与生产级观测能力。

gatewayinferenceevaluation +1

Weights & Biases

11.2k · Python

活跃

W&B 是面向机器学习与 LLM 应用的实验追踪、可视化与协作平台，支持 Agent 训练评估、超参管理与模型注册全流程。

observabilityexperiment-trackingmlops +2

(24 / 108)

Agent 评估LLM 评测自动化测试

Agent 评估与测试体系：从单轮评分到端到端流水线

大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。

RAGhallucination-detectionagent-evaluation

Agent 幻觉防御：超越护栏的实用缓解模式

LLM Agent 为什么会产生幻觉？本文从根本原因出发，系统梳理检索增强、置信度评分、多智能体交叉验证、来源强制回溯等实用缓解模式，并介绍如何用 UpTrain、Giskard、RagaAI Catalyst、Comet Opik、NVIDIA Garak 等工具构建可观测的幻觉防御体系。

可观测性OpenTelemetryLLMOps

Agent 可观测性深度实战：从 OpenTelemetry 到生产 trace 体系

把多步 Agent 推理装进 OpenTelemetry 语义规范：从 OpenLLMetry 入手，建立层级化 Span 关联模型、token 成本归因、检索质量指标和分层告警体系，让 Agent 从黑盒变成可信赖的基础设施。

AI Agent可观测性链路追踪

Agent 可观测性体系构建：从链路追踪到自动评估

系统讲解 Agent 可观测性的三大支柱——链路追踪、指标监控和自动评估，帮你构建生产级 Agent 监控体系。

安全Prompt InjectionOWASP

Agent 提示词注入防御：OWASP LLM01 七层纵深防护

基于 OWASP LLM Top 10 工程实践，系统讲解 Agent 提示词注入的七层纵深防御：输入清洗、指令隔离、最小权限、输出审计、护栏框架、持续红队评估和 Kill Switch，给出可落地的代码与工具链。

security-guardrailsred-teamprompt-injection

AI Agent 安全护栏与红队测试实战：从规则引擎到对抗评估

五层防御 + 红队闭环，5 个开源项目落地可复制方案，避开 prompt 越狱与 PII 泄露。

可观测性

108 个项目

Kong

Prompt Optimizer

Langfuse

Langfuse

Langfuse

MLflow

12 Factor Agents

Promptfoo

Promptfoo

Promptfoo

Agents Towards Production

Opik

openobserve

OpenAI Evals

ccusage

DeepEval

RagaAI Catalyst

Ragas

OpenMetadata

LM Evaluation Harness

Kubeshark

TensorZero

TensorZero

Weights & Biases

相关文章

Agent 评估与测试体系：从单轮评分到端到端流水线

Agent 幻觉防御：超越护栏的实用缓解模式

Agent 可观测性深度实战：从 OpenTelemetry 到生产 trace 体系

Agent 可观测性体系构建：从链路追踪到自动评估

Agent 提示词注入防御：OWASP LLM01 七层纵深防护

AI Agent 安全护栏与红队测试实战：从规则引擎到对抗评估