Kong
云原生 API 和 AI 网关,支持 LLM 请求路由、速率限制、负载均衡和可观测性,是 AI Agent 应用的关键基础设施。
Agent 监控和调试工具
云原生 API 和 AI 网关,支持 LLM 请求路由、速率限制、负载均衡和可观测性,是 AI Agent 应用的关键基础设施。
一款 AI 提示词优化工具,帮助用户编写更高质量的提示词,从而获得更好的 AI 输出效果。
开源 LLM 可观测性平台,提供追踪、评估、提示管理和数据集管理功能,支持 LangChain、OpenAI、Anthropic 等主流框架的集成。
开源 LLM 可观测平台,跟踪、评估、提示管理一体化。 项目生态活跃,社区支持完善。
Langfuse 是开源 LLM 可观测性平台,支持 trace、评估、提示词版本管理与成本分析。
MLflow 是开源 AI 工程平台,为 Agent 和 LLM 应用提供调试、评估、监控和优化能力,支持模型与数据访问管理。
探讨构建生产级 LLM 驱动软件的核心原则,总结出使智能体应用达到生产可用标准的十二个关键要素。
LLM prompt 测试与红队一体化 CLI 工具。 项目生态活跃,社区支持完善。
LLM 提示和 Agent 测试评估工具,用于测试提示词、Agent 和 RAG 管道,内置红队测试和安全评估功能。
Promptfoo 是面向 LLM 应用与 Agent 的评测与回归测试工具,可批量比较提示词、工具调用结果与模型输出,适合为 Agent 工作流建立持续评测基线。
端到端的代码优先教程,教授如何构建生产级 GenAI 智能体,涵盖从原型到企业级部署的完整流程。
Opik 是一个开源的 LLM 应用可观测性平台,提供 Agent 追踪、评估测试、提示词实验管理等功能,帮助开发者监控和优化 AI Agent 系统。
OpenObserve 是面向日志、指标、追踪、LLM 可观测性的开源平台,单二进制部署,是 Agent 与 RAG 系统的高性价比数据后端。
OpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
ccusage 是一个用于分析编码 Agent CLI Token 使用量和成本的轻量工具,通过读取本地数据帮助开发者监控和优化 LLM API 消费。
DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。
RagaAI Catalyst 是面向 Agent AI 的可观测性、监控与评估框架,支持 Agent/LLM/工具链追踪、多 Agent 系统调试及自托管仪表盘分析。
Ragas 是一个用于评估 RAG(检索增强生成)系统的框架。提供多种评估指标,包括忠实度、答案相关性、上下文精确度等,帮助开发者优化 RAG 应用性能。
OpenMetadata 是面向数据和 AI 的统一元数据平台,提供数据资产发现、血缘、治理与 Agent 上下文检索能力。
EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。
基于 eBPF 的 Kubernetes 网络可观测性工具,支持 L4/L7 流量索引和完整 K8s 上下文分析,可通过 MCP 协议为 AI Agent 提供网络诊断能力。
TensorZero 是开源 LLMOps 平台,统一 LLM 网关、可观测性、评估、优化与 A/B 测试,专为生产 Agent 设计。
TensorZero 是面向 LLM 应用与 Agent 系统的开源推理网关和优化平台,强调高性能推理、实验评测、路由控制与生产级观测能力。
W&B 是面向机器学习与 LLM 应用的实验追踪、可视化与协作平台,支持 Agent 训练评估、超参管理与模型注册全流程。
(24 / 108)
大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。
LLM Agent 为什么会产生幻觉?本文从根本原因出发,系统梳理检索增强、置信度评分、多智能体交叉验证、来源强制回溯等实用缓解模式,并介绍如何用 UpTrain、Giskard、RagaAI Catalyst、Comet Opik、NVIDIA Garak 等工具构建可观测的幻觉防御体系。
把多步 Agent 推理装进 OpenTelemetry 语义规范:从 OpenLLMetry 入手,建立层级化 Span 关联模型、token 成本归因、检索质量指标和分层告警体系,让 Agent 从黑盒变成可信赖的基础设施。
系统讲解 Agent 可观测性的三大支柱——链路追踪、指标监控和自动评估,帮你构建生产级 Agent 监控体系。
基于 OWASP LLM Top 10 工程实践,系统讲解 Agent 提示词注入的七层纵深防御:输入清洗、指令隔离、最小权限、输出审计、护栏框架、持续红队评估和 Kill Switch,给出可落地的代码与工具链。
五层防御 + 红队闭环,5 个开源项目落地可复制方案,避开 prompt 越狱与 PII 泄露。