📊

可观测性

Agent 监控和调试工具

108 个项目

(24 / 108)

相关文章

Agent 评估LLM 评测自动化测试

Agent 评估与测试体系:从单轮评分到端到端流水线

大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。

RAGhallucination-detectionagent-evaluation

Agent 幻觉防御:超越护栏的实用缓解模式

LLM Agent 为什么会产生幻觉?本文从根本原因出发,系统梳理检索增强、置信度评分、多智能体交叉验证、来源强制回溯等实用缓解模式,并介绍如何用 UpTrain、Giskard、RagaAI Catalyst、Comet Opik、NVIDIA Garak 等工具构建可观测的幻觉防御体系。

可观测性OpenTelemetryLLMOps

Agent 可观测性深度实战:从 OpenTelemetry 到生产 trace 体系

把多步 Agent 推理装进 OpenTelemetry 语义规范:从 OpenLLMetry 入手,建立层级化 Span 关联模型、token 成本归因、检索质量指标和分层告警体系,让 Agent 从黑盒变成可信赖的基础设施。

AI Agent可观测性链路追踪

Agent 可观测性体系构建:从链路追踪到自动评估

系统讲解 Agent 可观测性的三大支柱——链路追踪、指标监控和自动评估,帮你构建生产级 Agent 监控体系。

安全Prompt InjectionOWASP

Agent 提示词注入防御:OWASP LLM01 七层纵深防护

基于 OWASP LLM Top 10 工程实践,系统讲解 Agent 提示词注入的七层纵深防御:输入清洗、指令隔离、最小权限、输出审计、护栏框架、持续红队评估和 Kill Switch,给出可落地的代码与工具链。

security-guardrailsred-teamprompt-injection

AI Agent 安全护栏与红队测试实战:从规则引擎到对抗评估

五层防御 + 红队闭环,5 个开源项目落地可复制方案,避开 prompt 越狱与 PII 泄露。