Agenta
Agenta 是一个开源 LLMOps 平台,提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。
Agent 监控和调试工具
Agenta 是一个开源 LLMOps 平台,提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。
BAML 是一个 AI 提示工程框架,通过类型安全的提示定义、自动测试、版本管理和多模型支持,将工程化实践引入 LLM 提示开发流程。
EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
LLM 提示词管理和调试平台,提供 Prompt 日志记录、请求追踪、历史回放和调试功能,帮助团队系统化管理 LLM 交互和优化提示词。
NVIDIA NeMo Guardrails 是一个开源工具包,用于为基于 LLM 的对话系统添加可编程的安全护栏,支持话题控制、安全防护和对话引导。
由 NVIDIA 开发的自主 AI Agent 安全运行时环境。专注于隐私保护和安全执行,为 AI Agent 提供受控的执行环境和资源管理能力。
NVIDIA 开源的 LLM 漏洞扫描器,可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题,是 LLM 安全评估的核心工具。
端到端的代码优先教程,教授如何构建生产级 GenAI 智能体,涵盖从原型到企业级部署的完整流程。
Salesforce AI Research 推出的自动提示词优化框架,利用 LLM 自动搜索和优化提示词以提升模型性能。
开源的现代设计 AI 训练追踪与可视化工具,支持 PyTorch、Transformers 等主流框架,帮助开发者监控和评估 AI Agent 的训练过程。
ICLR 2024 论文,全面的 LLM Agent 评估基准,涵盖操作系统、数据库、知识图谱、数字卡片游戏等多维度任务。
腾讯开源的全栈 AI 红队平台,集成 OpenClaw 安全扫描、Agent 扫描、Skills 扫描、MCP 扫描、AI 基础设施扫描及 LLM 越狱评估能力。
英国 AI 安全研究所(AISI)开源的大语言模型评估框架,提供全面的模型能力评估工具,支持安全性和对齐性测试。
AI Agent 评估和强化学习的交互式沙箱环境,支持 Slack、LinkedIn 等第三方 API 测试。
AgentLabs 是一个面向 Agent 开发与测试的工具集合,强调实验、回放和开发流程辅助,适合帮助团队提升 Agent 迭代效率。
AgentOps 是一个 AI Agent 可观测性平台,提供 Agent 监控、调试和评估功能,帮助开发者优化 Agent 性能。
面向 AI Agent 的自动化测试工程工具,自动生成测试工具包以评估 Agent 在不同场景下的安全性和可靠性。
AI Agent 开源 EDR 终端检测与响应系统,监控自主 AI Agent 的进程、文件、网络和行为。
Argilla 是面向 AI 工程师和领域专家的协作平台,支持构建高质量数据集、人工反馈收集与模型评估。
OpenInference 是一个基于 OpenTelemetry 的 AI 可观测性检测规范和工具包,为 LLM 应用的推理过程提供标准化追踪、指标采集和 Span 定义,帮助开发者监控和调试 AI Agent 系统。
Phoenix 是面向 LLM 与 Agent 应用的开源观测与评估工具,支持在线追踪与离线诊断。
Arthur Bench 是用于评测生成式 AI 应用的开源工具,帮助团队构建测试集、比较模型输出并追踪质量变化。它适合 Agent 工作流的回归测试,在提示词、模型或工具策略变化后验证任务成功率和安全表现。
AWS Agent Evaluation 是亚马逊提供的 AI Agent 评估工具,支持对 Bedrock Agent 和其他 LLM Agent 进行自动化质量评估。提供多维度的评估指标和基准测试框架,帮助开发者持续改进 Agent 性能。
Blaxel AI SDK 是面向生产 Agent 系统的开发工具包,强调工具定义、执行控制、运行追踪与服务集成,适合企业内部 Agent 应用开发。
Observal 是面向 AI Agent 的可观测性平台,关注对模型调用、工具执行、任务轨迹和运行成本进行追踪。它适合把多步骤代理从实验推进到生产时使用,帮助团队发现失败节点、比较版本并监控线上质量。
面向编码 Agent 的运维层,提供记忆、验证和反馈循环,让跨会话开发经验持续积累。
Crucix 是一个个人情报智能体,持续监控多个数据源,当检测到重要变化时主动通知用户,帮助用户实时掌握信息动态。
Opik 是一个开源的 LLM 应用可观测性平台,提供 Agent 追踪、评估测试、提示词实验管理等功能,帮助开发者监控和优化 AI Agent 系统。
DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。
Coval 是一个面向语音与对话 Agent 的评测工具,帮助团队对真实对话表现、响应质量与交互稳定性进行测试,适合语音 Agent 质量治理。
新一代 AI Agent 优化平台,提供从开发、调试、评估到监控的全生命周期管理能力,支持 Prompt 管理、Agent 评估和 LLM 可观测性。
CVS Health 开源的 LLM 不确定性量化库,用于基于 UQ 的幻觉检测,提供置信度评分和幻觉缓解工具,帮助识别和降低 LLM 输出的不可靠内容。
基于 Claude Code hooks 的实时可观测性工具,通过事件追踪监控多个编码 Agent 的运行过程。
集成Git工作流的AI Agent会话记录工具,自动捕获AI编程过程并关联到代码提交,为仓库创建可搜索的代码编写历史记录。
零代码 LLM 安全与可观测性代理,提供实时提示注入检测、PII 扫描和安全监控功能。
Evidently 是一个开源 ML 和 LLM 可观测性框架,提供 100+ 评估指标,用于测试、监控和评估 AI 驱动的系统。
Ragas 是一个用于评估 RAG(检索增强生成)系统的框架。提供多种评估指标,包括忠实度、答案相关性、上下文精确度等,帮助开发者优化 RAG 应用性能。
面向工作流、流水线和 AI Agent 的可观测性平台,提供自动化过程的指标、日志和追踪能力。
Grafana 官方 MCP 服务器,让 AI 智能体能够查询仪表盘、管理告警和分析监控数据,实现智能运维自动化。
Guardrails AI 为大语言模型添加可编程的安全护栏,通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。
Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能
Helicone 是面向大模型应用的开源代理与监控平台,提供请求追踪、缓存与成本分析能力。
CNCF 沙箱项目,面向 SRE 场景的 AI Agent,自动分析基础设施日志和指标,辅助故障诊断和系统运维。
企业级 Spring AI 平台,集成 RAG、工具调用、异步数据摄取、JWT/RBAC 安全和可观测性能力。
Hugging Face 官方模型与数据集评估库,提供丰富的评估指标和方法,轻松评估机器学习模型性能和数据集质量。
HuggingFace 推出的一站式 LLM 评估工具包,支持多种后端的模型评测,与 HuggingFace 生态深度集成,提供灵活的评估指标和基准配置。
探讨构建生产级 LLM 驱动软件的核心原则,总结出使智能体应用达到生产可用标准的十二个关键要素。
Production Agentic RAG Course 是一个面向生产环境的 Agentic RAG 课程项目,教授如何构建可扩展、可靠的 RAG Agent 系统。涵盖索引策略、检索优化、Agent 路由和监控等生产级实践。
Judgeval 是面向 LLM 应用的评测框架,提供测试集管理、指标计算和模型输出质量判断能力。它适合 Agent 团队验证提示词、工具调用和多步骤任务效果,把主观输出转成可持续跟踪的质量信号。
AI 原生代理和数据平面,内置编排、安全防护、可观测性和智能 LLM 路由功能,帮助开发者专注于 Agent 核心逻辑,简化 LLM 应用的生产部署。
云原生 API 和 AI 网关,支持 LLM 请求路由、速率限制、负载均衡和可观测性,是 AI Agent 应用的关键基础设施。
基于 eBPF 的 Kubernetes 网络可观测性工具,支持 L4/L7 流量索引和完整 K8s 上下文分析,可通过 MCP 协议为 AI Agent 提供网络诊断能力。
LangSmith SDK 是 LangChain 团队提供的 LLM 应用与 Agent 可观测性工具链,支持 tracing、评测、数据集管理与调试,适合对生产级 Agent 工作流进行分析和优化。
LangDB 是面向 LLM 与 Agent 应用的数据与运维工具,帮助团队管理提示、运行轨迹和实验版本,适合作为 Agent 系统的轻量运营与调试辅助层。
Langfuse 是开源 LLM 可观测性平台,支持 trace、评估、提示词版本管理与成本分析。
聚合多种语言模型评估器的统一平台,提供标准化的 LLM 评估接口和安全性检测能力。
LangWatch Lite 是 LangWatch 的轻量开源可观测性组件,面向 LLM 应用提供追踪、评估和调试能力。它适合小团队快速接入 Agent 调用日志,观察提示词、检索结果和工具步骤在真实任务中的表现。
LLM 评估和 AI Agent 测试平台,提供全面的追踪、评估和质量监控能力,帮助团队构建可靠的 AI 应用。
一款 AI 提示词优化工具,帮助用户编写更高质量的提示词,从而获得更好的 AI 输出效果。
RouteLLM 是一个用于 LLM 路由服务的评估框架,通过智能请求路由在降低推理成本的同时保持输出质量,支持多种路由策略的对比评测。
LMNR 是面向 LLM 与 Agent 应用的开源可观测性平台,关注 tracing、质量分析与运行诊断,适合在生产环境中持续监控 Agent 行为。
Lunary 是开源 LLM 可观测性平台,提供日志、追踪、反馈、评测和提示词管理能力。它适合聊天机器人和 Agent 产品记录每次模型交互,分析失败样例、成本与延迟,并把人工反馈纳入迭代流程。
Bifrost 是面向 LLM 应用的可观测性与网关平台,提供请求追踪、模型路由、日志记录和成本分析能力。它适合 Agent 产品在生产环境中统一监控模型调用、工具链延迟和失败原因,降低排障复杂度。
Acontext 是用于分析和优化 LLM 上下文的开源工具,帮助开发者观察提示词、记忆片段和检索内容如何影响输出。它适合 Agent 调试阶段定位上下文污染、冗余信息和错误召回,提高任务执行稳定性。
Meta 推出的 LLM 安全评估工具集,提供安全基准测试、提示注入检测和输出审核等功能,帮助评估和提升大型语言模型的安全性。
Meta 开源的大语言模型 Prompt 优化工具,通过自动化流程帮助开发者持续改进和优化 LLM 提示词效果。
微软研究院推出的任务感知型智能体驱动提示词优化框架,通过迭代优化自动生成高质量提示词。
微软推出的 AI 智能体治理工具包,提供策略执行、零信任身份验证、执行沙箱和可靠性工程,覆盖 OWASP 智能体 Top 10 全部安全风险。
自主网页浏览测试 Agent,可对网站性能、功能和用户体验进行自动化评估,支持 GUI 与 CLI 使用。
MLflow 是开源 AI 工程平台,为 Agent 和 LLM 应用提供调试、评估、监控和优化能力,支持模型与数据访问管理。
生产就绪的 AI Agent 框架,内置工具调用、持久记忆、并发控制和事件驱动可观测性能力。
Monte Carlo 官方 AI 编码 Agent 工具包,将数据可观测性、故障排查和健康检查能力接入 Claude Code、Cursor 等工具。
开源的 LLM 漏洞扫描器和 AI 红队工具包,支持对 LLM 应用进行自动化安全模糊测试,检测越狱、提示注入和对抗性攻击等风险。
可在笔记本电脑上本地运行的 LLM Playground,支持多种模型快速切换对比,适合开发者在本地进行 prompt 测试和模型评估。
用于衡量 AI Agent 和工作流可靠性的工具,提供认知测量、Noetic RAG、哨兵门控和 grounded calibration 等能力。
OpenCompass 是一个全面的 LLM 评估平台,支持 Llama、Mistral、GPT-4、Qwen、GLM、Claude 等多种模型在 100+ 数据集上的基准评测。
OpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
OpenLIT 是开源 AI 工程平台,基于 OpenTelemetry 提供 LLM 可观测性、GPU 监控、防护栏、评估、提示词管理与沙盒,集成 50+ LLM 提供商和 Agent 框架。
OpenPipe Artifacts 是面向 Agent 与 LLM 应用的数据与产物管理工具,帮助团队追踪提示、输出、实验结果与评测记录,适合构建可复盘的 Agent 开发流程。
开源的 LLMOps 平台,提供 Prompt 设计与管理、版本控制、实时监控与可观测性、团队协作等一站式 LLM 应用运维能力。
开源 AI Agent 可观测性与安全扫描工具,提供 LLM 漏洞扫描和 AI 红队测试套件,帮助开发者评估 Agent 系统安全性。
Promptfoo 是面向 LLM 应用与 Agent 的评测与回归测试工具,可批量比较提示词、工具调用结果与模型输出,适合为 Agent 工作流建立持续评测基线。
LLM 交互安全工具包,提供提示词注入检测、敏感信息脱敏、内容安全审计等防护能力,保障生产环境 LLM 调用的安全性。
针对 LLM 的提示词注入检测器,结合启发式规则、向量相似度和语言模型多重防御策略,有效识别和阻止恶意提示注入攻击。
面向生产环境LLM和Agent系统的AI可观测性平台,由Pydantic团队打造,提供实时监控、追踪和调试能力。
AI 智能体评估与红队测试平台,提供系统化的安全评估和对抗性测试工具,帮助发现和修复智能体系统的安全漏洞。
Radicalbit AI Monitoring 是开源 AI 监控平台,支持模型性能、数据漂移和线上质量指标观测。对于 Agent 系统,它可以作为模型与业务输出的监控层,帮助团队持续发现退化、异常输入和需要重新评估的工作流。
RagaAI Catalyst 是面向 Agent AI 的可观测性、监控与评估框架,支持 Agent/LLM/工具链追踪、多 Agent 系统调试及自托管仪表盘分析。
开源 AI Agent 网页任务评估框架,用于衡量和比较 AI Agent 在网页操作任务上的表现。
Langtrace 是一个基于 OpenTelemetry 的开源 LLM 应用可观测性工具,提供实时追踪、评估和指标监控,支持主流 LLM、智能体框架和向量数据库的集成。
Agentic Radar 是一个面向 LLM Agent 工作流的安全扫描器。可自动检测智能体管道中的安全漏洞、提示注入风险和权限越界问题,帮助团队在部署前发现和修复 AI Agent 的安全隐患。
HELM(Holistic Evaluation of Language Models)是斯坦福大学 CRFM 推出的语言模型综合评估框架,支持对大语言模型和多模态模型进行全面、可复现、透明的评估。
为 AI Agent 提供安全、本地化、跨平台和可编程的沙箱环境。基于微虚拟机技术实现严格的资源隔离,确保 Agent 执行代码时的安全性和可控性。
TensorZero 是面向 LLM 应用与 Agent 系统的开源推理网关和优化平台,强调高性能推理、实验评测、路由控制与生产级观测能力。
OpenLLMetry 是基于 OpenTelemetry 的开源 LLM 应用可观测性工具,提供追踪、指标和监控能力。
Traceroot 是用于 LLM 与 Agent 应用的追踪和调试平台,记录提示词、模型响应、工具调用和链路耗时。它适合开发者复盘复杂任务的执行路径,快速定位坏输出、慢步骤和上下文问题。
LLMTracer 是面向 Agent 与 LLM 应用的链路追踪工具,帮助开发者记录调用路径、工具执行与状态变化,适合补充工作流调试和线上问题定位能力。
TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能,包括上下文相关性、接地性和答案相关性等评估维度。
AI Agent 的 htop 式监控工具,实时追踪 Claude Code 和 Codex 的 Token 使用量、成本和工具调用。
AISI 开源的智能体评测沙箱工具包,用于在受控环境中运行 Agentic evaluations 并隔离模型、工具和执行环境。
UpTrain 是面向 LLM 应用的评测和监控工具,支持对响应质量、上下文相关性、事实性和用户反馈进行检查。它适合 Agent 开发者在上线前后持续评估多步骤任务,发现提示词和检索链路的质量问题。
Weights & Biases 推出的 AI 应用开发工具包,提供 LLM 调用追踪、评估实验管理和版本化能力,助力 AI 应用从原型到生产的全流程管理。
开源 LLM 监控工具包,从提示词和回复中提取信号,帮助团队评估和监控大语言模型的质量与安全。
大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。
系统讲解 Agent 可观测性的三大支柱——链路追踪、指标监控和自动评估,帮你构建生产级 Agent 监控体系。
结合真实落地经验,介绍如何用 Langfuse 搭建 Agent 追踪、评估与成本分析闭环。
学习如何使用 Ragas 和 DeepEval 评估 RAG 系统的质量,包括忠实度、答案相关性、上下文精确度等关键指标的测量方法。