可观测性

observabilityllmopsprompt-management +2

Agenta 是一个开源 LLMOps 平台，提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。

BAML

8.2k · Rust

prompt-engineeringtype-safellm-testing +2

BAML 是一个 AI 提示工程框架，通过类型安全的提示定义、自动测试、版本管理和多模型支持，将工程化实践引入 LLM 提示开发流程。

LM Evaluation Harness

12.5k · Python

llm-evaluationbenchmarkevaluation-framework +2

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

Giskard

5.3k · Python

evaluationtestingllm-safety +3

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

PromptLayer

762 · Python

prompt-managementllm-observabilityprompt-debugging +2

LLM 提示词管理和调试平台，提供 Prompt 日志记录、请求追踪、历史回放和调试功能，帮助团队系统化管理 LLM 交互和优化提示词。

NeMo Guardrails

6.1k · Python

guardrailsllm-safetynvidia +2

NVIDIA NeMo Guardrails 是一个开源工具包，用于为基于 LLM 的对话系统添加可编程的安全护栏，支持话题控制、安全防护和对话引导。

OpenShell

5.8k · Rust

由 NVIDIA 开发的自主 AI Agent 安全运行时环境。专注于隐私保护和安全执行，为 AI Agent 提供受控的执行环境和资源管理能力。

rustagentframework +2

Garak

7.8k · Python

llm-securityvulnerability-scannerllm-evaluation +2

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

Agents Towards Production

19.1k · Jupyter Notebook

agentframeworkevaluation +2

端到端的代码优先教程，教授如何构建生产级 GenAI 智能体，涵盖从原型到企业级部署的完整流程。

PrompToMatix

954 · Python

prompt-engineeringevaluationllm +1

Salesforce AI Research 推出的自动提示词优化框架，利用 LLM 自动搜索和优化提示词以提升模型性能。

SwanLab

3.9k · Python

pythonobservabilityevaluation +2

开源的现代设计 AI 训练追踪与可视化工具，支持 PyTorch、Transformers 等主流框架，帮助开发者监控和评估 AI Agent 的训练过程。

AgentBench

3.4k · Python

ICLR 2024 论文，全面的 LLM Agent 评估基准，涵盖操作系统、数据库、知识图谱、数字卡片游戏等多维度任务。

evaluationpythonagent +1

AI-Infra-Guard

3.7k · Python

ai-securityred-teamingllm-security +2

腾讯开源的全栈 AI 红队平台，集成 OpenClaw 安全扫描、Agent 扫描、Skills 扫描、MCP 扫描、AI 基础设施扫描及 LLM 越狱评估能力。

Inspect AI

2.0k · Python

llm-evaluationai-safetyevaluation-framework +2

英国 AI 安全研究所（AISI）开源的大语言模型评估框架，提供全面的模型能力评估工具，支持安全性和对齐性测试。

AgentDiff

32 · Python

agent-evaluationsandboxreinforcement-learning +2

AI Agent 评估和强化学习的交互式沙箱环境，支持 Slack、LinkedIn 等第三方 API 测试。

AgentLabs

548 · TypeScript

testingdeveloper-toolsevaluation +1

AgentLabs 是一个面向 Agent 开发与测试的工具集合，强调实验、回放和开发流程辅助，适合帮助团队提升 Agent 迭代效率。

AgentOps

5.5k · Python

observabilitymonitoringdebugging +1

AgentOps 是一个 AI Agent 可观测性平台，提供 Agent 监控、调试和评估功能，帮助开发者优化 Agent 性能。

AutoHarness

270 · Python

testingharness-engineeringagent-evaluation +2

面向 AI Agent 的自动化测试工程工具，自动生成测试工具包以评估 Agent 在不同场景下的安全性和可靠性。

Aegis EDR for AI

129 · JavaScript

agent-monitoringedrsecurity +2

AI Agent 开源 EDR 终端检测与响应系统，监控自主 AI Agent 的进程、文件、网络和行为。

Argilla

5.0k · Python

evaluationdata-processingllm +2

Argilla 是面向 AI 工程师和领域专家的协作平台，支持构建高质量数据集、人工反馈收集与模型评估。

OpenInference

965 · Python

observabilitypythonllm +2

OpenInference 是一个基于 OpenTelemetry 的 AI 可观测性检测规范和工具包，为 LLM 应用的推理过程提供标准化追踪、指标采集和 Span 定义，帮助开发者监控和调试 AI Agent 系统。

Arize Phoenix

9.6k · Python

observabilityevaltracing +1

Phoenix 是面向 LLM 与 Agent 应用的开源观测与评估工具，支持在线追踪与离线诊断。

Arthur Bench

429 · TypeScript

llm-benchmarkregression-testingevaluation

Arthur Bench 是用于评测生成式 AI 应用的开源工具，帮助团队构建测试集、比较模型输出并追踪质量变化。它适合 Agent 工作流的回归测试，在提示词、模型或工具策略变化后验证任务成功率和安全表现。

AWS Agent Evaluation

360 · Python

awsevaluationbenchmark +2

AWS Agent Evaluation 是亚马逊提供的 AI Agent 评估工具，支持对 Bedrock Agent 和其他 LLM Agent 进行自动化质量评估。提供多维度的评估指标和基准测试框架，帮助开发者持续改进 Agent 性能。

Blaxel AI SDK

2.5k · TypeScript

sdkenterpriseobservability +1

Blaxel AI SDK 是面向生产 Agent 系统的开发工具包，强调工具定义、执行控制、运行追踪与服务集成，适合企业内部 Agent 应用开发。

Observal

1.1k · Python

agent-monitoringtracinganalytics

Observal 是面向 AI Agent 的可观测性平台，关注对模型调用、工具执行、任务轨迹和运行成本进行追踪。它适合把多步骤代理从实验推进到生产时使用，帮助团队发现失败节点、比较版本并监控线上质量。

AgentOps for Coding Agents

343 · Go

coding-agentmemoryvalidation +2

面向编码 Agent 的运维层，提供记忆、验证和反馈循环，让跨会话开发经验持续积累。

Crucix

9.7k · JavaScript

agentautomationmonitoring +2

Crucix 是一个个人情报智能体，持续监控多个数据源，当检测到重要变化时主动通知用户，帮助用户实时掌握信息动态。

Opik

19.3k · Python

observabilityllm-evaluationtracing +2

Opik 是一个开源的 LLM 应用可观测性平台，提供 Agent 追踪、评估测试、提示词实验管理等功能，帮助开发者监控和优化 AI Agent 系统。

DeepEval

15.3k · Python

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。

llmevaluationtesting +1

Coval

2.7k · Python

evaluationvoiceconversation +1

Coval 是一个面向语音与对话 Agent 的评测工具，帮助团队对真实对话表现、响应质量与交互稳定性进行测试，适合语音 Agent 质量治理。

Cozeloop

5.5k · Go

agent-observabilityagent-evaluationllmops +2

新一代 AI Agent 优化平台，提供从开发、调试、评估到监控的全生命周期管理能力，支持 Prompt 管理、Agent 评估和 LLM 可观测性。

UQLM

1.1k · Python

hallucination-detectionuncertainty-quantificationllm-evaluation +2

CVS Health 开源的 LLM 不确定性量化库，用于基于 UQ 的幻觉检测，提供置信度评分和幻觉缓解工具，帮助识别和降低 LLM 输出的不可靠内容。

Claude Code Hooks Multi-Agent Observability

1.4k · Python

observabilityclaude-codehooks +2

基于 Claude Code hooks 的实时可观测性工具，通过事件追踪监控多个编码 Agent 的运行过程。

Entire CLI

4.3k · Go

集成Git工作流的AI Agent会话记录工具，自动捕获AI编程过程并关联到代码提交，为仓库创建可搜索的代码编写历史记录。

gocodingagent +2

LLMTrace

48 · Rust

llm-securityobservabilityprompt-injection +2

零代码 LLM 安全与可观测性代理，提供实时提示注入检测、PII 扫描和安全监控功能。

Evidently

7.5k · Jupyter Notebook

observabilityevaluationmonitoring +2

Evidently 是一个开源 ML 和 LLM 可观测性框架，提供 100+ 评估指标，用于测试、监控和评估 AI 驱动的系统。

Ragas

13.9k · Python

Ragas 是一个用于评估 RAG（检索增强生成）系统的框架。提供多种评估指标，包括忠实度、答案相关性、上下文精确度等，帮助开发者优化 RAG 应用性能。

ragevaluationllm +1

FlowMetr

41 · Ruby

observabilityworkflowmetrics +2

面向工作流、流水线和 AI Agent 的可观测性平台，提供自动化过程的指标、日志和追踪能力。

Grafana MCP

3.0k · Go

Grafana 官方 MCP 服务器，让 AI 智能体能够查询仪表盘、管理告警和分析监控数据，实现智能运维自动化。

mcpgrafanamonitoring +2

Guardrails AI

6.8k · Python

guardrailsllm-safetyvalidation +2

Guardrails AI 为大语言模型添加可编程的安全护栏，通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。

Harbor

1.9k · Python

evaluationbenchmarkrl-environments +2

Agent 评估框架，支持运行 Agent 基准测试和创建强化学习环境，用于衡量和改进 Agent 性能

Helicone

5.6k · TypeScript

observabilityproxyanalytics +1

Helicone 是面向大模型应用的开源代理与监控平台，提供请求追踪、缓存与成本分析能力。

HolmesGPT

2.4k · Python

observabilitypythonagent +2

CNCF 沙箱项目，面向 SRE 场景的 AI Agent，自动分析基础设施日志和指标，辅助故障诊断和系统运维。

KnowledgeOps Agent

203 · Java

ragtool-callingobservability +2

企业级 Spring AI 平台，集成 RAG、工具调用、异步数据摄取、JWT/RBAC 安全和可观测性能力。

Hugging Face Evaluate

2.4k · Python

Hugging Face 官方模型与数据集评估库，提供丰富的评估指标和方法，轻松评估机器学习模型性能和数据集质量。

evaluationllmpython +2

Lighteval

2.4k · Python

llm-evaluationevaluation-frameworkhuggingface +2

HuggingFace 推出的一站式 LLM 评估工具包，支持多种后端的模型评测，与 HuggingFace 生态深度集成，提供灵活的评估指标和基准配置。

12 Factor Agents

19.8k · TypeScript

agentframeworkevaluation +2

探讨构建生产级 LLM 驱动软件的核心原则，总结出使智能体应用达到生产可用标准的十二个关键要素。

Production Agentic RAG Course

5.9k · Python

Production Agentic RAG Course 是一个面向生产环境的 Agentic RAG 课程项目，教授如何构建可扩展、可靠的 RAG Agent 系统。涵盖索引策略、检索优化、Agent 路由和监控等生产级实践。

ragproductioncourse +2

Judgeval

1.0k · Python

evaluationprompt-testingllm-quality

Judgeval 是面向 LLM 应用的评测框架，提供测试集管理、指标计算和模型输出质量判断能力。它适合 Agent 团队验证提示词、工具调用和多步骤任务效果，把主观输出转成可持续跟踪的质量信号。

Plano

6.5k · Rust

llm-gatewayllm-routingobservability +2

AI 原生代理和数据平面，内置编排、安全防护、可观测性和智能 LLM 路由功能，帮助开发者专注于 Agent 核心逻辑，简化 LLM 应用的生产部署。

Kong

43.4k · Lua

云原生 API 和 AI 网关，支持 LLM 请求路由、速率限制、负载均衡和可观测性，是 AI Agent 应用的关键基础设施。

observabilityapiagent +2

Kubeshark

11.9k · Go

observabilitydevopsmcp +2

基于 eBPF 的 Kubernetes 网络可观测性工具，支持 L4/L7 流量索引和完整 K8s 上下文分析，可通过 MCP 协议为 AI Agent 提供网络诊断能力。

LangSmith

881 · Python

observabilitytracingevaluation +1

LangSmith SDK 是 LangChain 团队提供的 LLM 应用与 Agent 可观测性工具链，支持 tracing、评测、数据集管理与调试，适合对生产级 Agent 工作流进行分析和优化。

LangDB

2.7k · Python

observabilitypromptsoperations +1

LangDB 是面向 LLM 与 Agent 应用的数据与运维工具，帮助团队管理提示、运行轨迹和实验版本，适合作为 Agent 系统的轻量运营与调试辅助层。

Langfuse

27.0k · TypeScript

observabilitytracingllm +1

Langfuse 是开源 LLM 可观测性平台，支持 trace、评估、提示词版本管理与成本分析。

LangEvals

72 · Unknown

llm-evaluationsafety-evaluationguardrails +1

聚合多种语言模型评估器的统一平台，提供标准化的 LLM 评估接口和安全性检测能力。

LangWatch Lite

350 · TypeScript

llm-tracingevaluationobservability

LangWatch Lite 是 LangWatch 的轻量开源可观测性组件，面向 LLM 应用提供追踪、评估和调试能力。它适合小团队快速接入 Agent 调用日志，观察提示词、检索结果和工具步骤在真实任务中的表现。

LangWatch

3.2k · TypeScript

observabilityevaluationllm-testing +2

LLM 评估和 AI Agent 测试平台，提供全面的追踪、评估和质量监控能力，帮助团队构建可靠的 AI 应用。

Prompt Optimizer

28.6k · TypeScript

prompt-engineeringevaluationllm +2

一款 AI 提示词优化工具，帮助用户编写更高质量的提示词，从而获得更好的 AI 输出效果。

RouteLLM

4.9k · Python

llm-routingcost-optimizationevaluation +1

RouteLLM 是一个用于 LLM 路由服务的评估框架，通过智能请求路由在降低推理成本的同时保持输出质量，支持多种路由策略的对比评测。

LMNR

2.9k · TypeScript

observabilitytracingdiagnostics +1

LMNR 是面向 LLM 与 Agent 应用的开源可观测性平台，关注 tracing、质量分析与运行诊断，适合在生产环境中持续监控 Agent 行为。

Lunary

2.4k · TypeScript

llm-observabilityprompt-managementevaluation

Lunary 是开源 LLM 可观测性平台，提供日志、追踪、反馈、评测和提示词管理能力。它适合聊天机器人和 Agent 产品记录每次模型交互，分析失败样例、成本与延迟，并把人工反馈纳入迭代流程。

Bifrost

4.8k · Go

llm-observabilitygatewaytracing

Bifrost 是面向 LLM 应用的可观测性与网关平台，提供请求追踪、模型路由、日志记录和成本分析能力。它适合 Agent 产品在生产环境中统一监控模型调用、工具链延迟和失败原因，降低排障复杂度。

Acontext

3.4k · JavaScript

context-debuggingprompt-analysisobservability

Acontext 是用于分析和优化 LLM 上下文的开源工具，帮助开发者观察提示词、记忆片段和检索内容如何影响输出。它适合 Agent 调试阶段定位上下文污染、冗余信息和错误召回，提高任务执行稳定性。

Purple Llama

4.2k · Python

securityevaluationpython +2

Meta 推出的 LLM 安全评估工具集，提供安全基准测试、提示注入检测和输出审核等功能，帮助评估和提升大型语言模型的安全性。

Prompt Ops

809 · Python

prompt-engineeringllmtools +2

Meta 开源的大语言模型 Prompt 优化工具，通过自动化流程帮助开发者持续改进和优化 LLM 提示词效果。

PromptWizard

3.9k · Python

prompt-engineeringevaluationllm +2

微软研究院推出的任务感知型智能体驱动提示词优化框架，通过迭代优化自动生成高质量提示词。

Agent Governance Toolkit

1.5k · Python

securityevaluationpython +2

微软推出的 AI 智能体治理工具包，提供策略执行、零信任身份验证、执行沙箱和可靠性工程，覆盖 OWASP 智能体 Top 10 全部安全风险。

WebQA Agent

210 · Python

browser-agentweb-testingqa +2

自主网页浏览测试 Agent，可对网站性能、功能和用户体验进行自动化评估，支持 GUI 与 CLI 使用。

MLflow

25.9k · Python

mlflowllmopsevaluation +2

MLflow 是开源 AI 工程平台，为 Agent 和 LLM 应用提供调试、评估、监控和优化能力，支持模型与数据访问管理。

Mobfish Agent

164 · Python

agent-frameworktool-callingmemory +2

生产就绪的 AI Agent 框架，内置工具调用、持久记忆、并发控制和事件驱动可观测性能力。

Monte Carlo Agent Toolkit

81 · Python

data-observabilityagent-observabilityclaude-code +2

Monte Carlo 官方 AI 编码 Agent 工具包，将数据可观测性、故障排查和健康检查能力接入 Claude Code、Cursor 等工具。

Agentic Security

1.9k · Python

llm-securityred-teamingllm-fuzzer +2

开源的 LLM 漏洞扫描器和 AI 红队工具包，支持对 LLM 应用进行自动化安全模糊测试，检测越狱、提示注入和对抗性攻击等风险。

OpenPlayground

6.4k · TypeScript

可在笔记本电脑上本地运行的 LLM Playground，支持多种模型快速切换对比，适合开发者在本地进行 prompt 测试和模型评估。

llmtoolstypescript +2

Empirica

222 · Python

evaluationreliabilityrag +2

用于衡量 AI Agent 和工作流可靠性的工具，提供认知测量、Noetic RAG、哨兵门控和 grounded calibration 等能力。

OpenCompass

7.0k · Python

llm-evaluationbenchmarkevaluation-platform +1

OpenCompass 是一个全面的 LLM 评估平台，支持 Llama、Mistral、GPT-4、Qwen、GLM、Claude 等多种模型在 100+ 数据集上的基准评测。

OpenAI Evals

18.4k · Python

llm-evaluationbenchmarkevals +2

OpenAI 推出的 LLM 评估框架，提供标准化的基准测试注册表和工具集，用于系统评估大语言模型和 LLM 系统的性能表现。

OpenLIT

2.4k · TypeScript

observabilityopentelemetryllm +2

OpenLIT 是开源 AI 工程平台，基于 OpenTelemetry 提供 LLM 可观测性、GPU 监控、防护栏、评估、提示词管理与沙盒，集成 50+ LLM 提供商和 Agent 框架。

OpenPipe Artifacts

2.9k · TypeScript

observabilityevaluationartifacts +1

OpenPipe Artifacts 是面向 Agent 与 LLM 应用的数据与产物管理工具，帮助团队追踪提示、输出、实验结果与评测记录，适合构建可复盘的 Agent 开发流程。

Pezzo

3.2k · TypeScript

llmopsprompt-managementobservability +2

开源的 LLMOps 平台，提供 Prompt 设计与管理、版本控制、实时监控与可观测性、团队协作等一站式 LLM 应用运维能力。

AI Agents From Scratch

3.5k · JavaScript

javascriptagentevaluation +2

开源 AI Agent 可观测性与安全扫描工具，提供 LLM 漏洞扫描和 AI 红队测试套件，帮助开发者评估 Agent 系统安全性。

Promptfoo

21.2k · TypeScript

evaluationtestingprompts +1

Promptfoo 是面向 LLM 应用与 Agent 的评测与回归测试工具，可批量比较提示词、工具调用结果与模型输出，适合为 Agent 工作流建立持续评测基线。

LLM Guard

2.9k · Python

LLM 交互安全工具包，提供提示词注入检测、敏感信息脱敏、内容安全审计等防护能力，保障生产环境 LLM 调用的安全性。

securityllmpython +2

Rebuff

1.5k · TypeScript

针对 LLM 的提示词注入检测器，结合启发式规则、向量相似度和语言模型多重防御策略，有效识别和阻止恶意提示注入攻击。

securityllmtesting +2

Logfire

4.2k · Python

pythonobservabilitytools +1

面向生产环境LLM和Agent系统的AI可观测性平台，由Pydantic团队打造，提供实时监控、追踪和调试能力。

Rogue

1.0k · Python

securityevaluationobservability +2

AI 智能体评估与红队测试平台，提供系统化的安全评估和对抗性测试工具，帮助发现和修复智能体系统的安全漏洞。

Radicalbit AI Monitoring

82 · Python

ai-monitoringmodel-qualityobservability

Radicalbit AI Monitoring 是开源 AI 监控平台，支持模型性能、数据漂移和线上质量指标观测。对于 Agent 系统，它可以作为模型与业务输出的监控层，帮助团队持续发现退化、异常输入和需要重新评估的工作流。

RagaAI Catalyst

16.2k · Python

observabilitytracingevaluation +2

RagaAI Catalyst 是面向 Agent AI 的可观测性、监控与评估框架，支持 Agent/LLM/工具链追踪、多 Agent 系统调试及自托管仪表盘分析。

Bananalyzer

328 · Python

agent-evaluationweb-tasksbenchmark +2

开源 AI Agent 网页任务评估框架，用于衡量和比较 AI Agent 在网页操作任务上的表现。

Langtrace

1.2k · TypeScript

observabilityevaluationllm +2

Langtrace 是一个基于 OpenTelemetry 的开源 LLM 应用可观测性工具，提供实时追踪、评估和指标监控，支持主流 LLM、智能体框架和向量数据库的集成。

Agentic Radar

966 · Python

Agentic Radar 是一个面向 LLM Agent 工作流的安全扫描器。可自动检测智能体管道中的安全漏洞、提示注入风险和权限越界问题，帮助团队在部署前发现和修复 AI Agent 的安全隐患。

securityagentpython +2

HELM

2.8k · Python

llm-evaluationbenchmarkstanford +2

HELM（Holistic Evaluation of Language Models）是斯坦福大学 CRFM 推出的语言模型综合评估框架，支持对大语言模型和多模态模型进行全面、可复现、透明的评估。

Microsandbox

6.0k · Rust

为 AI Agent 提供安全、本地化、跨平台和可编程的沙箱环境。基于微虚拟机技术实现严格的资源隔离，确保 Agent 执行代码时的安全性和可控性。

rustagenttools +2

TensorZero

11.4k · Rust

gatewayinferenceevaluation +1

TensorZero 是面向 LLM 应用与 Agent 系统的开源推理网关和优化平台，强调高性能推理、实验评测、路由控制与生产级观测能力。

OpenLLMetry

7.1k · Python

observabilityopentelemetryllm +2

OpenLLMetry 是基于 OpenTelemetry 的开源 LLM 应用可观测性工具，提供追踪、指标和监控能力。

Traceroot

555 · TypeScript

llm-tracingdebuggingobservability

Traceroot 是用于 LLM 与 Agent 应用的追踪和调试平台，记录提示词、模型响应、工具调用和链路耗时。它适合开发者复盘复杂任务的执行路径，快速定位坏输出、慢步骤和上下文问题。

LLMTracer

2.6k · Python

observabilitytracingdebugging +1

LLMTracer 是面向 Agent 与 LLM 应用的链路追踪工具，帮助开发者记录调用路径、工具执行与状态变化，适合补充工作流调试和线上问题定位能力。

TruLens

3.3k · Python

llmevaluationobservability +1

TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能，包括上下文相关性、接地性和答案相关性等评估维度。

AgMon

18 · Go

monitoringobservabilitycost-tracking +2

AI Agent 的 htop 式监控工具，实时追踪 Claude Code 和 Codex 的 Token 使用量、成本和工具调用。

AISI Sandboxing

21 · Unknown

sandboxevaluationagentic-eval +2

AISI 开源的智能体评测沙箱工具包，用于在受控环境中运行 Agentic evaluations 并隔离模型、工具和执行环境。

UpTrain

2.3k · Python

llm-evaluationmonitoringtesting

UpTrain 是面向 LLM 应用的评测和监控工具，支持对响应质量、上下文相关性、事实性和用户反馈进行检查。它适合 Agent 开发者在上线前后持续评估多步骤任务，发现提示词和检索链路的质量问题。

Weave

1.1k · Python

observabilityevaluationllm +2

Weights & Biases 推出的 AI 应用开发工具包，提供 LLM 调用追踪、评估实验管理和版本化能力，助力 AI 应用从原型到生产的全流程管理。

LangKit

984 · Jupyter Notebook