Giskard

活跃

GitHub Python Apache-2.0

简介

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

Agentic Radar 是一个面向 LLM Agent 工作流的安全扫描器。可自动检测智能体管道中的安全漏洞、提示注入风险和权限越界问题，帮助团队在部署前发现和修复 AI Agent 的安全隐患。

Meta 推出的 LLM 安全评估工具集，提供安全基准测试、提示注入检测和输出审核等功能，帮助评估和提升大型语言模型的安全性。

微软推出的 AI 智能体治理工具包，提供策略执行、零信任身份验证、执行沙箱和可靠性工程，覆盖 OWASP 智能体 Top 10 全部安全风险。

LLM 提示和 Agent 测试评估工具，用于测试提示词、Agent 和 RAG 管道，内置红队测试和安全评估功能。

大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。