Promptfoo
LLM prompt 测试与红队一体化 CLI 工具。 项目生态活跃,社区支持完善。
AI 安全评估、红队测试、LLM 防护栏、漏洞扫描、合规审计工具
LLM prompt 测试与红队一体化 CLI 工具。 项目生态活跃,社区支持完善。
LLM 提示和 Agent 测试评估工具,用于测试提示词、Agent 和 RAG 管道,内置红队测试和安全评估功能。
SWE-agent 能自动分析 GitHub Issue 并用 LLM 生成修复代码,支持网络安全审计和编程竞赛场景,NeurIPS 2024 论文项目。
754个结构化AI Agent网络安全技能,映射MITRE ATT&CK、NIST CSF 2.0、MITRE ATLAS等5大安全框架,覆盖26个安全领域,支持Claude Code、Codex CLI等20+平台。
OpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
全自主 AI Agent 渗透测试系统,基于多 Agent 架构执行复杂的网络安全渗透测试任务,支持 OpenAI、Anthropic 等多种模型后端。
基于大语言模型的自动化渗透测试 Agent 框架,利用 LLM 驱动安全测试和漏洞发现。
E2B 提供面向 AI Agent 的安全云沙箱运行环境,支持代码执行、文件操作与隔离计算,适合作为代码 Agent、数据 Agent 与自动化任务的执行层。
Portkey AI Gateway 是一个高性能 AI 网关,支持路由到 200+ LLM 提供商,内置 50+ AI 安全护栏,提供统一 API 接口。
OpenSandbox 是阿里巴巴开源的安全、快速、可扩展的 AI Agent 沙箱运行时环境。
HexStrike AI 是高级 MCP 服务器,让 AI Agent 自主运行 150+ 网络安全工具,实现自动化渗透测试和漏洞发现。
微软开源的上下文感知 PII 检测与脱敏 SDK,支持文本、图像和结构化数据,为 LLM 应用与 Agent 提供敏感信息保护。
SkillSpector 是 NVIDIA 开源的 AI Agent 技能安全扫描器,检测 Agent Skills 中的漏洞、恶意代码与不安全模式。
为 Ghidra 逆向工程平台提供 MCP 协议支持,让 AI Agent 能够自主进行二进制分析和漏洞发现。
Alias Robotics 开源的 AI 安全研究代理框架,面向网络安全任务的多智能体编排,集成 300+ AI 模型,专为红队与安全研究设计。
NVIDIA 开源的 LLM 漏洞扫描器,可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题,是 LLM 安全评估的核心工具。
由 NVIDIA 开发的自主 AI Agent 安全运行时环境。专注于隐私保护和安全执行,为 AI Agent 提供受控的执行环境和资源管理能力。
Guardrails AI 为大语言模型添加可编程的安全护栏,通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。
为 LLM 输出提供结构化校验与安全护栏的开源库。 项目生态活跃,社区支持完善。
为 AI Agent 提供安全、本地化、跨平台和可编程的沙箱环境。基于微虚拟机技术实现严格的资源隔离,确保 Agent 执行代码时的安全性和可控性。
Superagent 是一个 AI 应用安全防护平台,提供提示注入防护、数据泄露检测和有害输出过滤,可嵌入任何 AI 应用中。
NVIDIA NeMo Guardrails 是一个开源工具包,用于为基于 LLM 的对话系统添加可编程的安全护栏,支持话题控制、安全防护和对话引导。
NVIDIA 推出的 LLM 对话护栏框架,可编程定义安全边界。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
(24 / 62)
大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。
五层防御 + 红队闭环,5 个开源项目落地可复制方案,避开 prompt 越狱与 PII 泄露。
系统梳理 AI Agent 面临的三大攻击面,结合实战代码讲解提示注入防御、工具权限隔离和输出过滤的纵深防御策略。
从 CLI-first、IDE-集成到完全自主三种架构出发,对比七款主流编程 Agent 的上下文管理、工具访问和自主度,帮你为每个开发场景选对工具。
对比容器、WebAssembly、进程级隔离三种沙箱方案,结合实战代码讲解如何安全执行 Agent 生成的代码。
四款主流 LLM 网关横评,多模型 fallback / 智能路由 / 成本观测 / 场景调度四大模式落地。