最佳安全护栏 Top 20
精选 20 个最受欢迎的开源安全护栏项目,按 GitHub Stars 排名。
Anthropic Cybersecurity Skills
23.5k Stars754个结构化AI Agent网络安全技能,映射MITRE ATT&CK、NIST CSF 2.0、MITRE ATLAS等5大安全框架,覆盖26个安全领域,支持Claude Code、Codex CLI等20+平台。
Promptfoo
22.8k StarsLLM prompt 测试与红队一体化 CLI 工具。 项目生态活跃,社区支持完善。
Promptfoo
22.8k StarsLLM 提示和 Agent 测试评估工具,用于测试提示词、Agent 和 RAG 管道,内置红队测试和安全评估功能。
SWE-agent
19.7k StarsSWE-agent 能自动分析 GitHub Issue 并用 LLM 生成修复代码,支持网络安全审计和编程竞赛场景,NeurIPS 2024 论文项目。
OpenAI Evals
18.8k StarsOpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
PentAGI
18.0k Stars全自主 AI Agent 渗透测试系统,基于多 Agent 架构执行复杂的网络安全渗透测试任务,支持 OpenAI、Anthropic 等多种模型后端。
PentestGPT
14.0k Stars基于大语言模型的自动化渗透测试 Agent 框架,利用 LLM 驱动安全测试和漏洞发现。
E2B
12.8k StarsE2B 提供面向 AI Agent 的安全云沙箱运行环境,支持代码执行、文件操作与隔离计算,适合作为代码 Agent、数据 Agent 与自动化任务的执行层。
Portkey AI Gateway
12.3k StarsPortkey AI Gateway 是一个高性能 AI 网关,支持路由到 200+ LLM 提供商,内置 50+ AI 安全护栏,提供统一 API 接口。
OpenSandbox
11.7k StarsOpenSandbox 是阿里巴巴开源的安全、快速、可扩展的 AI Agent 沙箱运行时环境。
SkillSpector
11.6k StarsSkillSpector 是 NVIDIA 开源的 AI Agent 技能安全扫描器,检测 Agent Skills 中的漏洞、恶意代码与不安全模式。
HexStrike AI
10.1k StarsHexStrike AI 是高级 MCP 服务器,让 AI Agent 自主运行 150+ 网络安全工具,实现自动化渗透测试和漏洞发现。
Presidio
9.8k Stars微软开源的上下文感知 PII 检测与脱敏 SDK,支持文本、图像和结构化数据,为 LLM 应用与 Agent 提供敏感信息保护。
GhidraMCP
9.4k Stars为 Ghidra 逆向工程平台提供 MCP 协议支持,让 AI Agent 能够自主进行二进制分析和漏洞发现。
CAI
9.3k StarsAlias Robotics 开源的 AI 安全研究代理框架,面向网络安全任务的多智能体编排,集成 300+ AI 模型,专为红队与安全研究设计。
Garak
8.3k StarsNVIDIA 开源的 LLM 漏洞扫描器,可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题,是 LLM 安全评估的核心工具。
OpenShell
7.3k Stars由 NVIDIA 开发的自主 AI Agent 安全运行时环境。专注于隐私保护和安全执行,为 AI Agent 提供受控的执行环境和资源管理能力。
Guardrails AI
7.1k StarsGuardrails AI 为大语言模型添加可编程的安全护栏,通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。
Guardrails AI
7.1k Stars为 LLM 输出提供结构化校验与安全护栏的开源库。 项目生态活跃,社区支持完善。
Microsandbox
6.8k Stars为 AI Agent 提供安全、本地化、跨平台和可编程的沙箱环境。基于微虚拟机技术实现严格的资源隔离,确保 Agent 执行代码时的安全性和可控性。
相关文章
Agent 评估与测试体系:从单轮评分到端到端流水线
大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。
Agent 幻觉防御:超越护栏的实用缓解模式
LLM Agent 为什么会产生幻觉?本文从根本原因出发,系统梳理检索增强、置信度评分、多智能体交叉验证、来源强制回溯等实用缓解模式,并介绍如何用 UpTrain、Giskard、RagaAI Catalyst、Comet Opik、NVIDIA Garak 等工具构建可观测的幻觉防御体系。
Agent 提示词注入防御:OWASP LLM01 七层纵深防护
基于 OWASP LLM Top 10 工程实践,系统讲解 Agent 提示词注入的七层纵深防御:输入清洗、指令隔离、最小权限、输出审计、护栏框架、持续红队评估和 Kill Switch,给出可落地的代码与工具链。