🛡️

最佳安全护栏 Top 20

精选 20 个最受欢迎的开源安全护栏项目，按 GitHub Stars 排名。

SWE-agent

19.2k Stars

SWE-agent 能自动分析 GitHub Issue 并用 LLM 生成修复代码，支持网络安全审计和编程竞赛场景，NeurIPS 2024 论文项目。

swecodingagentcybersecurity

OpenAI Evals

18.4k Stars

OpenAI 推出的 LLM 评估框架，提供标准化的基准测试注册表和工具集，用于系统评估大语言模型和 LLM 系统的性能表现。

llm-evaluationbenchmarkevalsred-teaming

PentAGI

16.8k Stars

全自主 AI Agent 渗透测试系统，基于多 Agent 架构执行复杂的网络安全渗透测试任务，支持 OpenAI、Anthropic 等多种模型后端。

securitytestingmulti-agentagent

PentestGPT

13.0k Stars

基于大语言模型的自动化渗透测试 Agent 框架，利用 LLM 驱动安全测试和漏洞发现。

penetration-testingsecurityllmautomation

E2B

12.2k Stars

E2B 提供面向 AI Agent 的安全云沙箱运行环境，支持代码执行、文件操作与隔离计算，适合作为代码 Agent、数据 Agent 与自动化任务的执行层。

sandboxcode-executionsecuritypython

Portkey AI Gateway

11.7k Stars

Portkey AI Gateway 是一个高性能 AI 网关，支持路由到 200+ LLM 提供商，内置 50+ AI 安全护栏，提供统一 API 接口。

gatewayllm-routingguardrailsai-safety

OpenSandbox

10.6k Stars

OpenSandbox 是阿里巴巴开源的安全、快速、可扩展的 AI Agent 沙箱运行时环境。

sandboxai-infrastructurekubernetessecurity

GhidraMCP

8.8k Stars

为 Ghidra 逆向工程平台提供 MCP 协议支持，让 AI Agent 能够自主进行二进制分析和漏洞发现。

mcpreverse-engineeringghidrasecurity

HexStrike AI

8.7k Stars

HexStrike AI 是高级 MCP 服务器，让 AI Agent 自主运行 150+ 网络安全工具，实现自动化渗透测试和漏洞发现。

cybersecuritypentestingmcp-serversecurity

Garak

7.8k Stars

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

llm-securityvulnerability-scannerllm-evaluationred-teaming

Guardrails AI

6.8k Stars

Guardrails AI 为大语言模型添加可编程的安全护栏，通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。

guardrailsllm-safetyvalidationoutput-validation

Superagent

6.6k Stars

Superagent 是一个 AI 应用安全防护平台，提供提示注入防护、数据泄露检测和有害输出过滤，可嵌入任何 AI 应用中。

ai-safetyguardrailsagent-toolssecurity

Anthropic Cybersecurity Skills

6.2k Stars

754个结构化AI Agent网络安全技能，映射MITRE ATT&CK、NIST CSF 2.0、MITRE ATLAS等5大安全框架，覆盖26个安全领域，支持Claude Code、Codex CLI等20+平台。

pythonsecurityagenttools

NeMo Guardrails

6.1k Stars

NVIDIA NeMo Guardrails 是一个开源工具包，用于为基于 LLM 的对话系统添加可编程的安全护栏，支持话题控制、安全防护和对话引导。

guardrailsllm-safetynvidiaconversational-ai

Microsandbox

6.0k Stars

为 AI Agent 提供安全、本地化、跨平台和可编程的沙箱环境。基于微虚拟机技术实现严格的资源隔离，确保 Agent 执行代码时的安全性和可控性。

rustagenttoolssecurity

OpenShell

5.8k Stars

由 NVIDIA 开发的自主 AI Agent 安全运行时环境。专注于隐私保护和安全执行，为 AI Agent 提供受控的执行环境和资源管理能力。

rustagentframeworksecurity

Giskard

5.3k Stars

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safetybias-detection

Purple Llama

4.2k Stars

Meta 推出的 LLM 安全评估工具集，提供安全基准测试、提示注入检测和输出审核等功能，帮助评估和提升大型语言模型的安全性。

securityevaluationpythonllm

PyRIT

3.8k Stars

微软开源的生成式AI风险评估框架，帮助安全专业人员主动识别生成式AI系统中的安全风险，支持红队测试和自动化攻击探测。

pythonsecurityevaluationllm

MCP Context Forge

3.7k Stars

IBM 开源的 AI 网关与注册代理，统一管理 MCP、A2A 及 REST/gRPC API 接口，提供集中化服务发现、安全护栏和流量管理，优化 Agent 与工具调用效率。

mcpa2aapi-gatewayregistry

Agent 评估LLM 评测自动化测试

Agent 评估与测试体系：从单轮评分到端到端流水线

大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。

AI Agent安全Prompt Injection

AI Agent 安全攻防实战：从 Prompt 注入到纵深防御

系统梳理 AI Agent 面临的三大攻击面，结合实战代码讲解提示注入防御、工具权限隔离和输出过滤的纵深防御策略。

AI 编程Coding AgentCLI

AI 编程 Agent 深度对比：从 CLI 到 IDE 内嵌的架构取舍

从 CLI-first、IDE-集成到完全自主三种架构出发，对比七款主流编程 Agent 的上下文管理、工具访问和自主度，帮你为每个开发场景选对工具。