🛡️

最佳安全护栏 Top 20

精选 20 个最受欢迎的开源安全护栏项目，按 GitHub Stars 排名。

Anthropic Cybersecurity Skills

23.5k Stars

754个结构化AI Agent网络安全技能，映射MITRE ATT&CK、NIST CSF 2.0、MITRE ATLAS等5大安全框架，覆盖26个安全领域，支持Claude Code、Codex CLI等20+平台。

pythonsecurityagenttools

Promptfoo

22.8k Stars

LLM prompt 测试与红队一体化 CLI 工具。项目生态活跃，社区支持完善。

promptfootestingred-teamcli

Promptfoo

22.8k Stars

LLM 提示和 Agent 测试评估工具，用于测试提示词、Agent 和 RAG 管道，内置红队测试和安全评估功能。

testingevaluationred-teamingprompt-testing

SWE-agent

19.7k Stars

SWE-agent 能自动分析 GitHub Issue 并用 LLM 生成修复代码，支持网络安全审计和编程竞赛场景，NeurIPS 2024 论文项目。

swecodingagentcybersecurity

OpenAI Evals

18.8k Stars

OpenAI 推出的 LLM 评估框架，提供标准化的基准测试注册表和工具集，用于系统评估大语言模型和 LLM 系统的性能表现。

llm-evaluationbenchmarkevalsred-teaming

PentAGI

18.0k Stars

全自主 AI Agent 渗透测试系统，基于多 Agent 架构执行复杂的网络安全渗透测试任务，支持 OpenAI、Anthropic 等多种模型后端。

securitytestingmulti-agentagent

PentestGPT

14.0k Stars

基于大语言模型的自动化渗透测试 Agent 框架，利用 LLM 驱动安全测试和漏洞发现。

penetration-testingsecurityllmautomation

E2B

12.8k Stars

E2B 提供面向 AI Agent 的安全云沙箱运行环境，支持代码执行、文件操作与隔离计算，适合作为代码 Agent、数据 Agent 与自动化任务的执行层。

sandboxcode-executionsecuritypython

Portkey AI Gateway

12.3k Stars

Portkey AI Gateway 是一个高性能 AI 网关，支持路由到 200+ LLM 提供商，内置 50+ AI 安全护栏，提供统一 API 接口。

gatewayllm-routingguardrailsai-safety

OpenSandbox

11.7k Stars

OpenSandbox 是阿里巴巴开源的安全、快速、可扩展的 AI Agent 沙箱运行时环境。

sandboxai-infrastructurekubernetessecurity

SkillSpector

11.6k Stars

SkillSpector 是 NVIDIA 开源的 AI Agent 技能安全扫描器，检测 Agent Skills 中的漏洞、恶意代码与不安全模式。

security-guardrailsmcpstatic-analysisnvidia

HexStrike AI

10.1k Stars

HexStrike AI 是高级 MCP 服务器，让 AI Agent 自主运行 150+ 网络安全工具，实现自动化渗透测试和漏洞发现。

cybersecuritypentestingmcp-serversecurity

Presidio

9.8k Stars

微软开源的上下文感知 PII 检测与脱敏 SDK，支持文本、图像和结构化数据，为 LLM 应用与 Agent 提供敏感信息保护。

pii-detectiondata-maskingprivacynlp

GhidraMCP

9.4k Stars

为 Ghidra 逆向工程平台提供 MCP 协议支持，让 AI Agent 能够自主进行二进制分析和漏洞发现。

mcpreverse-engineeringghidrasecurity

CAI

9.3k Stars

Alias Robotics 开源的 AI 安全研究代理框架，面向网络安全任务的多智能体编排，集成 300+ AI 模型，专为红队与安全研究设计。

cybersecurityai-agentsred-teampentest

Garak

8.3k Stars

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

llm-securityvulnerability-scannerllm-evaluationred-teaming

OpenShell

7.3k Stars

由 NVIDIA 开发的自主 AI Agent 安全运行时环境。专注于隐私保护和安全执行，为 AI Agent 提供受控的执行环境和资源管理能力。

rustagentframeworksecurity

Guardrails AI

7.1k Stars

Guardrails AI 为大语言模型添加可编程的安全护栏，通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。

guardrailsllm-safetyvalidationoutput-validation

Guardrails AI

7.1k Stars

为 LLM 输出提供结构化校验与安全护栏的开源库。项目生态活跃，社区支持完善。

guardrailsvalidationsafetypython

Microsandbox

6.8k Stars

为 AI Agent 提供安全、本地化、跨平台和可编程的沙箱环境。基于微虚拟机技术实现严格的资源隔离，确保 Agent 执行代码时的安全性和可控性。

rustagenttoolssecurity

Agent 评估LLM 评测自动化测试

Agent 评估与测试体系：从单轮评分到端到端流水线

大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。

RAGhallucination-detectionagent-evaluation

Agent 幻觉防御：超越护栏的实用缓解模式

LLM Agent 为什么会产生幻觉？本文从根本原因出发，系统梳理检索增强、置信度评分、多智能体交叉验证、来源强制回溯等实用缓解模式，并介绍如何用 UpTrain、Giskard、RagaAI Catalyst、Comet Opik、NVIDIA Garak 等工具构建可观测的幻觉防御体系。

安全Prompt InjectionOWASP

Agent 提示词注入防御：OWASP LLM01 七层纵深防护

基于 OWASP LLM Top 10 工程实践，系统讲解 Agent 提示词注入的七层纵深防御：输入清洗、指令隔离、最小权限、输出审计、护栏框架、持续红队评估和 Kill Switch，给出可落地的代码与工具链。

最佳安全护栏 Top 20

Anthropic Cybersecurity Skills

Promptfoo

Promptfoo

SWE-agent

OpenAI Evals

PentAGI

PentestGPT

E2B

Portkey AI Gateway

OpenSandbox

SkillSpector

HexStrike AI

Presidio

GhidraMCP

CAI

Garak

OpenShell

Guardrails AI

Guardrails AI

Microsandbox

相关文章

Agent 评估与测试体系：从单轮评分到端到端流水线

Agent 幻觉防御：超越护栏的实用缓解模式

Agent 提示词注入防御：OWASP LLM01 七层纵深防护