🛡️

安全护栏

AI 安全评估、红队测试、LLM 防护栏、漏洞扫描、合规审计工具

🏆 查看排行榜

62 个项目

Promptfoo

22.5k · TypeScript

活跃

LLM prompt 测试与红队一体化 CLI 工具。项目生态活跃，社区支持完善。

promptfootestingred-team +1

Promptfoo

22.5k · TypeScript

活跃

LLM 提示和 Agent 测试评估工具，用于测试提示词、Agent 和 RAG 管道，内置红队测试和安全评估功能。

testingevaluationred-teaming +2

SWE-agent

19.6k · Python

活跃

SWE-agent 能自动分析 GitHub Issue 并用 LLM 生成修复代码，支持网络安全审计和编程竞赛场景，NeurIPS 2024 论文项目。

swecodingagent +2

Anthropic Cybersecurity Skills

18.8k · Python

活跃

754个结构化AI Agent网络安全技能，映射MITRE ATT&CK、NIST CSF 2.0、MITRE ATLAS等5大安全框架，覆盖26个安全领域，支持Claude Code、Codex CLI等20+平台。

pythonsecurityagent +2

OpenAI Evals

18.7k · Python

正常

OpenAI 推出的 LLM 评估框架，提供标准化的基准测试注册表和工具集，用于系统评估大语言模型和 LLM 系统的性能表现。

llm-evaluationbenchmarkevals +2

PentAGI

17.9k · Go

活跃

全自主 AI Agent 渗透测试系统，基于多 Agent 架构执行复杂的网络安全渗透测试任务，支持 OpenAI、Anthropic 等多种模型后端。

securitytestingmulti-agent +2

PentestGPT

13.9k · Python

活跃

基于大语言模型的自动化渗透测试 Agent 框架，利用 LLM 驱动安全测试和漏洞发现。

penetration-testingsecurityllm +2

E2B

12.7k · Python

活跃

E2B 提供面向 AI Agent 的安全云沙箱运行环境，支持代码执行、文件操作与隔离计算，适合作为代码 Agent、数据 Agent 与自动化任务的执行层。

sandboxcode-executionsecurity +1

Portkey AI Gateway

12.2k · TypeScript

活跃

Portkey AI Gateway 是一个高性能 AI 网关，支持路由到 200+ LLM 提供商，内置 50+ AI 安全护栏，提供统一 API 接口。

gatewayllm-routingguardrails +2

OpenSandbox

11.6k · Python

活跃

OpenSandbox 是阿里巴巴开源的安全、快速、可扩展的 AI Agent 沙箱运行时环境。

sandboxai-infrastructurekubernetes +2

HexStrike AI

9.8k · Python

正常

HexStrike AI 是高级 MCP 服务器，让 AI Agent 自主运行 150+ 网络安全工具，实现自动化渗透测试和漏洞发现。

cybersecuritypentestingmcp-server +2

Presidio

9.5k · Python

活跃

微软开源的上下文感知 PII 检测与脱敏 SDK，支持文本、图像和结构化数据，为 LLM 应用与 Agent 提供敏感信息保护。

pii-detectiondata-maskingprivacy +2

SkillSpector

9.4k · Python

活跃

SkillSpector 是 NVIDIA 开源的 AI Agent 技能安全扫描器，检测 Agent Skills 中的漏洞、恶意代码与不安全模式。

security-guardrailsmcpstatic-analysis +1

GhidraMCP

9.3k · Java

不活跃

为 Ghidra 逆向工程平台提供 MCP 协议支持，让 AI Agent 能够自主进行二进制分析和漏洞发现。

mcpreverse-engineeringghidra +2

CAI

9.2k · Python

活跃

Alias Robotics 开源的 AI 安全研究代理框架，面向网络安全任务的多智能体编排，集成 300+ AI 模型，专为红队与安全研究设计。

cybersecurityai-agentsred-team +2

Garak

8.2k · Python

活跃

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

llm-securityvulnerability-scannerllm-evaluation +2

OpenShell

7.2k · Rust

活跃

由 NVIDIA 开发的自主 AI Agent 安全运行时环境。专注于隐私保护和安全执行，为 AI Agent 提供受控的执行环境和资源管理能力。

rustagentframework +2

Guardrails AI

7.0k · Python

活跃

Guardrails AI 为大语言模型添加可编程的安全护栏，通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。

guardrailsllm-safetyvalidation +2

Guardrails AI

7.0k · Python

活跃

为 LLM 输出提供结构化校验与安全护栏的开源库。项目生态活跃，社区支持完善。

guardrailsvalidationsafety +1

Microsandbox

6.6k · Rust

活跃

为 AI Agent 提供安全、本地化、跨平台和可编程的沙箱环境。基于微虚拟机技术实现严格的资源隔离，确保 Agent 执行代码时的安全性和可控性。

rustagenttools +2

Superagent

6.6k · TypeScript

正常

Superagent 是一个 AI 应用安全防护平台，提供提示注入防护、数据泄露检测和有害输出过滤，可嵌入任何 AI 应用中。

ai-safetyguardrailsagent-tools +2

NeMo Guardrails

6.5k · Python

活跃

NVIDIA NeMo Guardrails 是一个开源工具包，用于为基于 LLM 的对话系统添加可编程的安全护栏，支持话题控制、安全防护和对话引导。

guardrailsllm-safetynvidia +2

NeMo Guardrails

6.5k · Python

活跃

NVIDIA 推出的 LLM 对话护栏框架，可编程定义安全边界。

nemoguardrailsnvidia +1

Giskard

5.4k · Python

活跃

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

(24 / 62)

Agent 评估LLM 评测自动化测试

Agent 评估与测试体系：从单轮评分到端到端流水线

大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。

security-guardrailsred-teamprompt-injection

AI Agent 安全护栏与红队测试实战：从规则引擎到对抗评估

五层防御 + 红队闭环，5 个开源项目落地可复制方案，避开 prompt 越狱与 PII 泄露。

AI Agent安全Prompt Injection

AI Agent 安全攻防实战：从 Prompt 注入到纵深防御

系统梳理 AI Agent 面临的三大攻击面，结合实战代码讲解提示注入防御、工具权限隔离和输出过滤的纵深防御策略。

AI 编程Coding AgentCLI

AI 编程 Agent 深度对比：从 CLI 到 IDE 内嵌的架构取舍

从 CLI-first、IDE-集成到完全自主三种架构出发，对比七款主流编程 Agent 的上下文管理、工具访问和自主度，帮你为每个开发场景选对工具。

AI Agent沙箱代码执行

AI Agent 沙箱与代码执行安全：隔离策略与实战方案

对比容器、WebAssembly、进程级隔离三种沙箱方案，结合实战代码讲解如何安全执行 Agent 生成的代码。

llm-gatewaymodel-routingcost-optimization

LLM 路由与多模型网关降本实战：一份生产级多模型架构

四款主流 LLM 网关横评，多模型 fallback / 智能路由 / 成本观测 / 场景调度四大模式落地。

安全护栏

62 个项目

Promptfoo

Promptfoo

SWE-agent

Anthropic Cybersecurity Skills

OpenAI Evals

PentAGI

PentestGPT

E2B

Portkey AI Gateway

OpenSandbox

HexStrike AI

Presidio

SkillSpector

GhidraMCP

CAI

Garak

OpenShell

Guardrails AI

Guardrails AI

Microsandbox

Superagent

NeMo Guardrails

NeMo Guardrails

Giskard

相关文章

Agent 评估与测试体系：从单轮评分到端到端流水线

AI Agent 安全护栏与红队测试实战：从规则引擎到对抗评估

AI Agent 安全攻防实战：从 Prompt 注入到纵深防御

AI 编程 Agent 深度对比：从 CLI 到 IDE 内嵌的架构取舍

AI Agent 沙箱与代码执行安全：隔离策略与实战方案

LLM 路由与多模型网关降本实战：一份生产级多模型架构