AgentDojo

相关项目

EasyJailbreak

851 · Python

正常

一个易于使用的 Python 框架，用于生成对抗性越狱提示词，帮助研究人员系统性评估 LLM 的安全防护能力，支持多种攻击方法组合。

jailbreakadversarialllm-safety +2

AI Red Teaming Playground Labs

1.9k · TypeScript

正常

微软开源的 AI 红队测试演练实验室，提供完整的训练基础设施和实验环境，帮助安全专业人员学习 AI 系统攻防技术。

red-teamtrainingsecurity +2

SCAM

105 · Python

正常

1Password 开源的安全意识基准测试工具，通过真实的多轮工作任务测试 AI Agent 的安全意识水平，帮助评估 Agent 在职场场景中的安全风险。

security-benchmarkagent-safetyworkplace +2

Giskard

5.3k · Python

活跃

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。