EasyJailbreak
正常简介
一个易于使用的 Python 框架,用于生成对抗性越狱提示词,帮助研究人员系统性评估 LLM 的安全防护能力,支持多种攻击方法组合。
一个易于使用的 Python 框架,用于生成对抗性越狱提示词,帮助研究人员系统性评估 LLM 的安全防护能力,支持多种攻击方法组合。
CyberArk 开源的 LLM 自动化模糊测试工具,帮助开发者和安全研究人员识别和缓解 LLM API 中的越狱漏洞,支持多种攻击向量和自动化测试流程。
苏黎世联邦理工学院开发的动态评估环境,用于测试 LLM Agent 的攻击与防御能力,提供标准化基准以衡量 Agent 系统的安全水平。
微软开源的 AI 红队测试演练实验室,提供完整的训练基础设施和实验环境,帮助安全专业人员学习 AI 系统攻防技术。
NeurIPS 2024 论文配套的 LLM 越狱攻击基准测试工具,系统收集和评估越狱攻击技巧,为 LLM 安全研究提供标准化评测框架。