JailTrickBench
不活跃简介
NeurIPS 2024 论文配套的 LLM 越狱攻击基准测试工具,系统收集和评估越狱攻击技巧,为 LLM 安全研究提供标准化评测框架。
NeurIPS 2024 论文配套的 LLM 越狱攻击基准测试工具,系统收集和评估越狱攻击技巧,为 LLM 安全研究提供标准化评测框架。
一个包含 15,140 条 ChatGPT 提示词的数据集(含 1,405 条越狱提示词),来自 Reddit、Discord 等多平台,为 LLM 安全研究和越狱检测提供了大规模基准数据。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
AI 智能体安全工具的开放基准测试,涵盖提示注入、数据泄露、工具滥用和来源追踪等安全维度的评估。
一个易于使用的 Python 框架,用于生成对抗性越狱提示词,帮助研究人员系统性评估 LLM 的安全防护能力,支持多种攻击方法组合。