LLM Jailbreaking Defense

活跃

GitHub Python MIT

简介

轻量级 LLM 越狱防御库，提供多种防御策略来保护大语言模型免受越狱攻击。

绕过商业 LLM 安全护栏的研究工具，用于评估和改进 LLM 安全防护机制的有效性。

易用的 LLM 提示注入检测和输入净化 Python 包，支持多种检测方法和自定义规则。

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

高速 AI Agent 信任层，提供提示注入检测、PII 过滤和内容安全防护等安全护栏功能。