相关项目
pytest-evals
159 · Jupyter Notebook
基于 pytest 的 LLM 评估测试插件,支持运行和分析大语言模型的评估测试,帮助开发者系统化地验证 AI 智能体的表现。
evaluationtestingllm +2
Purple Llama
4.1k · Python
Meta 推出的 LLM 安全评估工具集,提供安全基准测试、提示注入检测和输出审核等功能,帮助评估和提升大型语言模型的安全性。
securityevaluationpython +2
LLM Guard
2.9k · Python
LLM 交互安全工具包,提供提示词注入检测、敏感信息脱敏、内容安全审计等防护能力,保障生产环境 LLM 调用的安全性。
securityllmpython +2
Agentic Radar
953 · Python
Agentic Radar 是一个面向 LLM Agent 工作流的安全扫描器。可自动检测智能体管道中的安全漏洞、提示注入风险和权限越界问题,帮助团队在部署前发现和修复 AI Agent 的安全隐患。
securityagentpython +2