Giskard
活跃简介
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
AgentLabs 是一个面向 Agent 开发与测试的工具集合,强调实验、回放和开发流程辅助,适合帮助团队提升 Agent 迭代效率。
A security scanner for LLM agentic workflows. Automatically detects security vulnerabilities, prompt injection risks, and permission violations in agent pipelines before deployment.
Salesforce AI Research 推出的自动提示词优化框架,利用 LLM 自动搜索和优化提示词以提升模型性能。
A comprehensive benchmark to evaluate LLMs as agents (ICLR 2024), covering operating systems, databases, knowledge graphs, digital card games and more.