Coval

相关项目

Giskard

5.3k · Python

活跃

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

PrompToMatix

954 · Python

不活跃

Salesforce AI Research 推出的自动提示词优化框架，利用 LLM 自动搜索和优化提示词以提升模型性能。

prompt-engineeringevaluationllm +1

SwanLab

3.9k · Python

活跃

开源的现代设计 AI 训练追踪与可视化工具，支持 PyTorch、Transformers 等主流框架，帮助开发者监控和评估 AI Agent 的训练过程。

pythonobservabilityevaluation +2

AgentBench

3.4k · Python

不活跃

ICLR 2024 论文，全面的 LLM Agent 评估基准，涵盖操作系统、数据库、知识图谱、数字卡片游戏等多维度任务。