Coval
正常简介
Coval 是一个面向语音与对话 Agent 的评测工具,帮助团队对真实对话表现、响应质量与交互稳定性进行测试,适合语音 Agent 质量治理。
Coval 是一个面向语音与对话 Agent 的评测工具,帮助团队对真实对话表现、响应质量与交互稳定性进行测试,适合语音 Agent 质量治理。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
Salesforce AI Research 推出的自动提示词优化框架,利用 LLM 自动搜索和优化提示词以提升模型性能。
开源的现代设计 AI 训练追踪与可视化工具,支持 PyTorch、Transformers 等主流框架,帮助开发者监控和评估 AI Agent 的训练过程。
ICLR 2024 论文,全面的 LLM Agent 评估基准,涵盖操作系统、数据库、知识图谱、数字卡片游戏等多维度任务。