Coval
活跃简介
Coval 是一个面向语音与对话 Agent 的评测工具,帮助团队对真实对话表现、响应质量与交互稳定性进行测试,适合语音 Agent 质量治理。
Coval 是一个面向语音与对话 Agent 的评测工具,帮助团队对真实对话表现、响应质量与交互稳定性进行测试,适合语音 Agent 质量治理。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
Salesforce AI Research 推出的自动提示词优化框架,利用 LLM 自动搜索和优化提示词以提升模型性能。
A comprehensive benchmark to evaluate LLMs as agents (ICLR 2024), covering operating systems, databases, knowledge graphs, digital card games and more.
AgentLabs 是一个面向 Agent 开发与测试的工具集合,强调实验、回放和开发流程辅助,适合帮助团队提升 Agent 迭代效率。