Harbor
活跃简介
Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能
Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能
AgentLabs 是一个面向 Agent 开发与测试的工具集合,强调实验、回放和开发流程辅助,适合帮助团队提升 Agent 迭代效率。
An open-source tool from Meta for LLM prompt optimization. Automates the process of continuously improving and refining LLM prompts.
DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。
RouteLLM 是一个用于 LLM 路由服务的评估框架,通过智能请求路由在降低推理成本的同时保持输出质量,支持多种路由策略的对比评测。