Harbor
活跃简介
Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能
Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能
AgentLabs 是一个面向 Agent 开发与测试的工具集合,强调实验、回放和开发流程辅助,适合帮助团队提升 Agent 迭代效率。
Meta 开源的大语言模型 Prompt 优化工具,通过自动化流程帮助开发者持续改进和优化 LLM 提示词效果。
PydanticAI 官方工具包,为 Pydantic AI Agent 提供测试、评估和调试的基础设施。
DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。