Harbor

相关项目

AgentLabs

550 · TypeScript

不活跃

AgentLabs 是一个面向 Agent 开发与测试的工具集合，强调实验、回放和开发流程辅助，适合帮助团队提升 Agent 迭代效率。

testingdeveloper-toolsevaluation +1

Prompt Ops

816 · Python

正常

Meta 开源的大语言模型 Prompt 优化工具，通过自动化流程帮助开发者持续改进和优化 LLM 提示词效果。

prompt-engineeringllmtools +2

PydanticAI Harness

492 · Python

活跃

PydanticAI 官方工具包，为 Pydantic AI Agent 提供测试、评估和调试的基础设施。

pydantic-aitestingevaluation +2

DeepEval

15.9k · Python

活跃

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。