AgentLabs

相关项目

PydanticAI Harness

500 · Python

活跃

PydanticAI 官方工具包，为 Pydantic AI Agent 提供测试、评估和调试的基础设施。

pydantic-aitestingevaluation +2

DeepEval

15.9k · Python

活跃

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。

llmevaluationtesting +1

Harbor

2.3k · Python

活跃

Agent 评估框架，支持运行 Agent 基准测试和创建强化学习环境，用于衡量和改进 Agent 性能

evaluationbenchmarkrl-environments +2

Prompt Ops

817 · Python

正常

Meta 开源的大语言模型 Prompt 优化工具，通过自动化流程帮助开发者持续改进和优化 LLM 提示词效果。