DeepEval

活跃

GitHub Python Apache-2.0

简介

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。

💡 部署前对 LLM 应用进行单元测试，捕获质量回归

💡 使用检索和答案质量指标评估 RAG 流水线准确性

💡 基准测试不同模型、提示词和架构以选择最优 LLM

💡 对聊天机器人和多轮对话智能体进行回归测试

💡 在 CI/CD 流水线中对 LLM 驱动的生产系统进行持续评估

通过 `pip install deepeval` 安装，使用 `AnswerRelevancyMetric` 和 `FaithfulnessMetric` 等指标编写测试用例，像 pytest 一样运行 `deepeval test run`，在终端或 Confident AI 平台查看结果。