DeepEval

活跃
GitHub Python Apache-2.0

简介

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。

核心特性

  • 兼容 Pytest 的 LLM 评估框架,提供开箱即用的智能体、RAG 和聊天机器人评估指标
  • 智能体指标包括任务完成度、工具正确性、步骤效率和计划遵循度
  • RAG 指标涵盖答案相关性、忠实度、上下文召回/精确度/相关性和 RAGAS
  • 多轮对话指标支持知识保留、对话完整性和轮次相关性评估
  • MCP 指标评估 Model Context Protocol 智能体的任务完成和工具使用情况
  • G-Eval 和 DAG 指标支持自定义标准评估,使用 LLM-as-judge 实现类人准确度

适用场景

💡 部署前对 LLM 应用进行单元测试,捕获质量回归
💡 使用检索和答案质量指标评估 RAG 流水线准确性
💡 基准测试不同模型、提示词和架构以选择最优 LLM
💡 对聊天机器人和多轮对话智能体进行回归测试
💡 在 CI/CD 流水线中对 LLM 驱动的生产系统进行持续评估

快速开始

通过 `pip install deepeval` 安装,使用 `AnswerRelevancyMetric` 和 `FaithfulnessMetric` 等指标编写测试用例,像 pytest 一样运行 `deepeval test run`,在终端或 Confident AI 平台查看结果。

相关项目

相关文章