DeepEval

活跃

GitHub Python Apache-2.0

简介

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。

Ragas 是一个用于评估 RAG（检索增强生成）系统的框架。提供多种评估指标，包括忠实度、答案相关性、上下文精确度等，帮助开发者优化 RAG 应用性能。

AgentLabs 是一个面向 Agent 开发与测试的工具集合，强调实验、回放和开发流程辅助，适合帮助团队提升 Agent 迭代效率。

Meta 开源的大语言模型 Prompt 优化工具，通过自动化流程帮助开发者持续改进和优化 LLM 提示词效果。

PromptTools 是开源的提示词测试与实验工具集，支持多种 LLM（OpenAI、LLaMA）和向量数据库（Chroma、Weaviate、LanceDB），帮助开发者系统化评估和优化 RAG 系统。

学习如何使用 Ragas 和 DeepEval 评估 RAG 系统的质量，包括忠实度、答案相关性、上下文精确度等关键指标的测量方法。