Ragas

不活跃
GitHub Python Apache-2.0

简介

Ragas 是一个用于评估 RAG(检索增强生成)系统的框架。提供多种评估指标,包括忠实度、答案相关性、上下文精确度等,帮助开发者优化 RAG 应用性能。

核心特性

  • 基于 LLM 和传统方法的客观评估指标,精准衡量 LLM 应用质量
  • 自动生成覆盖多种场景的测试数据集,专为 RAG 系统设计
  • 无缝集成 LangChain、主流可观测性工具及热门 LLM 框架
  • 基于生产数据的反馈循环,持续优化 LLM 应用性能
  • 预置快速启动模板,支持 RAG 评估、Agent 评估和 LLM 基准测试
  • DiscreteMetric 支持自定义维度评估,提供细粒度评分与推理

适用场景

💡 使用忠实度、相关性和上下文精确度指标评估 RAG 管道质量
💡 对比不同 LLM 提示词和配置,找到最优方案
💡 生成合成测试数据集,对检索和生成组件进行压力测试
💡 为生产环境中的 LLM 应用构建 CI/CD 评估门禁

快速开始

pip install ragas && ragas quickstart rag_eval -o ./my-project

相关项目

相关文章