FlashRAG

正常
GitHub Python MIT

简介

FlashRAG 是面向 RAG 研究的 Python 工具包,内置 36 个数据集与 23 种 SOTA RAG 算法,可灵活组装检索与生成模块。

核心特性

  • 模块化组件 — 提供检索器、重排器、生成器、压缩器等可灵活组合的 RAG 模块
  • 36 个基准数据集 — 预处理的 RAG 评测数据集,可直接用于训练与对比
  • 23 种 SOTA 算法 — 集成 23 种已发表 RAG 算法,含 7 种推理增强方法
  • 高效预处理 — 提供语料处理、索引构建与文档预检索脚本
  • 推理加速 — 集成 vLLM、FastChat 与 Faiss 以加速 LLM 与向量检索
  • 可视化 UI — 提供图形界面快速配置与评估 RAG 基线

适用场景

💡 复现顶会发表的 RAG 算法作为论文基线
💡 在统一框架下对比不同检索器与生成器组合
💡 为新业务快速搭建自定义 RAG 流水线
💡 在 36 个公开数据集上批量评测 RAG 系统
💡 研究推理增强的 RAG 方法在多跳问答中的表现

快速开始

# 安装 FlashRAG
pip install flashrag-dev

# 准备一个数据集(自动下载)
from flashrag.config import Config
from flashrag.pipeline import SequentialPipeline

config = Config(config_file="basic_config.yaml")
pipeline = SequentialPipeline(config)
result = pipeline.run("中国的首都是哪里?")
print(result)

相关项目