LlamaIndex

活跃
GitHub Python MIT

简介

用于构建 LLM 应用的领先数据框架,提供 RAG、Agent 和 Workflow 一体化能力。

核心特性

  • 数据连接器 — 从 100+ 数据源(PDF、数据库、API、Notion、Slack)摄取并解析非结构化数据
  • RAG 管线 — 端到端检索增强生成管线,支持分块、向量化、检索、重排序与答案合成
  • Agent 抽象 — FunctionCallingAgent、ReActAgent 等开箱即用 Agent,集成工具调用与记忆
  • Workflow 编排 — 事件驱动的 Workflow 引擎,支持多步骤、循环、并发与错误恢复
  • LlamaParse — 工业级 PDF/Excel 解析器,精准抽取表格、图表与版式信息
  • 可观测性 — 内置 OpenTelemetry 集成,支持 trace 调试每一步检索与生成

适用场景

💡 构建企业知识库问答系统,支持 PDF/Word/Excel 文档的统一检索与答案生成。
💡 为客服场景搭建 RAG Agent,自动调用工具查询订单、库存并生成回复。
💡 研究助手:抓取论文与网页,构建可引用的研究素材库。

快速开始

# 安装
pip install llama-index
# 简单 RAG 加载并查询
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
docs = SimpleDirectoryReader('data').load_data()
index = VectorStoreIndex.from_documents(docs)
query_engine = index.as_query_engine()
print(query_engine.query('总结这份文档的关键点'))

相关项目