Embedchain

活跃
GitHub Python Apache-2.0

简介

Embedchain 是一个面向 AI Agent 的通用记忆层,支持将多种数据源快速接入 LLM,构建具有上下文记忆的 AI 应用。

核心特性

  • 通用记忆层 — 将多种数据源(网页、PDF、YouTube、Notion 等)快速接入 LLM 构建上下文
  • 向量化存储 — 自动将数据分块、嵌入并存入向量数据库,支持语义检索
  • 多 LLM 后端支持 — 兼容 OpenAI、Cohere、Ollama 等多种 LLM 和嵌入模型
  • 简洁 API — 三行代码即可完成数据加载、索引和查询的全流程
  • 多数据库适配 — 支持 Chroma、Pinecone、Qdrant、Weaviate 等主流向量数据库
  • 流式响应 — 支持流式输出 LLM 回答,提升用户体验

适用场景

💡 快速构建 RAG 应用:将文档集合接入 LLM,几分钟内构建私有知识问答系统
💡 个人知识库助手:整合 Notion、网页收藏和 PDF 笔记,创建可对话的个人知识管理工具
💡 客服知识系统:将产品文档和 FAQ 加载为向量索引,支持客服 Agent 精准检索答案
💡 代码文档问答:对项目文档和 API 参考进行索引,让开发者用自然语言查询技术文档
💡 多源信息聚合:同时从网页、视频字幕和本地文件中提取信息,构建统一的语义索引

快速开始

# 安装 Embedchain
pip install embedchain

# 快速开始:三步构建 RAG 应用
from embedchain import App

# 创建应用并加载数据
app = App.from_config(config={
    "llm": {"provider": "openai", "config": {"model": "gpt-4o-mini"}},
    "vectordb": {"provider": "chroma"}
})

app.add("https://www.example.com/docs")  # 加载网页数据
answer = app.query("这个文档的主要内容是什么?")  # 查询
print(answer)

相关项目