Unstructured

活跃
GitHub HTML Apache-2.0

简介

Unstructured 提供文档解析与清洗能力,是 RAG 数据摄取和预处理环节常用的开源组件。

核心特性

  • 开源文档解析,支持 PDF、HTML、Word 等格式
  • 模块化分区函数,用于文本提取和结构检测
  • Docker 支持,多平台镜像兼容 x86_64 和 Apple Silicon
  • 可直接集成到 RAG 摄取和预处理管道中
  • 支持图像、表格和复杂文档布局
  • 可通过 PyPI 安装,支持本地开发环境搭建

适用场景

💡 为 LLM 摄取预处理非结构化文档
💡 构建需要可靠文档解析的 RAG 管道
💡 从 PDF 中提取文本和表格用于下游分析
💡 自动化 AI/ML 工作流中的数据预处理
💡 将混合文档格式转换为结构化输出

快速开始

1. 拉取 Docker 镜像:`docker pull downloads.unstructured.io/unstructured-io/unstructured:latest`。
2. 或从 PyPI 安装:`pip install unstructured`。
3. 使用 `partition` 函数对文档进行分区处理。
4. 将结构化输出用于 RAG 或 LLM 管道。

相关项目

相关文章