Unstructured
活跃简介
Unstructured 提供文档解析与清洗能力,是 RAG 数据摄取和预处理环节常用的开源组件。
核心特性
- 开源文档解析,支持 PDF、HTML、Word 等格式
- 模块化分区函数,用于文本提取和结构检测
- Docker 支持,多平台镜像兼容 x86_64 和 Apple Silicon
- 可直接集成到 RAG 摄取和预处理管道中
- 支持图像、表格和复杂文档布局
- 可通过 PyPI 安装,支持本地开发环境搭建
适用场景
💡 为 LLM 摄取预处理非结构化文档
💡 构建需要可靠文档解析的 RAG 管道
💡 从 PDF 中提取文本和表格用于下游分析
💡 自动化 AI/ML 工作流中的数据预处理
💡 将混合文档格式转换为结构化输出
分类
快速开始
1. 拉取 Docker 镜像:`docker pull downloads.unstructured.io/unstructured-io/unstructured:latest`。
2. 或从 PyPI 安装:`pip install unstructured`。
3. 使用 `partition` 函数对文档进行分区处理。
4. 将结构化输出用于 RAG 或 LLM 管道。