Parsr

正常

GitHub JavaScript Apache-2.0

简介

将 PDF、文档和图片转换为结构化数据的文档处理管道，支持表格识别、阅读顺序还原和 Markdown 输出。

Crawlee 是一个面向 Node.js 的 Web 爬取和浏览器自动化库，支持 Puppeteer、Playwright、Cheerio 等多种引擎，专为构建可靠的爬虫而设计，可提取 HTML、PDF 等数据用于 AI、LLM 和 RAG 应用。

Unstract 是一个由 LLM 驱动的非结构化数据提取平台，专为 API 部署和 ETL 管道工作流而设计。支持从文档、PDF、图片等非结构化数据源中智能提取结构化信息，构建自动化数据处理管道。

SQL驱动的RAG引擎，在查询时自动构建知识图谱，将SQL查询能力与RAG检索增强生成深度结合，提供高效的知识检索体验。

开源的 AI Agent 上下文检索层，支持从多种数据源自动提取、索引和检索结构化上下文信息，帮助 AI Agent 更准确地理解和利用企业知识库。