Docstrange
不活跃简介
通用文档格式转换工具,支持从 PDF、图片、Word、PPT 等提取数据并转换为 Markdown、JSON、CSV 等多种格式。
通用文档格式转换工具,支持从 PDF、图片、Word、PPT 等提取数据并转换为 Markdown、JSON、CSV 等多种格式。
Google 开源的 Python 库,用于利用 LLM 从非结构化文本中精确提取结构化信息,支持源文本标注和交互式可视化,适用于数据标注和知识抽取场景。
开源的 AI Agent 上下文检索层,支持从多种数据源自动提取、索引和检索结构化上下文信息,帮助 AI Agent 更准确地理解和利用企业知识库。
AI 驱动的 PDF 学术论文翻译工具,完整保留原始排版格式,支持 Google/DeepL/Ollama/OpenAI 等多种翻译引擎。
Crawlee 是一个面向 Node.js 的 Web 爬取和浏览器自动化库,支持 Puppeteer、Playwright、Cheerio 等多种引擎,专为构建可靠的爬虫而设计,可提取 HTML、PDF 等数据用于 AI、LLM 和 RAG 应用。