AIPex
AI 浏览器自动化助手 Chrome 扩展,隐私优先,支持 MCP 协议,可替代 Claude Chrome 和 Manus Browser Operator
浏览器和 Web 自动化 Agent
AI 浏览器自动化助手 Chrome 扩展,隐私优先,支持 MCP 协议,可替代 Claude Chrome 和 Manus Browser Operator
为编程 Agent 提供浏览器开发者工具能力的 MCP 服务器,支持网页调试、性能分析和 DOM 操作自动化。
自适应 Web 爬虫框架,智能应对反爬机制,从单次请求到大规模爬取均可处理,专为 AI Agent 数据采集设计。
完全本地化的 Manus AI 替代方案,支持自主浏览网页、编写代码和语音交互,无需任何 API 费用
Stream 开源的视觉与语音智能体框架,支持任意模型和视频提供商,利用边缘网络实现超低延迟的实时多模态 AI 交互。
开源的跨平台计算机使用智能体,支持在 Windows、macOS、Ubuntu 和 Android 环境中操作 GUI 界面,ICLR 2026 Oral 论文项目。
为 AI Agent 赋予全网搜索能力,一键读取和搜索 Twitter、Reddit、YouTube、GitHub、B 站、小红书等平台,无需 API 费用。
一个 Claude 技能模块,为 AI 编程智能体提供网页浏览器使用能力,实现浏览器自动化操作。
轻量级 AI 浏览器自动化 Agent 框架,提供简洁的 API 用于构建网页交互自动化工具。
开源 Computer-Use-Agent,支持通过自然语言指令自动操作计算机图形界面,实现桌面环境的智能体自动化交互。
面向 AI Agent 和人类的浏览器自动化工具,提供高性能 Go 语言实现的网页交互能力
首个开源的通用 GUI 自动化智能体框架,通过自然语言完全操控图形界面,利用思维可视化与链式推理实现空间感知与 HID 交互模拟。
零服务器代码智能引擎,完全在浏览器中运行的客户端知识图谱创建工具,内置 Graph RAG 智能体用于代码探索。
让 AI Agent 操控你的浏览器完成实际任务的工具。通过自然语言指令驱动浏览器自动化操作,支持表单填写、数据提取和网页交互等场景。
下一代 AI Agent 代理网关,为 AI Agent 和 MCP 服务器提供统一的流量管理、路由转发和安全控制层。支持多协议适配和可扩展的中间件架构。
Page Agent 是阿里巴巴开发的 JavaScript 页面内 GUI 智能体,通过自然语言控制网页界面,实现自动化表单填写、页面导航和元素操作等任务。
Anchor Browser 提供面向 AI Agent 的浏览器运行与控制能力,帮助开发者把网页访问、会话、自动化动作和远程浏览环境接入应用。它适合需要稳定浏览器基础设施的搜索、采购、运营和数据录入型代理。
强大的公共 Web 数据访问 MCP 服务器,为 AI 智能体提供一站式网页抓取和结构化数据提取能力。
Browser Use Agent SDK 是由 browser-use 团队提供的 Agent SDK,为开发者提供浏览器自动化 Agent 的构建工具包,支持快速创建网页交互型 AI Agent。
browser-harness 是一个自愈测试工具,使 LLM 能够完成任何任务。
browser-use 提供浏览器自动化 Agent 能力,让 LLM 可以理解页面并执行复杂网页操作。
基于 Browser-Use Agent 的自动化 QA 测试 MCP 工具,利用 AI Agent 进行浏览器端自动化质量保证测试。
在浏览器中运行 AI Agent 的 Web 界面,提供可视化的浏览器自动化操作体验。
Workflow Use 是 browser-use 生态中的自动化工作流项目,面向需要让 AI 操作浏览器并完成多步骤网页任务的场景。它把浏览器动作、任务状态和可复用流程组合起来,适合构建网页数据采集、表单处理和办公自动化 Agent。
Browserable 是一个可自托管的浏览器自动化工具,专为 AI Agent 设计,基于 Docker 容器提供安全的浏览器环境,支持 JavaScript SDK 调用,在 Web Voyager 基准测试中达到 90.4% 准确率。
Browserbase MCP 服务器允许 LLM 通过 Browserbase 和 Stagehand 控制浏览器,为 AI Agent 提供云端浏览器自动化能力,支持网页交互、数据抓取和自动化测试。
基于 Stagehand 和 Browserbase 构建 Web Agent 的开源模板,提供无服务器浏览器自动化方案,支持 AI Agent 在云端安全执行网页操作任务。
Stagehand 是 Browserbase 推出的浏览器 Agent SDK,为 AI 编码助手提供网页操作能力。支持 act、extract、observe 三种核心原语,让 AI Agent 能够自然地浏览和操作网页,是构建浏览器 Agent 的首选工具。
在Docker中部署无头浏览器,支持云端运行或本地部署,为AI Agent提供强大的网页自动化和渲染能力,免费用于非商业用途。
BrowserMCP 是一个基于浏览器扩展的 MCP 服务器,让 Claude、Cursor 等 AI 应用能够直接控制和自动化浏览器操作。
开源的智能体浏览器,可作为 ChatGPT Atlas 和 Perplexity Comet 的替代方案,将浏览器转变为 AI 驱动的智能操作系统。
BrowserWing 将浏览器操作转化为 MCP 命令或 Claude Skill,让 AI Agent 高效可靠地控制浏览器,减少对 LLM 的依赖。
字节跳动开源的多模态 AI Agent 栈,连接前沿 AI 模型与 Agent 基础设施,支持 GUI 自动化和电脑操作。
开源 AI 沙箱基础设施,为代码执行、浏览器使用和 AI Agent 运行提供隔离环境。
开源计算机使用代理,达到 82% OSWorld 验证准确率,提供全栈安全可审计的桌面自动化解决方案。
Windows MCP 是一个面向 Windows 桌面的 MCP 服务器,为 AI 代理提供计算机使用能力,支持桌面自动化和系统操作。
Dendrite Python SDK 面向 AI 浏览器自动化,提供让模型定位元素、执行网页动作和抽取结构化数据的接口。它适合把复杂网站操作封装为可调用工具,用于采购、招聘、运营后台和研究型 Web Agent。
DO Browser 是一个浏览器任务执行型 Agent 工具,聚焦网页理解、动作规划与自动执行,适合作为 browser-use、Stagehand 之外的轻量替代方案。
AI 驱动的深度研究助手,结合搜索引擎、网页抓取和大语言模型,通过迭代推理对任意主题进行深入调研
基于 E2B 桌面沙箱与开源 LLM 的 Computer Use Agent,实现自然语言驱动桌面自动化。
将浏览器变成 API 的 MCP 服务工具,AI 代理可通过 CLI 或 MCP 协议控制 Chrome 浏览器,复用用户已登录的会话状态进行网页操作、数据抓取和自动化任务,无需重复登录认证。
基于 Playwright 的 MCP 服务器,支持在 Claude Desktop、Cline、Cursor 等 AI 编码工具中自动化浏览器和 API 操作
Firecrawl 是一个专为 AI Agent 设计的网页抓取和搜索引擎,支持将任意网页转换为结构化的 Markdown 数据,提供搜索、抓取和清洗功能,适合构建基于网页数据的 AI 应用。
开源网页数据 Agent,专为结构化网页研究优化,能够自主浏览网页并提取、整理结构化数据,支持复杂搜索和研究任务。
Cappuccino 是围绕浏览器智能体能力构建的研究项目,探索模型如何理解网页界面、拆解操作步骤并完成复杂线上任务。它适合用于 Web Agent 基准实验、动作轨迹分析和浏览器自动化方法验证。
AI 驱动的 PPT 生成工具,从任意文档自动生成原生可编辑的 PPTX 文件,输出真正的 PowerPoint 图形元素而非图片。
HyperAgent 是基于 Playwright 的 AI 浏览器自动化框架,提供 page.ai()、page.perform()、page.extract() 等高级 API,内置 MCP 客户端和动作缓存,让 AI Agent 以自然语言指令操控网页浏览、交互和数据提取。
Camofox Browser 是一个基于 Camoufox(Firefox 反检测分支)的无头浏览器自动化服务器,在 C++ 层面实现指纹伪装,可绕过 Google、Cloudflare 等反爬检测,为 AI Agent 提供令牌高效的无障碍快照交互接口。
LaVague 是大型动作模型(LAM)框架,用于开发 AI 网页 Agent,结合 RAG 技术实现自然语言驱动的浏览器自动化操作。
Lightpanda Browser 是面向自动化和爬取场景的轻量浏览器运行时,目标是在无头任务中提供比传统浏览器更低的资源开销。它适合大规模 Web Agent、网页抽取和自动化测试,把浏览器能力嵌入后端工作流。
最先进的开源浏览器Agent,能够自主执行复杂的网页任务,支持自然语言驱动的网页操作自动化。
MCP 原生浏览器 Agent,让 AI 可以使用真实浏览器执行网页任务,并支持人在环路的交互确认。
开源的视觉优先浏览器 Agent,通过视觉理解驱动 Web 自动化操作,支持复杂的网页交互任务,适用于 QA 测试和 Web 工作流自动化场景。
Windows 桌面自动化领域的 Playwright,让 AI Agent 能通过自然语言控制桌面应用程序
UFO 是微软开发的 Windows GUI 自动化 Agent,能理解屏幕界面并通过自然语言指令执行复杂操作系统任务。
Webwright 是一个简单的 SWE 风格浏览器代理框架,在长期网页任务上实现了最先进的结果。
Fara 是微软开源的浏览器和网页任务代理项目,关注用大模型理解页面、规划操作并完成真实 Web 流程。它适合研究网页自动化、浏览器控制和端到端任务评估,也可作为企业内部 Web Agent 的实验基础。
微软研究院推出的人机协作 Web Agent 原型系统,强调人在回路中的交互设计,支持用户与 AI Agent 协同完成网页浏览和数据采集任务。
「Windows Agent Arena」是平台型仓库:面向 Agent 与 LLM 的可观测、追踪与评估能力。
自主网页浏览测试 Agent,可对网站性能、功能和用户体验进行自动化评估,支持 GUI 与 CLI 使用。
让 AI 智能体像人类一样使用真实 Android 和 iOS 应用的框架,支持移动端界面的自主操作和交互。
NanoBrowser 是开源 Chrome 扩展,提供 AI 驱动的多 Agent 浏览器自动化,支持使用自有 LLM API Key 运行网页任务工作流。
Notte 是构建网页 Agent 和部署无服务器浏览器自动化函数的框架,提供可靠的浏览器基础设施和感知网页的 Agent 能力。
AI 驱动的自主网页浏览框架,让 AI Agent 像人一样点击、输入、导航和提取数据,支持 OpenAI、Anthropic 和 Google 模型。
OpenAdapt 是一个面向桌面自动化与计算机使用场景的开源 Agent 工具,支持捕获用户操作、重放任务并构建可执行的自动化代理,适合 GUI Agent 和办公流程自动化。
OpenAI Computer Using Agent (CUA) 官方示例应用,展示如何在多种计算机环境中通过 API 使用 CUA 实现图形界面自动化操作。
首个基于 LLM 的通用 Web Agent 和基准测试(NeurIPS 2023 Spotlight),为构建能在真实网站上执行任务的智能体提供数据集、评估框架和基线方法。
基于大型多模态模型的通用 Web Agent 系统,能自主在任意网站上执行任务,发表于 ICML 2024,利用 GPT-4V 等视觉模型理解并操控网页。
Oxylabs AI Studio Python SDK 提供一体化 AI 驱动的网页抓取工具集,集成了 AI 网页抓取器、爬虫、浏览器 Agent、搜索引擎和站点地图功能,支持自然语言指令驱动的结构化数据提取。
由Oxylabs AI Studio开发的高级浏览器AI工具,使用自然语言指令自动执行真实用户浏览任务,实现智能化的网页操作。
让 AI 智能体访问实时 Chrome 浏览器会话的技能工具,开箱即用,可连接已打开的标签页进行网页操作。
构建浏览器 Agent 的开源框架,通过观察用户操作自动学习并执行网页任务,实现真实世界的浏览器自动化。
自托管 AI 聊天平台,提供 Web UI 和终端 CLI,支持任意模型、网页搜索、浏览器 Agent 自动化、持久记忆和分析能力。
Rebrowser Patches 为 Playwright 和浏览器自动化场景提供反检测补丁,帮助自动化浏览器更接近真实用户环境。对于需要长期访问网页、执行表单和采集任务的 AI Agent,它能降低被阻断的概率并提升任务连续性。
通过 Chrome 扩展与 CLI 让 AI Agent 控制真实浏览器,在本地运行 Playwright 片段,适合浏览器自动化与 MCP 集成场景。
开源 AI Agent 网页任务评估框架,用于衡量和比较 AI Agent 在网页操作任务上的表现。
开源 Web Agent 开发、测试与基准评估框架,注重可扩展性和可复现性,支持在多样化任务上系统性地评估和训练浏览器智能体。
多模态 GUI Agent 论文和资源精选列表,系统整理了计算机使用、移动端操作等 GUI 交互 Agent 的前沿研究。
「Computer Use OOTB」是工具型仓库:面向浏览器自动化与网页交互,为 Agent 提供真实环境操作能力。
ShowUI 是一个开源的端到端视觉-语言-动作模型,专为 GUI 智能体和计算机使用场景设计,能理解屏幕截图并执行精确的界面操作。
开源的计算机使用 Agent 框架,像人类一样操作图形界面完成复杂任务,支持自主学习和经验积累。
Skyvern 是面向浏览器任务自动化的 Agent 平台,通过页面理解与操作规划完成复杂网页流程,适合表单处理、后台操作与可重复 Web 自动化场景。
Browser Use Steel 把 browser-use 的代理控制能力与 Steel 的云浏览器基础设施结合起来,方便开发者运行可扩展的网页 Agent。它适合需要远程浏览器会话、任务并发和生产化网页操作的自动化应用。
Steel Browser 是一个专为 AI Agent 和应用设计的开源浏览器沙盒,提供完整的浏览器 API,支持会话管理、代理集成和自动反检测,让开发者无需关注基础设施即可实现 Web 自动化。
桌面应用,通过终端、浏览器、键鼠控制让 AI 操作本机,支持 Claude Computer Use。
AppAgent 是基于 LLM 的多模态智能体框架,让 AI 能够像人类一样操作智能手机应用,支持触控交互和自主探索。
首个开源测试 Agent,支持 UI、API、安全、可访问性和视觉验证,无需编写代码即可实现全面自动化测试
新一代个人 AI 助手平台,基于 LLM、RAG 和 Agent 循环驱动,支持计算机控制、浏览器自动化和编码 Agent,提供完整的多模态交互体验。
将 AI 连接到 Web 的工具套件,提供查询语言和 Playwright 集成,支持精准、大规模地与网页元素交互和提取数据,包含 REST API 和 Python/JS SDK。
CUA 是开源的计算机使用 Agent 基础设施,提供沙箱、SDK 和基准测试,支持 AI Agent 控制完整桌面环境。
Vercel 开源的浏览器自动化 CLI 工具,专为 AI Agent 设计,基于 Rust 构建,高性能且可编程。
WebArena 是一个用于评估自主 Web Agent 的真实基准环境,提供类 Gym 接口的交互式网站模拟,涵盖电商、论坛、CMS 等场景,支持端到端任务评估,是 Web Agent 研究领域的标准评测框架。
AI 驱动的视觉化 UI 自动化工具,支持自然语言描述操作,告别传统选择器,兼容浏览器和移动端
macOS 浏览器 Agent,通过对话澄清和可恢复的本地工作流自主完成网页任务。
开源的计算机使用代理基础框架,提供数据集、基准测试和基础模型,用于训练和评估能够控制桌面环境的 AI 代理。
AI 驱动的本地自动化助手,类似 Manus 的电脑使用 Agent,通过自然语言让电脑自动工作。
Open-AutoGLM 是一个开放的手机 Agent 模型与框架,支持 AI 自主操控手机界面完成任务,解锁 AI Phone 体验。
从 CLI-first、IDE-集成到完全自主三种架构出发,对比七款主流编程 Agent 的上下文管理、工具访问和自主度,帮你为每个开发场景选对工具。
从裸 Playwright 到结构化提取,拆解三层浏览器自动化抽象的适用场景、生产模式和常见踩坑。
详解 browser-use 在网页任务自动化中的优势与限制,并给出稳定执行和失败恢复策略。