浏览器 Agent

browser-automationchrome-extensionmcp +2

AI 浏览器自动化助手 Chrome 扩展，隐私优先，支持 MCP 协议，可替代 Claude Chrome 和 Manus Browser Operator

Chrome DevTools MCP

42.6k · TypeScript

mcpchrome-devtoolsbrowser-debug +2

为编程 Agent 提供浏览器开发者工具能力的 MCP 服务器，支持网页调试、性能分析和 DOM 操作自动化。

Scrapling

59.2k · Python

自适应 Web 爬虫框架，智能应对反爬机制，从单次请求到大规模爬取均可处理，专为 AI Agent 数据采集设计。

browserpythontools +2

AgenticSeek

26.4k · Python

browser-agentcoding-agentlocal-ai +3

完全本地化的 Manus AI 替代方案，支持自主浏览网页、编写代码和语音交互，无需任何 API 费用

Vision Agents

7.9k · Python

Stream 开源的视觉与语音智能体框架，支持任意模型和视频提供商，利用边缘网络实现超低延迟的实时多模态 AI 交互。

voiceagentpython +3

ScaleCUA

1.1k · Python

开源的跨平台计算机使用智能体，支持在 Windows、macOS、Ubuntu 和 Android 环境中操作 GUI 界面，ICLR 2026 Oral 论文项目。

browserpythonagent +1

Agent Reach

20.9k · Python

为 AI Agent 赋予全网搜索能力，一键读取和搜索 Twitter、Reddit、YouTube、GitHub、B 站、小红书等平台，无需 API 费用。

Dev Browser

6.2k · TypeScript

一个 Claude 技能模块，为 AI 编程智能体提供网页浏览器使用能力，实现浏览器自动化操作。

browseragentcoding +2

Mote

83 · TypeScript

browser-automationagent-frameworkweb-interaction +1

轻量级 AI 浏览器自动化 Agent 框架，提供简洁的 API 用于构建网页交互自动化工具。

TuriX CUA

3.0k · Python

开源 Computer-Use-Agent，支持通过自然语言指令自动操作计算机图形界面，实现桌面环境的智能体自动化交互。

browseragentpython +1

Vibium

2.8k · Go

browser-automationweb-agentgo +1

面向 AI Agent 和人类的浏览器自动化工具，提供高性能 Go 语言实现的网页交互能力

PyWinAssistant

1.3k · Python

首个开源的通用 GUI 自动化智能体框架，通过自然语言完全操控图形界面，利用思维可视化与链式推理实现空间感知与 HID 交互模拟。

browseragentpython +2

GitNexus

41.2k · TypeScript

零服务器代码智能引擎，完全在浏览器中运行的客户端知识图谱创建工具，内置 Graph RAG 智能体用于代码探索。

browseragentrag +2

Actionbook

1.5k · Rust

让 AI Agent 操控你的浏览器完成实际任务的工具。通过自然语言指令驱动浏览器自动化操作，支持表单填写、数据提取和网页交互等场景。

rustbrowseragent +2

AgentGateway

3.0k · Rust

下一代 AI Agent 代理网关，为 AI Agent 和 MCP 服务器提供统一的流量管理、路由转发和安全控制层。支持多协议适配和可扩展的中间件架构。

rustmcpagent +3

Page Agent

18.2k · TypeScript

browseragenttypescript +2

Page Agent 是阿里巴巴开发的 JavaScript 页面内 GUI 智能体，通过自然语言控制网页界面，实现自动化表单填写、页面导航和元素操作等任务。

Anchor Browser

400 · TypeScript

browser-infraautomationagent-runtime

Anchor Browser 提供面向 AI Agent 的浏览器运行与控制能力，帮助开发者把网页访问、会话、自动化动作和远程浏览环境接入应用。它适合需要稳定浏览器基础设施的搜索、采购、运营和数据录入型代理。

Bright Data MCP

2.4k · JavaScript

mcpweb-scrapingdata-extraction +2

强大的公共 Web 数据访问 MCP 服务器，为 AI 智能体提供一站式网页抓取和结构化数据提取能力。

Browser Use Agent SDK

685 · Python

browser-automationagent-sdkweb-interaction

Browser Use Agent SDK 是由 browser-use 团队提供的 Agent SDK，为开发者提供浏览器自动化 Agent 的构建工具包，支持快速创建网页交互型 AI Agent。

browser-harness

14.3k · Python

browseragentautomation +2

browser-harness 是一个自愈测试工具，使 LLM 能够完成任何任务。

browser-use

96.8k · Python

browseragentautomation +1

browser-use 提供浏览器自动化 Agent 能力，让 LLM 可以理解页面并执行复杂网页操作。

Vibetest Use

796 · Python

qa-testingbrowser-usemcp +2

基于 Browser-Use Agent 的自动化 QA 测试 MCP 工具，利用 AI Agent 进行浏览器端自动化质量保证测试。

Browser Use Web UI

16.0k · Python

在浏览器中运行 AI Agent 的 Web 界面，提供可视化的浏览器自动化操作体验。

Workflow Use

4.0k · Python

browser-agentworkflowautomation

Workflow Use 是 browser-use 生态中的自动化工作流项目，面向需要让 AI 操作浏览器并完成多步骤网页任务的场景。它把浏览器动作、任务状态和可复用流程组合起来，适合构建网页数据采集、表单处理和办公自动化 Agent。

Browserable

1.2k · JavaScript

browser-automationself-hosteddocker +3

Browserable 是一个可自托管的浏览器自动化工具，专为 AI Agent 设计，基于 Docker 容器提供安全的浏览器环境，支持 JavaScript SDK 调用，在 Web Voyager 基准测试中达到 90.4% 准确率。

MCP Server Browserbase

3.4k · TypeScript

mcp-serverbrowser-automationcloud-browser +1

Browserbase MCP 服务器允许 LLM 通过 Browserbase 和 Stagehand 控制浏览器，为 AI Agent 提供云端浏览器自动化能力，支持网页交互、数据抓取和自动化测试。

Open Operator

1.9k · TypeScript

browseragenttypescript +2

基于 Stagehand 和 Browserbase 构建 Web Agent 的开源模板，提供无服务器浏览器自动化方案，支持 AI Agent 在云端安全执行网页操作任务。

Stagehand

22.9k · TypeScript

browser-agentsdkweb-automation +2

Stagehand 是 Browserbase 推出的浏览器 Agent SDK，为 AI 编码助手提供网页操作能力。支持 act、extract、observe 三种核心原语，让 AI Agent 能够自然地浏览和操作网页，是构建浏览器 Agent 的首选工具。

Browserless

13.3k · TypeScript

typescriptbrowsertools +2

在Docker中部署无头浏览器，支持云端运行或本地部署，为AI Agent提供强大的网页自动化和渲染能力，免费用于非商业用途。

BrowserMCP

6.6k · TypeScript

mcpbrowser-automationbrowser-extension +2

BrowserMCP 是一个基于浏览器扩展的 MCP 服务器，让 Claude、Cursor 等 AI 应用能够直接控制和自动化浏览器操作。

BrowserOS

11.2k · TypeScript

browseragenttypescript +3

开源的智能体浏览器，可作为 ChatGPT Atlas 和 Perplexity Comet 的替代方案，将浏览器转变为 AI 驱动的智能操作系统。

BrowserWing

1.3k · Go

browser-agentmcpbrowser-automation +2

BrowserWing 将浏览器操作转化为 MCP 命令或 Claude Skill，让 AI Agent 高效可靠地控制浏览器，减少对 LLM 的依赖。

UI-TARS Desktop

35.9k · TypeScript

multimodal-agentgui-automationcomputer-use +2

字节跳动开源的多模态 AI Agent 栈，连接前沿 AI 模型与 Agent 基础设施，支持 GUI 自动化和电脑操作。

SmolVM

572 · Python

sandboxcode-executionbrowser-use +2

开源 AI 沙箱基础设施，为代码执行、浏览器使用和 AI Agent 运行提供隔离环境。

Open Computer Use

725 · TypeScript

typescriptagentbrowser +2

开源计算机使用代理，达到 82% OSWorld 验证准确率，提供全栈安全可审计的桌面自动化解决方案。

Windows MCP

5.8k · Python

mcpwindowsdesktop-automation +2

Windows MCP 是一个面向 Windows 桌面的 MCP 服务器，为 AI 代理提供计算机使用能力，支持桌面自动化和系统操作。

Dendrite Python SDK

310 · Python

browser-agentpython-sdkweb-extraction

Dendrite Python SDK 面向 AI 浏览器自动化，提供让模型定位元素、执行网页动作和抽取结构化数据的接口。它适合把复杂网站操作封装为可调用工具，用于采购、招聘、运营后台和研究型 Web Agent。

DO Browser

2.8k · TypeScript

DO Browser 是一个浏览器任务执行型 Agent 工具，聚焦网页理解、动作规划与自动执行，适合作为 browser-use、Stagehand 之外的轻量替代方案。

browserautomationweb +1

Deep Research

19.0k · TypeScript

deep-researchweb-scrapingai-research +2

AI 驱动的深度研究助手，结合搜索引擎、网页抓取和大语言模型，通过迭代推理对任意主题进行深入调研

Open Computer Use

2.1k · Python

computer-usesandboxe2b +1

基于 E2B 桌面沙箱与开源 LLM 的 Computer Use Agent，实现自然语言驱动桌面自动化。

BB Browser

5.6k · TypeScript

将浏览器变成 API 的 MCP 服务工具，AI 代理可通过 CLI 或 MCP 协议控制 Chrome 浏览器，复用用户已登录的会话状态进行网页操作、数据抓取和自动化任务，无需重复登录认证。

mcptoolsbrowser +2

MCP Playwright

5.5k · TypeScript

mcpplaywrightbrowser-automation +2

基于 Playwright 的 MCP 服务器，支持在 Claude Desktop、Cline、Cursor 等 AI 编码工具中自动化浏览器和 API 操作

Firecrawl

127.8k · TypeScript

web-scrapingsearch-enginemarkdown +2

Firecrawl 是一个专为 AI Agent 设计的网页抓取和搜索引擎，支持将任意网页转换为结构化的 Markdown 数据，提供搜索、抓取和清洗功能，适合构建基于网页数据的 AI 应用。

Firecrawl Web Agent

1.1k · TypeScript

web-scrapingdata-extractionbrowser-agent +2

开源网页数据 Agent，专为结构化网页研究优化，能够自主浏览网页并提取、整理结构化数据，支持复杂搜索和研究任务。

Cappuccino

44 · Python

web-agentbrowser-automationbenchmark

Cappuccino 是围绕浏览器智能体能力构建的研究项目，探索模型如何理解网页界面、拆解操作步骤并完成复杂线上任务。它适合用于 Web Agent 基准实验、动作轨迹分析和浏览器自动化方法验证。

PPT Master

23.8k · Python

AI 驱动的 PPT 生成工具，从任意文档自动生成原生可编辑的 PPTX 文件，输出真正的 PowerPoint 图形元素而非图片。

HyperAgent

1.4k · TypeScript

browser-automationplaywrightai-agent +3

HyperAgent 是基于 Playwright 的 AI 浏览器自动化框架，提供 page.ai()、page.perform()、page.extract() 等高级 API，内置 MCP 客户端和动作缓存，让 AI Agent 以自然语言指令操控网页浏览、交互和数据提取。

Camofox Browser

6.2k · JavaScript

anti-detectionbrowser-automationcamoufox +3

Camofox Browser 是一个基于 Camoufox（Firefox 反检测分支）的无头浏览器自动化服务器，在 C++ 层面实现指纹伪装，可绕过 Google、Cloudflare 等反爬检测，为 AI Agent 提供令牌高效的无障碍快照交互接口。

LaVague

6.4k · Python

browserweb-agentlarge-action-model +2

LaVague 是大型动作模型（LAM）框架，用于开发 AI 网页 Agent，结合 RAG 技术实现自然语言驱动的浏览器自动化操作。

Lightpanda Browser

30.8k · Zig

headless-browserautomationweb-agent

Lightpanda Browser 是面向自动化和爬取场景的轻量浏览器运行时，目标是在无头任务中提供比传统浏览器更低的资源开销。它适合大规模 Web Agent、网页抽取和自动化测试，把浏览器能力嵌入后端工作流。

Index

2.3k · Python

最先进的开源浏览器Agent，能够自主执行复杂的网页任务，支持自然语言驱动的网页操作自动化。

pythonbrowseragent +2

Auto Browser

535 · Python

browser-agentmcphuman-in-the-loop +2

MCP 原生浏览器 Agent，让 AI 可以使用真实浏览器执行网页任务，并支持人在环路的交互确认。

Magnitude

4.1k · TypeScript

vision-firstbrowser-automationweb-agent +2

开源的视觉优先浏览器 Agent，通过视觉理解驱动 Web 自动化操作，支持复杂的网页交互任务，适用于 QA 测试和 Web 工作流自动化场景。

Terminator

1.5k · Rust

desktop-automationwindowsaccessibility +2

Windows 桌面自动化领域的 Playwright，让 AI Agent 能通过自然语言控制桌面应用程序

UFO

8.8k · Python

gui-agentwindowsautomation +1

UFO 是微软开发的 Windows GUI 自动化 Agent，能理解屏幕界面并通过自然语言指令执行复杂操作系统任务。

Webwright

4.9k · Python

browseragentautomation +2

Webwright 是一个简单的 SWE 风格浏览器代理框架，在长期网页任务上实现了最先进的结果。

Fara

5.4k · Python

browser-agentweb-automationresearch

Fara 是微软开源的浏览器和网页任务代理项目，关注用大模型理解页面、规划操作并完成真实 Web 流程。它适合研究网页自动化、浏览器控制和端到端任务评估，也可作为企业内部 Web Agent 的实验基础。

Magentic-UI

9.9k · Python

微软研究院推出的人机协作 Web Agent 原型系统，强调人在回路中的交互设计，支持用户与 AI Agent 协同完成网页浏览和数据采集任务。

browseragentpython +1

Windows Agent Arena

863 · Python

benchmarkcomputer-usewindows +1

「Windows Agent Arena」是平台型仓库：面向 Agent 与 LLM 的可观测、追踪与评估能力。

WebQA Agent

215 · Python

browser-agentweb-testingqa +2

自主网页浏览测试 Agent，可对网站性能、功能和用户体验进行自动化评估，支持 GUI 与 CLI 使用。

Mobile Use

2.6k · Python

让 AI 智能体像人类一样使用真实 Android 和 iOS 应用的框架，支持移动端界面的自主操作和交互。

NanoBrowser

13.1k · TypeScript

browserautomationchrome-extension +2

NanoBrowser 是开源 Chrome 扩展，提供 AI 驱动的多 Agent 浏览器自动化，支持使用自有 LLM API Key 运行网页任务工作流。

Notte

2.0k · Python

browserweb-agentautomation +1

Notte 是构建网页 Agent 和部署无服务器浏览器自动化函数的框架，提供可靠的浏览器基础设施和感知网页的 Agent 能力。

OpenBrowser

9.5k · TypeScript

browser-agentweb-automationplaywright +2

AI 驱动的自主网页浏览框架，让 AI Agent 像人一样点击、输入、导航和提取数据，支持 OpenAI、Anthropic 和 Google 模型。

OpenAdapt

1.6k · Python

computer-useautomationdesktop +1

OpenAdapt 是一个面向桌面自动化与计算机使用场景的开源 Agent 工具，支持捕获用户操作、重放任务并构建可执行的自动化代理，适合 GUI Agent 和办公流程自动化。

OpenAI CUA Sample App

1.7k · TypeScript

OpenAI Computer Using Agent (CUA) 官方示例应用，展示如何在多种计算机环境中通过 API 使用 CUA 实现图形界面自动化操作。

agentbrowseropenai +2

Mind2Web

999 · Jupyter Notebook

首个基于 LLM 的通用 Web Agent 和基准测试（NeurIPS 2023 Spotlight），为构建能在真实网站上执行任务的智能体提供数据集、评估框架和基线方法。

web-agentbenchmarkllm +2

SeeAct

845 · Python

web-agentmultimodalllm +2

基于大型多模态模型的通用 Web Agent 系统，能自主在任意网站上执行任务，发表于 ICML 2024，利用 GPT-4V 等视觉模型理解并操控网页。

Oxylabs AI Studio

2.9k · Python

web-scrapingbrowser-agentai-scraper +3

Oxylabs AI Studio Python SDK 提供一体化 AI 驱动的网页抓取工具集，集成了 AI 网页抓取器、爬虫、浏览器 Agent、搜索引擎和站点地图功能，支持自然语言指令驱动的结构化数据提取。

Oxylabs Browser Agent

1.2k · Unknown

由Oxylabs AI Studio开发的高级浏览器AI工具，使用自然语言指令自动执行真实用户浏览任务，实现智能化的网页操作。

browseragenttools +1

Chrome CDP Skill

3.1k · JavaScript

让 AI 智能体访问实时 Chrome 浏览器会话的技能工具，开箱即用，可连接已打开的标签页进行网页操作。

chromebrowsercdp +2

Autotab

1.0k · Python

构建浏览器 Agent 的开源框架，通过观察用户操作自动学习并执行网页任务，实现真实世界的浏览器自动化。

pythonbrowseragent +2

Surf

53 · Python

chat-uibrowser-agentmemory +2

自托管 AI 聊天平台，提供 Web UI 和终端 CLI，支持任意模型、网页搜索、浏览器 Agent 自动化、持久记忆和分析能力。

Rebrowser Patches

1.4k · JavaScript

playwrightbrowser-automationanti-detection

Rebrowser Patches 为 Playwright 和浏览器自动化场景提供反检测补丁，帮助自动化浏览器更接近真实用户环境。对于需要长期访问网页、执行表单和采集任务的 AI Agent，它能降低被阻断的概率并提升任务连续性。

Playwriter

3.6k · HTML

mcpplaywrightbrowser-automation +2

通过 Chrome 扩展与 CLI 让 AI Agent 控制真实浏览器，在本地运行 Playwright 片段，适合浏览器自动化与 MCP 集成场景。

Bananalyzer

328 · Python

agent-evaluationweb-tasksbenchmark +2

开源 AI Agent 网页任务评估框架，用于衡量和比较 AI Agent 在网页操作任务上的表现。

AgentLab

585 · Python

web-agentbenchmarkevaluation +2

开源 Web Agent 开发、测试与基准评估框架，注重可扩展性和可复现性，支持在多样化任务上系统性地评估和训练浏览器智能体。

Awesome GUI Agent

1.2k · Unknown

browseragentevaluation +1

多模态 GUI Agent 论文和资源精选列表，系统整理了计算机使用、移动端操作等 GUI 交互 Agent 的前沿研究。

Computer Use OOTB

1.9k · Python

computer-usegui-agentdesktop +1

「Computer Use OOTB」是工具型仓库：面向浏览器自动化与网页交互，为 Agent 提供真实环境操作能力。

ShowUI

1.8k · Python

ShowUI 是一个开源的端到端视觉-语言-动作模型，专为 GUI 智能体和计算机使用场景设计，能理解屏幕截图并执行精确的界面操作。

browseragentllm +2

Agent S

11.7k · Python

computer-usegui-agentautomation +1

开源的计算机使用 Agent 框架，像人类一样操作图形界面完成复杂任务，支持自主学习和经验积累。

Skyvern

21.8k · Python

Skyvern 是面向浏览器任务自动化的 Agent 平台，通过页面理解与操作规划完成复杂网页流程，适合表单处理、后台操作与可重复 Web 自动化场景。

browserautomationweb +1

Browser Use Steel

180 · Python

browser-usecloud-browserautomation

Browser Use Steel 把 browser-use 的代理控制能力与 Steel 的云浏览器基础设施结合起来，方便开发者运行可扩展的网页 Agent。它适合需要远程浏览器会话、任务并发和生产化网页操作的自动化应用。

Steel Browser

7.1k · TypeScript

browser-automationbrowser-sandboxanti-detection +3

Steel Browser 是一个专为 AI Agent 和应用设计的开源浏览器沙盒，提供完整的浏览器 API，支持会话管理、代理集成和自动反检测，让开发者无需关注基础设施即可实现 Web 自动化。

Computer Agent

644 · Rust

computer-usedesktoprust +1

桌面应用，通过终端、浏览器、键鼠控制让 AI 操作本机，支持 Claude Computer Use。

AppAgent

6.8k · Python

multimodalsmartphonegui-agent +3

AppAgent 是基于 LLM 的多模态智能体框架，让 AI 能够像人类一样操作智能手机应用，支持触控交互和自主探索。

Hercules

1.0k · Python

testing-agentbrowser-testinge2e-testing +3

首个开源测试 Agent，支持 UI、API、安全、可访问性和视觉验证，无需编写代码即可实现全面自动化测试

OpenAgent

5.1k · Go

personal-assistantbrowser-agentcomputer-use +4

新一代个人 AI 助手平台，基于 LLM、RAG 和 Agent 循环驱动，支持计算机控制、浏览器自动化和编码 Agent，提供完整的多模态交互体验。

AgentQL

1.4k · Python

web-scrapingbrowser-automationplaywright +2

将 AI 连接到 Web 的工具套件，提供查询语言和 Playwright 集成，支持精准、大规模地与网页元素交互和提取数据，包含 REST API 和 Python/JS SDK。

CUA

17.5k · HTML

computer-usedesktop-automationsandbox +2

CUA 是开源的计算机使用 Agent 基础设施，提供沙箱、SDK 和基准测试，支持 AI Agent 控制完整桌面环境。

Agent Browser

35.0k · Rust

browser-automationclirust +1

Vercel 开源的浏览器自动化 CLI 工具，专为 AI Agent 设计，基于 Rust 构建，高性能且可编程。

WebArena

1.5k · Python

benchmarkweb-agentevaluation +3

WebArena 是一个用于评估自主 Web Agent 的真实基准环境，提供类 Gym 接口的交互式网站模拟，涵盖电商、论坛、CMS 等场景，支持端到端任务评估，是 Web Agent 研究领域的标准评测框架。

Midscene.js

13.6k · TypeScript

browser-automationui-testingvision +3

AI 驱动的视觉化 UI 自动化工具，支持自然语言描述操作，告别传统选择器，兼容浏览器和移动端

OpenBrowse

58 · TypeScript

browser-agentmacosautomation +1

macOS 浏览器 Agent，通过对话澄清和可恢复的本地工作流自主完成网页任务。

OpenCUA

775 · Python

开源的计算机使用代理基础框架，提供数据集、基准测试和基础模型，用于训练和评估能够控制桌面环境的 AI 代理。

pythonagentbrowser +2

autoMate

3.9k · Python

computer-usedesktop-automationrpa +2

AI 驱动的本地自动化助手，类似 Manus 的电脑使用 Agent，通过自然语言让电脑自动工作。

Open-AutoGLM

25.4k · Python