AIPex
AI 浏览器自动化助手 Chrome 扩展,隐私优先,支持 MCP 协议,可替代 Claude Chrome 和 Manus Browser Operator
浏览器和 Web 自动化 Agent
AI 浏览器自动化助手 Chrome 扩展,隐私优先,支持 MCP 协议,可替代 Claude Chrome 和 Manus Browser Operator
为编程 Agent 提供浏览器开发者工具能力的 MCP 服务器,支持网页调试、性能分析和 DOM 操作自动化。
An adaptive web scraping framework that intelligently handles anti-bot measures, from single requests to full-scale crawls, designed for AI agent data collection.
完全本地化的 Manus AI 替代方案,支持自主浏览网页、编写代码和语音交互,无需任何 API 费用
Open Vision Agents by Stream. Build voice and vision agents quickly with any model or video provider, using Stream's edge network for ultra-low latency realtime interactions.
Open-sourced computer use agents that can operate on cross-platform environments including Windows, macOS, Ubuntu, and Android. ICLR 2026 Oral paper project.
Give your AI agent eyes to see the entire internet. Read and search Twitter, Reddit, YouTube, GitHub, Bilibili, XiaoHongShu with one CLI and zero API fees.
A Claude Skill that gives your AI coding agent the ability to use a web browser for browser automation.
Open-source Computer-Use-Agent that automates GUI interactions through natural language instructions, enabling intelligent desktop automation.
面向 AI Agent 和人类的浏览器自动化工具,提供高性能 Go 语言实现的网页交互能力
The first open-source Artificial Narrow Intelligence generalist agent that fully operates GUIs using only natural language. Uses Visualization-of-Thought and Chain-of-Thought reasoning for spatial perception and HID simulation.
The Zero-Server Code Intelligence Engine — a client-side knowledge graph creator running entirely in your browser with a built-in Graph RAG Agent for code exploration.
Page Agent is a JavaScript in-page GUI agent by Alibaba that controls web interfaces with natural language, enabling automated form filling, page navigation, and element interaction.
browser-use 提供浏览器自动化 Agent 能力,让 LLM 可以理解页面并执行复杂网页操作。
A web interface for running AI agents in the browser, providing a visual experience for browser automation operations.
Browserable 是一个可自托管的浏览器自动化工具,专为 AI Agent 设计,基于 Docker 容器提供安全的浏览器环境,支持 JavaScript SDK 调用,在 Web Voyager 基准测试中达到 90.4% 准确率。
BrowserMCP 是一个基于浏览器扩展的 MCP 服务器,让 Claude、Cursor 等 AI 应用能够直接控制和自动化浏览器操作。
The open-source Agentic browser that transforms your browser into an AI-powered operating system. Alternative to ChatGPT Atlas, Perplexity Comet, and Dia.
BrowserWing 将浏览器操作转化为 MCP 命令或 Claude Skill,让 AI Agent 高效可靠地控制浏览器,减少对 LLM 的依赖。
字节跳动开源的多模态 AI Agent 栈,连接前沿 AI 模型与 Agent 基础设施,支持 GUI 自动化和电脑操作。
Windows MCP 是一个面向 Windows 桌面的 MCP 服务器,为 AI 代理提供计算机使用能力,支持桌面自动化和系统操作。
DO Browser 是一个浏览器任务执行型 Agent 工具,聚焦网页理解、动作规划与自动执行,适合作为 browser-use、Stagehand 之外的轻量替代方案。
AI 驱动的深度研究助手,结合搜索引擎、网页抓取和大语言模型,通过迭代推理对任意主题进行深入调研
将浏览器变成 API 的 MCP 服务工具,AI 代理可通过 CLI 或 MCP 协议控制 Chrome 浏览器,复用用户已登录的会话状态进行网页操作、数据抓取和自动化任务,无需重复登录认证。
基于 Playwright 的 MCP 服务器,支持在 Claude Desktop、Cline、Cursor 等 AI 编码工具中自动化浏览器和 API 操作
AI-powered PPT generation tool that creates natively editable PPTX from any document, producing real PowerPoint shapes instead of images.
HyperAgent 是基于 Playwright 的 AI 浏览器自动化框架,提供 page.ai()、page.perform()、page.extract() 等高级 API,内置 MCP 客户端和动作缓存,让 AI Agent 以自然语言指令操控网页浏览、交互和数据提取。
Camofox Browser 是一个基于 Camoufox(Firefox 反检测分支)的无头浏览器自动化服务器,在 C++ 层面实现指纹伪装,可绕过 Google、Cloudflare 等反爬检测,为 AI Agent 提供令牌高效的无障碍快照交互接口。
LaVague 是大型动作模型(LAM)框架,用于开发 AI 网页 Agent,结合 RAG 技术实现自然语言驱动的浏览器自动化操作。
开源的视觉优先浏览器 Agent,通过视觉理解驱动 Web 自动化操作,支持复杂的网页交互任务,适用于 QA 测试和 Web 工作流自动化场景。
Windows 桌面自动化领域的 Playwright,让 AI Agent 能通过自然语言控制桌面应用程序
UFO 是微软开发的 Windows GUI 自动化 Agent,能理解屏幕界面并通过自然语言指令执行复杂操作系统任务。
Framework enabling AI agents to use real Android and iOS apps just like a human, supporting autonomous operation and interaction with mobile interfaces.
NanoBrowser 是开源 Chrome 扩展,提供 AI 驱动的多 Agent 浏览器自动化,支持使用自有 LLM API Key 运行网页任务工作流。
Notte 是构建网页 Agent 和部署无服务器浏览器自动化函数的框架,提供可靠的浏览器基础设施和感知网页的 Agent 能力。
AI 驱动的自主网页浏览框架,让 AI Agent 像人一样点击、输入、导航和提取数据,支持 OpenAI、Anthropic 和 Google 模型。
OpenAdapt 是一个面向桌面自动化与计算机使用场景的开源 Agent 工具,支持捕获用户操作、重放任务并构建可执行的自动化代理,适合 GUI Agent 和办公流程自动化。
Official sample application for OpenAI Computer Using Agent (CUA). Learn how to use CUA via the API on multiple computer environments.
Oxylabs AI Studio Python SDK 提供一体化 AI 驱动的网页抓取工具集,集成了 AI 网页抓取器、爬虫、浏览器 Agent、搜索引擎和站点地图功能,支持自然语言指令驱动的结构化数据提取。
A curated list of papers and resources for multi-modal Graphical User Interface agents, systematically covering computer use, mobile interaction and more.
ShowUI is an open-source, end-to-end Vision-Language-Action model for GUI agents and computer use, capable of understanding screenshots and executing precise interface interactions.
开源的计算机使用 Agent 框架,像人类一样操作图形界面完成复杂任务,支持自主学习和经验积累。
Skyvern 是面向浏览器任务自动化的 Agent 平台,通过页面理解与操作规划完成复杂网页流程,适合表单处理、后台操作与可重复 Web 自动化场景。
Stagehand 是 Browserbase 推出的浏览器控制 Agent 框架,强调结构化网页操作、可重复自动化与开发者友好的浏览器任务编排,适合构建网页执行型 Agent。
Steel Browser 是一个专为 AI Agent 和应用设计的开源浏览器沙盒,提供完整的浏览器 API,支持会话管理、代理集成和自动反检测,让开发者无需关注基础设施即可实现 Web 自动化。
AppAgent 是基于 LLM 的多模态智能体框架,让 AI 能够像人类一样操作智能手机应用,支持触控交互和自主探索。
首个开源测试 Agent,支持 UI、API、安全、可访问性和视觉验证,无需编写代码即可实现全面自动化测试
将 AI 连接到 Web 的工具套件,提供查询语言和 Playwright 集成,支持精准、大规模地与网页元素交互和提取数据,包含 REST API 和 Python/JS SDK。
CUA 是开源的计算机使用 Agent 基础设施,提供沙箱、SDK 和基准测试,支持 AI Agent 控制完整桌面环境。
Vercel \u5F00\u6E90\u7684\u6D4F\u89C8\u5668\u81EA\u52A8\u5316 CLI \u5DE5\u5177\uFF0C\ \u4E13\u4E3A AI Agent \u8BBE\u8BA1\uFF0C\u57FA\u4E8E Rust \u6784\u5EFA\uFF0C\u9AD8\ \u6027\u80FD\u4E14\u53EF\u7F16\u7A0B\u3002
WebArena 是一个用于评估自主 Web Agent 的真实基准环境,提供类 Gym 接口的交互式网站模拟,涵盖电商、论坛、CMS 等场景,支持端到端任务评估,是 Web Agent 研究领域的标准评测框架。
AI 驱动的视觉化 UI 自动化工具,支持自然语言描述操作,告别传统选择器,兼容浏览器和移动端
AI 驱动的本地自动化助手,类似 Manus 的电脑使用 Agent,通过自然语言让电脑自动工作。
Open-AutoGLM 是一个开放的手机 Agent 模型与框架,支持 AI 自主操控手机界面完成任务,解锁 AI Phone 体验。