browser-use

活跃
GitHub Python MIT

简介

browser-use 提供浏览器自动化 Agent 能力,让 LLM 可以理解页面并执行复杂网页操作。

核心特性

  • LLM 驱动浏览器自动化 — 让大语言模型理解网页内容并执行点击、输入、导航等操作
  • 多模型支持 — 内置 ChatBrowserUse,同时支持 Gemini、Claude、GPT 等主流模型
  • CLI 命令行工具 — 提供 open/state/click/type/screenshot 等命令实现快速浏览器控制
  • 自定义工具扩展 — 支持为 Agent 注册自定义 Python 函数作为可调用工具
  • 云端隐身浏览器 — 可选接入 Browser Use Cloud 获取代理轮换和验证码破解能力
  • 模板快速生成 — 通过 uvx browser-use init 生成 default/advanced/tools 模板

适用场景

💡 自动化填写求职申请表单、购物下单等重复性网页操作
💡 构建网页数据采集 Agent,自动浏览并提取目标信息
💡 为 AI 编码助手(如 Claude Code)添加浏览器操作能力
💡 批量执行 Web 应用端到端测试和 UI 验证
💡 搭建个人助理自动完成 PC 配件比价、航班查询等复杂任务

快速开始

# 安装(需要 Python >= 3.11)
uv init && uv add browser-use && uv sync

# 编写 Agent
# agent.py
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    agent = Agent(
        task="查找 browser-use 仓库的星标数",
        llm=ChatBrowserUse(),
        browser=Browser(),
    )
    await agent.run()

asyncio.run(main())

相关项目

相关文章