AgentLab
正常简介
开源 Web Agent 开发、测试与基准评估框架,注重可扩展性和可复现性,支持在多样化任务上系统性地评估和训练浏览器智能体。
开源 Web Agent 开发、测试与基准评估框架,注重可扩展性和可复现性,支持在多样化任务上系统性地评估和训练浏览器智能体。
首个基于 LLM 的通用 Web Agent 和基准测试(NeurIPS 2023 Spotlight),为构建能在真实网站上执行任务的智能体提供数据集、评估框架和基线方法。
WebArena 是一个用于评估自主 Web Agent 的真实基准环境,提供类 Gym 接口的交互式网站模拟,涵盖电商、论坛、CMS 等场景,支持端到端任务评估,是 Web Agent 研究领域的标准评测框架。
Cappuccino 是围绕浏览器智能体能力构建的研究项目,探索模型如何理解网页界面、拆解操作步骤并完成复杂线上任务。它适合用于 Web Agent 基准实验、动作轨迹分析和浏览器自动化方法验证。
AWS Agent Evaluation 是亚马逊提供的 AI Agent 评估工具,支持对 Bedrock Agent 和其他 LLM Agent 进行自动化质量评估。提供多维度的评估指标和基准测试框架,帮助开发者持续改进 Agent 性能。