WebArena
不活跃简介
WebArena 是一个用于评估自主 Web Agent 的真实基准环境,提供类 Gym 接口的交互式网站模拟,涵盖电商、论坛、CMS 等场景,支持端到端任务评估,是 Web Agent 研究领域的标准评测框架。
WebArena 是一个用于评估自主 Web Agent 的真实基准环境,提供类 Gym 接口的交互式网站模拟,涵盖电商、论坛、CMS 等场景,支持端到端任务评估,是 Web Agent 研究领域的标准评测框架。
LaVague 是大型动作模型(LAM)框架,用于开发 AI 网页 Agent,结合 RAG 技术实现自然语言驱动的浏览器自动化操作。
Notte 是构建网页 Agent 和部署无服务器浏览器自动化函数的框架,提供可靠的浏览器基础设施和感知网页的 Agent 能力。
首个开源测试 Agent,支持 UI、API、安全、可访问性和视觉验证,无需编写代码即可实现全面自动化测试
MTEB(Massive Text Embedding Benchmark)是一个大规模文本嵌入基准测试框架,覆盖分类、检索、聚类、重排序等多项任务,用于评估和选择 RAG 系统中的最佳嵌入模型。