Windows Agent Arena

相关项目

Bananalyzer

328 · Python

不活跃

开源 AI Agent 网页任务评估框架，用于衡量和比较 AI Agent 在网页操作任务上的表现。

agent-evaluationweb-tasksbenchmark +2

WebQA Agent

215 · Python

活跃

自主网页浏览测试 Agent，可对网站性能、功能和用户体验进行自动化评估，支持 GUI 与 CLI 使用。

browser-agentweb-testingqa +2

LM Evaluation Harness

12.8k · Python

活跃

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

llm-evaluationbenchmarkevaluation-framework +2

Windows MCP

5.8k · Python

活跃

Windows MCP 是一个面向 Windows 桌面的 MCP 服务器，为 AI 代理提供计算机使用能力，支持桌面自动化和系统操作。