Windows Agent Arena
正常简介
「Windows Agent Arena」是平台型仓库:面向 Agent 与 LLM 的可观测、追踪与评估能力。
「Windows Agent Arena」是平台型仓库:面向 Agent 与 LLM 的可观测、追踪与评估能力。
开源 AI Agent 网页任务评估框架,用于衡量和比较 AI Agent 在网页操作任务上的表现。
自主网页浏览测试 Agent,可对网站性能、功能和用户体验进行自动化评估,支持 GUI 与 CLI 使用。
EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。
Windows MCP 是一个面向 Windows 桌面的 MCP 服务器,为 AI 代理提供计算机使用能力,支持桌面自动化和系统操作。