Bananalyzer
正常简介
开源 AI Agent 网页任务评估框架,用于衡量和比较 AI Agent 在网页操作任务上的表现。
开源 AI Agent 网页任务评估框架,用于衡量和比较 AI Agent 在网页操作任务上的表现。
EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。
CNCF 沙箱项目,面向 SRE 场景的 AI Agent,自动分析基础设施日志和指标,辅助故障诊断和系统运维。
开源的现代设计 AI 训练追踪与可视化工具,支持 PyTorch、Transformers 等主流框架,帮助开发者监控和评估 AI Agent 的训练过程。
AI Agent 评估和强化学习的交互式沙箱环境,支持 Slack、LinkedIn 等第三方 API 测试。