Bananalyzer

相关项目

LM Evaluation Harness

12.3k · Python

活跃

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

llm-evaluationbenchmarkevaluation-framework +2

HolmesGPT

2.2k · Python

活跃

CNCF 沙箱项目，面向 SRE 场景的 AI Agent，自动分析基础设施日志和指标，辅助故障诊断和系统运维。

observabilitypythonagent +2

SwanLab

3.8k · Python

活跃

开源的现代设计 AI 训练追踪与可视化工具，支持 PyTorch、Transformers 等主流框架，帮助开发者监控和评估 AI Agent 的训练过程。

pythonobservabilityevaluation +2

AgentDiff

27 · Python

活跃

AI Agent 评估和强化学习的交互式沙箱环境，支持 Slack、LinkedIn 等第三方 API 测试。

agent-evaluationsandboxreinforcement-learning +2