SwanLab

活跃
GitHub Python Apache-2.0

简介

开源的现代设计 AI 训练追踪与可视化工具,支持 PyTorch、Transformers 等主流框架,帮助开发者监控和评估 AI Agent 的训练过程。

核心特性

  • 50+ 主流框架无缝集成:原生支持 PyTorch、Transformers、HuggingFace Accelerate、PaddleNLP、NVIDIA NeMo RL 等框架,两行代码接入训练流程
  • 丰富的可视化图表系统:支持折线图、标量图、PR 曲线、ROC 曲线、混淆矩阵、3D 点云、分子结构、ECharts 自定义图表等 20+ 图表类型
  • 多维度硬件监控:实时监控 GPU(NVIDIA/AMD ROCm/海光 DCU/寒武纪 MLU/摩尔线程/沐曦/天数智芯/昆仑芯)、磁盘利用率、网络流量等硬件指标
  • LightningBoard 闪电看板:专为超大图表数量级场景打造的高性能仪表盘,支持图表分组、局部放大、相对时间显示、正则搜索
  • 灵活的私有化部署:支持 Docker、Kubernetes 一键部署,也提供在线云端版本,数据完全自主掌控
  • 实验协作与管理:支持项目置顶、实验分组、实验复制、Baseline 对比、并行模式记录、协作者邀请等团队协作功能

适用场景

💡 大模型训练过程监控:实时追踪 LLM 预训练、SFT、RLHF 各阶段的 loss、学习率、梯度等关键指标,及时发现训练异常
💡 AI 实验对比与调参:通过 Baseline 对比和多实验分组功能,快速评估不同超参数组合对模型性能的影响
💡 团队训练项目管理:多组织、多项目管理,支持实验 Tag、置顶、筛选和排序,方便团队协作追踪训练进度
💡 训练自动化告警:通过 Webhook 集成 Slack、Discord、飞书、邮件等通知渠道,训练完成或异常时自动推送告警
💡 模型评估与可视化报告:结合 EvalScope 等评估框架,将模型评估结果可视化展示,生成训练项目 GitHub 徽章

快速开始

安装:pip install swanlab;在训练代码中添加:import swanlab; swanlab.init(project="my-project"); swanlab.log({"loss": loss.item()});运行训练后访问 swanlab.cn 查看可视化仪表盘

相关项目