whylogs

不活跃
GitHub Jupyter Notebook Apache-2.0

简介

轻量级数据/模型 profiling 库,统计特征分布用于 drift 检测。

核心特性

  • 轻量 profiling — 一行代码产出数据/模型特征统计
  • 隐私安全 — profile 是统计特征,不含原始数据
  • 集成 MLflow — 把 profile 作为 artifact 落 MLflow
  • 漂移检测 — 与 WhyLabs / Evidently 配合做数据漂移
  • 多模态 — 支持表格、文本、图像、embedding
  • 可嵌入 — Python 库 + 容器镜像

适用场景

💡 为 LLM 应用采集输入输出分布做漂移监控。
💡 在 ML 训练 pipeline 记录每个 batch 的特征统计。
💡 把 profile 上传到 WhyLabs 做大屏可视化。

快速开始

# 安装
pip install whylogs
# 给 DataFrame 生成 profile
import whylogs as why
import pandas as pd
df = pd.read_csv('data.csv')
result = why.log(df)
result.view()

相关项目