Deepchecks

不活跃

GitHub Python NOASSERTION

简介

面向 ML 与 LLM 应用的测试与监控平台，类比 'unit tests for AI'。

核心特性

ML 测试 — 训练前后自动检查数据漂移、标签泄漏、模型性能
LLM 评估 — 内置幻觉、偏见、毒性的评估检查
CI 友好 — 几行代码接入 pytest
可视化 — HTML 报告直观呈现检查结果
开源自托管 — 数据留在本地，敏感行业可用
可扩展 — 自定义 Check 与 Suite 满足业务需求

适用场景

💡 为 ML 团队建立模型上线前的回归测试。

💡 对 LLM 回答做幻觉与毒性自动检查。

💡 在 CI 中跑数据漂移检查，防止模型退化。

分类

📊 可观测性

快速开始

# 安装
pip install deepchecks
# LLM 评估示例
from deepchecks.llm.checks import Toxicity
result = Toxicity().run(
    production_samples={'text': ['我讨厌这个产品']},
)
result.show()

访问 GitHub

相关项目

UpTrain

2.4k · Python

不活跃

UpTrain 是面向 LLM 应用的评测和监控工具，支持对响应质量、上下文相关性、事实性和用户反馈进行检查。它适合 Agent 开发者在上线前后持续评估多步骤任务，发现提示词和检索链路的质量问题。

llm-evaluationmonitoringtesting

Giskard

5.5k · Python

活跃

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

AgentOps

5.7k · Python

活跃

AgentOps 是一个 AI Agent 可观测性平台，提供 Agent 监控、调试和评估功能，帮助开发者优化 Agent 性能。

observabilitymonitoringdebugging +1

Crucix

10.4k · JavaScript

正常

Crucix 是一个个人情报智能体，持续监控多个数据源，当检测到重要变化时主动通知用户，帮助用户实时掌握信息动态。

agentautomationmonitoring +2