Braintrust

活跃
GitHub TypeScript MIT

简介

Braintrust 是面向 AI 应用的评估与可观测性平台,提供实验追踪、评分与生产监控能力。

核心特性

  • 实验追踪与对比 — 记录每次 LLM 调用的输入输出、参数与结果,便于多版本对比
  • 自动与人工评分 — 支持 LLM-as-judge、人工标注和自定义评估函数
  • 数据集管理 — 集中存储测试用例,支持版本控制和复用
  • 提示词管理 — 带版本控制的 prompt 库,支持 A/B 实验
  • 生产环境监控 — 跟踪在线 LLM 调用的延迟、错误率与质量指标
  • SDK 生态 — Python/JS/TS SDK 与 LangChain、LlamaIndex、Vercel AI SDK 等深度集成

适用场景

💡 在 CI 中跑 prompt 回归测试,对比新旧版本的输出质量
💡 用 LLM-as-judge 评分批量评估 RAG 系统的检索与生成效果
💡 管理 prompt 模板版本并做 A/B 实验,找到最优 prompt
💡 监控生产环境 LLM 调用的延迟、错误率与质量
💡 集中管理测试数据集与评估函数,跨团队复用

快速开始

pip install braintrust
import braintrust
from braintrust import Eval
Eval("my-eval", data=lambda: [...], task=lambda x: openai_call(x), scores=[...]).run()
# 或者通过 Braintrust 代理流式上报生产环境的追踪数据。

相关项目