Braintrust

活跃

GitHub TypeScript MIT

简介

Braintrust 是面向 AI 应用的评估与可观测性平台，提供实验追踪、评分与生产监控能力。

核心特性

实验追踪与对比 — 记录每次 LLM 调用的输入输出、参数与结果，便于多版本对比
自动与人工评分 — 支持 LLM-as-judge、人工标注和自定义评估函数
数据集管理 — 集中存储测试用例，支持版本控制和复用
提示词管理 — 带版本控制的 prompt 库，支持 A/B 实验
生产环境监控 — 跟踪在线 LLM 调用的延迟、错误率与质量指标
SDK 生态 — Python/JS/TS SDK 与 LangChain、LlamaIndex、Vercel AI SDK 等深度集成

适用场景

💡 在 CI 中跑 prompt 回归测试，对比新旧版本的输出质量

💡 用 LLM-as-judge 评分批量评估 RAG 系统的检索与生成效果

💡 管理 prompt 模板版本并做 A/B 实验，找到最优 prompt

💡 监控生产环境 LLM 调用的延迟、错误率与质量

💡 集中管理测试数据集与评估函数，跨团队复用

分类

📊 可观测性

快速开始

pip install braintrust
import braintrust
from braintrust import Eval
Eval("my-eval", data=lambda: [...], task=lambda x: openai_call(x), scores=[...]).run()
# 或者通过 Braintrust 代理流式上报生产环境的追踪数据。

访问 GitHub 访问官网查看文档

Braintrust

简介

核心特性

适用场景

标签

分类

快速开始

相关项目

Arize Phoenix

Langfuse

Agenta

Opik