Lighteval
活跃简介
HuggingFace 推出的一站式 LLM 评估工具包,支持多种后端的模型评测,与 HuggingFace 生态深度集成,提供灵活的评估指标和基准配置。
HuggingFace 推出的一站式 LLM 评估工具包,支持多种后端的模型评测,与 HuggingFace 生态深度集成,提供灵活的评估指标和基准配置。
EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。
英国 AI 安全研究所(AISI)开源的大语言模型评估框架,提供全面的模型能力评估工具,支持安全性和对齐性测试。
Opik 是一个开源的 LLM 应用可观测性平台,提供 Agent 追踪、评估测试、提示词实验管理等功能,帮助开发者监控和优化 AI Agent 系统。
Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能