Hugging Face Evaluate
活跃简介
Hugging Face 官方模型与数据集评估库,提供丰富的评估指标和方法,轻松评估机器学习模型性能和数据集质量。
Hugging Face 官方模型与数据集评估库,提供丰富的评估指标和方法,轻松评估机器学习模型性能和数据集质量。
Argilla 是面向 AI 工程师和领域专家的协作平台,支持构建高质量数据集、人工反馈收集与模型评估。
Weights & Biases 推出的 AI 应用开发工具包,提供 LLM 调用追踪、评估实验管理和版本化能力,助力 AI 应用从原型到生产的全流程管理。
Salesforce AI Research 推出的自动提示词优化框架,利用 LLM 自动搜索和优化提示词以提升模型性能。
A comprehensive benchmark to evaluate LLMs as agents (ICLR 2024), covering operating systems, databases, knowledge graphs, digital card games and more.