AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
首页 / 项目 / DeepEval

DeepEval

活跃
GitHub Python Apache-2.0

简介

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。

标签

llm evaluation testing rag

分类

📊 可观测性 ⚡ Agent 工具
访问 GitHub 访问官网

项目指标

Stars 14.1k
Forks 1.3k
Watchers 14.1k
Issues 241
创建时间 2023年8月10日
最近提交 2026年3月13日

部署方式

本地部署

相关项目

Ragas

12.9k · Python
活跃

Ragas 是一个用于评估 RAG(检索增强生成)系统的框架。提供多种评估指标,包括忠实度、答案相关性、上下文精确度等,帮助开发者优化 RAG 应用性能。

ragevaluationllm +1

TruLens

3.2k · Python
活跃

TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能,包括上下文相关性、接地性和答案相关性等评估维度。

llmevaluationobservability +1

Helicone

5.2k · TypeScript
活跃

Helicone 是面向大模型应用的开源代理与监控平台,提供请求追踪、缓存与成本分析能力。

observabilityproxyanalytics +1

GPT Engineer

55.2k · Python
不活跃

GPT Engineer 是一个根据自然语言描述生成整个代码库的 AI 工具。你只需描述想要构建的内容,AI 会提出澄清问题,然后生成完整的代码。

code-generationllmpython +1
AgentList

开源机器人/Agent 项目导航站

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community