HolmesGPT

活跃
GitHub Python Apache-2.0

简介

CNCF 沙箱项目,面向 SRE 场景的 AI Agent,自动分析基础设施日志和指标,辅助故障诊断和系统运维。

核心特性

  • 基于 Agent 循环查询实时可观测性数据并定位根因
  • 深度集成 Prometheus、Grafana、Datadog、Kubernetes 等
  • Operator 模式支持 7×24 后台监控,Slack 告警并自动创建 PR
  • 双向告警集成 AlertManager、PagerDuty、OpsGenie、Jira
  • PB 级数据处理,支持服务端过滤和内存安全执行
  • 兼容任意 LLM 提供商:OpenAI、Anthropic、Azure、Bedrock、Gemini

适用场景

💡 对 Kubernetes、VM 和云环境中的生产事件进行自动根因分析
💡 持续健康检查微服务并自动检测回归问题
💡 部署后验证确保新版本运行正常
💡 通过关联多个监控平台的告警进行事件分类
💡 基于识别的根因通过 GitHub PR 自动修复

快速开始

1. 安装:pip install holmesgpt
2. 在 config.yaml 中配置数据源(Kubernetes、Prometheus 等)
3. 设置你的 LLM API 密钥(如 OPENAI_API_KEY)
4. 运行:holmes investigate "为什么我的服务不健康?"
5. Holmes 将查询已连接的数据源并报告根因

相关项目