HolmesGPT
活跃简介
CNCF 沙箱项目,面向 SRE 场景的 AI Agent,自动分析基础设施日志和指标,辅助故障诊断和系统运维。
核心特性
- 基于 Agent 循环查询实时可观测性数据并定位根因
- 深度集成 Prometheus、Grafana、Datadog、Kubernetes 等
- Operator 模式支持 7×24 后台监控,Slack 告警并自动创建 PR
- 双向告警集成 AlertManager、PagerDuty、OpsGenie、Jira
- PB 级数据处理,支持服务端过滤和内存安全执行
- 兼容任意 LLM 提供商:OpenAI、Anthropic、Azure、Bedrock、Gemini
适用场景
💡 对 Kubernetes、VM 和云环境中的生产事件进行自动根因分析
💡 持续健康检查微服务并自动检测回归问题
💡 部署后验证确保新版本运行正常
💡 通过关联多个监控平台的告警进行事件分类
💡 基于识别的根因通过 GitHub PR 自动修复
快速开始
1. 安装:pip install holmesgpt
2. 在 config.yaml 中配置数据源(Kubernetes、Prometheus 等)
3. 设置你的 LLM API 密钥(如 OPENAI_API_KEY)
4. 运行:holmes investigate "为什么我的服务不健康?"
5. Holmes 将查询已连接的数据源并报告根因