Ray 分布式 Agent 编排：从单机原型到集群部署

当 Agent 原型在本地跑通后，下一个瓶颈几乎必然出现：并行请求一多，CPU 先顶不住；状态要共享，进程间通讯成了负担；任务队列一复杂，代码很快就变成不可维护的意大利面。

大多数团队的第一反应是"上 Celery / RQ / Dramatiq"，但这些工具解决的是任务分发问题，不是 Agent 特有的状态隔离、对象共享和弹性调度问题。Ray 恰好是从底层 runtime 层面切入，把分布式计算的原语直接封装成 Python 接口。

Ray 核心概念速览

Ray 的三个核心抽象：Tasks（无状态函数）、Actors（有状态工作进程）、Object Store（零拷贝共享）。

单机 Agent 到 Ray Actor 的迁移分三步：无状态函数并行化、Agent 状态封装为 Actor、弹性调度和自动扩缩。改动量很小，但并发上限从单核扩展到多 GPU。

Ray Serve 是 Ray 的模型服务层，支持自动扩缩、GPU 共享、低延迟推理。num_replicas="auto" 自动扩缩，max_ongoing_requests 控制单副本并发。

RLlib 新 API 使用 PPOConfig().build_algo() 获取算法对象，然后调用 algo.train() 循环训练。

Ray Operator on K8s 支持 Placement Groups 和 Autoscaler。示例使用 Ray 2.55.1 镜像。

Ray 分布式 overhead 在 <10 QPS 时不值得。越界信号：单机 CPU >70% 或 P99 延迟超 SLA。