forge
活跃简介
Forge 是一个自托管 LLM 工具调用框架,支持使用 Ollama、llamafile 等本地模型进行函数调用和多步骤代理工作流编排。
核心特性
- 代理服务器模式可在任何兼容 OpenAI 或 Anthropic 的客户端中无代码添加防护栏
- 救援解析自动处理 Mistral、Qwen 和 JSON 围栏格式的畸形工具调用
- WorkflowRunner 配合 SlotWorker 为多 Agent 架构提供优先级队列的 GPU 访问
- 将小型本地模型(8B)的结构化工具调用准确率从个位数提升至 84%
- 可组合的中间件允许在自定义编排循环中注入响应验证和重试提示
- 支持 Ollama、llama-server、Llamafile、vLLM 和 Anthropic 作为推理后端
适用场景
💡 提升自托管 LLM 在 Agent 编码工作流中的工具调用可靠性
💡 通过代理服务器为现有工具(opencode、aider、Cline)添加防护栏
💡 运行带自动上下文压缩的结构化多步骤 Agent 工作流
💡 通过基于抢占的调度在专业 Agent 之间共享 GPU 推理槽
💡 在生产 LLM 管道中验证和修复畸形工具输出
分类
快速开始
通过 `pip install forge-guardrails` 安装。启动 llama-server 等后端,然后运行 `python -m forge.proxy --backend-url http://localhost:8080 --port 8081`。将客户端指向 `http://localhost:8081/v1`,forge 即可透明地应用防护栏。