llama.cpp
活跃简介
llama.cpp 是一个用 C/C++ 编写的轻量级 LLM 推理引擎,可在消费级硬件上高效运行各类开源大语言模型。
核心特性
- 极轻量推理 — 纯 C/C++ 实现,零依赖即可在 CPU 上运行量化 LLM
- GGUF 模型格式 — 统一的量化模型格式,跨平台、可分块加载
- 多硬件加速 — 支持 Apple Silicon Metal、NVIDIA CUDA、AMD ROCm、Vulkan、OpenCL
- 多种 LLM 架构 — Llama、Qwen、Mistral、Gemma、DeepSeek、Phi 等主流架构开箱即用
- 服务端能力 — 内置 llama-server 提供 OpenAI 兼容 HTTP API
- 多语言绑定 — 通过 llama-cpp-python 等绑定接入 Python、Rust、Go 生态
适用场景
💡 在没有 GPU 的笔记本或边缘设备上本地运行量化 LLM
💡 为 AI Agent 提供本地、零成本的推理后端
💡 在 Apple Silicon 上以 Metal 加速跑 Llama 3 / Qwen 等开源模型
💡 把 GGUF 模型通过 llama-server 暴露成 OpenAI 兼容 API
💡 在 RAG 系统中嵌入轻量级本地推理以降低成本
快速开始
# 克隆并构建
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build && cmake --build build --config Release -j
# 下载一个 GGUF 模型
huggingface-cli download Qwen/Qwen2.5-1.5B-Instruct-GGUF \
qwen2.5-1.5b-instruct-q4_k_m.gguf --local-dir .
# 在终端交互运行
./build/bin/llama-cli -m qwen2.5-1.5b-instruct-q4_k_m.gguf \
-p "你好,请自我介绍" -n 256
# 或者启动 OpenAI 兼容服务
./build/bin/llama-server -m qwen2.5-1.5b-instruct-q4_k_m.gguf --port 8080