llama.cpp

活跃
GitHub C++ MIT

简介

llama.cpp 是一个用 C/C++ 编写的轻量级 LLM 推理引擎,可在消费级硬件上高效运行各类开源大语言模型。

核心特性

  • 极轻量推理 — 纯 C/C++ 实现,零依赖即可在 CPU 上运行量化 LLM
  • GGUF 模型格式 — 统一的量化模型格式,跨平台、可分块加载
  • 多硬件加速 — 支持 Apple Silicon Metal、NVIDIA CUDA、AMD ROCm、Vulkan、OpenCL
  • 多种 LLM 架构 — Llama、Qwen、Mistral、Gemma、DeepSeek、Phi 等主流架构开箱即用
  • 服务端能力 — 内置 llama-server 提供 OpenAI 兼容 HTTP API
  • 多语言绑定 — 通过 llama-cpp-python 等绑定接入 Python、Rust、Go 生态

适用场景

💡 在没有 GPU 的笔记本或边缘设备上本地运行量化 LLM
💡 为 AI Agent 提供本地、零成本的推理后端
💡 在 Apple Silicon 上以 Metal 加速跑 Llama 3 / Qwen 等开源模型
💡 把 GGUF 模型通过 llama-server 暴露成 OpenAI 兼容 API
💡 在 RAG 系统中嵌入轻量级本地推理以降低成本

快速开始

# 克隆并构建
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build && cmake --build build --config Release -j

# 下载一个 GGUF 模型
huggingface-cli download Qwen/Qwen2.5-1.5B-Instruct-GGUF \
  qwen2.5-1.5b-instruct-q4_k_m.gguf --local-dir .

# 在终端交互运行
./build/bin/llama-cli -m qwen2.5-1.5b-instruct-q4_k_m.gguf \
  -p "你好,请自我介绍" -n 256

# 或者启动 OpenAI 兼容服务
./build/bin/llama-server -m qwen2.5-1.5b-instruct-q4_k_m.gguf --port 8080

相关项目

相关文章