llama.cpp

活跃

GitHub C++ MIT

简介

llama.cpp 是一个用 C/C++ 编写的轻量级 LLM 推理引擎，可在消费级硬件上高效运行各类开源大语言模型。

核心特性

极轻量推理 — 纯 C/C++ 实现，零依赖即可在 CPU 上运行量化 LLM
GGUF 模型格式 — 统一的量化模型格式，跨平台、可分块加载
多硬件加速 — 支持 Apple Silicon Metal、NVIDIA CUDA、AMD ROCm、Vulkan、OpenCL
多种 LLM 架构 — Llama、Qwen、Mistral、Gemma、DeepSeek、Phi 等主流架构开箱即用
服务端能力 — 内置 llama-server 提供 OpenAI 兼容 HTTP API
多语言绑定 — 通过 llama-cpp-python 等绑定接入 Python、Rust、Go 生态

适用场景

💡 在没有 GPU 的笔记本或边缘设备上本地运行量化 LLM

💡 为 AI Agent 提供本地、零成本的推理后端

💡 在 Apple Silicon 上以 Metal 加速跑 Llama 3 / Qwen 等开源模型

💡 把 GGUF 模型通过 llama-server 暴露成 OpenAI 兼容 API

💡 在 RAG 系统中嵌入轻量级本地推理以降低成本

分类

📚 RAG 工具 ⚡ Agent 工具

快速开始

# 克隆并构建
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build && cmake --build build --config Release -j

# 下载一个 GGUF 模型
huggingface-cli download Qwen/Qwen2.5-1.5B-Instruct-GGUF \
  qwen2.5-1.5b-instruct-q4_k_m.gguf --local-dir .

# 在终端交互运行
./build/bin/llama-cli -m qwen2.5-1.5b-instruct-q4_k_m.gguf \
  -p "你好，请自我介绍" -n 256

# 或者启动 OpenAI 兼容服务
./build/bin/llama-server -m qwen2.5-1.5b-instruct-q4_k_m.gguf --port 8080

访问 GitHub 访问官网查看文档

llama.cpp

简介

核心特性

适用场景

标签

分类

快速开始

相关项目

rocketride-server

airbyte

Crawlee

WrenAI

相关文章

小模型微调与边缘推理：让 AI Agent 在资源受限场景下跑得更快、更省