Llama 2

不活跃
GitHub Python NOASSERTION

简介

Meta 开源的 Llama 2 基础大语言模型,提供 7B 至 70B 参数预训练和微调版本,支持对话和文本补全,是开源 LLM 生态的重要基础。

核心特性

  • 多规格参数 — 提供 7B、13B、34B、70B 四档参数规模
  • 对话和基础模型 — 同时提供预训练基础版和指令微调 Chat 版
  • 商业友好许可 — 可免费用于研究和商业场景
  • HuggingFace 兼容 — 完整支持 Transformers 库加载和推理
  • llama.cpp 部署 — 可通过 llama.cpp 在消费级硬件上高效运行
  • Code Llama — 专门针对代码生成进行了微调

适用场景

💡 开源 LLM 基础:作为下游模型微调和研究的基础权重
💡 私有化部署:在本地 GPU 上私有部署 Llama 2 进行推理
💡 指令微调研究:在基础模型上进行 RLHF、SFT 等指令微调研究
💡 代码生成:使用 Code Llama 进行代码理解和生成任务

快速开始

# 安装依赖
pip install torch transformers

# 从 HuggingFace 加载
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf")
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-chat-hf", torch_dtype=torch.float16, device_map="auto")

# 推理
inputs = tokenizer("Hello, how are you?", return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(output[0], skip_special_tokens=True))

# 或使用 llama.cpp
# git clone https://github.com/ggerganov/llama.cpp && make
# ./main -m models/llama-2-7b-chat.gguf -p "Hello"

相关项目