语音 Agent 生产部署实战:LiveKit Agents 从原型到百万并发
语音 Agent 是下一个爆发点。LiveKit(11k Stars, 支撑 ChatGPT 高级语音)提供完整框架,本文从 pipeline 拆解到生产部署,手把手搭建可商用的语音 Agent。
为什么不是 Chatbot?
语音 Agent 必须控制在 500ms 以内 端到端延迟。Chatbot 可以接受 2-5s 响应,但语音场景下 3 秒安静就是挂机。
语音 Agent Pipeline
User Audio → VAD → STT → Agent (LLM) → TTS → User Audio
↑_______________↓
打断检测 (Turn Detection)
各环节预算:VAD < 50ms,STT < 300ms,LLM < 200ms,TTS < 200ms。端到端目标 400-600ms。
VAD 三方案:Silero VAD、WebRTC VAD、Deepgram VAD。生产环境推荐 Silero + Deepgram 混合。
LiveKit Agents
livekit/agents (11.1k Stars, Apache 2.0)。被 OpenAI 用于 ChatGPT 高级语音后端。
底层是 LiveKit WebRTC SFU + Agent SDK (Python/Node.js) + Plugin 系统。STT 支持 Deepgram、OpenAI Whisper、Azure 等;TTS 支持 Cartesia、ElevenLabs、OpenAI、Azure、Deepgram 等;LLM 支持 OpenAI Realtime、GPT、Claude、Groq、Together、Ollama 等。
工具/MCP 支持:通过 Function Calling 把外部工具(数据库、订单系统、MCP Server)接入对话。
快速起步
pip install livekit-agents livekit-plugins-openai livekit-plugins-deepgram livekit-plugins-cartesia
from livekit import agents
from livekit.agents import AgentServer, AgentSession, Agent, inference
server = AgentServer()
@server.rtc_session(agent_name="support-agent")
async def entrypoint(ctx: agents.JobContext):
session = AgentSession(
stt=inference.STT(model="deepgram/nova-3", language="multi"),
llm=inference.LLM(model="openai/chat-latest"),
tts=inference.TTS(model="cartesia/sonic-3"),
)
await session.start(room=ctx.room, agent=Agent(instructions="你好,有什么可以帮忙?"))
也可使用 OpenAI Realtime API 简化模式,STT+TTS+LLM 合一。
生产化关键点
1. 打断处理:声学断句 + 语义验证。使用 inference.TurnDetector() 做语义级 turn detection。
2. Agent 调度 (Dispatch API):lk dispatch create 或 Python Server SDK 路由通话到指定 Agent。
3. 电话集成 (SIP):LiveKit Phone Numbers 或 SIP Trunk 接入 PSTN,支持呼入呼出、DTMF、录音。
4. 可观测性:transcripts、traces、turn-by-turn telemetry。关键指标:Turn Latency、Interruption Rate、STT Accuracy。
5. 语音保活:静默 15 秒主动提示,防止用户以为掉线。
部署选项
开源对比
| 特性 | LiveKit | Pipecat | Vocode |
|---|---|---|---|
| Stars | 11.1k | ~13k | ~3.8k |
| MCP | 原生 | 社区 | 无 |
| SIP | 原生 | 自建 | 有限 |
| Cloud | 有 | 无 | 无 |
| 生产验证 | OpenAI | 中小场景 | 实验 |
小结
三个关键决策:STT/TTS 选型(Deepgram+Cartesia 最佳平衡)、打断策略(必须语义级)、部署路径(Cloud 验证→自托管规模)。
本文涉及的项目
LiveKit Agents
11.1k ⭐LiveKit Agents 是 LiveKit 推出的实时语音与多模态 Agent 框架,面向电话、语音助手与实时互动场景,适合构建低延迟的语音 Agent 体验。
LiveKit
19.4k ⭐LiveKit 是一个开源的实时音视频基础设施项目,为 AI Agent 提供语音交互能力。支持 WebRTC 传输,提供 Agent 框架和实时转录。
Pipecat
13.0k ⭐Pipecat 是一个开源的语音和多模态对话 AI 框架,支持构建实时语音助手、视频代理和多模态智能体,集成多种 TTS、STT 和 LLM 服务。
Open WebUI
142.6k ⭐Open WebUI 是一个功能丰富、用户友好的自托管 AI 平台,支持 Ollama 和 OpenAI 兼容 API,提供 RAG、Agent 和 MCP 等功能。