语音 Agent 生产部署实战:LiveKit Agents 从原型到百万并发

语音 Agent 是下一个爆发点。LiveKit(11k Stars, 支撑 ChatGPT 高级语音)提供完整框架,本文从 pipeline 拆解到生产部署,手把手搭建可商用的语音 Agent。

AgentList Team · 2026年6月22日
语音 AgentLiveKit实时语音WebRTCVoice AISTTTTS

为什么不是 Chatbot?

语音 Agent 必须控制在 500ms 以内 端到端延迟。Chatbot 可以接受 2-5s 响应,但语音场景下 3 秒安静就是挂机。

语音 Agent Pipeline

User Audio → VAD → STT → Agent (LLM) → TTS → User Audio
                  ↑_______________↓
                打断检测 (Turn Detection)

各环节预算:VAD < 50ms,STT < 300ms,LLM < 200ms,TTS < 200ms。端到端目标 400-600ms。

VAD 三方案:Silero VAD、WebRTC VAD、Deepgram VAD。生产环境推荐 Silero + Deepgram 混合。

LiveKit Agents

livekit/agents (11.1k Stars, Apache 2.0)。被 OpenAI 用于 ChatGPT 高级语音后端。

底层是 LiveKit WebRTC SFU + Agent SDK (Python/Node.js) + Plugin 系统。STT 支持 Deepgram、OpenAI Whisper、Azure 等;TTS 支持 Cartesia、ElevenLabs、OpenAI、Azure、Deepgram 等;LLM 支持 OpenAI Realtime、GPT、Claude、Groq、Together、Ollama 等。

工具/MCP 支持:通过 Function Calling 把外部工具(数据库、订单系统、MCP Server)接入对话。

快速起步

pip install livekit-agents livekit-plugins-openai livekit-plugins-deepgram livekit-plugins-cartesia
from livekit import agents
from livekit.agents import AgentServer, AgentSession, Agent, inference

server = AgentServer()

@server.rtc_session(agent_name="support-agent")
async def entrypoint(ctx: agents.JobContext):
    session = AgentSession(
        stt=inference.STT(model="deepgram/nova-3", language="multi"),
        llm=inference.LLM(model="openai/chat-latest"),
        tts=inference.TTS(model="cartesia/sonic-3"),
    )
    await session.start(room=ctx.room, agent=Agent(instructions="你好,有什么可以帮忙?"))

也可使用 OpenAI Realtime API 简化模式,STT+TTS+LLM 合一。

生产化关键点

1. 打断处理:声学断句 + 语义验证。使用 inference.TurnDetector() 做语义级 turn detection。

2. Agent 调度 (Dispatch API)lk dispatch create 或 Python Server SDK 路由通话到指定 Agent。

3. 电话集成 (SIP)LiveKit Phone Numbers 或 SIP Trunk 接入 PSTN,支持呼入呼出、DTMF、录音。

4. 可观测性:transcripts、traces、turn-by-turn telemetry。关键指标:Turn Latency、Interruption Rate、STT Accuracy。

5. 语音保活:静默 15 秒主动提示,防止用户以为掉线。

部署选项

  • LiveKit Cloud:托管方案,全球边缘节点,每月 50h 免费额度
  • 自托管:Docker Compose 部署 LiveKit Server + Agent,适合数据主权场景

开源对比

特性 LiveKit Pipecat Vocode
Stars 11.1k ~13k ~3.8k
MCP 原生 社区
SIP 原生 自建 有限
Cloud
生产验证 OpenAI 中小场景 实验

小结

三个关键决策:STT/TTS 选型(Deepgram+Cartesia 最佳平衡)、打断策略(必须语义级)、部署路径(Cloud 验证→自托管规模)。