语音 Agent 生产部署实战：LiveKit Agents 从原型到百万并发

为什么不是 Chatbot？

语音 Agent 必须控制在 500ms 以内 端到端延迟。Chatbot 可以接受 2-5s 响应，但语音场景下 3 秒安静就是挂机。

语音 Agent Pipeline

User Audio → VAD → STT → Agent (LLM) → TTS → User Audio
                  ↑_______________↓
                打断检测 (Turn Detection)

各环节预算：VAD < 50ms，STT < 300ms，LLM < 200ms，TTS < 200ms。端到端目标 400-600ms。

VAD 三方案：Silero VAD、WebRTC VAD、Deepgram VAD。生产环境推荐 Silero + Deepgram 混合。

LiveKit Agents

livekit/agents (11.1k Stars, Apache 2.0)。被 OpenAI 用于 ChatGPT 高级语音后端。

底层是 LiveKit WebRTC SFU + Agent SDK (Python/Node.js) + Plugin 系统。STT 支持 Deepgram、OpenAI Whisper、Azure 等；TTS 支持 Cartesia、ElevenLabs、OpenAI、Azure、Deepgram 等；LLM 支持 OpenAI Realtime、GPT、Claude、Groq、Together、Ollama 等。

工具/MCP 支持：通过 Function Calling 把外部工具（数据库、订单系统、MCP Server）接入对话。

快速起步

pip install livekit-agents livekit-plugins-openai livekit-plugins-deepgram livekit-plugins-cartesia

from livekit import agents
from livekit.agents import AgentServer, AgentSession, Agent, inference

server = AgentServer()

@server.rtc_session(agent_name="support-agent")
async def entrypoint(ctx: agents.JobContext):
    session = AgentSession(
        stt=inference.STT(model="deepgram/nova-3", language="multi"),
        llm=inference.LLM(model="openai/chat-latest"),
        tts=inference.TTS(model="cartesia/sonic-3"),
    )
    await session.start(room=ctx.room, agent=Agent(instructions="你好，有什么可以帮忙？"))

也可使用 OpenAI Realtime API 简化模式，STT+TTS+LLM 合一。

生产化关键点

1. 打断处理：声学断句 + 语义验证。使用 inference.TurnDetector() 做语义级 turn detection。

2. Agent 调度 (Dispatch API)：lk dispatch create 或 Python Server SDK 路由通话到指定 Agent。

3. 电话集成 (SIP)：LiveKit Phone Numbers 或 SIP Trunk 接入 PSTN，支持呼入呼出、DTMF、录音。

4. 可观测性：transcripts、traces、turn-by-turn telemetry。关键指标：Turn Latency、Interruption Rate、STT Accuracy。

5. 语音保活：静默 15 秒主动提示，防止用户以为掉线。

部署选项

LiveKit Cloud：托管方案，全球边缘节点，每月 50h 免费额度
自托管：Docker Compose 部署 LiveKit Server + Agent，适合数据主权场景

开源对比

特性	LiveKit	Pipecat	Vocode
Stars	11.1k	~13k	~3.8k
MCP	原生	社区	无
SIP	原生	自建	有限
Cloud	有	无	无
生产验证	OpenAI	中小场景	实验

小结

三个关键决策：STT/TTS 选型（Deepgram+Cartesia 最佳平衡）、打断策略（必须语义级）、部署路径（Cloud 验证→自托管规模）。

语音 Agent 生产部署实战：LiveKit Agents 从原型到百万并发

为什么不是 Chatbot？

语音 Agent Pipeline

LiveKit Agents

快速起步

生产化关键点

部署选项

开源对比

小结

本文涉及的项目

LiveKit Agents

LiveKit

Pipecat

Open WebUI