Whisper
正常简介
OpenAI Whisper 是一个多语言语音识别基础模型,可在本地完成高质量的英语与多语种转写、翻译与语言识别。
核心特性
- 多语种识别 — 支持 99 种语言的转写与英译
- 多模型尺寸 — 从 tiny 到 large 多种尺寸,按精度与速度灵活选择
- 鲁棒性 — 在口音、噪音、背景音等真实场景下保持稳定识别
- 时间戳输出 — 同时输出词级与句级时间戳,便于字幕与检索
- 翻译能力 — 自动把非英语语音翻译为英语文字
- 易于集成 — 提供命令行与 Python API,支持批量处理长音频
适用场景
💡 为会议、播客、采访录音自动生成文字稿与字幕
💡 在 AI Agent 中加入语音输入能力,实现语音对话
💡 为多语种客服与教学视频做语音转写与翻译
💡 在离线环境中部署端到端语音转写流水线
💡 为长音频做内容检索与结构化分析
分类
快速开始
# 安装依赖
pip install -U openai-whisper
# 命令行转写 whisper audio.wav --language Chinese --model small
# Python API
import whisper
model = whisper.load_model('base')
result = model.transcribe('audio.wav', language='zh')
print(result['text'])