Whisper

正常

GitHub Python MIT

简介

OpenAI Whisper 是一个多语言语音识别基础模型，可在本地完成高质量的英语与多语种转写、翻译与语言识别。

核心特性

多语种识别 — 支持 99 种语言的转写与英译
多模型尺寸 — 从 tiny 到 large 多种尺寸，按精度与速度灵活选择
鲁棒性 — 在口音、噪音、背景音等真实场景下保持稳定识别
时间戳输出 — 同时输出词级与句级时间戳，便于字幕与检索
翻译能力 — 自动把非英语语音翻译为英语文字
易于集成 — 提供命令行与 Python API，支持批量处理长音频

适用场景

💡 为会议、播客、采访录音自动生成文字稿与字幕

💡 在 AI Agent 中加入语音输入能力，实现语音对话

💡 为多语种客服与教学视频做语音转写与翻译

💡 在离线环境中部署端到端语音转写流水线

💡 为长音频做内容检索与结构化分析

分类

⚡ Agent 工具

快速开始

# 安装依赖
pip install -U openai-whisper

# 命令行转写 whisper audio.wav --language Chinese --model small

# Python API
import whisper
model = whisper.load_model('base')
result = model.transcribe('audio.wav', language='zh')
print(result['text'])

访问 GitHub 访问官网查看文档

Whisper

简介

核心特性

适用场景

标签

分类

快速开始

相关项目

Screenshot to Code

FastRTC

Gemini Cookbook

Jina AI Serve