語音轉文字工具比較｜Whisper、Vosk、Google 哪個最準？離線 vs 雲端一次看

語音轉文字工具(一般簡稱ASR)，能夠自動將語音內容轉換成文字，日常會議與訪談紀錄、影片與 Podcast 字幕製作、語音助理的語義理解，以及針對聽障者的無障礙功能等都很常見。

今天我們來比較 OpenAI 的 Whisper、開源工具 Vosk，以及 Google Speech-to-Text 雲端 API 這幾個最受關注的語音轉文字工具。

2. 規格比較表

名稱	語音辨識準確度（中文 / 英文）	處理速度	是否支援離線	API 整合性與開源性	是否自動標點 / 換行 / 時間戳記	可支援音訊格式
Whisper	極高 / 極高（特別在英文）	非即時（根據模型大小）	✅ 是	✅ 完全開源（Python CLI / API）	✅ 有自動標點、換行與時間戳記	mp3, wav, m4a 等多數格式
Vosk	中 / 中偏高（英文較佳）	✅ 即時處理能力佳	✅ 是	✅ 完全開源（支援多語言）	❌ 無內建自動標點與時間戳記（需手動處理）	wav（最佳支援）
Google Speech-to-Text	極高 / 高（支援多語種）	✅ 即時處理能力強	❌ 否（雲端運作）	❌ 商業服務（REST API）	✅ 有自動標點與時間戳記功能	wav, mp3, flac, ogg 等

3. 優缺點比較

Whisper

優點

準確度極高，尤其在英文辨識方面表現卓越。
完全開源，可本地部署，保障資料隱私。
支援多語言，對中文的辨識力也不錯。(輸出基本上是英文，錯字也是蠻多的，但可以轉錄完用chatgpt之類的重新整理)
自動標點、換行與時間戳記功能完整。

缺點

模型資源需求高（中大型模型耗時且需 GPU 加速）。
處理速度非即時，特別是大型音訊或使用大模型時。

適合人群：追求高準確率、具備一定技術能力的開發者或內容製作者。

Vosk

優點

輕量級模型，適合即時處理與嵌入式設備使用。
開源、易於離線部署。
系統需求低，執行效率高。

缺點

中文辨識準確度略低，且需額外工具實現自動標點與換行。
支援音訊格式較少，建議使用 wav。

適合人群：開發輕量化離線應用或 IoT 方案的開發者。

Google Speech-to-Text

優點

商業等級穩定性，準確率高，支援超過 100 種語言。
自動標點與時間戳功能成熟。
處理速度快，能應對即時語音轉文字需求。

缺點

需連網使用，可能涉及資料隱私問題。
持續使用需付費，長期成本較高。

適合人群：企業用戶、大型專案、需要即時處理與多語言支援的情境。

4. 如何挑選適合的版本 / 型號

根據不同使用需求，我們提供以下建議：

追求最高準確度的使用者→ 建議選擇 Whisper large 模型，尤其針對英文資料辨識效果非常優異。若硬體條件允許，本地部署能確保隱私與穩定性。
需要在無網路環境下操作的開發者→ Vosk 是首選，其輕量架構適合嵌入式裝置與低規格設備。若對準確度要求更高，亦可考慮 Whisper small / medium 模型作為離線替代方案。
預算有限的個人或新創團隊→ Whisper 為免費開源工具，是功能最完整的選擇；Vosk 雖然準確度稍低，但資源需求低、入門簡單，也值得嘗試。
需要高穩定性與技術支援的企業用戶→ Google Speech-to-Text 提供 SLA、技術文件完整且可垂直擴展，適合大規模部署與商業應用。
需要即時語音轉文字的應用情境→ 首選 Google Speech-to-Text 或 Vosk。若使用 Whisper，需注意其屬非即時處理，較不適合對時效要求高的場景。

5. 購買與使用注意事項

常見誤區

忽略音訊品質會嚴重影響辨識結果，雜訊多的錄音即使用再好的模型也無法準確轉譯。
未充分評估 Google API 的費率，長期使用可能造成高額支出。
誤以為開源工具即可輕鬆部署，實際上 Whisper 需要 CUDA、FFmpeg、Python 等環境設定。

重要設定與參數建議

Whisper / Vosk 使用者需選擇對應語言模型版本（如 base / medium / large），依照硬體資源權衡速度與準確度。
音訊取樣率建議為 16kHz 或 44.1kHz，可確保轉換品質。
使用 Google API 時要特別注意 Rate Limits、API key 設定與 request 數量上限。

6. 常見問題 FAQ

Q1：離線使用的話，Whisper 和 Vosk 哪個比較好？

A：Whisper 準確度高但資源需求大；Vosk 資源需求低但準確度中等。若設備夠力，推薦 Whisper；資源有限則可選 Vosk。

Q2：製作影片字幕時，哪個工具有完整的「自動時間戳記」功能？

A：Whisper 與 Google Speech-to-Text 皆支援時間戳與自動標點，Vosk 需額外程式處理時間軸資訊。

Q3：Google Speech-to-Text 的費用怎麼算？有免費額度嗎？

A：Google 提供每月 60 分鐘的免費額度，之後依據語音長度與語言模型計費（標準版與 enhanced 模型價格不同）。

Q4：這些工具對有口音或背景噪音的處理能力如何？

A：Whisper 表現最佳，其模型經過大量多樣化語料訓練。Google 的 enhanced 模型次之，Vosk 在這方面則較弱。

Q5：Whisper 處理大型音訊檔會不會很慢？

A：取決於模型大小與硬體設備。使用 GPU 時速度尚可，但若使用 CPU 處理大型 mp3，會明顯偏慢。

以我自己的應用場景，通常都選Whisper 比較多，普遍是用本地Whisper ，有時會直接用Whisper api，價格不會說非常貴，一分鐘的音頻價格是$0.006 USD，等於一小時的錄音檔轉錄成本大概是NT 11元(以現在的匯率大概10.5元)，當然假如自己的電腦有RTX3060以上的顯卡，可以用本地Whisper成本會更低

💖 支持作者： 如果我的內容對你有幫助，歡迎請我喝杯咖啡 ☕，您的支持是我持續創作的最大動力！點我贊助

文章轉載或引用，請先告知並保留原文出處與連結！！(單純分享或非營利的只需保留原文出處，不用告知)

原文連結:
https://blog.aidec.tw/post/speech-to-text-tools-comparison

若有業務合作需求，可寫信至： [email protected]

創業、網站經營相關內容未來將發布在小易創業筆記