閉上眼睛,想像你能讓電腦「讀」出任何一段文字——這個能力在幾十年前還屬於科幻小說,如今已成為每台智慧手機的內建功能。文字轉語音(Text-to-Speech,TTS)技術不只是讀出文字,它已演進成能夠傳達情緒、區分說話風格、用幾十種語言流暢發音的精密技術。本文帶你了解 TTS 的完整面貌。
1. 什麼是文字轉語音(TTS)?
文字轉語音(TTS)是將書面文字自動轉換為語音輸出的技術。廣義的 TTS 系統通常包含兩個階段:
- 文字分析(Text Analysis):解析輸入文字,處理縮寫展開、數字讀法、標點節奏、語境斷句等語言學規則
- 語音合成(Speech Synthesis):根據分析結果,生成對應的音頻波形輸出
現代 TTS 系統通常還會加入「韻律預測(Prosody Prediction)」——預測每個詞的語調、音長、停頓位置,讓語音聽起來更自然、有節奏感。
2. TTS 技術的演進歷程
2.1 早期:規則式合成(1950s–1980s)
最早的語音合成嘗試可追溯至 1950 年代。這一時期的系統採用共振峰合成(Formant Synthesis),通過數學模型模擬聲道的物理特性,直接產生基本音素。
1968 年,第一個可實際使用的 TTS 系統「VODER」問世。這些早期系統的聲音機械感明顯,但已能讓機器「說話」。
2.2 中期:拼接合成(1980s–2000s)
單元選擇合成(Unit Selection Synthesis)是這個時代的主流。其原理是:
- 預先錄製大量真人語音(通常數十小時)
- 將語音切割成細小的「語音單元」(音素、音節、詞)
- 根據輸入文字,從資料庫中挑選最合適的語音片段拼接
這種方法的優點是語音自然度大幅提升;缺點是語音資料庫龐大,且在「邊界拼接」處容易出現不自然的斷頓。
2.3 現代:神經網路合成(2010s 至今)
深度學習的突破徹底改變了 TTS 技術。現代神經 TTS 系統不再依賴語音片段拼接,而是「學習」人類說話的模式,直接生成音頻波形。
3. 現代神經 TTS 的技術架構
目前主流的神經 TTS 架構通常分成兩個模型:
- 聲學模型(Acoustic Model):將文字序列轉換成中間的聲學特徵(如梅爾頻譜,Mel-Spectrogram)。代表模型:Tacotron 2、FastSpeech 2
- 聲碼器(Vocoder):將聲學特徵轉換成最終的音頻波形。代表模型:WaveNet、HiFi-GAN
近年更進一步出現「端到端(End-to-End)」模型,直接從文字生成音頻,省去中間步驟,代表作如 VITS。
3.1 重要里程碑
| 年份 | 模型 | 重要意義 |
|---|---|---|
| 2016 | WaveNet(DeepMind) | 首個達到接近人聲品質的神經聲碼器 |
| 2018 | Tacotron 2(Google) | 結合聲學模型與 WaveNet,大幅提升自然度 |
| 2019 | FastSpeech(Microsoft) | 推理速度提升數十倍,可實時合成 |
| 2021 | VITS | 端到端,首個達到人聲自然度的完整系統 |
| 2023+ | 多款大型語音模型 | 零樣本克隆聲音、情緒控制、多語言 |
4. TTS 的主要應用場景
4.1 無障礙閱讀(Accessibility)
TTS 是視障者獲取書面資訊的核心工具。螢幕閱讀器(如 NVDA、JAWS、VoiceOver)將整個作業系統介面轉換為語音,讓視障使用者能獨立使用電腦和智慧手機。
對於閱讀障礙(如失讀症)的使用者,TTS 也能大幅降低閱讀文字的認知負擔,提升學習效率。
4.2 語言學習
TTS 讓語言學習者能即時聆聽任何詞語的正確發音,尤其在學習聲調語言(如中文、越南語)或詞形複雜的語言(如俄語、阿拉伯語)時特別有用。許多語言學習 App(如 Duolingo、Anki)大量依賴 TTS 提供發音示範。
4.3 有聲書與播客製作
現代神經 TTS 的語音品質已足以製作高品質有聲書,大幅降低專業配音的成本與時間。部分出版商開始使用 TTS 搭配人工後製,快速推出有聲版本。
4.4 智慧裝置與語音助理
Siri、Google Assistant、Alexa 等語音助理都依賴高品質 TTS 輸出。車載導航系統、智慧家電的語音提示,也是 TTS 的常見應用場景。
4.5 教育與課程製作
教師可利用 TTS 快速將文字教材轉換為有聲講義,方便學生在通勤途中聆聽。線上課程平台也開始導入 TTS 生成字幕旁白,降低影片製作門檻。
4.6 多語言客服與公告系統
企業使用 TTS 建立多語言的自動語音回應(IVR)系統,以及公共廣播系統(車站、機場)的多語言廣播,避免每種語言都需要錄製真人語音的高昂成本。
5. 多語言 TTS 的挑戰
TTS 在多語言環境下面臨幾個特殊挑戰:
- 聲調語言:中文、越南語等聲調語言需要模型精確預測每個音節的聲調,錯一個聲調就會改變詞意
- 書寫系統差異:阿拉伯語從右向左書寫,且字形會隨位置變化;日語混合漢字、平假名、片假名,同一個漢字在不同語境下發音不同(如「今日」可讀作 きょう 或 こんにち)
- 口音與方言:同一語言在不同地區的發音規範不同,「標準」發音的定義本身就有爭議
- 跨語言混排:文字中夾雜不同語言(如中英混排)時,模型需要自動識別語言並切換發音規則
6. 如何使用線上 TTS 工具
使用本站的文字轉語音工具,步驟如下:
- 輸入文字:在文字輸入框中貼入或打入想要朗讀的內容
- 選擇語言與聲音:選擇目標語言,部分工具提供多種聲音(男聲/女聲、不同腔調)
- 調整語速與音調(若有支援):根據用途調整語速,例如語言學習時可放慢速度
- 播放或下載:即時播放,或下載為 MP3/WAV 檔案供後續使用
TTS 工具對語言學習者特別有用:把單字或句子貼入,聆聽正確發音,再自行跟讀練習。
7. TTS 與聲音複製的倫理議題
現代 TTS 技術已能用極少量的語音樣本(甚至幾秒鐘)複製特定人物的聲音。這帶來了一系列倫理問題:
- 深度偽造語音(Deepfake Voice):攻擊者可能利用複製的聲音進行詐騙電話
- 未經授權的聲音使用:公眾人物的聲音被用於未經同意的廣告或政治宣傳
- 版權問題:聲優的聲音特徵是否受法律保護?
目前各國法規尚在追趕這項技術的發展速度。負責任地使用 TTS 技術,意味著尊重聲音版權,不複製他人聲音用於未經同意的用途。
8. 小結
從機械式的共振峰合成到媲美人聲的神經 TTS,這項技術在過去七十年間經歷了深刻的變革。如今的 TTS 已不只是「讓文字被讀出來」,而是一個能夠傳達情緒、支援多種語言、服務不同使用族群的成熟平台。無論是用來輔助視障閱讀、學習語言發音、還是製作多媒體內容,線上 TTS 工具都能讓你立即體驗這項技術的便利。