無痛剪輯，自信溝通：揭秘 Atlassian 如何用 AI 革新語音編輯

Atlassian
7月31日
讀畢需時 11 分鐘

在現今快速變化的數位時代，影片已成為我們溝通與表達不可或缺的工具。然而，您是否曾為了影片中的一個小錯誤，而不得不耗費時間重新錄製整段內容？Loom 的語音編輯功能，正是為了解決這個痛點而生。這項由先進 AI 技術驅動的功能，讓您能夠即時修改影片中的語音內容，無需重新錄影，大幅提升影片製作的效率與彈性。

想像一下，您在一段教學影片中提到了舊的專案名稱，或是公司資訊有所變動，過去您可能需要整段重錄。現在，Loom 語音編輯讓您能以自己的聲音，無縫替換這些細節，確保您的影片內容永遠保持最新且高度個人化。這對於需要製作大量訓練或啟用內容的企業來說，無疑是提升效率、降低成本的關鍵技術。

例如，透過「音訊變數」功能，您只需錄製一次，就能輕鬆地在影片中替換掉人名或公司名稱，而這些改動聽起來就像是您當初錄製時自然說出的一樣。接下來，我們將深入探討這項技術背後的 AI 奧秘。

語音編輯的獨特挑戰：超越傳統文字轉語音（TTS）

儘管文字轉語音（TTS）技術已相當成熟，但語音編輯卻面臨著更為複雜的挑戰。傳統 TTS 通常是從零開始生成整個語音片段，較少受到現有音訊整合的限制。而語音編輯則需要精準地修改現有音訊中的特定部分，我們希望將「變動幅度」降到最低。這種精準的「手術式」編輯方法，能確保生成音訊中任何潛在的人工痕跡或不自然感降到最低，因為周圍的原始音訊保持不變，提供了強大且連貫的語音基礎。

語音編輯過程需要三個關鍵輸入：

原始音訊波形： 需要編輯的原始錄音。
原始逐字稿： 原始音訊的文字表示。
修改後的逐字稿： 期望修改後的新版逐字稿。

因此，核心挑戰在於如何在精確實施這些編輯的同時，保持編輯片段邊界的連貫性，並保留原始講者的語速、語調和整體發聲風格。目標是讓修改後的語音聽起來就像是原始錄音的一部分，自然地被講述出來。若僅是使用傳統 TTS 方法生成一個新的語音片段並直接插入，很可能因為缺乏與周圍聲學和語音環境的連貫性而顯得格格不入。

零樣本學習：打造通用模型

我們的首要目標是建立一個通用模型，使其能夠泛化到訓練階段中未曾遇到的新輸入資料（聲音和聲學環境）——這就是所謂的「零樣本學習」。

許多商業語音克隆解決方案採用過度擬合或微調方法，即針對每位使用者的聲音，利用其部分語音樣本（從數十秒到數分鐘不等）來訓練或顯式微調模型。儘管這能提供高品質的語音克隆，但也存在以下缺點：

使用者體驗： 新使用者無法立即使用該功能，他們必須提供語音樣本並等待自訂模型訓練完成，這可能需要數分鐘到數小時。
資料安全與信任： 這需要額外的流程和系統來保護使用者語音樣本和/或說話者嵌入（speaker embeddings），增加了操作複雜性，並可能引發使用者信任問題。
工程複雜度： 涉及協調單一使用者的資料收集、模型訓練、資料血緣和資料保留。
推論延遲： 需要為每位使用者從儲存空間中檢索不同的預訓練模型檢查點，因為預訓練檢查點無法在使用者之間共享。
成本： 訓練和儲存單獨的模型會產生可觀的費用。這使得該功能需要收取高額費用，降低了普通大眾的可及性。

相較之下，零樣本學習雖然具挑戰性且需要以海量資料集訓練強大模型，但它能規避上述問題。單一且強大的模型可以服務所有使用者，無需他們提供特定的訓練資料。這簡化了模型訓練與管理，減少了推論延遲（因為同一個模型可以持續載入記憶體中），並顯著降低了每位使用者的成本，使進階功能更具可及性。

遮罩聲學模型（MAM）：核心技術

我們語音編輯系統的核心是聲學模型，其架構類似於 Meta AI Research 的 Voicebox。這個模型採用了「遮罩聲學模型（Masked Acoustic Modeling, MAM）」的訓練技術。這種方法類似於 BERT 等模型中使用的「遮罩語言模型（Masked Language Modeling, MLM）」，特別適合語音編輯的需求。

MAM 將問題定義為一個「填充」任務。在訓練過程中，輸入音訊的部分內容會被故意移除（遮罩），模型則需要根據周圍未遮罩的音訊內容來預測或重建這些缺失的音訊。這直接反映了語音編輯的核心需求：為特定片段生成新的音訊，使其與原始錄音中現有、未經改動的部分高度連貫。透過這種方式對大量資料進行訓練，模型不僅學會生成語音，還學會生成與所提供上下文的聲學特性（如音色、音高和背景噪音）和語音特徵（如語速和語調）無縫整合的語音。這使得 MAM 成為一個有效的問題定義，因為它本質上教會模型在僅修改音軌部分內容而非完全獨立生成時，保持所需的關鍵連貫性和自然性。

語音編輯：端到端工作流程

為確保在實際生產環境中無縫應用，語音編輯的工作流程涉及多個相互關聯的階段和輔助元件：

波形轉 Mel 頻譜圖： 過程始於處理原始音訊波形。聲碼器（vocoder）的編碼器元件將原始的一維音訊波形資料轉換為更緊湊的中間表示形式——Mel 頻譜圖。這個訊號處理步驟將語音從時域轉換到頻域，將其表示為一個二維「圖像」，其中一個軸代表時間，另一個軸代表頻率，強度則對應於振幅。這項轉換將音訊編輯任務重新定義為圖像編輯問題，特別是「圖像填充」，類似於圖像穩定擴散（Image Stable Diffusion）等模型中使用的技術。
逐字稿處理： 原始逐字稿和修改後的逐字稿都必須為語音模型準備。這包括兩個子步驟： a. 文字正規化： 逐字稿通常是書面形式而非口語形式，這可能會使後續的音素化（phonemization）和 TTS 任務複雜化。我們對輸入逐字稿進行正規化，以提高 TTS 準確性。例如： 數字：「12, 13, 43」→「十二, 十三, 四十三」 貨幣：「它花費 $34.98」→「它花費三十四美元又九十八美分。」 縮寫：「St. Patrick’s Day」→「聖派翠克節」 日期：「今天是 Jan. 01, 2022.」→「今天是二零二二年一月一日。」書面形式可能存在歧義（例如，「St.」可能是「Street」或「Saint」；「2022」可能是「二千零二十二」或「二十二十二」）。我們利用 NeMo-text-processing 函式庫，該函式庫支援上下文感知處理，以最大程度地減少此類歧義。儘管無法做到完美，但歧義程度通常在可管理範圍內。
b. 音素化： 文字正規化後，口語形式的英文句子會被轉換為國際音標（IPA）。這有助於 TTS 系統推斷單字的發音（例如：「Atlassian」→ ætlˈæsiən，「Confluence」→ kˈɑːnfluːəns）。我們使用以 Espeak 為後端的音素化工具。Espeak 具有強大的基於規則的音素化器，據說其表現優於許多基於表格和基於機器學習的音素化器。然而，這種方法仍然存在一些挑戰： 口音： 可能因不同口音而產生歧義（例如：「Dance」：美式英語為 dˈæns，英式英語為 dˈans；「Can’t」：美式英語為 kˈænt，英式英語為 kˈɑːnt）。來自南非、印度和新加坡等地區的口音增加了進一步的複雜性。在不知道使用者口音的情況下，我們只能依賴聲學模型來預測口音並生成正確的語音。 姓名： 基於規則的模型可能難以處理姓名，尤其是非西方來源的姓名。為此，我們維護了一個自訂的語音拼寫查詢表，為特定姓名建立專門規則。完成這些子步驟後，我們將獲得兩個音素序列：一個用於原始音訊，一個用於所需的修改音訊。
強制對齊： 這個階段將原始音訊的聲學特徵（由步驟 1 的 Mel 頻譜圖表示）與其文字表示（步驟 2b 的音素序列）對齊。強制對齊器會確定原始逐字稿中的每個音素在音訊中出現的時間。如果沒有精確的對齊，後續的編輯和遮罩處理將無法針對正確的音訊片段，因此無法有效運作。強制對齊器是一個機器學習模型，它將每個音素映射到 Mel 頻譜圖中其對應的片段（時間影格或「列」），從而建立精確的開始和結束時間。主要輸出是每個音素的一組持續時間。例如，它可能會確定單字「thirteen」中的音素 /iː/ 對應於頻譜圖中的 26 列（時間影格），其中每列通常代表一個小的時間單位（例如，大約 10 毫秒）。這種音素級別的時序資訊對於了解要編輯哪些音訊片段至關重要。傳統的強制對齊器（例如 HTK、Montreal Forced Aligner）通常基於隱馬爾可夫模型（HMM），適用於離線批次處理。儘管這些對齊器表現令人滿意並已被研究人員廣泛採用，但它們並不適合即時生產使用。我們最初嘗試使用 Wav2Vec 預訓練模型建構強制對齊器，但其性能和準確性也無法令人滿意。最終，我們根據 NVIDIA 的「One TTS Alignment to Rule Them All」論文開發並訓練了自己的強制對齊器。我們還對原始模型架構進行了一些關鍵修改：
- 原始論文中旨在促進對角線對齊和加速收斂的靜態「prior」項，在實際應用中證明存在問題。對於長時間靜默的語音，它實際上可能會減慢收斂速度。因此，我們刪除了此項。
- 我們將對齊器的卷積網路部分替換為變壓器（transformer）架構，靈感來自於視覺變壓器（Vision Transformer, ViT），從而實現了更快的收斂和更高的準確性。此對齊資訊將用於在步驟 6 中建構「遮罩頻譜圖條件」。
序列匹配： 為了精確識別所需的編輯，原始逐字稿的音素序列與修改後逐字稿的序列（兩者均在步驟 2 中處理）會使用序列匹配器進行比較。這個過程類似於程式碼版本控制中的「diff」操作。它識別兩個音素序列之間的差異，將每個變更歸類為：
- 未變更： 兩個逐字稿中相同的片段。
- 插入： 修改後逐字稿中存在但原始逐字稿中沒有的新單字/片語。
- 刪除： 原始逐字稿中存在但修改後逐字稿中已移除的單字/片語。
- 替換： 原始單字/片語被刪除並插入新單字/片語。輸出詳細說明了每種編輯的類型和位置，作為後續建構遮罩 Mel 頻譜圖的藍圖。然而，在我們繼續之前，還需要一項資訊。
持續時間預測： 當單字或片語被插入或替換時，新音素的發音持續時間是未知的。持續時間預測模型會估計這些持續時間。例如，「fourteen」和「fifteen」具有不同的音素持續時間。該模型接收音素序列（已知未變更部分的持續時間，如步驟 3 中的強制對齊所確定；以及新或已變更部分的遮罩或未知持續時間），並考慮周圍音素的上下文，預測缺失的持續時間。 Voicebox 論文提出了兩種實現方式：一種使用連續正規化流（Continuous Normalizing Flows, CNF），另一種是類似 FastSpeech2 的更簡單的回歸模型。我們選擇了 FastSpeech2 風格的基於回歸的持續時間預測模型，因為它簡單且推論速度快。
建構遮罩 Mel 頻譜圖： 隨著對齊、序列匹配和持續時間預測的完成，所有必要資訊都已收集完畢，用於建構將作為聲學模型輸入的「遮罩 Mel 頻譜圖」。
- 未變更片段： 原始 Mel 頻譜圖中對應的片段被直接複製（或「嫁接」）到新的 Mel 頻譜圖中。
- 已刪除片段： 原始 Mel 頻譜圖中對應的片段從新的 Mel 頻譜圖中省略。這會導致 Mel 頻譜圖變短。
- 已插入片段： 新的「遮罩」（最初填充為零）片段被添加。其長度由新音素的預測持續時間（來自步驟 5）決定，確保足夠的生成空間。
- 已替換片段： 這結合了刪除和插入。原始 Mel 頻譜圖中的片段被省略，並在其位置插入一個新的遮罩片段。預測持續時間決定了這個新片段的長度。生成的遮罩 Mel 頻譜圖是保留的原始音訊的複合體，已針對刪除進行調整，並為新或替換內容設置了遮罩區域。這與遮罩區域的目標語音資訊一起，隨後傳遞給聲學模型。
填充遮罩頻譜圖： 這個階段是生成新音訊內容的地方。遮罩頻譜圖和語音資訊被輸入到聲學模型中。聲學模型使用一個連續正規化流（CNF）模型，該模型透過流匹配（flow matching）進行訓練。流匹配是一種無模擬方法，可以回歸條件機率路徑的向量場，透過學習將簡單的雜訊分佈轉換為語音的複雜資料分佈，從而實現高效的 CNF 訓練。該過程始於遮罩部分的隨機雜訊。流匹配訓練模型在每個時間步預測向量場，並以對齊的音素（目標聲音）和周圍語音上下文為條件。然後，常微分方程（ODE）求解器整合這些向量場以生成最終音訊。這種方法通常比傳統擴散模型需要更少的推論步驟。聲學模型「填充」這些遮罩部分，生成與目標音素匹配的新音訊，同時在聲調、語速和說話者特徵方面與周圍的原始音訊保持一致。輸出是一個完整的新 Mel 頻譜圖，並無縫整合了編輯。
波形重建（聲碼器解碼）： 最後一步是使用聲碼器解碼器將生成的 Mel 頻譜圖轉換回一維音訊波形。這逆轉了初始編碼過程（步驟 1），通常採用神經網路來預測和填充任何缺失資訊，從而精確重建波形。我們已經嘗試了不同的聲碼器。最初使用 ParallelWaveGAN，後來過渡到 Vocos 和 BigVGAN 以提高性能。實際上，我們發現聲碼器的選擇對最終輸出品質影響甚微。